• 제목/요약/키워드: TF-IDF Analysis

검색결과 190건 처리시간 0.027초

데이터마이닝을 이용한 동의보감에서 경락의 주치특성 분석 (An Analysis of Indications of Meridians in DongUiBoGam Using Data Mining)

  • 채윤병;류연희;정원모
    • Korean Journal of Acupuncture
    • /
    • 제36권4호
    • /
    • pp.292-299
    • /
    • 2019
  • Objectives : DongUiBoGam is one of the representative medical literatures in Korea. We used text mining methods and analyzed the characteristics of the indications of each meridian in the second chapter of DongUiBoGam, WaeHyeong, which addresses external body elements. We also visualized the relationships between the meridians and the disease sites. Methods : Using the term frequency-inverse document frequency (TF-IDF) method, we quantified values regarding the indications of each meridian according to the frequency of the occurrences of 14 meridians and 14 disease sites. The spatial patterns of the indications of each meridian were visualized on a human body template according to the TF-IDF values. Using hierarchical clustering methods, twelve meridians were clustered into four groups based on the TF-IDF distributions of each meridian. Results : TF-IDF values of each meridian showed different constellation patterns at different disease sites. The spatial patterns of the indications of each meridian were similar to the route of the corresponding meridian. Conclusions : The present study identified spatial patterns between meridians and disease sites. These findings suggest that the constellations of the indications of meridians are primarily associated with the lines of the meridian system. We strongly believe that these findings will further the current understanding of indications of acupoints and meridians.

군집분석을 이용한 양파 감성사전 구축 (Construction of Onion Sentiment Dictionary using Cluster Analysis)

  • 오승원;김민수
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2917-2932
    • /
    • 2018
  • 우리나라 식생활에 밀접한 관련을 가지고 있는 채소인 양파의 수급불균형 해결을 위한 생산량 예측 모형 개발의 노력이 많은 연구를 통해 이뤄지고 있다. 하지만 양파의 수확기와 저장 가능성을 고려해 봤을 때 생산량 예측만으로는 수급불균형 해결이 어렵다. 따라서 본 논문에서는 양파의 생산량 정보와 가격의 다양한 요인이 포함되어 있으며 일상에서 쉽게 접할 수 있는 인터넷 기사를 이용하여 가격 예측을 위한 감성사전을 구축하고자 한다. 양파 기사는 2012년부터 2016년까지의 데이터를 사용하였고 도매시장 가격을 통한 문서구분을 통해 4가지 TF-IDF를 비교하여 적합한 TF-IDF를 사용하였다. 분석을 위하여 분할적 군집분석 중 k-means 군집, 밀도기반군집(DBSCAN; density based spatial cluster applications with noise), 가우시안혼합분포군집(GMM; Gaussian mixture model) 군집을 통하여 가격에 대한 긍정/부정 단어를 구분한 결과 GMM 군집이 의미 있는 긍정, 부정, 무정의 3개의 사전으로 구성되었다. 구축된 사전의 합리성을 비교하기 위하여 가격 상승 기사와 가격 하락 기사의 분류에 로지스틱 회귀분석을 적용한 결과 85.7%의 정확도로 구축된 사전의 합리성을 확인할 수 있었다.

텍스트 마이닝을 활용한 웹툰 애플리케이션 사용자 리뷰 분석 (Analysis of User Reviews for Webtoon Applications Using Text Mining)

  • 신효림;최준호
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.457-468
    • /
    • 2022
  • 웹툰 산업이 급속도로 성장하며, 이러한 성장세와 함께 새로운 웹툰 애플리케이션 모델이 제시되었다. 웹툰 애플리케이션 1.0과 2.0을 지나 3.0의 시대가 시작된 것이다. 이러한 변화에도 불구하고 아직까지 웹툰 애플리케이션을 대상으로 한 사용자 리뷰 분석 연구는 부족한 실정이다. 이에 이 연구는 웹툰 애플리케이션 3.0 모델을 제시한 '카카오웹툰(다음웹툰)'을 대상으로 사용자 리뷰를 분석하고자 한다. 분석을 위해 애플리케이션 리뷰 20,382개를 수집한 후 전처리 과정을 버전 별로 TF-IDF, 네트워크 분석, 토픽 모델링, 감성 분석을 실시하였다. 이를 통해 웹툰 애플리케이션 변화에 따른 사용자 경험을 탐구하고 리뷰를 통한 사용성 평가를 진행하였다.

소셜네트워크 기반의 콘텐츠 추천 방법 (Contents Recommendation Method Based on Social Network)

  • ;손종수;정인정
    • 정보처리학회논문지B
    • /
    • 제18B권5호
    • /
    • pp.279-290
    • /
    • 2011
  • 최근 웹 및 웹 콘텐츠의 양이 폭발적으로 증가함에 따라서 콘텐츠 추천 시스템(CRS, Contents Recommendation System)은 최근 중요한 이슈로 대두되었다. 이에 따라, 콘텐츠 추천 시스템에 대한 콘텐츠 추천 방법(CRM, Contents Recommendation Method)이 꾸준히 연구 및 소개되어 왔다. 그러나 전통적인 CRM들은 콘텐츠 생성자의 위상이 중요하게 여겨지는 웹 2.0 환경에서 활용하는데 부족함이 있다. 본 논문에서는 연결 정도 중심성 분석(Degree of centrality) 및 TF-IDF를 활용하여 양질의 콘텐츠를 추천하는 방법을 제안한다. 이를 위하여 본 논문에서는 RSS와 FOAF를 수집하여 TF-IDF와 연결 정도 중심성을 각각 분석한다. 그리고 분석된 두 값을 이용하여 콘텐츠를 추천한다. 본 논문에서 제안한 방법을 검증하기 위하여 우리는 시스템을 구현하였으며 콘텐츠 추천 결과를 보인다. 본 논문에서 제안한 방법을 사용하면 입력된 질의어에 대해 사용자와 콘텐츠의 관계를 분석하고 이를 통해 적절한 콘텐츠를 추출할 수 있다. 그리고 본 논문에서 제안한 방법을 통해 구축한 시스템은 전통적인 콘텐츠 추천 시스템과 달리 소셜네트워크에서 콘텐츠 생산자에 대한 중요도가 반영됨으로 보다 신뢰성이 있는 결과를 얻을 수있다.

Rating and Comments Mining Using TF-IDF and SO-PMI for Improved Priority Ratings

  • Kim, Jinah;Moon, Nammee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권11호
    • /
    • pp.5321-5334
    • /
    • 2019
  • Data mining technology is frequently used in identifying the intention of users over a variety of information contexts. Since relevant terms are mainly hidden in text data, it is necessary to extract them. Quantification is required in order to interpret user preference in association with other structured data. This paper proposes rating and comments mining to identify user priority and obtain improved ratings. Structured data (location and rating) and unstructured data (comments) are collected and priority is derived by analyzing statistics and employing TF-IDF. In addition, the improved ratings are generated by applying priority categories based on materialized ratings through Sentiment-Oriented Point-wise Mutual Information (SO-PMI)-based emotion analysis. In this paper, an experiment was carried out by collecting ratings and comments on "place" and by applying them. We confirmed that the proposed mining method is 1.2 times better than the conventional methods that do not reflect priorities and that the performance is improved to almost 2 times when the number to be predicted is small.

환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교 (Comparison of Term-Weighting Schemes for Environmental Big Data Analysis)

  • 김정진;정한석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

텍스트마이닝 기법을 활용한 한국인의 행복과 불행 탐색연구 (An Exploratory Study of Happiness and Unhappiness Among Koreans based on Text Mining Techniques)

  • 박상현;도강혁;김학영;박가은;윤진혁;김경일
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.10-27
    • /
    • 2018
  • 본 연구에서는 텍스트 마이닝 분석을 통해 한국 사회에서 행복과 불행이 갖는 의미를 탐색하였다. 자료수집 및 분석을 위하여 온라인 뉴스 포털에서 Word2Vec과 TF-IDF 방법을 사용하여 '행복' 및 '불행' 키워드와 유사한 단어를 추출했다. 또한 K-LIWC 사전을 사용하여 행복 및 불행과 연관된 단어들의 감성 속성에 대해 알아보았다. TF-IDF 분석 결과, 행복과 불행은 사회적 요인과 해당 년도의 사회적 이슈들과 각각 높은 관련성이 있는 것으로 관찰됐다. Word2Vec 분석에서는 '희망'이 6년 연속으로 행복과 유사성이 높은 단어로 나타났다. K-LIWC 분석에서 '돈재정적이슈', '학교', '의사소통'은 행복 및 불행과 모두 관련성이 높았다. 그밖에 '몸 상태와 증상'이 불행과 높은 관련성이 있는 범주로 나타났다. 이러한 결과를 바탕으로 본 연구의 의의, 제한점 및 후속연구에 대한 필요성을 논의하였다.

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템 (TF-IDF Based Association Rule Analysis System for Medical Data)

  • 박호식;이민수;황성진;오상윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.145-154
    • /
    • 2016
  • u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.

텍스트 마이닝과 오피니언 마이닝 분석을 활용한 국내외 스포츠용품 브랜드 비교·분석 연구 (Comparison and Analysis of Domestic and Foreign Sports Brands Using Text Mining and Opinion Mining Analysis)

  • 김재환;이재문
    • 한국콘텐츠학회논문지
    • /
    • 제18권6호
    • /
    • pp.217-234
    • /
    • 2018
  • 본 연구는 국내외 스포츠용품 브랜드에 대한 빅데이터 분석을 실시하였다. 이를 위해 소셜 매트릭스 프로그램인 텍스톰과 패션데이터 분석 플랫폼인 MISP를 통해 텍스트 마이닝, TF-IDF, 오피니언 마이닝, 관심도 그래프를 실시하였으며, 스포츠브랜드에 대한 최근 인식을 살펴보기 위해 2017년 1월 1일부터 2017년 12월 31일까지 1년간을 연구대상 기간으로 한정하였다. 분석 결과, 첫째, 각 브랜드를 대표하는 상품을 확인할 수 있었다. 둘째, 각 브랜드를 대표하는 마케팅을 확인할 수 있었다. 셋째, 각 브랜드에서 공통적으로 추출된 단어를 확인할 수 있었다. 넷째, 각 브랜드의 긍정 및 부정에 대한 감정을 확인할 수 있었다.

텍스트 마이닝을 이용한 소비자 소비패턴 분석 기법 설계 (An Analysis Scheme Design of Customer Spending Pattern using Text Mining)

  • 정은희;이병관
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권2호
    • /
    • pp.181-188
    • /
    • 2018
  • 본 논문에서는 텍스트 마이닝을 이용한 소비자의 소비패턴 분석 기법을 제안하였다. 제안하는 소비패턴 분석기법에서는 첫째, 피어슨의 상관계수를 이용하여 사용자의 평가점수에 대한 유사도를 분석하고, 둘째, 텍스트 마이닝 기법 중의 하나의 TD-IDF의 코사인 유사도를 이용하여 사용자의 리뷰들간의 유사도를 분석하고, 셋째, Sentiwordnet를 이용하여 평가점수와 리뷰의 일치성을 분석하였다. 그리고 제안하는 소비패턴 분석 기법은 평가점수의 유사도와 리뷰의 유사도를 이용하여 근접이웃들을 선정하고, 선정된 이웃에 소비패턴에 적합한 추천리스트를 제공하였다. 추천리스트의 정확도는 피어슨 상관계수가 0.79, TD-IDF가 0.73, 그리고 제안하는 소비패턴분석기법이 0.82로 나타났다. 즉, 제안하는 소비패턴분석기법은 소비자의 정량적인 평가점수와 정성적인 리뷰를 모두 이용하므로 소비 패턴을 좀 더 정확하게 분석할 수 있었다.