• 제목/요약/키워드: Korean text sentiment classification

검색결과 37건 처리시간 0.027초

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

유튜브 주식채널의 감성을 활용한 코스피 수익률 등락 예측 (Stock Market Prediction Using Sentiment on YouTube Channels)

  • 조수지;양철원;이기광
    • 산업경영시스템학회지
    • /
    • 제46권2호
    • /
    • pp.102-108
    • /
    • 2023
  • Recently in Korea, YouTube stock channels increased rapidly due to the high social interest in the stock market during the COVID-19 period. Accordingly, the role of new media channels such as YouTube is attracting attention in the process of generating and disseminating market information. Nevertheless, prior studies on the market forecasting power of YouTube stock channels remain insignificant. In this study, the market forecasting power of the information from the YouTube stock channel was examined and compared with traditional news media. To measure information from each YouTube stock channel and news media, positive and negative opinions were extracted. As a result of the analysis, opinion in channels operated by media outlets were found to be leading indicators of KOSPI market returns among YouTube stock channels. The prediction accuracy by using logistic regression model show 74%. On the other hand, Sampro TV, a popular YouTube stock channel, and the traditional news media simply reported the market situation of the day or instead showed a tendency to lag behind the market. This study is differentiated from previous studies in that it verified the market predictive power of the information provided by the YouTube stock channel, which has recently shown a growing trend in Korea. In the future, the results of advanced analysis can be confirmed by expanding the research results for individual stocks.

Opinion-Mining Methodology for Social Media Analytics

  • Kim, Yoosin;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권1호
    • /
    • pp.391-406
    • /
    • 2015
  • Social media have emerged as new communication channels between consumers and companies that generate a large volume of unstructured text data. This social media content, which contains consumers' opinions and interests, is recognized as valuable material from which businesses can mine useful information; consequently, many researchers have reported on opinion-mining frameworks, methods, techniques, and tools for business intelligence over various industries. These studies sometimes focused on how to use opinion mining in business fields or emphasized methods of analyzing content to achieve results that are more accurate. They also considered how to visualize the results to ensure easier understanding. However, we found that such approaches are often technically complex and insufficiently user-friendly to help with business decisions and planning. Therefore, in this study we attempt to formulate a more comprehensive and practical methodology to conduct social media opinion mining and apply our methodology to a case study of the oldest instant noodle product in Korea. We also present graphical tools and visualized outputs that include volume and sentiment graphs, time-series graphs, a topic word cloud, a heat map, and a valence tree map with a classification. Our resources are from public-domain social media content such as blogs, forum messages, and news articles that we analyze with natural language processing, statistics, and graphics packages in the freeware R project environment. We believe our methodology and visualization outputs can provide a practical and reliable guide for immediate use, not just in the food industry but other industries as well.

텍스트마이닝을 이용한 사회 이슈 찬반 분류에 관한 연구 (Study on the social issue sentiment classification using text mining)

  • 강선아;김유신;최상현
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1167-1173
    • /
    • 2015
  • 정보통신기술의 발전은 SNS, 블로그, 게시판 등 자신의 생각이나 의견을 표출할 수 있는 장소의 다양성을 제공하였고 이는 빅데이터 성장을 가능케 하였다. 특히 매순간마다 엄청난 수의 사용자가 이용가능하고 다양한 이슈에 대한 의견을 작성할 수 있는 SNS의 특징으로 인해 많은 사람들이 트위터 등에 사회적 이슈에 대한 자신의 의견을 드러낸다. 따라서 본 연구에서는 트위터에서 작성되는 사회 이슈에 대한 의견을 수집하여 사회이슈를 주제로 하는 감성사전을 구축하고 구축된 감성사전을 통해 감성 분석을 실시하고자 한다. 사용된 데이터는 '비키니', '나꼼수'를 포함하는 트윗 글이다. 사회이슈에 특화된 주제지향 감성사전을 구축하고 구축된 감성사전을 통해 긍부정 의견을 분석한 결과 Precision은 61%로 나타났으며 F1-score는 74%의 성능을 보여주었다. 본 연구는 정치적 색을 띄고 있는 특정 사회 이슈에 대한 트윗 작성자의 의견이 긍정인지 부정인지 자동으로 분류할 수 있도록 하는 사전 구축의 하나의 기준을 제시할 것이라 기대한다.

라디오 청취자 문자 사연을 활용한 한국어 다중 감정 분석용 데이터셋연구 (A Study on the Dataset of the Korean Multi-class Emotion Analysis in Radio Listeners' Messages)

  • 이재아;박구만
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.940-943
    • /
    • 2022
  • 본 연구에서는 직접 수집한 라디오 청취자 문자 사연을 활용하여 한국어 문장 감정 분석을 수행하기 위한 한국어 데이터셋을 구성하였으며 그 특성을 분석하였다. 딥러닝 언어모델 연구가 활발해지면서 한국어 문장 감정 분석에 관한 연구도 다양하게 진행되고 있다. 그러나 한국어의 언어학적 특성으로 인해 감정 분석은 높은 정확도를 기대하기 어렵다. 또한, 긍정/부정으로만 분류되도록 하는 이진 감성 분석은 많은 연구가 이루어졌으나, 3개 이상의 감정으로 분류되는 다중 감정 분석은 더 많은 연구가 필요하다. 이에 대해 딥러닝 기반의 한국어에 대한 다중 감정 분석 모델의 정확도를 높이기 위한 한국어 데이터셋 구성에 관한 고찰과 분석이 필요하다. 본 논문에서는 설문조사와 실험을 통해 감정 분석이 실행되는 과정에서 한국어 감정 분석이 어떤 이유 때문에 어려운지 분석하고 정확도를 향상시킬 수 있는 데이터셋 조성에 대한 방안을 제시하였으며 한국어 문장 감정 분석에 근거로 활용할 수 있게 하였다.

금융권에 적용 가능한 금융특화언어모델 구축방안에 관한 연구 (A Study on the Construction of Financial-Specific Language Model Applicable to the Financial Institutions)

  • 배재권
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.79-87
    • /
    • 2024
  • 최근 텍스트분류, 감성분석, 질의응답 등의 자연어 처리를 위해서 사전학습언어모델(Pre-trained Language Model, PLM)의 중요성은 날로 강조되고 있다. 한국어 PLM은 범용적인 도메인의 자연어 처리에서 높은 성능을 보이나 금융, 제조, 법률, 의료 등의 특화된 도메인에서는 성능이 미약하다. 본 연구는 금융도메인 뿐만 아니라 범용도메인에서도 우수한 성능을 보이는 금융특화 언어모델의 구축을 위해 언어모델의 학습과정과 미세조정 방법을 제안하는 것이 주요 목표이다. 금융도메인 특화언어모델을 구축하는 과정은 (1) 금융데이터 수집 및 전처리, (2) PLM 또는 파운데이션 모델 등 모델 아키텍처 선정, (3) 도메인 데이터 학습과 인스트럭션 튜닝, (4) 모델 검증 및 평가, (5) 모델 배포 및 활용 등으로 구성된다. 이를 통해 금융도메인의 특성을 살린 사전학습 데이터 구축방안과 효율적인 LLM 훈련방법인 적응학습과 인스트럭션 튜닝기법을 제안하였다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.