• 제목/요약/키워드: Twitter sentiment analysis

검색결과 92건 처리시간 0.029초

게임 도메인 웹 코퍼스를 이용한 감성사전 구축 및 평가 (Construction and Evaluation of a Sentiment Dictionary Using a Web Corpus Collected from Game Domain)

  • 정우영;배병철;조성현;강신진
    • 한국게임학회 논문지
    • /
    • 제18권5호
    • /
    • pp.113-122
    • /
    • 2018
  • 본 논문은 게임 도메인에서 웹 코퍼스를 이용하여 감성사전을 구축하는 방법과 구축한 감성사전의 평가 결과를 기술한다. 감성사전 구축을 위해 먼저 트위터 형태소 분석기를 이용해 국내 한 포털 사이트의 게임 관련 웹 문서를 기반으로 어휘를 수집하여 감성 사전 어휘 목록을 만들었고, 목록에 있는 단어들 중 동사와 형용사 품사의 단어들에 대해 감성 사전을 구축하였다. 구축된 감성 사전의 평가를 위해 영어 기반의 Senti-word Net(SWN)을 한글로 번역한 한국어 SWN을 이용하여 정밀도와 재현율 값을 계산하였다. 평가 결과 긍정과 부정 감성의 F-1 값에 대한 평균이 형용사의 경우 0.85, 동사에 대해 0.77을 각각 보여 주었다.

타임라인의 감정추출을 통한 트위터 사용자의 정치적 성향 분석 (Propensity Analysis of Political Attitude of Twitter Users by Extracting Sentiment from Timeline)

  • 김석중;황병연
    • 한국멀티미디어학회논문지
    • /
    • 제17권1호
    • /
    • pp.43-51
    • /
    • 2014
  • 소셜 네트워크 서비스는 편리한 접근성과 뚜렷한 사용자 주관 점에서 사회 여러 분야에서 폭 넓고 유용하게 사용될 충분한 가능성을 가지고 있다. 그 중에서도 트위터는 사용자간의 네트워크 형성이 간단하고 개방적이며 실시간 전파력이 뛰어난 특징을 가지고 있다. 그러나 140글자로 제한된 글에서 의미 분석을 시도해야 한다는 점과 한글 자연어처리의 한계, 트위터 자체의 제약과 기술적 문제들로 실제 분석에는 많은 어려움이 따른다. 본 논문은 특정 계정이나 키워드에 의존하여 개별 트윗을 분석한 기존의 방법 대신 항구성을 띄는 인간의 정치적 성향을 분석에 적용할 경우 정확도 향상에 기여할 수 있음을 가정하고 2012년 4월 11일 제19대 국회의원선거 기간 동안 수집한 트윗 코퍼스에 적용한 실험을 통해 보였다. 실험 결과는 실제 선거 결과와 정확히 일치하였으며, 75.4%의 정확도와 34.8%의 재현율을 보인 개별 트윗 분석보다 사용자의 타임라인별 정치 성향 분석이 약 8%의 정확도와 5%의 재현율 향상을 가져옴을 보였다.

소셜미디어를 통한 우울 경향 이용자 담론 주제 분석 (An Analysis of the Discourse Topics of Users who Exhibit Symptoms of Depression on Social Media)

  • 서하림;송민
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.207-226
    • /
    • 2019
  • 우울증은 전 세계적으로 많은 사람들이 겪고 있으며, 최근 다양한 분야에서 꾸준히 우울증에 대한 연구가 수행되고 있다. 특히 사람들이 본인의 스트레스나 감정 상태에 대해 소셜미디어에 공유한 글을 통해 그들의 심리나 정신건강에 대해 파악해보고자 하는 맥락에서 소셜미디어를 활용한 연구 역시 유의미하게 받아들여지고 있다. 이에 본 연구에서는 우울 경향의 이용자와 그렇지 않은 이용자들의 2016년부터 2019년 2월까지의 트위터 데이터를 수집하여 어떤 주제적, 어휘 사용의 특성을 보이는지 보고자 하였으며, 우울 경향의 시기별로도 어떤 차이를 보이는지 살펴보기 위해 우울 경향 관측 날짜를 기준으로 하여 이전(before) 시기와 이후(after) 시기를 구분하여 실험을 수행하였다. 토픽모델링, 동시출현 단어분석, 감성분석 방법을 통해 우울 경향과 비(非)우울 경향 이용자의 텍스트의 주제적 차이를 살펴보았고, 감성 반응에 따라 사용한 어휘에 대해서도 살펴봄으로써 어떠한 특성이 있는지 확인해 보았다. 데이터 수집 단계에서 '우울' 표현을 포함한 텍스트 데이터 수집방법을 통해 비교적 긴 기간, 많은 양의 데이터를 수집할 수 있었고, 또한 우울 경향의 여부와 시기적 구분에 따른 관심 주제에 대한 차이도 확인할 수 있었다는 점에서 유의미하다고 볼 수 있다.

트윗 텍스트 마이닝 기법을 이용한 구제역의 감성분석 (Sentiment Analysis of Foot-and-Mouth Disease Using Tweet Text-Mining Technique)

  • 채희찬;이종욱;최윤아;박대희;정용화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권11호
    • /
    • pp.419-426
    • /
    • 2018
  • 구제역으로 인하여 국내 축산업계 및 관련 산업분야는 매년 막대한 피해를 입고 있다. 구제역과 관련한 다양한 학술적 연구들이 현재 진행되고는 있으나, 구제역의 발병에 따른 사회적 파급효과에 관한 공학적 분석 연구는 매우 제한적이다. 본 연구에서는 구제역에 관한 일반 시민들의 감성적 반응을 텍스트 마이닝 방법론을 사용하여 분석하는 체계적인 방법론을 제안한다. 제안하는 시스템은 먼저, 트위터에 게시된 트윗 중 구제역과 관련된 데이터를 수집한 후, 딥러닝 기법을 사용하여 극성 분류 과정을 거친다. 둘째, 토픽 모델링의 대표적인 기법 중 하나인 LDA를 활용하여 트윗으로 부터 키워드들을 추출하고, 추출된 키워드들로부터 극성별 동시출현 키워드 네트워크를 구성한다. 셋째, 키워드 네트워크을 통해 구제역의 위기단계 구간별 사회적 파급효과를 분석한다. 사례 분석으로써, 2010년 7월부터 2011년 12월까지 국내에서 발생한 구제역에 관한 일반 시민들의 감성적 변화를 분석하였다.

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

감성 분석을 위한 FinBERT 미세 조정: 데이터 세트와 하이퍼파라미터의 효과성 탐구 (FinBERT Fine-Tuning for Sentiment Analysis: Exploring the Effectiveness of Datasets and Hyperparameters)

  • 김재헌;정희도;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.127-135
    • /
    • 2023
  • 본 논문에서는 금융 뉴스 데이터로 추가적인 사전 학습이 진행된 BERT 기반 모델인 FinBERT 모델을 사용하여 금융 영역에서 감성 분석 시 학습시킬 데이터와 그에 맞는 하이퍼파라미터를 찾는 방법을 소개한다. 우리의 목표는 다양한 데이터 세트를 활용하고 하이퍼파라미터를 미세 조정하여 정확한 감성 분석을 위해 FinBERT 모델을 가장 잘 활용하는 방법에 대한 포괄적인 가이드를 제공하는 것이다. 이 연구에서는 제안된 FinBERT 모델 미세 조정 접근법의 아키텍처와 워크플로우를 개괄적으로 설명하고, 감성 분석 태스크를 위한 다양한 데이터 세트와 하이퍼파라미터의 성능을 강조한다. 또한, 감성 라벨링 작업에 GPT-3를 사용함으로써 GPT-3가 적절한 라벨러 역할을 하는지에 대한 신뢰성을 검증한다. 결과적으로 미세 조정된 FinBERT 모델이 다양한 데이터 세트에서 우수한 성능을 발휘 한다는 것을 보여주었고, 각 데이터 세트에 대해 전반적으로 우수한 성능을 보이는 학습률 5e-5와 배치 크기 64의 최적의 조합을 찾았다. 또 일반 도메인의 뉴스보다 일반 도메인의 트위터 데이터 세트에서 성능이 크게 향상됨을 기반으로 금융 뉴스 데이터만으로만 추가적으로 학습시키는 FinBERT 모델에 대한 의구심을 제시한다. 이를 통해 FinBERT 모델에 대한 최적의 접근 방식을 결정하는 복잡한 프로세스를 간소화하고 금융 분야 감성 분석 모델을 위한 추가적인 학습 데이터 세트와 미세 조정 시 하이퍼파라미터 선정에 대한 가이드라인을 제시한다.

소셜 빅데이터를 이용한 영화 흥행 요인 분석 (Movie Box-office Analysis using Social Big Data)

  • 이오준;박승보;정다울;유은순
    • 한국콘텐츠학회논문지
    • /
    • 제14권10호
    • /
    • pp.527-538
    • /
    • 2014
  • 수요 예측은 영화 산업에서 매우 중요한 문제이다. 최근 들어 트위터(Twitter), 페이스북(Facebook)과 같은 소셜미디어의 비정형 텍스트 데이터를 이용하여 영화 흥행을 예측하고 분석하는 시도들이 활발하게 이루어지고 있다. 기존에는 주로 데이터의 주기별 변화량을 측정하여 데이터 양과 영화 흥행간의 상관성을 분석하거나 데이터에 대해 감성의 극성 값을 부여하는 오피니언 마이닝을 통해 영화의 흥행 추이를 예측하였다. 하지만 이러한 정량적 접근만으로는 관객들이 영화를 선택하게 된 근거나 영화의 어떤 속성을 선호하는지를 알 수 없기 때문에 영화의 흥행 요인을 밝히는데 한계가 있었다. 따라서 본 연구는 트위터 데이터를 수집한 후 빈도수 측정을 통해 트윗의 내용을 대표하는 토픽(topic) 키워드를 추출하여 관객들의 관심을 반영하는 영화적 속성들이 무엇인지를 밝히고, 그 속성들에 대한 관객들의 반응을 분석함으로써 영화의 흥행에 영향을 미친 요인들을 제시한다.

A Deep Learning Model for Extracting Consumer Sentiments using Recurrent Neural Network Techniques

  • Ranjan, Roop;Daniel, AK
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.238-246
    • /
    • 2021
  • The rapid rise of the Internet and social media has resulted in a large number of text-based reviews being placed on sites such as social media. In the age of social media, utilizing machine learning technologies to analyze the emotional context of comments aids in the understanding of QoS for any product or service. The classification and analysis of user reviews aids in the improvement of QoS. (Quality of Services). Machine Learning algorithms have evolved into a powerful tool for analyzing user sentiment. Unlike traditional categorization models, which are based on a set of rules. In sentiment categorization, Bidirectional Long Short-Term Memory (BiLSTM) has shown significant results, and Convolution Neural Network (CNN) has shown promising results. Using convolutions and pooling layers, CNN can successfully extract local information. BiLSTM uses dual LSTM orientations to increase the amount of background knowledge available to deep learning models. The suggested hybrid model combines the benefits of these two deep learning-based algorithms. The data source for analysis and classification was user reviews of Indian Railway Services on Twitter. The suggested hybrid model uses the Keras Embedding technique as an input source. The suggested model takes in data and generates lower-dimensional characteristics that result in a categorization result. The suggested hybrid model's performance was compared using Keras and Word2Vec, and the proposed model showed a significant improvement in response with an accuracy of 95.19 percent.

Public Sentiment Analysis and Topic Modeling Regarding COVID-19's Three Waves of Total Lockdown: A Case Study on Movement Control Order in Malaysia

  • Alamoodi, A.H.;Baker, Mohammed Rashad;Albahri, O.S.;Zaidan, B.B.;Zaidan, A.A.;Wong, Wing-Kwong;Garfan, Salem;Albahri, A.S.;Alonso, Miguel A.;Jasim, Ali Najm;Baqer, M.J.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2169-2190
    • /
    • 2022
  • The COVID-19 pandemic has affected many aspects of human life. The pandemic not only caused millions of fatalities and problems but also changed public sentiment and behavior. Owing to the magnitude of this pandemic, governments worldwide adopted full lockdown measures that attracted much discussion on social media platforms. To investigate the effects of these lockdown measures, this study performed sentiment analysis and latent Dirichlet allocation topic modeling on textual data from Twitter published during the three lockdown waves in Malaysia between 2020 and 2021. Three lockdown measures were identified, the related data for the first two weeks of each lockdown were collected and analysed to understand the public sentiment. The changes between these lockdowns were identified, and the latent topics were highlighted. Most of the public sentiment focused on the first lockdown as reflected in the large number of latent topics generated during this period. The overall sentiment for each lockdown was mostly positive, followed by neutral and then negative. Topic modelling results identified staying at home, quarantine and lockdown as the main aspects of discussion for the first lockdown, whilst importance of health measures and government efforts were the main aspects for the second and third lockdowns. Governments may utilise these findings to understand public sentiment and to formulate precautionary measures that can assure the safety of their citizens and tend to their most pressing problems. These results also highlight the importance of positive messaging during difficult times, establishing digital interventions and formulating new policies to improve the reaction of the public to emergency situations.

Text Mining in Online Social Networks: A Systematic Review

  • Alhazmi, Huda N
    • International Journal of Computer Science & Network Security
    • /
    • 제22권3호
    • /
    • pp.396-404
    • /
    • 2022
  • Online social networks contain a large amount of data that can be converted into valuable and insightful information. Text mining approaches allow exploring large-scale data efficiently. Therefore, this study reviews the recent literature on text mining in online social networks in a way that produces valid and valuable knowledge for further research. The review identifies text mining techniques used in social networking, the data used, tools, and the challenges. Research questions were formulated, then search strategy and selection criteria were defined, followed by the analysis of each paper to extract the data relevant to the research questions. The result shows that the most social media platforms used as a source of the data are Twitter and Facebook. The most common text mining technique were sentiment analysis and topic modeling. Classification and clustering were the most common approaches applied by the studies. The challenges include the need for processing with huge volumes of data, the noise, and the dynamic of the data. The study explores the recent development in text mining approaches in social networking by providing state and general view of work done in this research area.