• Title/Summary/Keyword: Twitter sentiment analysis

검색결과 92건 처리시간 0.033초

소셜 데이터의 주된 감성분석에 대한 연구 (Study on Principal Sentiment Analysis of Social Data)

  • 장필식
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권12호
    • /
    • pp.49-56
    • /
    • 2014
  • 본 논문에서는 대용량의 문서, 인터넷 댓글, 소셜 데이터, 메시지 텍스트 등으로부터 표준, 일상적 언어, 및 은어(隱語), 비속어, 약어, 이모티콘 등을 감성 분석함으로써, 복합적인 감성 중 근간이 되는 주 감성들을 측정하고 평가하는 방법을 제안한다. 제안된 방법론은 IRLBA(Implicitly Restarted Lanczos Bidiagonalization Algorithm)을 활용하여 규모가 큰 희소행렬에 대한 주성분분석을 실시하며, 데이터 취합, 메시지 분석, 감성 평가, 감성 분석 및 통합 그리고 결과물 시각화 모듈로 구성된다. 본 연구를 통해 제안된 방법론은 소셜 데이터의 감성분석의 정확도를 향상시키고 감성분석의 활용범위를 확장시키는데 있어 도움을 줄 수 있을 것으로 기대된다.

SNS 기반 여론 감성 분석 (Sentiment Analysis for Public Opinion in the Social Network Service)

  • 하상현;노태협
    • 문화기술의 융합
    • /
    • 제6권1호
    • /
    • pp.111-120
    • /
    • 2020
  • 본 연구는 소셜네트워크서비스(SNS)상의 빅데이터를 이용한 텍스트 분석기법의 응용으로서 설문 조사 기반의 여론 조사 방법론과 달리 비정형적 언어 기반의 감성 여론 조사 방법론을 제안한다. 기존의 설문 기반 여론 분석모형에 대한 대안적 방법으로 주관성에 기초한 감성 분류 모형을 이용하였다. 이를 위하여, 제20대 국회의원 선거운동 기간 중 선거 관련 실시간 트위터 자료를 수집하여 속성 기반 감성 분석을 이용한 여론의 극성과 강도에 대한 실증 분석을 수행하였다. 개별 SNS에서 사용된 단어의 극성을 분류하기 위해 Lasso 및 Ridge 회귀 모형을 이용하여 극성에 영향력이 큰 변수를 추출하였다. 추출된 변수가 극성에 미치는 긍정 및 부정에 대한 영향을 구분하고, 영향력의 강도를 분석하였다. 대중들이 소셜네트워크상에서 표현한 내용을 바탕으로 한 여론에 대한 긍정 및 부정의 감성 분석을 통해 여론의 향방을 예측하고 극성분석 모형의 정확도를 측정하여, 여론 조사 분야에서 감성 분석 방법론의 적용가능성을 확인하였다.

텍스트마이닝을 활용한 핀테크 및 디지털 금융 서비스 트렌드 분석 (Trend Analysis of FinTech and Digital Financial Services using Text Mining)

  • 김도희;김민정
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.131-143
    • /
    • 2022
  • 본 연구는 핀테크를 중심으로 국내 디지털 금융 서비스 시장의 트렌드를 파악하고자 신문기사와 트위터 데이터를 대상으로 텍스트마이닝 기법을 사용하여 분석을 진행하였다. 핀테크 시장의 성장 과정에 있어서 간편결제 서비스 도입, 인터넷전문은행 출범, 데이터 3법 개정안 통과, 마이데이터 사업 신청 등 중요하게 작용을 한 4가지 시점을 기준으로 빈도분석을 수행하여 핵심 키워드 간의 차이를 살펴보았다. 또한 핀테크 선도 국가인 중국·미국과 미래 키워드를 핀테크 키워드와 결합한 빈도분석 결과를 통해 세계 시장 속에서 국내 핀테크 산업의 현 위치와 미래 시장 전망을 예측하였다. 마지막으로 트위터 트윗을 대상으로 감성분석을 진행하여 핀테크 서비스에 대한 소비자의 기대와 우려를 정량화하였다. 따라서 본 연구는 금융 생태계 변화 과정을 살펴보고, 분석 결과를 종합함으로써 정부와 기업이 향후 핀테크 시장 발전에 있어서 활용할 수 있는 전략적 방향성 및 대응 전략을 제시한 점에서 의의가 있다.

SNS와 뉴스기사의 감성분석과 기계학습을 이용한 주가예측 모형 비교 연구 (A Comparative Study between Stock Price Prediction Models Using Sentiment Analysis and Machine Learning Based on SNS and News Articles)

  • 김동영;박제원;최재현
    • 한국IT서비스학회지
    • /
    • 제13권3호
    • /
    • pp.221-233
    • /
    • 2014
  • Because people's interest of the stock market has been increased with the development of economy, a lot of studies have been going to predict fluctuation of stock prices. Latterly many studies have been made using scientific and technological method among the various forecasting method, and also data using for study are becoming diverse. So, in this paper we propose stock prices prediction models using sentiment analysis and machine learning based on news articles and SNS data to improve the accuracy of prediction of stock prices. Stock prices prediction models that we propose are generated through the four-step process that contain data collection, sentiment dictionary construction, sentiment analysis, and machine learning. The data have been collected to target newspapers related to economy in the case of news article and to target twitter in the case of SNS data. Sentiment dictionary was built using news articles among the collected data, and we utilize it to process sentiment analysis. In machine learning phase, we generate prediction models using various techniques of classification and the data that was made through sentiment analysis. After generating prediction models, we conducted 10-fold cross-validation to measure the performance of they. The experimental result showed that accuracy is over 80% in a number of ways and F1 score is closer to 0.8. The result can be seen as significantly enhanced result compared with conventional researches utilizing opinion mining or data mining techniques.

Insights Discovery through Hidden Sentiment in Big Data: Evidence from Saudi Arabia's Financial Sector

  • PARK, Young-Eun;JAVED, Yasir
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제7권6호
    • /
    • pp.457-464
    • /
    • 2020
  • This study aims to recognize customers' real sentiment and then discover the data-driven insights for strategic decision-making in the financial sector of Saudi Arabia. The data was collected from the social media (Facebook and Twitter) from start till October 2018 in financial companies (NCB, Al Rajhi, and Bupa) selected in the Kingdom of Saudi Arabia according to criteria. Then, it was analyzed using a sentiment analysis, one of data mining techniques. All three companies have similar likes and followers as they serve customers as B2B and B2C companies. In addition, for Al Rajhi no negative sentiment was detected in English posts, while it can be seen that Internet penetration of both banks are higher than BUPA, rarely mentioned in few hours. This study helps to predict the overall popularity as well as the perception or real mood of people by identifying the positive and negative feelings or emotions behind customers' social media posts or messages. This research presents meaningful insights in data-driven approaches using a specific data mining technique as a tool for corporate decision-making and forecasting. Understanding what the key issues are from customers' perspective, it becomes possible to develop a better data-based global strategies to create a sustainable competitive advantage.

감성 강도를 고려한 감성 분석 평가집합 구축 (Constructing an Evaluation Set for Korean Sentiment Analysis Systems Incorporating the Category and the Strength of Sentiment)

  • 김도연;오영;박혁로
    • 한국콘텐츠학회논문지
    • /
    • 제12권11호
    • /
    • pp.30-38
    • /
    • 2012
  • 감성 분석은 블로그와 트위터 같은 다양한 소셜 미디어에서 사용자들이 표현하는 감정의 종류를 분석하고 추출하는 연구이다. 현재 감성 분석 연구는 꾸준히 계속되고 있지만, 한국어의 감성 분석 평가 집합은 아직 없다. 본 논문에서는 감성 분석을 평가할 수 있는 평가집합을 구축한다. 평가집합에서는 사용자의 감성에 대한 극성뿐만 아니라 감성의 종류와 강도까지 고려한 평가집합을 구축하였다. 이를 위해 감성의 종류는 긍정에서 7가지의 범주와 부정에서 15가지의 범주를 나누고, 각 범주별로 1~3까지의 강도를 설정하였다. 또한 각 범주에 속하는 어휘에 대해서도 1~3까지의 강도를 설정하였다. 평가집합의 데이터는 다양한 소셜 미디어에서 3,270 문장을 추출하여 구축하였으며, 각 문장에 대해 5 명이 감성의 종류와 강도를 태깅하였다. 구축한 평가집합에서 5명의 일치도는 극성의 경우 93 %, 감성의 종류는 70 %, 강도는 58 % 로 나타났다. 이는 독일어와 스페인어의 평가 집합 보다 일치도가 높게 나타났다. 이 결과는 제안한 평가 집합이 신뢰할 만한 자원으로 다른 감성 분석 시스템의 평가데이터로 사용될 수 있음을 보여준다.

Slangs and Short forms of Malay Twitter Sentiment Analysis using Supervised Machine Learning

  • Yin, Cheng Jet;Ayop, Zakiah;Anawar, Syarulnaziah;Othman, Nur Fadzilah;Zainudin, Norulzahrah Mohd
    • International Journal of Computer Science & Network Security
    • /
    • 제21권11호
    • /
    • pp.294-300
    • /
    • 2021
  • The current society relies upon social media on an everyday basis, which contributes to finding which of the following supervised machine learning algorithms used in sentiment analysis have higher accuracy in detecting Malay internet slang and short forms which can be offensive to a person. This paper is to determine which of the algorithms chosen in supervised machine learning with higher accuracy in detecting internet slang and short forms. To analyze the results of the supervised machine learning classifiers, we have chosen two types of datasets, one is political topic-based, and another same set but is mixed with 50 tweets per targeted keyword. The datasets are then manually labelled positive and negative, before separating the 275 tweets into training and testing sets. Naïve Bayes and Random Forest classifiers are then analyzed and evaluated from their performances. Our experiment results show that Random Forest is a better classifier compared to Naïve Bayes.

자연어 처리를 위한 트위터 감정 분석 (Twitter Sentiment Analysis for Natural Language Processing)

  • 이앙;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.457-458
    • /
    • 2022
  • 인터넷 시대에 소셜 미디어는 사람들의 삶에 완전히 침투했다. 많은 사용자 기반을 보유한 성숙한 온라인 플랫폼 중 하나인 Twitter를 통해 사용자는 최신 뉴스, 삶의 경험 및 흥미로운 삶의 이야기를 독립적으로 게시할 수 있다. 하지만 때론 부정적인 뉘앙스를 풍기며 기업이나 개인의 브랜드에 영향을 미치며 이익을 훼손하는 경우가 있기 때문에 욕설을 식별해 트위터 발신을 차단할 필요가 있다. 이 기사의 가장 큰 혁신은 Twitter 데이터를 사용하여 다양한 방법을 동시에 비교한다는 것입니다. 더 많은 데이터를 처리할수록 딥 러닝을 시도하면 좋은 결과를 얻을 수 있다. Transformer 분류기를 통합하여 최상의 결과를 얻었다

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

Term Frequency-Inverse Document Frequency (TF-IDF) Technique Using Principal Component Analysis (PCA) with Naive Bayes Classification

  • J.Uma;K.Prabha
    • International Journal of Computer Science & Network Security
    • /
    • 제24권4호
    • /
    • pp.113-118
    • /
    • 2024
  • Pursuance Sentiment Analysis on Twitter is difficult then performance it's used for great review. The present be for the reason to the tweet is extremely small with mostly contain slang, emoticon, and hash tag with other tweet words. A feature extraction stands every technique concerning structure and aspect point beginning particular tweets. The subdivision in a aspect vector is an integer that has a commitment on ascribing a supposition class to a tweet. The cycle of feature extraction is to eradicate the exact quality to get better the accurateness of the classifications models. In this manuscript we proposed Term Frequency-Inverse Document Frequency (TF-IDF) method is to secure Principal Component Analysis (PCA) with Naïve Bayes Classifiers. As the classifications process, the work proposed can produce different aspects from wildly valued feature commencing a Twitter dataset.