• 제목/요약/키워드: Sentiment Evaluation

검색결과 98건 처리시간 0.025초

소셜 데이터의 주된 감성분석에 대한 연구 (Study on Principal Sentiment Analysis of Social Data)

  • 장필식
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권12호
    • /
    • pp.49-56
    • /
    • 2014
  • 본 논문에서는 대용량의 문서, 인터넷 댓글, 소셜 데이터, 메시지 텍스트 등으로부터 표준, 일상적 언어, 및 은어(隱語), 비속어, 약어, 이모티콘 등을 감성 분석함으로써, 복합적인 감성 중 근간이 되는 주 감성들을 측정하고 평가하는 방법을 제안한다. 제안된 방법론은 IRLBA(Implicitly Restarted Lanczos Bidiagonalization Algorithm)을 활용하여 규모가 큰 희소행렬에 대한 주성분분석을 실시하며, 데이터 취합, 메시지 분석, 감성 평가, 감성 분석 및 통합 그리고 결과물 시각화 모듈로 구성된다. 본 연구를 통해 제안된 방법론은 소셜 데이터의 감성분석의 정확도를 향상시키고 감성분석의 활용범위를 확장시키는데 있어 도움을 줄 수 있을 것으로 기대된다.

텍스트 감정분석을 이용한 IT 서비스 품질요소 분석 (Analysis of IT Service Quality Elements Using Text Sentiment Analysis)

  • 김홍삼;김종수
    • 산업경영시스템학회지
    • /
    • 제43권4호
    • /
    • pp.33-40
    • /
    • 2020
  • In order to satisfy customers, it is important to identify the quality elements that affect customers' satisfaction. The Kano model has been widely used in identifying multi-dimensional quality attributes in this purpose. However, the model suffers from various shortcomings and limitations, especially those related to survey practices such as the data amount, reply attitude and cost. In this research, a model based on the text sentiment analysis is proposed, which aims to substitute the survey-based data gathering process of Kano models with sentiment analysis. In this model, from the set of opinion text, quality elements for the research are extracted using the morpheme analysis. The opinions' polarity attributes are evaluated using text sentiment analysis, and those polarity text items are transformed into equivalent Kano survey questions. Replies for the transformed survey questions are generated based on the total score of the original data. Then, the question-reply set is analyzed using both the original Kano evaluation method and the satisfaction index method. The proposed research model has been tested using a large amount of data of public IT service project evaluations. The result shows that it can replace the existing practice and it promises advantages in terms of quality and cost of data gathering. The authors hope that the proposed model of this research may serve as a new quality analysis model for a wide range of areas.

영어 트위터 감성 분석을 위한 SentiWordNet 활용 기법 비교 (A Comparative Study on Using SentiWordNet for English Twitter Sentiment Analysis)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제23권4호
    • /
    • pp.317-324
    • /
    • 2013
  • 트위터 감성 분석은 트윗글의 감성을 긍정과 부정으로 분류하는 작업이다. 이 연구에서는 SentiWordNet(SWN) 감성 사전에 기반한 트윗글 감성 분석을 다룬다. SWN은 전체 영어 단어에 대해 단어의 의미별로 긍정, 부정의 감성 강도를 저장해 둔 감성 사전이다. 기존 SWN 기반 감성 분석 연구들은 문서에 출현하는 각 용어의 감성을 SWN으로부터 결정한 다음 이를 바탕으로 문서 전체의 감성을 결정하였는데, 그 방법들이 매우 다양하다. 예를 들어, 한 용어의 감성 결정 시 해당 용어의 SWN 내 의미별 긍정, 부정 감성 강도 차이들의 평균을 계산하거나 긍정과 부정 각각의 감성 강도 평균 혹은 최대값을 구하기도 하며, 문서 전체의 감성을 결정하는 경우에도 문서 내 용어들의 감성 값들에 대해 평균 혹은 최대값을 취하기도 하였다. 또한 SWN 내 형용사, 동사, 명사, 부사의 품사 집합 전체 혹은 특정 부분집합에 대해 위의 감성 결정 작업을 적용하기도 한다. 이처럼 기존 연구에서는 SWN 기반의 다양한 감성 자질 추출 절차가 시도되고 있으나 이들 자질 추출 기법 전반에 대한 성능 비교 연구는 찾기 힘들다. 이 연구에서는 SWN을 트위터 감성 분석에 활용하는 다양한 방법들을 일반화하는 절차들을 소개하고 각 방법들의 성능 비교 및 분석 결과를 제시한다.

빅데이터를 통한 브랜드 평가 맵 제안 : 현대자동차 제품 평가 중심으로 (Proposal of Brand Evaluation Map through Big Data : Focus on The Hyundai Motor's Product Evaluation)

  • 윤대명;이용혁;이봉규
    • 한국IT서비스학회지
    • /
    • 제19권4호
    • /
    • pp.1-11
    • /
    • 2020
  • Through text mining, sentiment analysis, and semiotics analysis, this study aims to reinterpret the meaning of user emotional words and related words to derive strategic elements of brand and design. After selecting a local car manufacturer whose user opinion on the brand is a clear topic, web-crawl the car comments of the manufacturer directly created by the users online. Then, analyze the extracted morphology and its associated words and convert them to fit the marketing mix theory. Through this process, propose a methodology that allows consumers to supplement and improve brand elements with negative sensibilities, and to inherit elements with positive sensibilities and manage brands reasonably. In particular, the Map presented in this study are considered to be fully utilized as information for overall brand management.

Levenshtein 거리를 이용한 영화평 감성 분류 (Sentiment Classification of Movie Reviews using Levenshtein Distance)

  • 안광모;김윤석;김영훈;서영훈
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권4호
    • /
    • pp.581-587
    • /
    • 2013
  • 본 논문에서는 레빈쉬타인 거리(Levenshtein distance)를 이용한 감성 분류 방법을 제안한다. 감성 자질에 레빈쉬타인 거리를 적용하여 BOW(Back-Of-Word)를 생성하고 이를 학습 자질로 사용한다. 학습 모델은 지지벡터기계(support vector machines, SVMs)와 나이브 베이즈(Naive Bayes)를 이용하였다. 실험 데이터로는 다음 영화 사이트로부터 영화평을 수집하였으며, 수집한 영화평은 총 2,385건이다. 수집된 영화평으로부터 감성 어휘를 수작업을 통해 수집하였으며 총 778개 어휘가 선별되었다. 실험에서는 감성 어휘에 레빈쉬타인 거리를 적용한 BOW를 이용하여 기계학습을 수행하였으며, 10-fold-cross validation 방식으로 분류기의 성능을 평가하였다. 평가 결과는 레빈쉬타인 거리가 3일 때 다항 나이브 베이즈(Muitinomial Naive Bayes) 분류기에서 85.46%의 가장 높은 정확도를 보였다. 실험을 통하여 본 논문에서 제안하는 방법이 문서 내의 철자 오류에 대해서도 분류 성능에 영향을 적게 받음을 알 수 있었다.

오피니언 마이닝을 활용한 블로그의 극성 분류 기법 (The Blog Polarity Classification Technique using Opinion Mining)

  • 이종혁;김원상;박제원;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.559-568
    • /
    • 2014
  • 기존의 감정분석을 통한 극성 분류는 주로 평점을 기반으로 하는 상품평을 기준으로 문장규칙을 이용하여 분석해왔다. 이러한 분석방법은 평점이 없는 블로그 같은 경우 적용되기 어려움 점이 있고 댓글 아르바이트나 관리자에 의해 상품평이 조작될 가능성이 있어서 상품평 만으로는 상품, 매장에 대한 의견을 파악하기에는 어려움이 있다. 이러한 문제점을 고려할 때 개인들의 솔직한 의견이 담겨 있는 블로그를 분석하여 극성을 분류하면 상품, 매장에 대한 올바른 이해가 가능하다. 본 논문은 도메인별로 블로그 글에 대한 고빈도 단어를 추출하여 주제어를 선정하고, 선정된 주제어를 기준으로 제안하는 감정분석 기법을 적용하여 블로그 글에 대한 극성을 분류한다. 감정분석 기법의 성능을 평가하기 위하여 정보 검색 분야에서 사용되는 측정지표 Precision, Recall, F-score를 사용하여 본 연구의 극성 분류기법의 유용성을 검증한다. 평가 결과 기존의 상품평을 문장규칙을 이용하여 분석하여 극성 분류를 하는 기법들에 비해서 제안한 감정분석 기법을 적용할 경우에 우수한 성능으로 극성 분류를 하는 것으로 나타났다.

Analysis of Business Performance of Local SMEs Based on Various Alternative Information and Corporate SCORE Index

  • HWANG, Sun Hee;KIM, Hee Jae;KWAK, Dong Chul
    • 융합경영연구
    • /
    • 제10권3호
    • /
    • pp.21-36
    • /
    • 2022
  • Purpose: The purpose of this study is to compare and analyze the enterprise's score index calculated from atypical data and corrected data. Research design, data, and methodology: In this study, news articles which are non-financial information but qualitative data were collected from 2,432 SMEs that has been extracted "square proportional stratification" out of 18,910 enterprises with fixed data and compared/analyzed each enterprise's score index through text mining analysis methodology. Result: The analysis showed that qualitative data can be quantitatively evaluated by region, industry and period by collecting news from SMEs, and that there are concerns that it could be an element of alternative credit evaluation. Conclusion: News data cannot be collected even if one of the small businesses is self-employed or small businesses has little or no news coverage. Data normalization or standardization should be considered to overcome the difference in scores due to the amount of reference. Furthermore, since keyword sentiment analysis may have different results depending on the researcher's point of view, it is also necessary to consider deep learning sentiment analysis, which is conducted by sentence.

엔트로피 점수를 이용한 감성분석 분류알고리즘의 수행도 평가 (Evaluation of Classification Algorithm Performance of Sentiment Analysis Using Entropy Score)

  • 박만희
    • 한국정보통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1153-1158
    • /
    • 2018
  • 다양한 온라인 고객 평가 및 소셜 미디어 정보는 고객의 의사결정에 영향을 미치기 때문에 기업에게 매우 중요한 정보 출처라고 할 수 있다. 설문 조사를 통해 고객의 다양한 요구와 불만 사항을 파악하는 데는 많은 비용과 시간적인 제약이 발생하고 있다. 온라인 쇼핑몰의 고객 후기 데이터는 제품에 대한 고객들의 감성을 분석할 수 있는 이상적인 자료를 제공하고 있다. 본 연구에서는 삼성과 애플 스마폰에 대한 감성분석을 위해 아마존 쇼핑몰로부터 고객 리뷰 데이터를 수집하였다. 선행 연구에서 대표적인 감성분석 기법으로 사용된 5가지 분류 알고리즘을 적용하였다. 5가지 분류알고리즘은 support vector machines, bagging, random forest, classification or regression tree, maximum entropy 등이다. 본 연구에서는 분류 알고리즘의 수행도를 종합적으로 평가할 수 있는 entropy score를 제안하였다. Entropy score를 이용하여 5가지 알고리즘을 평가한 결과에 따르면 support vector machines 알고리즘의 entropy score가 가장 높은 것으로 분석되었다.

한글 정형화 방법에 기반한 상품평 감성분석의 제품 개발 적용 방법 연구 (A Study of Customer Review Analysis for Product Development based on Korean Language Processing)

  • 우제혁;정민규;이재현;서효원
    • 한국산업정보학회논문지
    • /
    • 제27권1호
    • /
    • pp.49-62
    • /
    • 2022
  • 온라인 상품평 데이터는 제품의 특성에 대한 구체적인 평가를 담고 있으면서도 인터넷상에서 쉽게 수집할 수 있기에 제품의 장단점 및 긍정/부정 척도를 판단하기에 높은 효용 가치를 가진다. 기존의 감성 분석 연구들은 여러 문장으로 구성된 상품평 전체 단위의 감성 평가 방법을 제안하였다. 제품의 여러 속성별로 감성 평가 결과를 얻을 수 있으면 후속 제품 개발 과정에 유효한 입력이 될 수 있다. 본 논문에서는 제품의 속성 단위의 감성 분석을 하기 위해 상품평의 문장 단위로부터 제품 속성을 추출하여 감성 평가를 수행하는 방법을 제안한다. 먼저 양방향 LSTM과 조건부 무작위장(CRF)을 활용한 문장분석 모델을 통해 제품 속성과 감성어를 추출한다. 추출된 제품 속성별 감성 평가 결과는 본 논문에서 제안하는 감성 평가 규칙을 활용하여 계산된다. 제품 속성별 감성평가 결과는 품질 전개 기법에 적용되어 후속 제품 개발과정에 반영된다. 제안하는 방법론은 헤어드라이기 제품 사례를 통해 적정성을 보여준다.

Stock News Dataset Quality Assessment by Evaluating the Data Distribution and the Sentiment Prediction

  • Alasmari, Eman;Hamdy, Mohamed;Alyoubi, Khaled H.;Alotaibi, Fahd Saleh
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.1-8
    • /
    • 2022
  • This work provides a reliable and classified stocks dataset merged with Saudi stock news. This dataset allows researchers to analyze and better understand the realities, impacts, and relationships between stock news and stock fluctuations. The data were collected from the Saudi stock market via the Corporate News (CN) and Historical Data Stocks (HDS) datasets. As their names suggest, CN contains news, and HDS provides information concerning how stock values change over time. Both datasets cover the period from 2011 to 2019, have 30,098 rows, and have 16 variables-four of which they share and 12 of which differ. Therefore, the combined dataset presented here includes 30,098 published news pieces and information about stock fluctuations across nine years. Stock news polarity has been interpreted in various ways by native Arabic speakers associated with the stock domain. Therefore, this polarity was categorized manually based on Arabic semantics. As the Saudi stock market massively contributes to the international economy, this dataset is essential for stock investors and analyzers. The dataset has been prepared for educational and scientific purposes, motivated by the scarcity of data describing the impact of Saudi stock news on stock activities. It will, therefore, be useful across many sectors, including stock market analytics, data mining, statistics, machine learning, and deep learning. The data evaluation is applied by testing the data distribution of the categories and the sentiment prediction-the data distribution over classes and sentiment prediction accuracy. The results show that the data distribution of the polarity over sectors is considered a balanced distribution. The NB model is developed to evaluate the data quality based on sentiment classification, proving the data reliability by achieving 68% accuracy. So, the data evaluation results ensure dataset reliability, readiness, and high quality for any usage.