Statistical Approach to Sentiment Classification using MapReduce

맵리듀스를 이용한 통계적 접근의 감성 분류

  • Kang, Mun-Su (Department of Computer Engineering, Korea Aerospace University) ;
  • Baek, Seung-Hee (Department of Computer Engineering, Korea Aerospace University) ;
  • Choi, Young-Sik (Department of Computer Engineering, Korea Aerospace University)
  • 강문수 (한국항공대학교 전자 및 정보통신공학부 컴퓨터공학과 IT연구소) ;
  • 백승희 (한국항공대학교 전자 및 정보통신공학부 컴퓨터공학과 IT연구소) ;
  • 최영식 (한국항공대학교 전자 및 정보통신공학부 컴퓨터공학과 IT연구소)
  • Received : 2012.01.04
  • Accepted : 2012.11.15
  • Published : 2012.12.31

Abstract

As the scale of the internet grows, the amount of subjective data increases. Thus, A need to classify automatically subjective data arises. Sentiment classification is a classification of subjective data by various types of sentiments. The sentiment classification researches have been studied focused on NLP(Natural Language Processing) and sentiment word dictionary. The former sentiment classification researches have two critical problems. First, the performance of morpheme analysis in NLP have fallen short of expectations. Second, it is not easy to choose sentiment words and determine how much a word has a sentiment. To solve these problems, this paper suggests a combination of using web-scale data and a statistical approach to sentiment classification. The proposed method of this paper is using statistics of words from web-scale data, rather than finding a meaning of a word. This approach differs from the former researches depended on NLP algorithms, it focuses on data. Hadoop and MapReduce will be used to handle web-scale data.

인터넷의 규모가 커지면서 주관적인 데이터가 증가하였다. 이에 주관적인 데이터를 자동으로 분류할 필요가 생겼다. 감성 분류는 데이터를 여러 감성 종류에 따라 나누는 것을 말한다. 감성 분류 연구는 크게 자연어 처리와 감성어 사전 구축을 중심으로 이루어져 왔다. 이전의 감성 분류 연구는 자연어 처리 과정에서 형태소 분석이 제대로 이루어지지 않는 문제와 감성어 사전구축 시 등록할 단어를 선별하고 단어의 감성 정도를 정하는 데에 명확한 기준을 정하기 힘든 문제가 있다. 이러한 어려움을 해결하기 위하여 감성 분류에 대용량 데이터와 통계적 접근의 조합을 제안한다. 본 논문에서 제안하는 방법은 단어의 의미를 찾는 대신 수많은 데이터에서 등장하는 표현들의 통계치를 이용하여 감성 판단을 하는 것이다. 이러한 접근은 자연어 처리 알고리즘에 의존하던 이전 연구와 달리 데이터에 집중한다. 대용량 데이터 처리를 위해 하둡과 맵리듀스를 이용한다.

Keywords