A Study on Negation Handling and Term Weighting Schemes and Their Effects on Mood-based Text Classification

감정 기반 블로그 문서 분류를 위한 부정어 처리 및 단어 가중치 적용 기법의 효과에 대한 연구

  • 정유철 (한국정보통신대학교 공학부) ;
  • 최윤정 (한국정보통신대학교 공학부) ;
  • 맹성현 (한국정보통신대학교 공학부)
  • Published : 2008.12.30

Abstract

Mood classification of blog text is an interesting problem, with a potential for a variety of services involving the Web. This paper introduces an approach to mood classification enhancements through the normalized negation n-grams which contain mood clues and corpus-specific term weighting(CSTW). We've done experiments on blog texts with two different classification methods: Enhanced Mood Flow Analysis(EMFA) and Support Vector Machine based Mood Classification(SVMMC). It proves that the normalized negation n-gram method is quite effective in dealing with negations and gave gradual improvements in mood classification with EMF A. From the selection of CSTW, we noticed that the appropriate weighting scheme is important for supporting adequate levels of mood classification performance because it outperforms the result of TF*IDF and TF.

일상생활에서 많이 쓰이는 블로그 문서를 분석하는 것은 다양한 웹 응용서비스를 연결할 수 있는 중요한 단초를 제시하므로, 블로그 문서에 담긴 감정을 파악하는 것을 매우 유용한 일이다. 본 논문에서는 블로그 문서에 존재하는 감정을 보다 정확하게 분류하기 위해 부정어 처리와 새로운 단어 가중치의 적용이 성능에 미치는 영향에 대해 탐구한다. 특히, 감정단서(clue)가 내재된 정규화된 부정어 n-gram을 통해 부정어 처리를 고도화하고 말뭉치기반 단어 가중치 계산법(Corpus-specific Term Weighting, CSTW)을 통해 감정 분류 성능향상을 살펴보기로 한다. 검증을 위해 블로그 문서들로 정답 말뭉치를 구축하고 감정 흐름 분석(Enhanced Mood Flow Analysis, EMFA)과 지지벡터기계기반 감정 분류(Support Vector Machine based Mood Classification, SVMMC)의 두 가지 분류기법에 대해 실험을 하였다. 정규화된 부정어 n-gram의 적용은 EMFA에서 점진적인 감정 분류 성능 향상을 보여주었으며, CSTW의 적용은 TF*IDF나 TF에 비해 보다 높은 감정 분류 성능을 나타내었다.

Keywords