DOI QR코드

DOI QR Code

A Sentence Sentiment Classification reflecting Formal and Informal Vocabulary Information

형식적 및 비형식적 어휘 정보를 반영한 문장 감정 분류

  • 조상현 (가톨릭대학교 컴퓨터공학과) ;
  • 강행봉 (가톨릭대학교 디지털미디어학부)
  • Received : 2011.06.20
  • Accepted : 2011.09.09
  • Published : 2011.10.31

Abstract

Social Network Services(SNS) such as Twitter, Facebook and Myspace have gained popularity worldwide. Especially, sentiment analysis of SNS users' sentence is very important since it is very useful in the opinion mining. In this paper, we propose a new sentiment classification method of sentences which contains formal and informal vocabulary such as emoticons, and newly coined words. Previous methods used only formal vocabulary to classify sentiments of sentences. However, these methods are not quite effective because internet users use sentences that contain informal vocabulary. In addition, we construct suggest to construct domain sentiment vocabulary because the same word may represent different sentiments in different domains. Feature vectors are extracted from the sentiment vocabulary information and classified by Support Vector Machine(SVM). Our proposed method shows good performance in classification accuracy.

최근 트위터, 페이스북과 같은 소셜 네트워크 서비스(Social Network Service : SNS)가 활성화됨에 따라 서비스 사용자들에 의해 작성된 막대한 텍스트들로부터 의미 있는 정보를 찾기 위한 연구가 많은 주목을 받고 있다. 특히 문장에 담겨 있는 감정은 활용 범위가 매우 넓은 정보로서 문장에 대한 감정을 분류하는 일은 매우 유용한 일이라고 할 수 있다. 본 논문에서는 문장의 감정을 분류하기 위해 문장에 포함되어 있는 형식적 어휘 정보와 이모티콘이나 인터넷 용어와 같은 온라인상에서 많이 이용되는 다양한 형태의 비형식적 어휘 정보를 이용한 새로운 문장 감정 분류 방법을 제안한다. 기존에는 문장의 감정을 분류하기 위해 사전을 기반으로 한 형식적 어휘 정보를 이용했지만, 최근 인터넷 사용자들은 인터넷 용어나 이모티콘과 같은 비형식적 어휘를 많이 사용해 기존의 형식적 어휘 정보만으로는 정확한 감정 분류가 어렵다. 제안한 방법은 형식적 어휘 정보와 비형식적 어휘 정보를 이용해 다양한 형태의 어휘를 포함하는 인터넷 상의 문장들에 대해 보다 정확한 감정 분류 결과를 보여준다. 또한, 같은 어휘라도 도메인별로 다른 감정을 나타내는 경우가 많으므로 제안한 방법에서는 도메인별로 다른 감정 어휘정보를 이용했다. 각 감정 어휘 정보를 통해 특징벡터로 표현된 문장은 Support Vector Machine(SVM) 분류 방법을 통해 감정을 분류하고 그 성능을 평가했다.

Keywords

References

  1. B. Pang, L. Lee and S. Vaithyanathan, "Thumbs up? Sentiment Classification Using Machine Learning Techniques," In Proceedings of the EMNLP, pp.79-86, 2002.
  2. J. Yi, T. Nasukawa, R. Bunescu, and W. Niblack, "Sentimental Analyzer : Extracting Sentiments about a Given Topic using Natural Language Processing Techniques," In Proceedings of International Conferenceon Data Mining, pp.427-434, 2003.
  3. N. Hiroshima, S. Yamada, O. Furuse and R. Kataoka, "Searching for Sentences Expressing Opinions by Using Declaratively Subjective Clues," In Proceedings of the Workshop on Sentiment and Subjectivity in Text, pp.39-46, 2006.
  4. P .D. Turney and M.L. Littman, "Measuring Praise and Criticism: Inference of Semantic Orientation from Association," In Proceedings of the ACM Transactions on Information Systems, pp.315-346, 2003.
  5. S.M. Kim and E. Hovy, "Determining the Sentiment of Opinions," In Proceedings of the COLING conference, pp.1367-1373, 2004.
  6. A. Esuli and F. Sebastiani, "Determining the Semantic Orientation of Terms through Gloss Classification," In Proceedings of the CIKM, pp.617-624, 2005.
  7. A. Esuli and F. Sebastiani, "PageRanking WordNet Synsets: An Application to Opinoin Mining," In Proceedings of the ACL, pp.424-431, 2007.
  8. 김묘실, 강승식. "SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현", 한글 및 한국어 정보처리 학술대회, pp.285-289, 2006.
  9. 황재원, 고영중. "감정 자질을 이용한 한국어 문장 및 문서 감정 분류 시스템", 정보과학회논문지 : 컴퓨팅의 실제 및 레터, 14(3): pp.336-340, 2008.
  10. 황재원, 고영중. "문장 감정 강도를 반영한 개선된 자질 가중치 기법 기반의 문서 감정 분류 시스템", 정보과학회논문지 : 소프 트웨어 및 응용, 36(6): pp.491-497, 2009.
  11. 정유철, 최윤정, 맹성현, "감정 기반 블로그 문서 분류를 위한 부정어 처리 및 단어 가중치 적용 기법의 효과에 관한 연구", 인지과학, 19(4): pp.477-497, 2008.
  12. M. Murata, Q. Ma, K. Uchimoto, H. Ozaku, H. Isahara, and M. Utiyama, "Japanese Information Retrieval Using Location and Category Information," Journal of the Association for Natural Language Processing, Vol.7, No.2, pp.81-88, 2000.
  13. Y. Ko, J. Park, and J, Seo, "Automatic Text Categorization using the Importance of Sentences," In Proceedings of the 19th International Conference on COLING, pp.474-480, 2002.
  14. Joachims, T. "Text Categorization with Support Vector Machines: Learning with Many Relevant Features". Machine Learning ECML98, Tenth European Conference on Machine Learning, pp.137-142, 1998.
  15. http://nlp.kookmin.ac.kr/HAM/kor/download.html