초록
문서를 대상으로 한 다양한 감정 분류 연구가 진행되어 왔으며, 최근에는 트윗 감정 분류에 그대로 적용되고 있다. 그러나 이러한 연구들은 트윗의 구조, 이모티콘, 철자 오류 그리고 신조어와 같은 트윗의 특징을 고려하지 않아 좋은 성능을 보이지 못하고 있다. 본 논문에서는 기계학습을 기반으로 다양한 자질을(이모티콘 극성, 리트윗 극성, 사용자 극성, 대체 어휘)사용하여 실험하여 트윗 감정 분류 성능의 영향을 확인하였다. 기계 학습기 SVM(Support Vector Machine) 기반의 감정 분류 실험으로 이모티콘 극성 자질과 사용자 극성 자질이 트윗 감정 분류 모델의 성능 향상에 기여를 하는 것을 알 수 있었다. 이와 비교하여 리트윗 극성과 대체 어휘 자질은 트윗 감정 분류 모델에 큰 영향이 없는 것을 알 수 있었다.
Various studies on sentiment classification of documents have been performed. Recently, they have been applied to twitter sentiment classification. However, they did not show good performances because they did not consider the characteristics of tweets such as tweet structure, emoticons, spelling errors, and newly-coined words. In this paper, we perform experiments on various input features (emoticon polarity, retweet polarity, author polarity, and replacement words) which affect twitter sentiment classification model based on machine-learning techniques. In the experiments with a sentiment classification model based on a support vector machine, we found that the emoticon polarity features and the author polarity features can contribute to improve the performance of a twitter sentiment classification model. Then, we found that the retweet polarity features and the replacement words features do not affect the performance of a twitter sentiment classification model contrary to our expectations.