DOI QR코드

DOI QR Code

감성 분류를 위한 워드 임베딩 성능 비교

Performance Comparison of Word Embeddings for Sentiment Classification

  • 윤혜진 (성균관대학교 소프트웨어대학) ;
  • 구자환 (성균관대학교 소프트웨어대학) ;
  • 김응모 (성균관대학교 소프트웨어대학)
  • Yoon, Hye-Jin (College of Software, Sungkyunkwan University) ;
  • Koo, Jahwan (College of Software, Sungkyunkwan University) ;
  • Kim, Ung-Mo (College of Software, Sungkyunkwan University)
  • 발행 : 2021.11.04

초록

텍스트를 자연어 처리를 위한 모델에 적용할 수 있게 언어적인 특성을 반영해서 단어를 수치화하는 방법 중 단어를 벡터로 표현하여 나타내는 워드 임베딩은 컴퓨터가 인간의 언어를 이해하고 분석 가능한 언어 모델의 필수 요소가 되었다. Word2vec 등 다양한 워드 임베딩 기법이 제안되었고 자연어를 처리할 때에 감성 분류는 중요한 요소이지만 다양한 임베딩 기법에 따른 감성 분류 모델에 대한 성능 비교 연구는 여전히 부족한 실정이다. 본 논문에서는 Emotion-stimulus 데이터를 활용하여 7가지의 감성과 2가지의 감성을 5가지의 임베딩 기법과 3종류의 분류 모델로 감성 분류 학습을 진행하였다. 감성 분류를 위해 Logistic Regression, Decision Tree, Random Forest 모델 등과 같은 보편적으로 많이 사용하는 머신러닝 분류 모델을 사용하였으며, 각각의 결과를 훈련 정확도와 테스트 정확도로 비교하였다. 실험 결과, 7가지 감성 분류 및 2가지 감성 분류 모두 사전훈련된 Word2vec가 대체적으로 우수한 정확도 성능을 보였다.

키워드