Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2009.11a
- /
- Pages.337-338
- /
- 2009
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Machine Learning Based Blog Text Opinion Classification System Using Opinion Word Centered-Dependency Tree Pattern Features
의견어중심의 의존트리패턴자질을 이용한 기계학습기반 한국어 블로그 문서 의견분류시스템
- Kwak, Dong-Min (Graduate School of Computer and Information Technology, Korea University) ;
- Lee, Seung-Wook (Dept. of Computer and Radio Communications Engineering, Korea University)
- Published : 2009.11.13
Abstract
블로그문서의 의견극성분류 연구는 주로 기계학습기법에 기반한 방법이었고, 이때 주로 활용된 자질은 명사, 동사 등의 품사정보와 의견어 어휘정보였다. 하지만 하나의 의견어 어휘만을 고려한다면 그 극성을 판별하는데 필요한 정보가 충분하지 않아 부정확한 결과를 도출하는 경우가 발생할 수 있다. 본 논문에서는 여러 어휘를 동시에 고려하였을 때 보다 정확한 의견분류를 수행할 수 있을 것이라는 가정을 세웠다. 본 논문에서는 효과적인 의견어휘자질의 추출을 위하여 의견이 내포될 가능성이 높은 의견어휘를 기반으로 의존구문분석을 통해 의존트리패턴을 추출하였고, 제안하는 PF-IDF가중치를 적용하여 지지벡터기계(SVM)와 다항시행접근 단순베이지안(MNNB)알고리즘으로 비교 실험을 수행하였다. 기준시스템인 TF-IDF가중치 기법에 비해 정확도(accuracy)가 지지벡터기계에서 5%, 다항시행접근 단순베이지안에서 8.9% 향상된 성능을 보였다.
Keywords