한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2010년도 춘계학술발표대회
- /
- Pages.385-388
- /
- 2010
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구
A Comparison of Machine Learning Techniques for Evaluating the Quality of Blog Posts
- Han, Bum-Jun (Graduate School of Computer & Information Technology, Korea University) ;
- Kim, Min-Jeong (Dept. of Computer & Radio Communications Engineering, Korea University) ;
- Lee, Hyoung-Gyu (Dept. of Computer & Radio Communications Engineering, Korea University)
- 발행 : 2010.04.23
초록
블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.
키워드