Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 1997.10a
- /
- Pages.7-14
- /
- 1997
- /
- 2005-3053(pISSN)
An Evaluation of Category Features in Text Categorization Using Nearest Neighbor Method
Nearest Neighbor 방법을 이용한 문서 범주화에서 범주 자질의 평가
- Kwon, Oh-Woog (Dept. of Computer Science and Engineering, POSTECH) ;
- Lee, Jong-Hyeok (Dept. of Computer Science and Engineering, POSTECH) ;
- Lee, Geun-Bae (Dept. of Computer Science and Engineering, POSTECH)
- 발행 : 1997.10.10
초록
문서 범주화에서 문서의 내용에 따라 적합한 범주의 종류와 수를 찾는 문제를 해결하기 위해서는 문서 당 하나의 범주를 할당할 경우에 가장 좋은 성능을 보이는 모델이 효과적일 것이다. 그러므로, 본 논문에서는 문서 당 하나의 범주를 할당할 경우에 좋은 결과를 보이는 k-nearest neighbor 방법을 이용한다. 그리고 k-nearest neighbor 방법을 이용한 문서 범주화의 성능을 향상시키기 위해서, 문서 표현에 사용하는 단어들을 범주 자질의 성격을 갖는 단어들로 제한하는 방법을 제안한다. 제안한 방법은 Router 신문 일년치로 구성된 Router-21578 테스트 집합에서 breakeven point 82%라는 좋은 결과를 보였다.
키워드