An Evaluation of Category Features in Text Categorization Using Nearest Neighbor Method

Nearest Neighbor 방법을 이용한 문서 범주화에서 범주 자질의 평가

  • 권오욱 (포항공과대학교 전자계산학과) ;
  • 이종혁 (포항공과대학교 전자계산학과) ;
  • 이근배 (포항공과대학교 전자계산학과)
  • 발행 : 1997.10.10

초록

문서 범주화에서 문서의 내용에 따라 적합한 범주의 종류와 수를 찾는 문제를 해결하기 위해서는 문서 당 하나의 범주를 할당할 경우에 가장 좋은 성능을 보이는 모델이 효과적일 것이다. 그러므로, 본 논문에서는 문서 당 하나의 범주를 할당할 경우에 좋은 결과를 보이는 k-nearest neighbor 방법을 이용한다. 그리고 k-nearest neighbor 방법을 이용한 문서 범주화의 성능을 향상시키기 위해서, 문서 표현에 사용하는 단어들을 범주 자질의 성격을 갖는 단어들로 제한하는 방법을 제안한다. 제안한 방법은 Router 신문 일년치로 구성된 Router-21578 테스트 집합에서 breakeven point 82%라는 좋은 결과를 보였다.

키워드