한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
- /
- Pages.261-264
- /
- 2003
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
효율적인 바이그램을 이용한 자동문서 범주화
Automated Text Categorization using high quality Bigrams
- Choi, Joon-Young (Dept,. of Information & Communications Eng., Daejeon Univ.) ;
- Lee, Chan-Do (Dept,. of Information & Communications Eng., Daejeon Univ.)
- 발행 : 2003.05.16
초록
본 연구는 바이그램을 이용하여 자동문서범주화 성능을 향상시키는 알고리즘의 개발을 목표로 한다. 기존의 문서 범주화 알고리즘의 장단점을 비교하여 개선된 바이그램 추출 알고리즘을 구현하고, 이 알고리즘을 실험한 결과 Reuters-21579 data set은 개별 단어를 사용하여 시험한 결과보다 단어+바이그램을 사용하였을 경우 BEP은 2.07%, F1은 1.40% 향상률을 보였고, Korea-web data set은 BEP의 8.12%, F1의 6.25% 향상을 보였다. 이와 같은 실험결과는 단어를 사용한 경우보다 단어+바이그램을 사용한 자동문서 범주화 시스템이 더 효율적이라는 것을 보여준다.
키워드