Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
- 2004.04b
- /
- Pages.892-894
- /
- 2004
- /
- 1598-5164(pISSN)
Extraction of Field-Associated Term for the Purpose of Document Classification
문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법
- Choi, Hyun (Graduate School of Education, Jeonju University) ;
- Hwang, Nam-Seon (School of Information, Technology and Engineering, Jeonju University) ;
- Lee, Samuel Sangkon (School of Information, Technology and Engineering, Jeonju University)
- Published : 2004.04.01
Abstract
분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 인간이 한국어와 일본어의 180분야로 분류한 약 15,000개의 문서뱅크를 수집하고, 수집된 문서에서 복합어로 구성된 분야연상어의 효율적인 추출 알고리즘을 제안한다. 제안된 알고리즘으로 자동구축된 분야연상어를 문서분류의 초기결정에 이용할 수 있다. 분야연상어를 이용하면 어떠한 분야체계에도 손쉽게 적용할 수 있으므로 문서분류용 목적으로 이용할 수 있는 보편성은 충분하다.
Keywords