사전 정보에 기반한 효율적인 자동색인기 설계

A Design of Efficient Automatic Indexing based on Dictionary Information

  • 진정환 (인제대학교 전산학과) ;
  • 김태완 (인제대학교 정보컴퓨터공학부)
  • Jin, Joung-Hwan (Dept of Computer Science, Inje University) ;
  • Kim, Tae-Wan (Dept of Information & Computer Engineering, Inje University)
  • 발행 : 2001.10.12

초록

웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

키워드