Problems of Indexing Module in IR Systems and Lexicons of Complex Items and Syntactic Structures

검색 엔진의 ‘색인 모듈’의 문제와 합성어 사전 및 구문 정보 사전의 필요성

  • 남지순 (한국과학기술원 인공지능연구센터 한글공학연구실) ;
  • 최기선 (한국과학기술원 인공지능연구센터 한글공학연구실)
  • Published : 1997.08.01

Abstract

기존의 대부분의 정보 검색 시스템은 문서에 대한 ‘자동 색인 단계’를 거쳐 질의자의 요구에 적합한 문서들을 추출하도록 되어 있다. 이 과정에서 얼마나 적합한 문서를 빠짐없이 검색하였는가 하는 문제가, 검색 시스템의 효율성들 판단하는 데 가장 중요한 열쇠가 된다. 이 글에서는 ‘명사’ 중심의 키워드 추출이 안고 있는 몇 가지 문제점들에 관해서 논의하였다. 즉, 합성어 키워드 구축의 필요성, 동사 구문 정보에 대한 필요성, 부사구 표현에 대한 기술 필요성, 그리고 발화 상황이 고려되어야 하는 점등이 검토되었고, 이에 관한 해결책으로, 어휘정보 및 어절 정보, 나아가 구문 정보들을 담고 있는, 보다 체계적인 한국어 사전 시스템이 구축되어야 함을 강조하였다.

Keywords