Index Extraction Using Syntactic Morpheme

구문형태소를 이용한 색인어 추출

  • Hwang, Y.G. (Dept. of Computer Science, Chonbuk National University) ;
  • Lee, K.Y. (Dept. of Computer Science, Chonbuk National University) ;
  • Kim, N.S. (Dept. of Computer Science, Chonbuk National University) ;
  • Lee, Y.S. (Dept. of Computer Science, Chonbuk National University)
  • 황이규 (전북대학교 컴퓨터과학과 언어정보공학실) ;
  • 이근용 (전북대학교 컴퓨터과학과 언어정보공학실) ;
  • 김남수 (전북대학교 컴퓨터과학과 언어정보공학실) ;
  • 이용석 (전북대학교 컴퓨터과학과 언어정보공학실)
  • Published : 2000.10.13

Abstract

문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

Keywords