Analysis of Compound Noun and Automatic Indexing Using Collocation Information of Nouns and Co-occurrence Information of Predicative Nouns

명사의 연어 정보와 서술성 명사의 공기 정보를 활용한 복합명사 분석 및 자동 색인

  • Yang, Seung-Hyeon (Natural Language Processing Lab., Department of Computer Science, Yonsei University) ;
  • Chung, Eui-Sok (Natural Language Processing Lab., Department of Computer Science, Yonsei University) ;
  • Yoon, Jun-Tae (Natural Language Processing Lab., Department of Computer Science, Yonsei University) ;
  • Song, Man-Suk (Natural Language Processing Lab., Department of Computer Science, Yonsei University)
  • 양성현 (연세대학교 컴퓨터과학과 한글 정보처리 연구실) ;
  • 정의석 (연세대학교 컴퓨터과학과 한글 정보처리 연구실) ;
  • 윤준태 (연세대학교 컴퓨터과학과 한글 정보처리 연구실) ;
  • 송만석 (연세대학교 컴퓨터과학과 한글 정보처리 연구실)
  • Published : 1997.10.10

Abstract

복합명사로부터 적절한 색인어를 추출하는 것은 한국어 정보검색 시스템의 성능 향상에 중요한 역할을 한다. 본 논문에서는 복합명사로부터 색인어 추출을 하기 위해 복합명사 구문 구조 분석 결과를 활용한다. 단일명사가 3개 이상 결합된 복합명사의 경우 각 단일명사의 구문적 관계를 파악하여 적절한 괄호치기를 한 후 색인어를 추출하면 보다 좋은 결과를 얻을 수 있다. 이러한 복합명사 구문 구조 분석을 위해 말뭉치로부터 구조적 중의성이 없는 연어 관계의 완전 복합명사와, 서술성 명사와 공기하는 명사쌍을 추출한 결과를 이용한다. 또한 서술성 명사는 이와 공기하는 명사와 결합되어 복합명사를 이를 가능성이 많고, 복합명사의 형태로 인식되어야만 정확한 의미 파악이 가능하다. 서술성 명사와 공기하는 명사를 파악하여 복합명사를 추출하기 위해서 부분 파서로 공기쌍을 찾아 복합명사 후보를 생성한 후, 이 후보 가운데 적합한 복합명사만을 선택하기 위해 말뭉치에서 추출한 완전 복합명사 사전을 통해 검증한다. 이러한 방법으로 서술성 명사에서 복합명사 형태의 색인어를 추출한다.

Keywords