말뭉치에 기반한 상호정보를 이용한 연어의 자동 추출

Automatic Extraction of Collocations based on Corpus using mutual information

  • 이호석 (호서대학교 컴퓨터공학과)
  • Lee, Ho-Suk (Dept. of Computer Engineering, Hoseo University)
  • 발행 : 1994.11.01

초록

본 논문은 말뭉치에 기반한 연어의 자동 추출에 관한 연구이다. 연어는 말뭉치로 부터 단어의 동시발생빈도(cooccurrence frequency)와 상호정보 (mutual informaton) 를 이용하여 추출하였다. 영어에는 5가지 종류의 연어가 정의 되어 있다. 이들은 타동 사와 목적어, 자동사와 주어, 형용사와 명사, 동사와 부사 그리고 형용사와 부사이다. 여기에 동사와 전치사의 단어쌍을 새롭게 연어로 파악하여 6가지 종류의 연어를 추출 하였다.

This paper describes the automatic extraction of collocations based on corpus. The collocations are extracted from corpus using cooccurrence frequency and mutual information between words. In English, 5 types of collocations are defined. These collocations are transitive verb and object, intransitive verb and subject, adjective and noun, verb and adverb, and adverb and adjective. In this paper another type of collocation is recognized and extracted, which consists of verb and preposition. So 6 types of collocations are extracted based on corpus.

키워드