The Automatic Extraction of Hypernyms and the Development of WordNet Prototype for Korean Nouns using Korean MRD (Machine Readable Dictionary)

국어사전을 이용한 한국어 명사에 대한 상위어 자동 추출 및 WordNet의 프로토타입 개발

  • 김민수 (전남대학교) ;
  • 김태연 (광주예술전문대학 컴퓨터그래픽디자인학과) ;
  • 노봉남 (전남대학교 전산학과)
  • Published : 1995.11.01

Abstract

When a human recognizes nouns in a sentence, s/he associates them with the hyper concepts of onus. For computer to simulate the human's word recognition, it should build the knowledge base (WordNet)for the hyper concepts of words. Until now, works for the WordNet haven't been performed in Korea, because they need lots of human efforts and time. But, as the power of computer is radically improved and common MRD becomes available, it is more feasible to automatically construct the WordNet. This paper proposes the method that automatically builds the WordNet of Korean nouns by using the descripti on of onus in Korean MRD, and it proposes the rules for extracting the hyper concepts (hypernyms)by analyzing structrual characteristics of Korean. The rules effect such characteristics as a headword lies on the rear part of sentences and the descriptive sentences of nouns have special structure. In addition, the WordNet prototype of Korean Nouns is developed, which is made by combining the hypernyms produced by the rules mentioned above. It extracts the hypernyms of about 2,500 sample words, and the result shows that about 92per cents of hypernyms are correct.

인간은 문장 안에 있는 명사를 인식할 때 그 명사의 상위 개념을 머리에 떠올린다. 컴퓨터에게 인간의 단어 인식작용을 시뮬레이션하기 위해서는 단어의 상위 개념(상위어) 을 지식 베이스(WordNet)로 구축해야만 한다. 현재 한국에서는 많은 인력과 시간이 소요되기 때문에 WordNet의 작업을 시작하지 못하였으나 컴퓨터의 성능이 급격히 향상 되고 상용화된 MRD(Machine Readable Dictionary)가 이용하능하게 됨에 따라 자동으로 WordNet 구축의 가능성을 보이고 있다. 본 논문에서는 한국어 MRD(Machine Readable Dictionary)의 명사의 정의 (description)를 이용하여 자동으로 한국어 명사 WordNet 을 구축하는 방법을 제안한다. 한국어 문장의 구조적인 특징을 분석하여 상위 개념 (상위어)를 추출하는 규칙을 제안한다. 그것은 중심적인 말이 보통 뒤에 나타난다는 것과 명사의 정의는 특수한 구조를 갖는다는 것을 반영하였다. 또한, 이러한 규칙에 의해 만들어진 상위어들을 결합한 한국어 명사의 WordNet프로토타입을 개발 하였다. 약 250개 표본 단어의 상위어를 추출한 결과 약 92여 퍼센트가 상위어가 옳게 추출 되었다.

Keywords