Proper Noun Extraction Using Data Sets

데이터 집합을 이용한 고유명사 추출

  • Kim, Tae-Hyun (Dept. of Computer Science, Chungnam National University) ;
  • Lee, Hyun-Suk (Dept. of Computer Science, Chungnam National University) ;
  • Ha, You-Sun (Dept. of Computer Science, Chungnam National University) ;
  • Lee, Mann-Ho (Dept. of Computer Science, Chungnam National University) ;
  • Myaeng, Sung-Hyon (Dept. of Computer Science, Chungnam National University)
  • 김태현 (충남대학교 컴퓨터과학과) ;
  • 이현숙 (충남대학교 컴퓨터과학과) ;
  • 하유선 (충남대학교 컴퓨터과학과) ;
  • 이만호 (충남대학교 컴퓨터과학과) ;
  • 맹성현 (충남대학교 컴퓨터과학과)
  • Published : 2000.10.13

Abstract

본 논문에서는 한국어 고유명사의 특징에 대해 살펴보고, 이를 기반으로 문서로부터 고유명사를 추출하기 위한 기본 모델을 제안한다. 고유명사는 문서의 내용을 대표하는데 주도적인 역할을 하기 때문에, 이를 효과적으로 추출해내는 것은 문서의 의미를 보다 정확하게 표현할 수 있는 방법이 될 수 있다. 문서에서 고유명사를 효과적으로 추출할 수 있도록 하기 위해, 본 연구에서는 이름집합, 접사집합, 단서집합을 구성할 수 있는 데이터 수집기 모델과 데이터 집합을 기본으로 이용하여 고유명사를 추출하는 고유명사 추출기 모델을 제안하였다. 그리고 실제로 이 모델을 적용하여, 회사명과 관련된 데이터를 수집하고, 이를 이용해 문서로부터 회사명을 추출할 수 있도록 하는 시스템을 구현하였다. 구현된 회사명 추출 시스템을 이용해 고유명사 추출 실험을 수행한 결과, 외래어로 이루어진 회사명으로 인한 문제를 제외할 경우 만족할 만한 정확율과 재현율을 얻을 수 있었다.

Keywords