Information Extraction Based on Property Patterns to Construct a Knowledgebase for Encyclopedia Person Domain

인물 백과사전 지식베이스 구축을 위한 속성패턴기반 정보추출

  • 왕지현 (한국전자통신연구원 미래기술연구본부 음성/언어정보연구부) ;
  • 김현진 (한국전자통신연구원 미래기술연구본부 음성/언어정보연구부) ;
  • 장명길 (한국전자통신연구원 미래기술연구본부 음성/언어정보연구부)
  • Published : 2004.10.01

Abstract

본 논문은 인물 도메인의 백과사전 지식베이스를 구축하기 위하여 백과사전 본문의 자연어 문장으로부터 인물 표제어의 특징을 잘 나타내는 속성 값을 인식하여 추출하는 방법에 관하여 기술한다. 속성은 인물 공통 및 세부 분야별로 총 52개의 속성을 정의하였고 이를 태그셋으로 정의하여 1천 문서의 백과사전 인물 속성태깅코퍼스를 구축하였다. 속성태깅코퍼스로부터 반자동으로 약 1천 8백여 개의 속성패턴을 추출하였고 백과사전 인물 표제어 24,848개에 대해 속성패턴을 적용하여 지식베이스를 구축하였다. 추출성능은 f-score 0.68의 결과를 나타내었다.

Keywords