Template-based Knowledgebase Design and Construction using Conditional Random Fields in Encyclopedia Domain

CRF를 이용한 백과사전 도메인의 템플릿 기반 지식베이스 설계 및 구축

  • Wang Ji-Hyun (Speech/Language Information Research Department ETRI) ;
  • Lee Chang-ki (Speech/Language Information Research Department ETRI) ;
  • Kim Hyeon-Jin (Speech/Language Information Research Department ETRI) ;
  • Jang Myung-Gil (Speech/Language Information Research Department ETRI)
  • 왕지현 (한국전자통신연구원 음성/언어정보연구부) ;
  • 이창기 (한국전자통신연구원 음성/언어정보연구부) ;
  • 김현진 (한국전자통신연구원 음성/언어정보연구부) ;
  • 장명길 (한국전자통신연구원 음성/언어정보연구부)
  • Published : 2005.07.01

Abstract

본 논문은 백과사전 도메인의 지식베이스 설계 및 통계기반 정보추출 방법을 이용한 속성정보 인식에 대하여 기술한다. 층 13개 카테고리로 구성된 백과사전에 대해 99개의 템플릿과 285개의 속성을 정의하였으며, 각 표제어의 추출 대상인 속성정보는 표제어를 설명하는 본문에서 통계기반 기계학습모델인 CRF(Conditional Random Fields)를 적용하여 추출하였다. 백과사전 카테고리 별로 균일하게 선정된 4천 5백 문서를 학습에 사용하였고 테스트 문서셋 500문서에 대해 속성인식률을 측정하였다. 성능 평가한 결과, $F1\;55.76\%\;(P\;74.89\%,\;R\;44.42\%)$의 성능을 나타내었다.

Keywords