정보추출을 위한 고유명사 및 대용어 태깅

Named Entity and Coreference Tagging for Information Extraction

  • 장성호 (국민대학교 컴퓨터학부, 첨단정보기술연구센터) ;
  • 강승식 (국민대학교 컴퓨터학부, 첨단정보기술연구센터) ;
  • 우종우 (국민대학교 컴퓨터학부, 첨단정보기술연구센터) ;
  • 윤보현 (한국전자통신연구원 언어공학부)
  • Jang, Sung-Ho (School of Computer Science, Kookmin University and Advanced Information Technology Research Center) ;
  • Kang, Seung-Shik (School of Computer Science, Kookmin University and Advanced Information Technology Research Center) ;
  • Woo, Chong-Woo (School of Computer Science, Kookmin University and Advanced Information Technology Research Center) ;
  • Yun, Bo-Hyun (Linguistic Engineering Department, ETRI)
  • 발행 : 2002.04.12

초록

최근 정보추출에 대한 중요성이 점차 증가하면서 정보추출에서 필요로 하는 Named Entity와 Coreference, Information Extraction, Information Retrieval의 소개와 한국어에 대해 적용시키기 위한 정의와 방법을 제시한다. 또한, 대량의 문서에 대한 태깅을 효율적으로 수행할 수 있도록 Named Entity와 Coreference 태깅을 쉽게 할 수 있는 NE-CO 태깅 도구를 개발하였다. 이 태깅 도구를 이용하여 시험적으로 경제, 공연, 여행 분야의 300문서에 대한 말뭉치를 구축하였으며, 이 말뭉치는 한국어 정보추출 시스템을 개발하는데 기초 자료로서 활용될 예정이다.

키워드