An automatic extraction of newspaper articles using expanded 5WlH

확장된 6하원칙을 이용한 신문기사 자동요약

  • 윤재민 (포항공대 정보통신대학원) ;
  • 강인수 (포항공대 전자 및 컴퓨터공학부) ;
  • 권오옥 (포항공대 전자 및 컴퓨터공학부) ;
  • 배재학 (포항공대 전자 및 컴퓨터공학부) ;
  • 이종혁 (포항공대 전자 및 컴퓨터공학부)
  • Published : 2002.04.01

Abstract

본 논문은 신문기사를 추출(Extract)하는데 있어서, 신문기사의 구조적인 특징을 분석한 후, 6하원칙(5W1H)과 전문(Lead)과의 관계를 유추하여 신문기사를 효과적으로 요약하기 위한 방법과 알고리즘을 제안하였다. 본 연구에서는 먼저 신문기사에서 가장 중요한 단락인 전문에서 6하원칙의 각 구성성분을 추출하고, 본문에서는 전문에 나타난 6하원칙의 각 성분이 어떻게 재사용되며 강조되고 있는가를 파악하기 위래 제안된 방법과 알고리즘을 이용하여 중요한 문장을 추출하였다. 실험문서는 조선일보 웹사이트에서 제공하는 신문기사 100건을 대상으로 하였으며 요약율이 20%와 30%일 경우 제안한 방법의 정확률은 각각 82.4%와 74.1%로 기존의 전문기반(Lead-based)방법보다 3.6%와 6.3% 향상되었다.

Keywords