An automatic extraction of newspaper articles using activation degree of 5W1H

육하원칙 활성화도를 이용한 신문기사 자동요약

  • Yoon, Jae-Min (Dept. of Graduate School for Information Technology, POSTECH) ;
  • Kang, In-Su (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc)) ;
  • Kwon, Oh-Woog (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc)) ;
  • Bae, Jae-Hak (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc)) ;
  • Lee, Jong-Hyeok (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc))
  • 윤재민 (포항공대 정보통신대학원, 포항공대 전자 및 컴퓨터공학부) ;
  • 강인수 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터) ;
  • 권오욱 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터) ;
  • 배재학 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터) ;
  • 이종혁 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터)
  • Published : 2002.10.11

Abstract

본 논문은 신문기사에서 중요한 문장을 추출(Extract)하는데 있어서, 기존에 기장 우수한 방법인 전문기반 방법(Lead-based method)과 제목을 이용한 유사도 측정방법(Title-based method)의 문제점을 해결하기 위해서, 육하원칙 활성화도를 이용하여 신문기사를 효과적으로 요약할 수 있는 방법과 알고리즘을 제안하였다. 본 연구에서는 먼저, 제목(Title)과 전문(Lead)에서 중복출현하지 않는 육하원칙 구성성분을 결합하고, 본문은 각 문장에서 육하원칙 구성성분의 재사용성과 육하원칙 구성성분의 범주 증감을 파악하여 육하원칙 활성화도를 구하고, 전문기반 방법을 응용하여 각 문장의 상대적인 중요도에 따라 최종적인 가중치를 부여함으로써, 신문기사에서 중요한 문장을 효과적으로 추출할 수 있는 가중치 계산식을 제안하였다. 실험문서는 조선일보 웹사이트에서 제공하는 신문기사 100건을 대상으로 하였으며, 요약율이 30%일 경우 제안한 방법의 정확률은 74.7%로 기존의 전문기반(Lead-based method)방법보다 6.7% 향상되었다.

Keywords