Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2002.10e
- /
- Pages.277-284
- /
- 2002
- /
- 2005-3053(pISSN)
An automatic extraction of newspaper articles using activation degree of 5W1H
육하원칙 활성화도를 이용한 신문기사 자동요약
- Yoon, Jae-Min (Dept. of Graduate School for Information Technology, POSTECH) ;
- Kang, In-Su (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc)) ;
- Kwon, Oh-Woog (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc)) ;
- Bae, Jae-Hak (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc)) ;
- Lee, Jong-Hyeok (Dept. of Computer Science and Engineering, Division of Electrical and Computer Engineering, POSTECH, and Advanced Information Technology Research Center(AITrc))
- 윤재민 (포항공대 정보통신대학원, 포항공대 전자 및 컴퓨터공학부) ;
- 강인수 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터) ;
- 권오욱 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터) ;
- 배재학 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터) ;
- 이종혁 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술연구센터)
- Published : 2002.10.11
Abstract
본 논문은 신문기사에서 중요한 문장을 추출(Extract)하는데 있어서, 기존에 기장 우수한 방법인 전문기반 방법(Lead-based method)과 제목을 이용한 유사도 측정방법(Title-based method)의 문제점을 해결하기 위해서, 육하원칙 활성화도를 이용하여 신문기사를 효과적으로 요약할 수 있는 방법과 알고리즘을 제안하였다. 본 연구에서는 먼저, 제목(Title)과 전문(Lead)에서 중복출현하지 않는 육하원칙 구성성분을 결합하고, 본문은 각 문장에서 육하원칙 구성성분의 재사용성과 육하원칙 구성성분의 범주 증감을 파악하여 육하원칙 활성화도를 구하고, 전문기반 방법을 응용하여 각 문장의 상대적인 중요도에 따라 최종적인 가중치를 부여함으로써, 신문기사에서 중요한 문장을 효과적으로 추출할 수 있는 가중치 계산식을 제안하였다. 실험문서는 조선일보 웹사이트에서 제공하는 신문기사 100건을 대상으로 하였으며, 요약율이 30%일 경우 제안한 방법의 정확률은 74.7%로 기존의 전문기반(Lead-based method)방법보다 6.7% 향상되었다.
Keywords