Implementation of the Text Abstraction System using the Statistical Information of Korean Documents

Kang, Sang-Bae;Cho, Hyuk-Kyu;Kwon, Hyuk-Chul;Park, Jae-Deuk;Park, Dong-In;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

1997.10a
/
Pages.28-33
/
1997
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Implementation of the Text Abstraction System using the Statistical Information of Korean Documents

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현

Kang, Sang-Bae (Pusan National University, Department of Computer Science) ;
Cho, Hyuk-Kyu (Sungsim Junior College of Foreign Languages, Dept. of Management Information) ;
Kwon, Hyuk-Chul (Pusan National University, Department of Computer Science) ;
Park, Jae-Deuk (SERI, Dept. of NL Information Processing) ;
Park, Dong-In (SERI, Dept. of NL Information Processing)

강상배 (부산대학교 전자계산학과) ;
조혁규 (성심외국어전문대학 경영정보과) ;
권혁철 (부산대학교 전자계산학과) ;
박재득 (시스템공학연구소 자연어정보처리연구부) ;
박동인 (시스템공학연구소 자연어정보처리연구부)

Published : 1997.10.10

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Implementation of the Text Abstraction System using the Statistical Information of Korean Documents

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현

Abstract

Keywords