Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 1997.10a
- /
- Pages.28-33
- /
- 1997
- /
- 2005-3053(pISSN)
Implementation of the Text Abstraction System using the Statistical Information of Korean Documents
한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현
- Kang, Sang-Bae (Pusan National University, Department of Computer Science) ;
- Cho, Hyuk-Kyu (Sungsim Junior College of Foreign Languages, Dept. of Management Information) ;
- Kwon, Hyuk-Chul (Pusan National University, Department of Computer Science) ;
- Park, Jae-Deuk (SERI, Dept. of NL Information Processing) ;
- Park, Dong-In (SERI, Dept. of NL Information Processing)
- 강상배 (부산대학교 전자계산학과) ;
- 조혁규 (성심외국어전문대학 경영정보과) ;
- 권혁철 (부산대학교 전자계산학과) ;
- 박재득 (시스템공학연구소 자연어정보처리연구부) ;
- 박동인 (시스템공학연구소 자연어정보처리연구부)
- Published : 1997.10.10
Abstract
이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.
Keywords