A Text Summarization Model Based on Sentence Clustering

문장 클러스터링에 기반한 자동요약 모형

  • 정영미 (연세대학교 문헌정보학과) ;
  • 최상희 (연세대학교 문헌정보학과 시간강사)
  • Published : 2001.09.01

Abstract

This paper presents an automatic text summarization model which selects representative sentences from sentence clusters to create a summary. Summary generation experiments were performed on two sets of test documents after learning the optimum environment from a training set. Centroid clustering method turned out to be the most effective in clustering sentences, and sentence weight was found more effective than the similarity value between sentence and cluster centroid vectors in selecting a representative sentence from each cluster. The result of experiments also proves that inverse sentence weight as well as title word weight for terms and location weight for sentences are effective in improving the performance of summarization.

본 연구에서는 문장 클러스터로부터 대표문장을 선정하여 요약문을 생성하는 자동요약 모형을 제시하고. 학습문서 집단을 미용하여 최적의 요약 환경을 구축한 후 요약 실험을 수행하였다. 학습 과정에서 문장의 클러스터링 기법으로는 7개의 계층적 기법들을 비교한 결과 클러스터를 구성하는 문장 수의 편차가 가장 적고 단일 문장 클러스터를 가장 적게 생성하는 센트로이드 기법이 선택되었다. 또한 각 클러스터를 대표하는 문장의 선정을 위해 용어 및 문장 가중치를 합산한 문장값과 클러스터-문장 벡터간 유사도의 두 기준을 비교한 결과 문장값 기준이 선택되었다. 용어 가중치로는 역문장빈도와 표제어 가중치, 그리고 문장의 위치 가중치가 자동요약 성능을 개선시키는 것으로 나타났으며, 적절한 요약문의 길이는 전체 문서의 1/3인 것으로 나타났다. 실험문서 집단으로는 문서의 길이와 특성이 다른 신문기사와 잡지기사의 두 집단을 이용하였다. 요약 모형의 검증 실험 결과 요약 정확률은 신문기사 집단에서는 53%, 잡지기사 집단에서는 47%인 것으로 나타났다. 두 실험 모두 랜덤하게 생성한 베이스라인 요악문보다 성능이 우수하였으나, 리드문장들로 구성된 베이스라인 요약문과의 비교에서는 짧은 길이의 신문기사의 경우 요약 모형의 성능이 오히려 떨어지는 것으로 나타났다.

Keywords

References

  1. 한국어 초록 작성의 자동화에 관한 연구: 미생물학 분야 학술지의 논문을 대상으로 이태영
  2. 정보과학회지 v.15 no.10 자동요약시스템 장동현;맹성현
  3. IBM Journal of Research and Development v.2 no.4 Machine - Made Index for Technical Literature - An Experiment Baxendale, P. B.
  4. Information Processing & Management v.31 no.5 Automatic Condensation of Electronic Publications BY Sentence Selection Brandow, Ronald;Karl Mitze;Lisa F. Rau
  5. In Inside Computer Understanding: Five Programs Plus Miniatures Sam Cullingford, R. E.;Schank, R. C.;C. K. Risebeck(eds.)
  6. Journal of the Association for Computing Machinery v.16 no.2 New Methods in Automatic Extracting Edmunson, H. P.
  7. IBM Journal of Rearch and Development v.2 no.2 The Automatic Creation of Literature Abstracts Luhn, H. P.
  8. In Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Generating Summaries of Multiple News Articles Mckeown, K.;D. Radev
  9. In Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval A Trainable Document Summarizer Kupiec, J.;J. Pedersen;F. Chen
  10. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval The Identification of Important Concepts in Highly Structured Technical Papers Paice, C. D.;P. A. Jones
  11. Journal of American Society for Information Sciences v.22 no.4 Automatic abstracting and indexing. Production of indicative abstracts by application of contextual inference and syntactic coherence criteria Rush, J. E.;R. Salvador;A. Zamora
  12. Information Processing & Management v.33 no.2 Automatic Text Structuring and Summarization Salton, Gerard;Amit Singhal;Mandar Mitra;Chris Buckley
  13. Information Retrieval Research Conceptual information retrieval Schank, R. C.;J. L. Kolodner;G. DeJong;Oddy, R. N.;S. E. Roberiton;C. J. van Rijsbergen;P. W. William
  14. In Proceedings of IFIP Congress Adaptive Method of Automatic Abstracting and Indexing Skorokhod'ko, E. F.