A Study on an Automatic Summarization System Using Verb-Based Sentence Patterns

술어기반 문형정보를 이용한 자동요약시스템에 관한 연구

  • 최인숙 (연세대학교 문헌정보학과 시간강사) ;
  • 정영미 (연세대학교 문헌정보학과)
  • Published : 2001.12.01

Abstract

The purpose of this study is to present a text summarization system using a knowledge base containing information about verbs and their arguments that are statistically obtained from a subject domain. The system consists of two modules: the training module and the summarization module. The training module is to extract cue verbs and their basic sentence patterns by counting the frequency of verbs and case markers respectively, and the summarization module is substantiate basic sentence patterns and to generate summaries. Basic sentence patterns are substantiated by applying substantiation rules to the syntactics structure of sentences. A summary is then produced by connecting simple sentences that the are generated through the substantiation module of basic sentence patterns. ‘robbery’in the daily newspapers are selected for a test collection. The system generates natural summaries without losing any essential information by combining both cue verbs and essential arguments. In addition, the use of statistical techniques makes it possible to apply this system to other subject domains through its learning capability.

본 연구에서는 특정 주제분야의 텍스트를 대표할 수 있는 단어술어를 추출하고 기본문형을 형성 한 후 각 단서술어의 기본문형을 실례화하여 연결함으로써 요약문을 작성하는 자동요약시스템의 모형을 설계하고 구현하였다. 시스템은 학습과정과 요약과정을 구분되며, 학습과정에서는 술어와 격조사를 출현빈도를 이용하여 주제분야 텍스트집단을 대표하는 단어술어와 필수격 조사를 추출한 뒤 단어술어가 이루는 문장의 기본문형을 형성한다. 요약과정에서 실례화 규직을 요약 대상 문장의 구문 분석 결과에 적용하여 기본문형의 격조사와 결합될 논항을 찾아 단문을 생성하고 연결하여 요약문을 완성한다. ‘화재’및‘강도’와 관련된 신문기사를 대상으로 실험을 수행하였으며, 작성된 요약문은 단어술어가 포함된 주요 문장에서 추출한 필수 정보항목과 술어를 중심으로 생성된 문장들로서 문장간의 연결이 자연스러울 뿐 아니라 텍스트의 전체적인 의미를 표현할 수 있었다. 또한, 통계적 기법을 이용한 학습을 통해 주제영역의 확장이 가능하였다.

Keywords

References

  1. 제9회 한글 및 한국어 정보처리 학술대회 발표자료집 한국어문서의 통계적 정보를 이용한 문서요약시스템구현 강상배;조혁규;권혁철;박재득;박동인
  2. HAM: 한국어 분석 모듈 강승식
  3. 조선어 문형 연구 강은국
  4. 통계정보를 기반으로 한 어휘 관계 예측 김선호
  5. 제9회 한글 및 한국어 정보처리 학술대회 발표자료집 구문구조부착 말뭉치를 이용한 술어의 하위범주화 정보 구축 류법모;장명길;박수준;박재득;박동인
  6. 제3회 한글 및 한국어 정보처리 학술대회 발표자료집 한국어문서축약시스템의 설계 백혜승
  7. 제9회 한글 및 한국어 정보처리 학술대회 발표자료집 텍스트이해모델에 기반한 정보검색시스템 송인석;박혁로
  8. 제8회 한글 및 한국어 정보처리 학술대회 발표자료집 기계 번역을 위한 한국어 문장 패턴에 관한 연구 송재관;홍성웅;박찬곤
  9. 공기 관계 기반 어휘 연관도를 이용한 한국어 구문 분석 윤준태
  10. 제10회 한글 및 한국어 정보처리 학술대회 발표자료집 개념패턴과 통계정보를 이용한 한국어 미지격의 구문관계 결정 방법 이휘봉;강인수;이종혁
  11. 효과적인 정보제시를 위한 문서요약시스템의 개발 장동현
  12. 정보관리학회지 v.18 no.3 문장 클러스터링에 기반한 자동요약 모형 정영미;최상희
  13. 제10회 한글 및 한국어 정보처리 학술대회 발표자료집 구문분석에서의 중의성 해소를 위한 일반화된 어휘정보의 자동 구축 및 적용 정후중;황영숙;곽용재;박소영;임해창
  14. 자동초록을 위한 지식기반 시스템 설계에 관한 연구 최인숙
  15. IBM J. of Research and Development v.2 no.4 Machine-Made Index for Technical Literature-An Experient Baxendale, P.B.
  16. Inside Computer Understanding SAM Cullingford, R.;Schank, R. C.(ed.);C. K. Riesbeck(ed.)
  17. Cognitive v.3 Prediction and Substantiation: A New Approach to Natural Language Processing DeJong, G. F.
  18. J. of the ACM v.16 no.2 New Methods in Automatic Extracting Edmunson, H. P.
  19. Communications of the ACM v.4 no.5 Automatic Abstracting and Indexing- Survey and Recommendation Edmunson, H. P.;R. E. Wyllys
  20. In Proceedings of a Workshop on Intelligent Scalable Text Summarization Automated Text Summarization in SUMMARIST Hovy, E.;C. Y. Lin
  21. Communications of the ACM v.33 no.11 SCISOR: Extracting Information from On-line News Jacobs, P.S.;L.F. Rau
  22. In Proceedings of 18th ACM-SIGIR Conference A Trainable Document Summarizer Kupiec, J.;J. Pedersen;F. Chen
  23. IBM J. of Research and Development v.2 no.2 The automatic Creation of Literature Abstracts Luhn, H. P.
  24. In Proceedings of 13th National Conference on AI v.2 Building up Rhetorical Structure Trees Marcu, D.
  25. In Proceedings of the eighteenth Annual International ACM SIGIR Conference on Research and Development in IR Generating Summaries of Multiple News Articles McKweown, K. R.;D. R. Radev
  26. Computational Linguistics v.17 no.1 Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of the Text Morris, J.;G. Hirst
  27. In Proceeding of the 15th International Conference on Computational Linguistics (COLING-94) v.1 Abstract Generation based on Rhetorical Structure Extraction Ono, K.;K. Sumita;S. Miike
  28. In Proceedings of the 16th ACM-SIGIR The Identification of Important Concepts in Highly Structured Technical Papers Paice, C. D.;P. A. Jones
  29. Information Processing and Management v.23 no.4 Knowledge Organization and Access in a Conceptual Information System Rau, L. F.
  30. Information Processing and Management v.33 no.2 Automatic Text Structuring and Summarization Salton, G.;A. Singhal;M. Mitra;C. Buckley
  31. In IFIP Congress v.71 Adaptive Method of Automatic Abstracting and Indexing Skorokhod'ko, E. F.
  32. In Proceedings of the American Society for Information Science Annual Meeting v.14 Experiments with an Automatic Abstracting System Taylor, S. L.;K. Krulee