DOI QR코드

DOI QR Code

An Experimental Study on Multi-Document Summarization for Question Answering

질의응답을 위한 복수문서 요약에 관한 실험적 연구

  • 최상희 (연세대학교 문헌정보학과) ;
  • 정영미 (연세대학교 문헌정보학과)
  • Published : 2004.09.01

Abstract

This experimental study proposes a multi-document summarization method that produces optimal summaries in which users can find answers to their queries. In order to identify the most effective method for this purpose, the performance of the three summarization methods were compared. The investigated methods are sentence clustering, passage extraction through spreading activation, and clustering-passage extraction hybrid methods. The effectiveness of each summarizing method was evaluated by two criteria used to measure the accuracy and the redundancy of a summary. The passage extraction method using the sequential bnb search algorithm proved to be most effective in summarizing multiple documents with regard to summarization precision. This study proposes the passage extraction method as the optimal multi-document summarization method.

이 연구에서는 이용자가 여러 곳에 분산되어 있는 문서들을 일일이 보지 않고 하나의 요약문에서 쉽게 질의에 맞는 답을 찾을 수 있는 가장 효율적인 방안을 제시하고자 하였다. 이를 위해, 클러스터링 기법, 단락확장 기법, 두 기법의 특성을 반영한 혼합 기법 등 세 가지 복수문서 요약 기법의 성능을 평가하는 실험을 수행하였다. 요약기법 평가 기준으로는 요약 정확률과 요약문내 정보 중복도를 적용하였다. 실험결과 이용자 질의에 따라 여러 문서를 요약하는 최적 기법으로 문장검색을 기반으로 한 순차적 단락확장 기법을 제안하였다. 순차적 단락확장은 특히, 용약의 대상이 되는 문서가 대용량인 환경에서 정확한 정보를 찾아 요약문을 생성하는 성능이 가장 우수한 것으로 나타났다.

Keywords

References

  1. 김정하. 2001. '이용자 중심 요약문 생성에 관한 실험적 연구'. 석사학위 논문, 연세대학교, 문헌정보학과
  2. 장동현. 2002. '문장 클러스터링을 통한 텍스트 자동요약에 관한 연구'. 박사학위논문, 충남대학교, 컴퓨터 공학과
  3. 정영미, 최상희. 2001. 문장 클러스터링에 기반한 자동요약 모형. '정보관리학회지', 18(3): 159-177
  4. 정영미. 1993. '정보검색론'. 개정판. 서울: 구미무역
  5. Barizilay, Regina, Elhadad, Noemie and Mckeown, Kathleen. 2002. 'Inferring Strategies for Sentence Ordering in Multidocument News Summarization'. Journal of Artificial Intelligence Research, 17: 35-55
  6. Barizilay, Regina. 2003. Information Fusion for Multidocument Summarization: Parephrasing and Generation. Phd. diss. Columbia University
  7. Callan, J. P. 1994. 'Passage-level Evidence in Documentation Retrieval', In Proceedings of the 17th Annual International ACM-SiGIR Conference on Research and Development in Information Retrieval, 302-309
  8. Clark, C. L. A., Cormack, G. V., Kisman, D. I. E and Lynam. T. R. 2001. 'Question Answering by Passage Selection.'
  9. Kaszkiel, M. and Zobel, J. 2001. 'Effective Ranking with Arbitrary Passages'. Journal of the American Society for Information Science and Technology, 52(4):344-364 https://doi.org/10.1002/1532-2890(2000)9999:9999<::AID-ASI1075>3.0.CO;2-#
  10. McKeown, K. and Radev, D. 1999. 'Generating summaries of multiple news articles' In Advances in Automatic Text Summarization. Cambridge: MIT Press
  11. Radeve, D. R., ling, H. and Budzikowska, M. 2000. 'Centroid-based Summarization of Multiple Documents: Sentence Extraction, Utility-based Evaluation and User Studies'. In PANLP/NAACL 2000 Workshop, 21-29
  12. Radeve, D. R., Jing, Hongyan, Stys, Malgorzata and Tam, Daniel. 2003. 'Centroid-based Summarization of Multiple Documents.'
  13. Sparck Jones, Karen. 1972. 'A Statistical Interpretation of Term Specificity and Its Application in Retrieval'. journal of Documentation, 28(1): 11-20 https://doi.org/10.1108/eb026526