DOI QR코드

DOI QR Code

Improving the effectiveness of document extraction summary based on the amount of sentence information

문장 정보량 기반 문서 추출 요약의 효과성 제고

  • 김은희 (조선대학교 컴퓨터공학과) ;
  • 임명진 (조선대학교 컴퓨터공학과) ;
  • 신주현 (조선대학교 신산업융합학부)
  • Received : 2022.03.07
  • Accepted : 2022.04.13
  • Published : 2022.04.30

Abstract

In the document extraction summary study, various methods for selecting important sentences based on the relationship between sentences were proposed. In the Korean document summary using the summation similarity of sentences, the summation similarity of the sentences was regarded as the amount of sentence information, and the summary sentences were extracted by selecting important sentences based on this. However, the problem is that it does not take into account the various importance that each sentence contributes to the entire document. Therefore, in this study, we propose a document extraction summary method that provides a summary by selecting important sentences based on the amount of quantitative and semantic information in the sentence. As a result, the extracted sentence agreement was 58.56% and the ROUGE-L score was 34, which was superior to the method using only the combined similarity. Compared to the deep learning-based method, the extraction method is lighter, but the performance is similar. Through this, it was confirmed that the method of compressing information based on semantic similarity between sentences is an important approach in document extraction summary. In addition, based on the quickly extracted summary, the document generation summary step can be effectively performed.

문서 추출 요약 연구에서는 문장 간 관계를 기반으로 중요한 문장을 선택하는 다양한 방법들이 제안되었다. 문장의 도합유사도를 이용한 한국어 문서 요약에서는 문장의 도합유사도를 문장 정보량으로 보고, 이를 기준으로 중요한 문장을 선택하여 요약문을 추출하였다. 그러나 이는 각 문장이 전체 문서에 기여하는 다양한 중요도를 고려하지 못한다는 문제가 있다. 이에 본 연구에서는 문장의 정량적 정보량과 의미적 정보량을 기반으로 중요한 문장을 선택하여 요약문을 제공하는 문서 추출 요약 방법을 제안한다. 실험 결과, 추출 문장 일치도는 58.56%, ROUGE 점수가 34로 비교 연구보다 우수한 성능을 보였으며, 딥러닝 기반 방법과 비교해 추출 방법은 가볍지만 성능은 유사하였다. 이를 통해 문장 간 의미적 유사성을 기반으로 정보를 압축해 나가는 방식이 문서 추출 요약에서 중요한 접근 방법임을 확인하였다. 또한 빠르게 추출된 요약문을 기반으로 문서 생성요약단계를 효과적으로 수행할 수 있으리라 기대한다.

Keywords

Acknowledgement

이 논문은 2021학년도 조선대학교 학술연구비의 지원을 받아 연구되었음

References

  1. M. Allahyari, S. Pouriyeh, M. Assefi et al., "Text summarization techniques: A brief survey," International Journal of Advanced Computer Science and Applications, vol. 8, no. 10, 2017.
  2. N. Chatterjee, A. Mittal and S. Goyal, "Single document extractive text summarization using Genetic Algorithms," 2012 Third International Conference on Emerging Applications of Information Technology, pp. 19-23, Kolkata, IndiaDec. 2012.
  3. N. S. Shirwandkar and S. Kulkarni, "Extractive Text Summarization Using Deep Learning," 2018 Fourth International Conference on Computing Communication Control and Automation (ICCUBEA), pp. 1-5, Pune, India, Aug. 2018.
  4. R. Elbarougy, G. Behery, and A. E. Khatib, "Extractive Arabic text summarization using modified PageRank algorithm," Egyptian Informatics Journal, vol. 21, no. 2, pp. 73-81, Jul. 2019. https://doi.org/10.1016/j.eij.2019.11.001
  5. 차준석, 김정인, 김판구, "단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법," 스마트미디어저널, 제6권, 제1호, 22-29쪽, 2017년 3월
  6. 이태석, 선충녕, 정영임, 강승식, "미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약," 스마트 미디어저널, 제8권, 제2호, 58-65쪽, 2019년 06월
  7. 김은희, 임명진, 신주현, "ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출방법," 스마트미디어저널, 제10권 제1호, 39-46쪽, 2021년 03월
  8. RADEV. Dragomir. R, HOVY. Eduard, MCKEOWN. Kathleen, "Introduction to the special issue on summarization," Computational linguistics, vol. 28, no. 4, pp. 399-408, Dec. 2002. https://doi.org/10.1162/089120102762671927
  9. BHARGAVA. Rupal, SHARMA. Yashvardhan, "Deep extractive text summarization," Procedia Computer Science, vol. 167, pp. 138-146, 2020. https://doi.org/10.1016/j.procs.2020.03.191
  10. 김재훈, 김준홍, "도합유사도를 이용한 한국어 추출문서 요약," 한국정보과학회 언어공학연구회 학술발표 논문집, 238-244쪽, 2000년. 10월
  11. 송현우, 오승환, 이승엽, "파이프라인을 사용한 한국어 문서 요약의 효과성 제고," 한국정보과학회 학술발표논문집, 1285-1287쪽, 2021년 12월
  12. NENKOVA, Ani; MCKEOWN, Kathleen. "A survey of text summarization techniques," Mining text data, Springer, Boston, MA, pp. 43-76, Jan. 2012.
  13. Li, Y., McLean, D., Bandar, Z.A., O'Shea, J.D., Crockett, K. "Sentence Similarity Based on Semantic Nets and Corpus Statistics," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 8, pp. 1138-1150, Aug. 2006. https://doi.org/10.1109/TKDE.2006.130
  14. JINGLING. Zhao, HUIYUN. Zhang, BAOJIANG. Cui, "Sentence similarity based on semantic vector model," 2014 Ninth International Conference on P2P, Parallel, Grid, Cloud and Internet Computing, IEEE, pp. 499-503, Guangdong, China, Nov. 2014.
  15. HUANG, Anna, et al. "Similarity measures for text document clustering," Proceedings of the sixth new zealand computer science research student conference (NZCSRSC2008),.pp. 9-56, Christchurch, New Zealand 2008.
  16. SALTON, Gerard, et al. "Automatic text structuring and summarization," Information processing & management, vol. 33, no. 2, pp. 193-207, Mar. 1997. https://doi.org/10.1016/S0306-4573(96)00062-3
  17. Mishra, Mridul K., and Jaydeep Viradiya. "Survey of Sentence Embedding Methods." International Journal of Applied Science and Computations, vol. 6, pp. 590-592, 2019.
  18. REIMERS, Nils; GUREVYCH, Iryna. Sentence-bert: "Sentence embeddings using siamese bert-networks," arXiv preprint arXiv:1908.10084, 2019.
  19. CER, Daniel, et al. "Universal sentence encoder," arXiv preprint arXiv:1803.11175, Apr. 2018.
  20. Aizawa, Akiko. "An information-theoretic perspective of tf-idf measures." Information Processing & Management, vol. 39, no. 1, pp. 45-65, Jan. 2003. https://doi.org/10.1016/S0306-4573(02)00021-3
  21. Qaiser, Shahzad, and Ramsha Ali. "Text mining: use of TF-IDF to examine the relevance of words to documents." International Journal of Computer Applications, vol. 181, no. 1, pp. 25-29, Jul. 2018. https://doi.org/10.5120/ijca2018917395
  22. 정운철, 고영중, 서정연, "2단계 문장 추출방법을 이용한 자동 문서 요약." 한국정보과학회 학술발표논문집, 제31권, 제1호(B), 910-912쪽, 2004년 4월
  23. Khandelwal, Urvashi, et al. "Sample efficient text summarization using a single pre-trained transformer," arXiv preprint arXiv:1905.08836 2019.
  24. Liu, Yang. "Fine-tune BERT for extractive summarization." arXiv preprint arXiv:1903.10318 2019.