DOI QR코드

DOI QR Code

Summarization of Korean Dialogues through Dialogue Restructuring

대화문 재구조화를 통한 한국어 대화문 요약

  • 김은희 (조선대학교 컴퓨터공학과) ;
  • 임명진 (조선대학교 신산업융합학부) ;
  • 신주현 (조선대학교 신산업융합학부)
  • Received : 2023.09.25
  • Accepted : 2023.11.14
  • Published : 2023.12.29

Abstract

After COVID-19, communication through online platforms has increased, leading to an accumulation of massive amounts of conversational text data. With the growing importance of summarizing this text data to extract meaningful information, there has been active research on deep learning-based abstractive summarization. However, conversational data, compared to structured texts like news articles, often contains missing or transformed information, necessitating consideration from multiple perspectives due to its unique characteristics. In particular, vocabulary omissions and unrelated expressions in the conversation can hinder effective summarization. Therefore, in this study, we restructured by considering the characteristics of Korean conversational data, fine-tuning a pre-trained text summarization model based on KoBART, and improved conversation data summary perfomance through a refining operation to remove redundant elements from the summary. By restructuring the sentences based on the order of utterances and extracting a central speaker, we combined methods to restructure the conversation around them. As a result, there was about a 4 point improvement in the Rouge-1 score. This study has demonstrated the significance of our conversation restructuring approach, which considers the characteristics of dialogue, in enhancing Korean conversation summarization performance.

COVID-19 이후 온라인을 통한 소통이 증가하여 다양한 플랫폼을 기반으로 소통을 위한 대화 텍스트 데이터가 대량으로 축적되고 있다. 텍스트 데이터로부터 유의미한 정보를 추출하기 위한 텍스트 요약에 대한 중요성이 더욱 증가함에 따라 딥러닝을 활용한 추상 요약 연구가 활발하게 이루어지고 있다. 그러나 대화 데이터는 뉴스 기사와 같은 정형화된 텍스트에 비해 누락 및 변형이 많아 대화 상황을 다양한 관점에서 고려해야 하는 특이성이 있다. 특히 어휘 생략과 동시에 내용과 관련 없는 표현 요소들이 대화의 내용을 요약하는 데 방해가 된다. 그러므로 본 연구에서는 한국어 대화 데이터의 특성을 고려하여 발화문을 재구조화하고 KoBART 기반의 사전학습된 텍스트 요약 모델을 파인 튜닝후, 요약문에서 중복 요소를 제거하는 정제 작업을 통해 대화 데이터 요약 성능을 향상시키고자 한다. 발화문을 재구조화하는 방법으로는 발화 순서에 따라 재구조화는 방법과 중심 발화자를 기준으로 재구조화하는 방법을 결합하였다. 대화문 재구조화 방법을 적용한 결과, Rouge-1 점수가 4 정도 향상되었다. 본 연구의 대화 특성을 고려한 재구조화 방법이 한국어 대화 요약 성능 향상에 유의미함을 입증하였다.

Keywords

Acknowledgement

본 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구(No. 2023R1A2C1006419)이며, 2023학년도 조선대학교 학술연구비의 지원을 받아 연구되었음.

References

  1. Jun Seok Cha, Jeong In Kim, Jung Min Kim, "An Improved Automatic Text Summarization Based on Lexical Chaining Using Semantical Word Relatedness," Smart Media Journal, Vol. 6, No. 1, pp. 22-29, 2017.
  2. Mingyu Jeon, Namgyu Kim, "Semantic Pre-training Methodology for Improving Text Summarization Quality," Smart Media Journal, Vol. 12, No. 5, pp. 17-27, Jun. 2023. https://doi.org/10.30693/SMJ.2023.12.5.17
  3. SEE, Abigail, LIU, Peter J., MANNING, Christopher D., "Get to the point: Summarization with pointer-generator networks," arXiv preprint arXiv:1704.04368, 2017.
  4. Hakami, Nada Ali, and Hanan Ahmed Hosni Mahmoud. "A Dual Attention Encoder-Decoder Text Summarization Model," Computers, Materials & Continua, Vol. 74, No. 2, 2023.
  5. Zhang, Haoyu, Jianjun Xu, and Ji Wang. "Pretraining-based natural language generation for text summarization," arXiv preprint arXiv:1902.09243, 2019.
  6. Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer," The J ournal of Machine Learning Research, Vol. 21, no. 1, 2020.
  7. Lewis, Mike, et al. "Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension," arXiv preprint arXiv:1910.13461, 2019.
  8. Zhang, Jingqing, et al. "Pegasus: Pre-training with extracted gap-sentences for abstractive summarization," Proceedings of the 37th International Conference on Machine Learning, vol. 119, pp. 11328-11339, Jul. 2020.
  9. Taeho Kim, Hyung-Jun Jang, Sang-Wook Kim, "Pre-trained Language Models in Multi-Goal Conversational Recommender Systems," Smart Media Journal, Vol. 12, No. 6, pp. 35-40, Jun. 2023. https://doi.org/10.30693/SMJ.2023.12.6.35
  10. Yadav, Hemant, Nehal Patel, and Dishank Jani. "Fine-Tuning BART for Abstractive Reviews Summarization," Computational Intelligence: Select Proceedings of InCITe 2022, pp. 375-385, Singapore: Springer Nature Singapore, 2023.
  11. Nam, Wongyung, Jisoo Lee, and BEAKCHEOL JANG. "Text summarization of dialogue based on BERT," Journal of The Korea Society of Computer and Information, Vol. 27, No. 8, 2022.
  12. Ganesh, Prakhar, and Saket Dingliwal. "Restructuring conversations using discourse relations for zero-shot abstractive dialogue summarization," arXiv preprint arXiv:1902.01615, 2019.
  13. Chen, Jiaao, and Diyi Yang. "Multi-view sequence-to-sequence models with conversational structure for abstractive dialogue summarization," arXiv preprint arXiv:2010.01672, 2020.