BART with Random Sentence Insertion Noise for Korean Abstractive Summarization

무작위 문장 삽입 노이징을 적용한 BART 기반의 한국어 문서 추상 요약

  • Park, Juhong (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Kwon, Hongseok (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Lee, Jong-Hyeok (Pohang University of Science and Technology, Graduate School of Artificial Intelligence)
  • 박주홍 (포항공과대학교 컴퓨터공학과) ;
  • 권홍석 (포항공과대학교 컴퓨터공학과) ;
  • 이종혁 (포항공과대학교 인공지능대학원)
  • Published : 2020.10.14

Abstract

문서 요약은 입력 문서의 핵심 내용을 파악하여 짧고 간결한 문장으로 나타내는 과정이다. 최근에는 문서 요약을 위해 사전 학습된 언어 모델을 이용하는 방식이 여럿 제안되고 있지만, 이러한 언어 모델들은 문서 요약의 특성을 고려하지 않고 설계된 입력 노이즈 방식을 사용하는 한계점이 있다. 본 논문에서는 한국어 문서 추상 요약에 사전 학습 언어 모델인 BART를 도입하고, 입력 문서에 무작위 문장을 삽입하는 노이징 방식을 추가하여 문서 추상 요약 모델의 언어 이해 능력을 향상시키는 방법론을 제안한다. 실험 결과, BART를 도입한 문서 요약 모델의 결과는 다른 요약 모델들의 결과에 비해 전반적으로 품질 향상을 보였으며, BART와 함께 무작위 문장을 삽입하는 노이징 방법은 적은 비율로 삽입하는 경우 추가적인 성능 향상을 보였다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No. 2019-0-01906, 인공지능대학원지원(포항공과대학교))과 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 ICT명품인재양성사업의 연구결과로 수행되었음. (IITP-2020-2011-1-00783)