DOI QR코드

DOI QR Code

Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약

  • Received : 2019.09.27
  • Accepted : 2019.12.20
  • Published : 2019.06.30

Abstract

Automatic text summarization is a process of shortening a text document by either extraction or abstraction. The abstraction approach inspired by deep learning methods scaling to a large amount of document is applied in recent work. Abstractive text summarization involves utilizing pre-generated word embedding information. Low-frequent but salient words such as terminologies are seldom included to dictionaries, that are so called, out-of-vocabulary(OOV) problems. OOV deteriorates the performance of Encoder-Decoder model in neural network. In order to address OOV words in abstractive text summarization, we propose a copy mechanism to facilitate copying new words in the target document and generating summary sentences. Different from the previous studies, the proposed approach combines accurate pointing information and selective copy mechanism based on bidirectional RNN and bidirectional LSTM. In addition, neural network gate model to estimate the generation probability and the loss function to optimize the entire abstraction model has been applied. The dataset has been constructed from the collection of abstractions and titles of journal articles. Experimental results demonstrate that both ROUGE-1 (based on word recall) and ROUGE-L (employed longest common subsequence) of the proposed Encoding-Decoding model have been improved to 47.01 and 29.55, respectively.

문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

Keywords

References

  1. Mehdi Allahyari, Seyedamin Pouriyehy, Mehdi Assefiy, Saeid Safaeiy, Elizabeth D. Trippez, Juan B. Gutierrezz, and Krys Kochuty, "Text Summarization Techniques, A Brief Survey", arXiv preprint, arXiv:1707.02268, Jul. 2017.
  2. 차준석, 김정인, 김판구, "단어 간 의미적 연관성을 고료한 어휘 체인 기반의 개선된 자동 문서요약 방법," 스마트미디어저널, 제6권, 제1호, 22-29쪽, 2017년 3월
  3. Jianpeng Cheng and Mirella Lapata, "Neural summarization by extracting sentences and words," Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pp. 484-494, Aug. 2016.
  4. Gaetano Rossiello, Pierpaolo Basile, and Giovanni Semeraro, "Centroid-based Text Summarization through Compositionality of Word Embeddings," Proceedings of the MultiLing 2017 Workshop on Summarization and Summary Evaluation Across Source Types and Genres, pp. 12-21. Apr. 2017.
  5. Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, and Geoffrey Hinton, "Grammar as a Foreign Language," arXiv preprint, arXiv:1412.7449, Jun. 2015.
  6. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, "Neural machine translation by jointly learning to align and translate," arXiv preprint, arXiv:1409.0473, May 2014.
  7. Ilya Sutskever, Oriol Vinyals, and Quoc V. Le, "Sequence to Sequence Learning with Neural Networks," arXiv preprint, arXiv:1409.3215, Dec. 2014.
  8. 이태석, 강승식, "LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기," 스마트미디어저널, 제7권, 제4호, 17-23쪽, 2018년 12월 https://doi.org/10.30693/smj.2018.7.4.17
  9. 이현영, 강승식, "워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링," 스마트미디어저널, 제7권, 제4호, 24-29쪽, 2018년 12월 https://doi.org/10.30693/smj.2018.7.4.24
  10. 옹윤지, 강승식, "터치스크린 환경에서 쿼티 자판 오타교정을 위한 n-gram 언어 모델," 스마트미디어저널, 제7권, 제2호, 54-59쪽, 2018년 6월 https://doi.org/10.30693/SMJ.2018.7.2.54
  11. Jiatao Guy, Zhengdong Luz, Hang Liz Victor, and O.K. Liy, "Incorporating Copying Mechanism in Sequence-to-Sequence Learning," Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics pp. 1631-1640, Berlin, Germany, Aug. 2016.
  12. 최경호, 이창기, "Copy Mechanism과 Input Feeding을 이용한 End-to-End 한국어 문서요약", 제28회 한글 및 한국어 정보처리 학술대회 논문집, 56-61쪽, 2016년 10월
  13. Kavita Ganesan, "ROUGE 2.0: Updated and Improved Measures for Evaluation of Summarization Tasks," arXiv Preprint, arXiv:1803.01937, Mar 2018.
  14. ROUGE automatic summarization evaluation toolkit (2018), https://kavgan.github.io/ROUGE-2.0/ (accessed Jan., 25, 2019).