DOI QR코드

DOI QR Code

Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축

  • Received : 2021.06.30
  • Accepted : 2021.09.14
  • Published : 2022.03.31

Abstract

Sentence compression is a natural language processing task that generates concise sentences that preserves the important meaning of the original sentence. For grammatically appropriate sentence compression, early studies utilized human-defined linguistic rules. Furthermore, while the sequence-to-sequence models perform well on various natural language processing tasks, such as machine translation, there have been studies that utilize it for sentence compression. However, for the linguistic rule-based studies, all rules have to be defined by human, and for the sequence-to-sequence model based studies require a large amount of parallel data for model training. In order to address these challenges, Deleter, a sentence compression model that leverages a pre-trained language model BERT, is proposed. Because the Deleter utilizes perplexity based score computed over BERT to compress sentences, any linguistic rules and parallel dataset is not required for sentence compression. However, because Deleter compresses sentences only considering perplexity, it does not compress sentences by reflecting the linguistic information of the words in the sentences. Furthermore, since the dataset used for pre-learning BERT are far from compressed sentences, there is a problem that this can lad to incorrect sentence compression. In order to address these problems, this paper proposes a method to quantify the importance of linguistic information and reflect it in perplexity-based sentence scoring. Furthermore, by fine-tuning BERT with a corpus of news articles that often contain proper nouns and often omit the unnecessary modifiers, we allow BERT to measure the perplexity appropriate for sentence compression. The evaluations on the English and Korean dataset confirm that the sentence compression performance of sentence-scoring based models can be improved by utilizing the proposed method.

문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(No.2020R1A4A1018607)과 정보통신기획평가원의 지원(No.2013-0-00109, WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술개발)을 받아 수행된 연구임.

References

  1. H. Jing, "Sentence Reduction for Automatic Text Summarization," In Proceedings of the 6th Applied Natural Language Processing Conference, Seattle, pp.310-315, 2000.
  2. K. Filippova, E. Alfonseca, C. Colmenares, L. Kaiser, and O. Vinyals, "Sentence compression by deletion with LSTMs," In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Lisbon, pp.360-368, 2015.
  3. T. Niu, C. Xiong, and R. Socher, "Deleter: Leveraging BERT to perform unsupervised successive text compression," arXiv preprint arXiv:1909.03223, 2019.
  4. K. Filippova and Y. Altun, "Overcoming the lack of parallel data in sentence compression," In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Seattle, pp.1481-1491, 2013.
  5. I. Jung, S. Choi, and S. Park, "Single sentence summarization with an event word attention mechanism," Journal of Korean Institute of Information Scientists and Engineers, Vol.47, No.2, pp.155-161, 2020.
  6. K. Knight and D. Marcu, "Statistics-based summarization-step one: Sentence compression," In Proceedings of the Conference on Innovative Applications of Artificial Intelligence, Texas, pp.703-710, 2000.
  7. T. Berg-Kirkpatrick, D. Berg-Kirkpatrick, and D. Klein, "Jointly learning to extract and compress," In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pp.481-490, 2011.
  8. K. Filippova and M. Strube, "Dependency tree based sentence compression," In Proceedings of the Fifth International Natural Language Generation Conference, pp.25-32, 2008.
  9. I. Sutskever, O. Vinyals, and Q. Le, "Sequence to sequence learning with neural networks," In Proceedings of the Advances in Neural Information Processing Systems, pp.3104-3112, 2014.
  10. D. Bahdanau, K. Cho, and Y. Bengio, "Neural machine translation by jointly learning to align and translate," In Proceedings of the International Conference on Learning Representations, San Diego, 2015.
  11. G. Lee, "A study on korean document summarization using extractive summarization and sentence compression," Ph.D. Dissertation. Chungnam National University, Korea, 2020.
  12. G. Lee, Y. Park, and K. Lee, "Building a Korean sentence-compression corpus by analyzing sentences and deleting words," Journal of Korean Institute of Information Scientists and Engineers, Vol.48, No.2, pp.193-194, 2021.