Generating Contextual Answers Through Latent Weight Attention Calculations based on Latent Variable Modeling

잠재 변수 모델링 기반 잠재 가중치 어텐션 계산을 통한 문맥적 답변 생성 기법

  • Jong-won Lee (Dept. of Computer Software, Han-Yang University) ;
  • In-whee Joe (Dept. of Computer Science, Han-Yang University)
  • 이종원 (한양대학교 컴퓨터소프트웨어학과) ;
  • 조인휘 (한양대학교 컴퓨터공학과 )
  • Published : 2024.05.23

Abstract

최근 많은 분야에서 인공지능을 사용한 산업이 각광을 받고 있고 그중 챗-GPT 로 인하여 챗봇에 관한 관심도가 높아져 관련 연구가 많이 진행되고 있다. 특히 질문에 대한 답변을 생성해주는 분야에 대한 연구가 많이 이루어지고 있는데, 질문-답변의 데이터 셋에 대한 학습 방식보다는 질문-답변-배경지식으로 이루어진 데이터 셋에 대한 학습 방식이 많이 연구가 되고 있다. 그러다 보니 배경지식을 어떤 방식으로 모델에게 이해를 해줄 지가 모델 성능에 큰 부분 차지한다. 그리고 최근 연구에 따르면 이러한 배경지식 정보를 이해시키기 위해 잠재 변수 모델링 기법을 활용하는 것이 높은 성능을 갖는다고 하고 트랜스포머 기반 모델 중 생성 문제에서 강점을 보이는 BART(Bidirectional Auto-Regressive Transformer)[1]도 주로 활용된다고 한다. 본 논문에서는 BART 모델에 잠재 변수 모델링 기법 중 잠재 변수를 어텐션에 곱하는 방식을 이용한 모델을 통해 답변 생성 문제에 관한 해결법을 제시하고 그에 대한 결과로 배경지식 정보를 담은 답변을 보인다. 생성된 답변에 대한 평가는 기존에 사용되는 BLEU 방식과 배경지식을 고려한 방식의 BLEU 로 평가한다.

Keywords

References

  1. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension" Meeting of the Association for Computational Linguistics (ACL 2020), Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 7871-7880, 2020.
  2. Wei Chen, Yeyun Gong, Song Wang, Bolun Yao, Weizhen Qi, Zhongyu Wei, Xiaowu Hu, Bartuer Zhou, Yi Mao, Weizhu Chen, Biao Cheng and Nan Duan "Dialog VED: A Pre-trained Latent Variable Encoder-Decoder Model for Bialog Response Generation" Meeting of the Association for Computational Linguistics (ACL 2022) Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 4852-4864, 2022.
  3. Wen Zheng, Natasa Milic-Frayling, Ke Zhou "Contextual Knowledge Learning For Dialogue Generation" Meeting of the Association for Computational Linguistics (ACL 2023), Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 7822-7839, 2023.
  4. Ruijun Chen, Jin Wang, Liang-Chih Yu and Xuejie Zhang "Learning to Memorize Entailment and Discourse Relations for Persona-Consistent Dialogues" Association for the Advancement of Artificial Intelligence (AAAI 2023), The Thirty-Seventh AAAI Conference on Artificial Intelligence, 12653-12661, 2023.
  5. Tiancheng Zhao, Ran Zhao, Maxine Eskenazi, "Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders", Meeting of the Association for Computational Linguistics (ACL 2017), Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 654-664, 2017
  6. Thomas Wolf, Victor Sanh, Julien Chaumond, Clement Delangue "TransferTransfo: A Transfer Learning Approach for Neural Network Based Conversational Agents" Conference on Neural Information Processing Systems (NeurIPS 2019), Proceedings of the 32nd International Conference on Neural Information Processing Systems, 2019
  7. Adina Williams, Nikita Nangia, Samuel Bowman, "A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference" Meeting of the Association for Computational Linguistics (ACL 2018), Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1112-1122, 2018.
  8. Ramon Sanabria, Shruti Palaskar and Florian Metze "CMU Sinbad's Submission for the DSTC7 AVSD Challenge" Association for the Advancement of Artificial Intelligence (AAAI 2019), 2019