Various Paraphrase Generation Using Sentence Similarity

문장 유사도를 이용한 다양한 표현의 패러프레이즈 생성

  • Published : 2021.10.14

Abstract

패러프레이즈란 어떤 문장을 같은 의미를 가지는 다른 단어들을 사용하여 표현한 것들을 의미한다. 이는 정보 검색, 다중 문서 요약, 질의응답 등 여러 자연어 처리 분야에서 중요한 역할을 한다. 특히, 양질의 패러프레이즈 코퍼스를 얻는 것은 많은 시간 및 비용이 소요된다. 이러한 문제점을 해소하기 위해 본 논문에서는 문장 유사도를 이용한 패러프레이즈 쌍을 구축하고, 또 구축한 패러프레이즈 쌍을 이용하여 기계 학습을 통해 새로운 패러프레이즈을 생성한다. 제안 방식으로 생성된 패러프레이즈 쌍은 기존의 구축되어 있는 코퍼스 내 나타나는 표현들로만 구성된 페러프레이즈 쌍이라는 단점이 존재한다. 이러한 단점을 해소하기 위해 기계 학습을 이용한 실험을 진행하여 새로운 표현에 대한 후보군을 추출하는 방법을 적용하여 새로운 표현이라고 볼 수 있는 후보군들을 추출하여 기존의 코퍼스 내 새로운 표현들이 생성된 것을 확인할 수 있었다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.2020-0-00113, 이종정보 활용 및 데이터융합을 통한 데이터증식 기술 개발)