Unpaired Korean Text Style Transfer with Masked Language Model

마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환

  • 배장성 (강원대학교 컴퓨터과학과) ;
  • 이창기 (강원대학교 컴퓨터과학과) ;
  • 황정인 (엔씨소프트 NLP Center Language AI Lab) ;
  • 노형종 (엔씨소프트 NLP Center Language AI Lab)
  • Published : 2021.10.14

Abstract

텍스트 스타일 변환은 입력 스타일(source style)로 쓰여진 텍스트의 내용(content)을 유지하며 목적 스타일(target style)의 텍스트로 변환하는 문제이다. 텍스트 스타일 변환을 시퀀스 간 변환 문제(sequence-to-sequence)로 보고 기존 기계학습 모델을 이용해 해결할 수 있지만, 모델 학습에 필요한 각 스타일에 대응되는 병렬 말뭉치를 구하기 어려운 문제점이 있다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행하는 방법들이 연구되고 있다. 이 연구들은 주로 인코더-디코더 구조의 생성 모델을 사용하기 때문에 입력 문장이 가지고 있는 내용이 누락되거나 다른 내용의 문장이 생성될 수 있는 문제점이 있다. 본 논문에서는 마스크 언어 모델(masked language model)을 이용해 입력 텍스트의 내용을 유지하면서 원하는 스타일로 변경할 수 있는 텍스트 스타일 변환 방법을 제안하고 한국어 긍정-부정, 채팅체-문어체 변환에 적용한다.

Keywords

Acknowledgement

이 논문은 엔씨소프트의 "인터넷 채팅체에 적응하는 말뭉치 자동 확장 연구" 과제의 지원을 받아 수행된 연구임 이 논문은 한국연구재단의 "딥러닝 기반의 한국어 텍스트 스타일 변환 기술 연구" 과제의 지원을 받아 수행된 연구임(No. NRF2021R1F1A106440311)