한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법

Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model

  • 김훈래 (포항공과대학교 인공지능대학원) ;
  • 김윤수 (포항공과대학교 인공지능대학원) ;
  • 이근배 (포항공과대학교 인공지능대학원)
  • Hoonrae Kim (Graduate School of Artificial Intelligence, Pohang University of Science and Technology) ;
  • Yunsu Kim (Graduate School of Artificial Intelligence, Pohang University of Science and Technology) ;
  • Gary Geunbae Lee (Graduate School of Artificial Intelligence, Pohang University of Science and Technology)
  • 발행 : 2022.10.18

초록

문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

키워드

과제정보

이논문은2022년도정부(과학기술정보통신부)의재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2022-0-00223, (세부2) 자폐증 환자의 의사소통 능력 향상을 위한 디지털치료제 개발) 본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음(IITP-2022-2020-0-01789)