SNS 채팅 데이터에 적응적인 Self-Attention 기반 문맥의존 철자오류 교정 시스템

Adaptive Context-Sensitive Spelling Error Correction System Based on Self-Attention for Social Network Service Chatting Data

  • 최혜원 (동아대학교 컴퓨터공학과) ;
  • 장대식 (동아대학교 수학과) ;
  • 손동철 (동아대학교 컴퓨터공학과) ;
  • 이승욱 (동아대학교 컴퓨터공학과) ;
  • 고영중 (성균관대학교 데이터사이언스융합학과)
  • Choi, Hyewon (Department of Computer Science and Engineering, Dong-A University) ;
  • Jang, Daesik (Department of Mathematics, Dong-A University) ;
  • Son, Dongcheol (Department of Computer Science and Engineering, Dong-A University) ;
  • Lee, Seungwook (Department of Computer Science and Engineering, Dong-A University) ;
  • Ko, Youngjoong (Department of Applied Data Science, Sungkyunkwan University)
  • 발행 : 2019.10.10

초록

본 논문에서는 Self-Attention을 활용한 딥러닝 기반 문맥의존 철자오류 교정 모델을 제안한다. 문맥의존 철자오류 교정은 최근 철자오류 교정 분야에서 활발히 연구되고 있는 문제 중 하나이다. 기존에는 규칙 기반, 확률 기반, 임베딩을 활용한 철자오류 교정이 연구되었으나, 아직 양질의 교정을 수행해내기에는 많은 문제점이 있다. 따라서 본 논문에서는 기존 교정 모델들의 단점을 보완하기 위해 Self-Attention을 활용한 문맥의존 철자오류 교정 모델을 제안한다. 제안 모델은 Self-Attention을 활용하여 기존의 임베딩 정보에 문맥 의존적 정보가 반영된 더 나은 임베딩을 생성하는 역할을 한다. 전체 문장의 정보가 반영된 새로운 임베딩을 활용하여 동적으로 타겟 단어와의 관련 단어들을 찾아 문맥의존 철자 오류교정을 시행한다. 본 논문에서는 성능평가를 위해 세종 말뭉치를 평가 데이터로 이용하여 제안 모델을 실험하였고, 비정형화된 구어체(Kakao Talk) 말뭉치로도 평가 데이터를 구축해 실험한 결과 비교 모델보다 높은 정확율과 재현율의 성능향상을 보였다.

키워드

과제정보

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기술진흥센터의 지원을 받아 수행된 연구임 (No.2017-0-00550, 기계학습용 텍스트 데이터 레이블 자동생성 및 검증도구 개발)