Adaptive Context-Sensitive Spelling Error Correction System Based on Self-Attention for Social Network Service Chatting Data

Choi, Hyewon;Jang, Daesik;Son, Dongcheol;Lee, Seungwook;Ko, Youngjoong;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
/
Pages.362-367
/
2019
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

SNS 채팅 데이터에 적응적인 Self-Attention 기반 문맥의존 철자오류 교정 시스템

Adaptive Context-Sensitive Spelling Error Correction System Based on Self-Attention for Social Network Service Chatting Data

최혜원 (동아대학교 컴퓨터공학과) ;
장대식 (동아대학교 수학과) ;
손동철 (동아대학교 컴퓨터공학과) ;
이승욱 (동아대학교 컴퓨터공학과) ;
고영중 (성균관대학교 데이터사이언스융합학과)

Choi, Hyewon (Department of Computer Science and Engineering, Dong-A University) ;
Jang, Daesik (Department of Mathematics, Dong-A University) ;
Son, Dongcheol (Department of Computer Science and Engineering, Dong-A University) ;
Lee, Seungwook (Department of Computer Science and Engineering, Dong-A University) ;
Ko, Youngjoong (Department of Applied Data Science, Sungkyunkwan University)

발행 : 2019.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 Self-Attention을 활용한 딥러닝 기반 문맥의존 철자오류 교정 모델을 제안한다. 문맥의존 철자오류 교정은 최근 철자오류 교정 분야에서 활발히 연구되고 있는 문제 중 하나이다. 기존에는 규칙 기반, 확률 기반, 임베딩을 활용한 철자오류 교정이 연구되었으나, 아직 양질의 교정을 수행해내기에는 많은 문제점이 있다. 따라서 본 논문에서는 기존 교정 모델들의 단점을 보완하기 위해 Self-Attention을 활용한 문맥의존 철자오류 교정 모델을 제안한다. 제안 모델은 Self-Attention을 활용하여 기존의 임베딩 정보에 문맥 의존적 정보가 반영된 더 나은 임베딩을 생성하는 역할을 한다. 전체 문장의 정보가 반영된 새로운 임베딩을 활용하여 동적으로 타겟 단어와의 관련 단어들을 찾아 문맥의존 철자 오류교정을 시행한다. 본 논문에서는 성능평가를 위해 세종 말뭉치를 평가 데이터로 이용하여 제안 모델을 실험하였고, 비정형화된 구어체(Kakao Talk) 말뭉치로도 평가 데이터를 구축해 실험한 결과 비교 모델보다 높은 정확율과 재현율의 성능향상을 보였다.

키워드

Self-Attention;

과제정보

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기술진흥센터의 지원을 받아 수행된 연구임 (No.2017-0-00550, 기계학습용 텍스트 데이터 레이블 자동생성 및 검증도구 개발)

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

SNS 채팅 데이터에 적응적인 Self-Attention 기반 문맥의존 철자오류 교정 시스템

Adaptive Context-Sensitive Spelling Error Correction System Based on Self-Attention for Social Network Service Chatting Data

초록

키워드

과제정보

자세히 찾기