Two Step Automatic Korean Word Spacing Model Based on Deep Neural Network

심층신경망 기반 2단계 한국어 자동 띄어쓰기 모델

  • Choi, Gihyeon (Kangwon National University Computer and Communication Engineering) ;
  • Kim, Sihyung (Kangwon National University Computer and Communication Engineering) ;
  • Kim, Harksoo (Kangwon National University Computer and Communication Engineering)
  • 최기현 (강원대학교, 컴퓨터정보통신공학과) ;
  • 김시형 (강원대학교, 컴퓨터정보통신공학과) ;
  • 김학수 (강원대학교, 컴퓨터정보통신공학과)
  • Published : 2018.10.12

Abstract

자동 띄어쓰기는 띄어쓰기가 되어있지 않은 문장에 대하여 띄어쓰기를 해주거나, 문장에 있는 잘못된 띄어쓰기를 교정하는 것을 말한다. 기존의 자동 띄어쓰기 연구는 주로 모든 음절을 붙인 후 새로 띄어쓰기 태그를 입력하는 방법을 사용하여 사용자가 입력한 올바른 띄어쓰기 정보를 활용하지 못하였다. 따라서 본 논문에서는 모두 붙여 쓴 문장에 공백을 넣어주는 띄어쓰기 삽입 모델과 사용자의 입력 정보를 이용하여 문장의 띄어쓰기 오류를 교정해주는 오류교정 모델이 결합된 통합모델을 제안한다. 제안된 모델은 에러율 10%일 때 F1-score가 98.85%까지 향상되었다.

Keywords