Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2019.10a
- /
- Pages.43-48
- /
- 2019
- /
- 2005-3053(pISSN)
Eojeol-based Embedding for Korean Erroneous Sentence Classification in Korean Chatbot
한국어 챗봇에서의 오류에 강건한 한국어 문장 분류를 위한 어절 단위 임베딩
- Choi, DongHyun (Kakao Corp) ;
- Park, IlNam (Kakao Corp) ;
- Shin, Myeongcheol (Kakao Corp) ;
- Kim, EungGyun (Kakao Corp) ;
- Shin, Dong Ryeol (Sungkyunkwan University)
- Published : 2019.10.10
Abstract
본 논문에서는 한국어 챗봇에서의 문장 분류 시스템에 대하여 서술한다. 텍스트를 입력으로 받는 한국어 챗봇의 경우, 때때로 입력 문장에 오타나 띄어쓰기 오류 등이 포함될 수 있고, 이러한 오류는 잘못된 형태소 분석 결과로 이어지게 된다. 잘못된 형태소 분석 결과로 인한 문장 분류의 오류를 줄이기 위하여, 본 논문에서는 새로운 통합 어절 임베딩 방식을 제안한다. 통합 어절 임베딩 방식의 단점을 보완하고 성능을 향상시키기 위하여, 두 가지의 말뭉치 노이즈 추가 방법이 별도로 제안되었다. 실험 결과에 따르면, 본 논문에서 제안된 시스템은 오류를 포함한 한국어 문장 분류 문제에서 기존 시스템과 비교하여 문장 단위 정확률 기준으로 23 %p의 성능 향상을 보였다.