Error Word Detection in Korean Corpus

Choi, Min-Joo;Park, Ji-Hoon;Son, Sung-Hwan;Kang, Seung-Shik;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2019.10a
/
Pages.500-502
/
2019
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Error Word Detection in Korean Corpus

한국어 대용량 코퍼스의 오류 어휘 탐지 방안

Choi, Min-Joo (Kookmin University, Dept. of Computer Science) ;
Park, Ji-Hoon (Kookmin University, Dept. of Computer Science) ;
Son, Sung-Hwan (Kookmin University, Dept. of Computer Science) ;
Kang, Seung-Shik (Kookmin University, Dept. of Computer Science)

최민주 (국민대학교, 컴퓨터공학과) ;
박지훈 (국민대학교, 컴퓨터공학과) ;
손성환 (국민대학교, 컴퓨터공학과) ;
강승식 (국민대학교, 컴퓨터공학과)

Published : 2019.10.10

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

대용량의 언어 코퍼스를 이용할 때, 오류 어휘가 코퍼스에 포함되어 있는 경우 해당 코퍼스를 이용한 실험의 성능이 저하될 수 있다. 이 때문에 정확한 문장들로 이루어진 코퍼스를 구축하기 위해 다량의 문장 중에서 정확하게 오류 어휘를 탐지할 필요가 있다. 본 논문에서는 대용량 데이터에서 빈도수가 낮은 음절을 이용해 오류 어휘를 탐지하는 방법을 제안하고, 제안 방법을 이용하여 오류 어휘 탐지 시 고려하여야 할 점에 대해 서술한다.

Keywords

Unigram

Acknowledgement

이 논문은 2017 년 정부 ( 과학기술정보통신부 ) 의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2017M3C4A7068186)