Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2006.10e
- /
- Pages.25-31
- /
- 2006
- /
- 2005-3053(pISSN)
A joint statistical model for word spacing and spelling error correction
띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델
- Noh, Hyung-Jong (iSoft Lab., Dept. of Computer Science and Engineering, Pohang University of Science and Technology) ;
- Cha, Jeong-Won (Dept. of Computer Science, Changwon National University) ;
- Lee, Gary Geun-Bae (iSoft Lab., Dept. of Computer Science and Engineering, Pohang University of Science and Technology)
- Published : 2006.10.13
Abstract
본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대 된다.
Keywords