Browse > Article
http://dx.doi.org/10.3745/KIPSTB.2009.16B.5.427

A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus  

Lee, Se-Hee (강원대학교 컴퓨터정보통신공학)
Kim, Hark-Soo (강원대학교 컴퓨터정보통신공학)
Abstract
With the rapid evolution of the Internet and mobile environments, text including spelling errors such as newly-coined words and abbreviated words are widely used. These spelling errors make it difficult to develop NLP (natural language processing) applications because they decrease the readability of texts. To resolve this problem, we propose a spelling error correction model using a spelling error correction dictionary and a newspaper corpus. The proposed model has the advantage that the cost of data construction are not high because it uses a newspaper corpus, which we can easily obtain, as a training corpus. In addition, the proposed model has an advantage that additional external modules such as a morphological analyzer and a word-spacing error correction system are not required because it uses a simple string matching method based on a correction dictionary. In the experiments with a newspaper corpus and a short message corpus collected from real mobile phones, the proposed model has been shown good performances (a miss-correction rate of 7.3%, a F1-measure of 97.3%, and a false positive rate of 1.1%) in the various evaluation measures.
Keywords
Spelling Error Correction Model; Newspaper Corpus; Spelling Error Correction Dictionary;
Citations & Related Records
Times Cited By KSCI : 5  (Citation Analysis)
연도 인용수 순위
1 조동욱, 이현경, "인터넷 상에서 쓰이는 통신 언어에 대한 분석 및 문제점 해결 방안", 한국콘텐츠학회/한국통신학회 2003 추계 종합학술대회 논문집, 제1권 제2호, pp.79-83, 2003.   과학기술학회마을
2 노형종, 차정원, 이근배, "띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델", 정보과학회논문지: 소프트웨어 및 응용, 제 34권 제2호, pp.131-139, 2007.   과학기술학회마을
3 Johannes Schaback "Multi-Level Feature Extraction for Spelling Correction", IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data, pp.78-86, 2007.
4 조오현, 김경용, 박동근, "통신언어의 실태와 개선 방안", 통신 언어 어휘집, 문화관광부, 2001
5 H. L. Lou, "Implementing the Viterbi Algorithm, Fundamental and real-time issues for processor designers", IEEE Signal Processing Magazine, pp.42-52, 1995.   DOI   ScienceOn
6 Stehanie Jacquemont, Francois Jacquenet, Marc Sebban "Correct your text with Google", 2007 IEEE/WIC/ACM International Conference on Web Intelligence, pp.170-176, 2007.   DOI
7 Eric Brill, Robert C. Moore, "An Improved Error Model for Noisy Channel Spelling Correction", In Proc. of the 38th Annual Meeting of the ACL, pp.286-293, 2000.   DOI
8 윤근수, 권혁철, "교정률 최적화를 위한 한국어 철자교정기의 모듈 배열", 정보과학회논문지: 소프트웨어 및 응용, 제32권 제 5호, pp.366-377, 2005.   과학기술학회마을
9 강승식, 장두성, "SMS 변형된 문자열의 자동 오류 교정 시스 템", 정보과학회논문지: 소프트웨어 및 응용, 제35권 제6호, pp.386-391, 2008.   과학기술학회마을
10 이주호, 김학수, "2단계 규칙을 이용한 해체된 한글 음절의 결 합", 인지과학, 제19권 제3호, pp.283-295, 2008.   과학기술학회마을
11 김현준, 정재은, 조근식, "가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템", 정보과학회논문지: 소프트 웨어 및 응용, 제31권 제8호, pp.1092-1100, 2004.   과학기술학회마을