Browse > Article

Automatic Error Correction System for Erroneous SMS Strings  

Kang, Seung-Shik (국민대학교 컴퓨터공학부)
Chang, Du-Seong (KT 미래기술연구소)
Abstract
Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so on. In this paper, we proposed and implemented an automatic correction system of ill-formed words and word spacing errors in SMS sentences that has been the major errors of poor accuracy. We experimented three methods of constructing the word correction dictionary and evaluated the results of those methods. They are (1) manual construction of error words from the vocabulary list of ill-formed communication languages, (2) automatic construction of error dictionary from the manually constructed corpus, and (3) context-dependent method of automatic construction of error dictionary.
Keywords
spoken word; error word; SMS sentence; morphological analysis;
Citations & Related Records
연도 인용수 순위
  • Reference
1 권연진, '컴퓨터 통신어의 언어학적 연구', 언어과학, 5권, 2호, pp. 58-62, 1998
2 이재성, '영한 병렬 코퍼스로부터 외래어 표기 사전의 자동 구축', 컴퓨터교육학회논문지, 한국컴퓨터교육학회, 6권, 2호, pp. 9-21, 2003
3 김용경, 조오현, 박동근, 컴퓨터 통신 언어 사전, 역락사, 2002
4 Christian Jacquemin, Spotting and Discovering Terms Through Natural Language Processing, MIT press, 2001
5 김보영, 강승식, '자모 빈도에 의한 통신 언어의 특성 연구', 제19회 한국 정보처리학회 춘계 학술발표 논문집, 10권 1호, pp. 501-504, 2003
6 차인태, 'PC 통신 언어 분석', 음성과학, 8권 3호, pp. 75-91, 2001
7 이정복, '통신 언어 문장 종결법의 특성', 우리말글, 22집, pp. 123-151, 2001
8 조찬식, '인터넷상에서의 언어 사용에 관한 연구', 한국문헌정보학회지, 35권 4호, pp. 177-196, 2001
9 임동희, 강승식, 장두성, '음성 인식 후처리를 위한 띄어쓰기 오류의 교정', 한국 컴퓨터 종합 학술대회(KCC 2006) 논문집, Vol.33, pp. 25-27, 2006
10 이정복, '컴퓨터 통신 분야의 외래어 사용', 새국어생활, 8권 2호, 국립국어연구원, 1998
11 Seung-Shik Kang, Kyu-Baek Hwang, 'A Language Independent n-gram Model for Word Segmentation', AI'2006, pp. 557-565, 2006(LNAI 4304)
12 조오현, 김경용, 박동근, '통신언어의 실태와 개선 방안', 통신언어 어휘집, 문화관광부, 2001