DOI QR코드

DOI QR Code

Detecting Spelling Errors by Comparison of Words within a Document

문서내 단어간 비교를 통한 철자오류 검출

  • Kim, Dong-Joo (Dept. of Computer Engineering, Anyang University)
  • 김동주 (안양대학교 컴퓨터공학과)
  • Received : 2011.10.31
  • Accepted : 2011.12.14
  • Published : 2011.12.31

Abstract

Typographical errors by the author's mistyping occur frequently in a document being prepared with word processors contrary to usual publications. Preparing this online document, the most common orthographical errors are spelling errors resulting from incorrectly typing intent keys to near keys on keyboard. Typical spelling checkers detect and correct these errors by using morphological analyzer. In other words, the morphological analysis module of a speller tries to check well-formedness of input words, and then all words rejected by the analyzer are regarded as misspelled words. However, if morphological analyzer accepts even mistyped words, it treats them as correctly spelled words. In this paper, I propose a simple method capable of detecting and correcting errors that the previous methods can not detect. Proposed method is based on the characteristics that typographical errors are generally not repeated and so tend to have very low frequency. If words generated by operations of deletion, exchange, and transposition for each phoneme of a low frequency word are in the list of high frequency words, some of them are considered as correctly spelled words. Some heuristic rules are also presented to reduce the number of candidates. Proposed method is able to detect not syntactic errors but some semantic errors, and useful to scoring candidates.

일반 출판물과는 달리 문서 편집기를 사용하여 작성중에 있는 문서에는 사용자의 실수에 의한 오타 오류가 자주 발생한다. 이와 같은 온라인 문서에서 맞춤법 오류의 다수를 차지하는 사용자의 오타 오류는 대부분 자판을 입력할 때 주위 문자를 잘못 입력하는 경우이다. 통상적인 철자 검사기는 이러한 오류들을 형태소 분석기를 이용하여 검출하고 교정하게 된다. 즉, 입력된 어절에 대해 형태소 분석을 시도하고 분석되지 않은 어절을 철자 오류로 간주하게 된다. 그러나 오타 입력된 어절임에도 불구하고 형태소 분석에 성공한 경우에는 이와 같은 방법으로는 검출이 불가능하다. 본 논문에서는 기존 방법들이 검출하지 못했던 철자 오류들을 검출해 낼 수 있는 방법을 제시한다. 이 방법은 문서 작성자의 오타 입력은 반복하여 입력되지 않는 경향이 있으므로 저빈도로 발생한다는 특성에 기반하여 제안되었다. 저빈도의 어절의 자소 대치를 통해 문서의 특정 구간 내의 다른 단어와 비교하여 오타일 확률이 적은 단어인 자주 나오는 단어와 매칭이 된다면 일단 오류 후보로 가정하는 것이다. 여기에는 몇 가지 경험적인 제약이 추가되어야 한다. 이러한 단어간 비교에 의한 추정은 기존에 발견하지 못했던 구문오류뿐만 아니라 일부 의미오류까지 검출할 수 있으며, 교정 후보 선정시 가중치 적용에도 사용될 수 있다.

Keywords

References

  1. Dong-Joo Kim, "A Critiquing System with Tight Morphological Constraints," MS Thesis, Hanyang University, 1997.
  2. Sung-U Mi, "Sae Machumpop kwa Kyojong ui Sirche," Omungak, 1994.
  3. Chul-Min Sim and Hyuk-Chul Kwon, "Impleme ntation of Korean Spelling Checker based on Collocation of Words," Journal of Computing Science and Engineering, Vol. 23, No. 7, pp. 776-785, 1996.
  4. Kil-ja So and Hyuck-chul Kwon, "A Korean Grammar Checker using Lexical Disambiguation Rule and Partial Parsing," Journal of Computing Science and Engineering, Vol. 28, No. 3, pp. 305-315, 2001.
  5. Hyun-Jin Kim, Chul-Min Sim and Hyuk-Chul Kwon, "Implementation of a Korean Grammar Checker using Partial Sentence Analysis," Proceedings of the 8th Annual Conference on Human and Cognitive Language Technology, pp. 469-475, Oct. 1996.
  6. Youngkook Hong, Jonghyeok Lee and Geunbae Lee, "A Korean Syntactic Analyzer based on the Dependency Grammar," Journal of Computing Science and Engineering, Vol. 19, No. 5, pp. 191-194, 1990.
  7. Hankyu-kyu Lim, Ung-Mo Kim, "A Spelling Correc tion System Based on Statistical Data of Spelling Errors," Journal of Korea Information Processing Society, Vol. 2, No. 6, pp. 839-846, 1995.
  8. G. E. Heidorn, K. Jensen, L. A. Miller, R. J. Byrd and M. S. Chodorow, "The EPISTLE text-critiquing system," IBM System Journal, Vol. 21, No. 3, pp. 305-326, 1982. https://doi.org/10.1147/sj.213.0305
  9. Perterson J. L., "Computer Programs for Detecting and Correcting Spelling Errors," CACM, Vol. 23, No. 12, pp. 676-687, 1980. https://doi.org/10.1145/359038.359041

Cited by

  1. 철자오류에 기인한 가의미 오류의 검출 및 교정 방법 vol.18, pp.10, 2013, https://doi.org/10.9708/jksci.2013.18.10.173