한글 편집거리 알고리즘을 이용한 한국어 철자오류 교정방법

A Method for Spelling Error Correction in Korean Using a Hangul Edit Distance Algorithm

  • 박승현 (조선대학교 소프트웨어융합공학과) ;
  • 이은지 (조선대학교 컴퓨터공학과) ;
  • 김판구 (조선대학교 컴퓨터공학과)
  • 투고 : 2017.03.09
  • 심사 : 2017.03.30
  • 발행 : 2017.03.31

초록

컴퓨터가 상용화되면서 일반인들은 문서를 작성하기 위해 컴퓨터를 이용하는 방법을 자주 사용하게 되었다. 컴퓨터를 이용하여 문서를 작성하는 방법은 작성 속도가 빠르고 손의 피로가 적지만 철자오류가 발생할 확률이 매우 높다. 보통 철자오류는 발견하기 쉽기 때문에 곧바로 수정이 가능하지만, 사용자의 지식 부족 혹은 눈에 잘 띄지 않는 철자오류도 존재하기 때문에 철자오류가 존재하지 않는 문서를 작성하기 어렵다. 온라인상에서는 문서 작성에 대한 규칙 및 예절이 미비하기 때문에 철자오류에 의한 문제가 적지만 중요문서에서 발생하는 철자오류는 신뢰도 하락과 같은 큰 문제를 일으킨다. 철자오류 교정은 전문가 또한 완벽하게 수행하기 힘들기 때문에 비전문가인 일반인들을 위한 교정방법연구가 필요하다. 본 논문에서는 한글 편집거리 알고리즘을 이용해 철자오류를 교정하는 연구를 진행한다. 이전 연구를 통해 검출한 철자오류를 수집한 말뭉치 사전에서 등장하는 단어 중 철자오류 단어와 가장 유사한 단어를 발견하여 주위 단어와의 동시등장빈도를 계산하는 것으로 철자오류 교정을 수행하게 된다.

Long time has passed since computers which used to be a means of research were commercialized and available for the general public. People used writing instruments to write before computer was commercialized. However, today a growing number of them are using computers to write instead. Computerized word processing helps write faster and reduces fatigue of hands than writing instruments, making it better fit to making long texts. However, word processing programs are more likely to cause spelling errors by the mistake of users. Spelling errors distort the shape of words, making it easy for the writer to find and correct directly, but those caused due to users' lack of knowledge or those hard to find may make it almost impossible to produce a document free of spelling errors. However, spelling errors in important documents such as theses or business proposals may lead to falling reliability. Consequently, it is necessary to conduct research on high-level spelling error correction programs for the general public. This study was designed to produce a system to correct sentence-level spelling errors to normal words with Korean alphabet similarity algorithm. On the basis of findings reported in related literatures that corrected words are significantly similar to misspelled words in form, spelling errors were extracted from a corpus. Extracted corrected words were replaced with misspelled ones to correct spelling errors with spelling error detection algorithm.

키워드

참고문헌

  1. 최철, 박세진, 김철중, 권규식, "쿼르타이 키보드에 기초한 인간공학키보드 설계를 위한 오타율 분석," 대한인간공학회 학술대회논문집, 제2000-1권, 제-호, 142-145쪽, 2000년
  2. 최현수, 권혁철, 윤애선, "동적 윈도우를 갖는 조건부확률 모델을 이용한 한국어 문맥의존 철자오류 규정 규칙의 재현율 향상," 정보과학회논문지, 제4권, 제5호, 629-636쪽, 2015년
  3. 김경식, 최성기, 권혁철, "극한 언어사용 환경에 적응적인 문맥의존 철자오류 교정 기법," 한국정보과학회 학술발표논문집, 제2015권, 제6호, 654-656쪽, 2015년
  4. 김민호, 권혁철, 최성기, "어절 N-gram을 이용한 문맥의존 철자오류 교정," 정보과학회논문지, 제414권, 제12호, 1081-1089쪽, 2014년
  5. Aminul Islam, Diana Inkpen, "Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity", ACM Transaction on Knowledge Discovery from Data(TKDD), Vol.2, No.2, pp.1241-1249, 2008.
  6. Aminul Islam, Diana Inkpen, "Real-Word Spelling Correction Using Google Web 1T 3-Grams", Proceedings of The 2009 Conference on Empirical Methods in Natural Language Processing, Vol.3, No.3, pp.1241-1249, 2009.
  7. 김민호, 권경식, 권혁철, "교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정," 한국정보과학회 학술발표논문집, 제2013권, 제6호, 607-609쪽, 2013년
  8. Mark D. Kernighan, Kenneth W. Church, William A. Gale, "A Spelling Correction Program Based on a Noisy Channel Model", Proceedings of The 13th Conference on Computational Linguistics, Vol.2, No.1, 1990.
  9. 노강호, 김진욱, 김은상, 박근수, 조환규, "한글에 대한 편집 거리 문제," 정보과학회논문지 : 시스템 및 이론, 제37권, 제2호, 103-109쪽, 2010년
  10. 노강호, 박근수, 조환규, 장소원, "음소의 분류 체계를 이용한 한글 편집거리 알고리즘," 정보과학회논문지 : 시스템 및 이론, 제37권, 제6호, 323-329쪽, 2010년