A Study on Word Learning and Error Type for Character Correction in Hangul Character Recognition

한글 문자 인식에서의 오인식 문자 교정을 위한 단어 학습과 오류 형태에 관한 연구

  • 이병희 (충남대학교 컴퓨터공학과) ;
  • 김태균 (충남대학교 컴퓨터공학과)
  • Published : 1996.09.01

Abstract

In order perform high accuracy recognition of text recognition systems, the recognized text must be processed through a post-processing stage using contextual information. We present a system that combines multiple knowledge sources to post-process the output of an optical character recognition(OCR) system. The multiple knowledge sources include characteristics of word, wrongly recognized types of Hangul characters, and Hangul word learning In this paper, the wrongly recognized characters which are made by OCR systems are collected and analyzed. We imput a Korean dictionary with approximately 15 0,000 words, and Korean language texts of Korean elementary/middle/high school. We found that only 10.7% words in Korean language texts of Korean elementary/middle /high school were used in a Korean dictionary. And we classified error types of Korean character recognition with OCR systems. For Hangul word learning, we utilized indexes of texts. With these multiple knowledge sources, we could predict a proper word in large candidate words.

본 논문에서는 문자 인식 과정을 거치고 난 후에 발생하게 되는 오인식된 문자들 을 언어적 지식을 이용하여 교정하는 문자 인식 후처리에 관하여 논한다. 문자 인식의 오인식 교정시스템의 경우 후보 단어가 많을 때 많은 후보 단어중에서 가장 적당한 단어를 후보 단어로 올려주기 위해서는 여러 가지 정보가 필요하다. 본 논문에서는 이러한 정보로 이용할 수 있는 것으로 단어들의 특성과, 문자 인식에 발생하는 오인식 형태, 단어 학습에 관하여 논한다. 이를 위한 실험으로 15 만여의 단어가 수록된 국어 사전을 이비력하고 초중고 국어교과서에 나타난 단어 들의 사용빈도를 조사하여 국어 사전에 등록된 단어 중에서 10.7%정도가 실제 초중고 국어교과서에 사용되고 있다는 것을 알 수 있었다. 또한 실제 문자 인식 시스템들을 가지고 여러 문서를 입력하고 인식하여 오인식이 자주 일어나는 글자들 의 형태를 분류하여 보았다. 그리고 한국어 처리 관련 서적이나 논문을 처리하고자 한국어에 관련된 책의 찾아보기에 나타난 단어 를 학습시켜 후보 단어들의 다른 인하여 정확한 단어를 예측하기 힘들던 문제를 해결 하고자 하였다.

Keywords