A Postprocessing Method of Korean Character Recognition by Mis-recognized Morphology Presumption

오인식 형태소 추정에 의한 한국어 문자 인식 후처리 기법

  • Kim, Young-Hun (Dept. of Information Processing, Andong Science College) ;
  • Lee, Young-Hwa (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lee, Sang-Jo (Dept. of Computer Engineering, Kyungpook National University)
  • 김영훈 (安東科學大 情報處理學科) ;
  • 이영화 (慶北大學校 컴퓨터工學科) ;
  • 이상조 (慶北大學校 컴퓨터工學科)
  • Published : 1999.07.01

Abstract

We proposed the new method of postprocessing which not only reduces the frequency of dictionary access using morphological analysis but improve the recognition rate of character recognizer. In this paper, after estimating morphological construction of mis-recognized word using the part of speech that is analyzed, correct presumed mis-recognized morphology. The postprocessing using a morphology unit reduce candidate because of short than word and frequency of dictionary access because there is no need to morphological analysis for candidate. To select right candidate is only necessary to dictionary access. The proposed results show that reduced the frequency of dictionary access to 60% than postprocessing method using a word unit and recognition rate improved from 94% to 97%.

본 논문에서는 형태소 분석을 이용한 후처리에서 속도 개선을 위해 사전 탐색 횟수를 줄이는 새로운 방법을 제안한다. 본 논문에서 제안하는 방법은, 오인식 어절 검출을 위한 형태소 분석 과정에서 분석되는 일부의 형태소 정보를 최대한 이용하여 오인식 어절의 형태소 구성을 추정한 후, 형태소 단위의 교정을 한다. 형태소 단위의 교정은 어절보다 길이가 짧으므로 최악의 경우라도 생성되는 후보의 수가 어절 단위의 교정보다 적다. 특히, 생성된 후보가 형태소 단위이므로 사전 탐색만으로 올바른 후보를 선택할 수 있으므로 형태소 분석으로 인한 사전 탐색 횟수를 줄일 수 있다. 본 논문에서 제안한 형태소 정보를 이용한 후처리는 기존의 어절 단위 후처리에 비해 생성된 후보의 형태소 분석이 필요 없다. 생성된 후보가 형태소이므로 사전 탐색에 의해 올바른 후보를 선택할 수 있었다. 이로 인해 사전 탐색 횟수는 어절 단위 후처리와 비교하였을 때 60%나 감소되었으며 후처리 결과 문자 인식기의 음절 인식률이 94%에서 97%로 향상되었다.

Keywords