A Study on the Extraction of an Individual Character and Chinese Characters Recognition on the Off-line Documents

오프라인 문서에서 개별 문자 추출과 한자 인식에 관한 연구

  • 김의정 (시스템공학연구소 컴퓨터비젼연구실) ;
  • 김태균 (충남대학교 컴퓨터공학과)
  • Published : 1997.05.01

Abstract

In this paper,the extraciton method for individual and the recognition method for the printed dociments are discussed. In preprocessing is a technique to extract characters that are difficult to manage such as touching characters or overlapped chracters.Genrally in the existing segmentation methods,projection and edge detection are applied.However,in this paper an indvidual character is extracted by using connected pixel with one projection after the string extraction The maximum Blok Methld(MBM)is used for the recognition.The MBM is a method to enlarge the block to the last point the pixel that was found during projection. The maximum blocks are skeletonxied after the division into straight line block and oblique line block.Especially,in the recognition of chinese chracters compared to the existing method it showed improved recognition rate.

본 논문에서는 인체 문서 인식을 위한 전처리 과정인 개별 문자 추출 방법과 인식 방법에 대하여 논한다. 전처리에서는 접촉 문자(touching charadcter) 또는 겹친 문자 (overlaapped character) 등과 같이 추출이 곤란한 문자를 개별 문자로 추출하는 것이다. 기존의 문자 분리 방법에서는 투영((projection)에 의한 방법과 외곽선(edge)추척에 의한 방법 등을 사용하여 왔으나, 제안된 방법은 문자열 추출 후 한번의 투영으로 연결 화소를 이용하여 개별 문자를 추출한다. 인식을 위해서는 최대불록화 방법(Maximum Block Mehtod:MBM)을 이용하여 특징 추출을 한다. 최대불록화는 문자를 투영 중 처음 찾아진 점에서부터 최대한 불록을 확정 시키는 방법이다. 문자를 이루는 최대불록들을 직선 불록과 사선 불록으로 분리후 골격화 시킨다. 특히 한자 인식에서 기존의 상용 문자 인식기와 비교하여 향상된 인식율을 얻을 수 있다.

Keywords