An Implementation Method of the Character Recognizer for the Sorting Rate Improvement of an Automatic Postal Envelope Sorting Machine

우편물 자동구분기의 구분율 향상을 위한 문자인식기의 구현 방법

  • 임길택 (경주대학교 컴퓨터멀티미디어 공학부) ;
  • 정선화 (한국전자통신연구원 우정기술연구센터) ;
  • 장승익 (한국전자통신연구원 우정기술연구센터) ;
  • 김호연 (한국전자통신연구원 우정기술연구센터)
  • Published : 2007.12.30

Abstract

The recognition of postal address images is indispensable for the automatic sorting of postal envelopes. The process of the address image recognition is composed of three steps-address image preprocessing, character recognition, address interpretation. The extracted character images from the preprocessing step are forwarded to the character recognition step, in which multiple candidate characters with reliability scores are obtained for each character image extracted. aracters with reliability scores are obtained for each character image extracted. Utilizing those character candidates with scores, we obtain the final valid address for the input envelope image through the address interpretation step. The envelope sorting rate depends on the performance of all three steps, among which character recognition step could be said to be very important. The good character recognizer would be the one which could produce valid candidates with very reliable scores to help the address interpretation step go easy. In this paper, we propose the method of generating character candidates with reliable recognition scores. We utilize the existing MLP(multilayered perceptrons) neural network of the address recognition system in the current automatic postal envelope sorters, as the classifier for the each image from the preprocessing step. The MLP is well known to be one of the best classifiers in terms of processing speed and recognition rate. The false alarm problem, however, might be occurred in recognition results, which made the address interpretation hard. To make address interpretation easy and improve the envelope sorting rate, we propose promising methods to reestimate the recognition score (confidence) of the existing MLP classifier: the generation method of the statistical recognition properties of the classifier and the method of the combination of the MLP and the subspace classifier which roles as a reestimator of the confidence. To confirm the superiority of the proposed method, we have used the character images of the real postal envelopes from the sorters in the post office. The experimental results show that the proposed method produces high reliability in terms of error and rejection for individual characters and non-characters.

우편물의 자동구분을 위해서는 주소영상의 인식이 필수적이다. 주소영상의 인식 과정은 주소영상 전처리, 문자인식, 주소해석의 과정으로 이루어져 있다. 주소영상 전처리 과정을 통해 추출된 문자영상들은 인식과정으로 전달되고 이 과정에서 각 문자영상마다 다수의 후보문자와 인식 스코어가 생성된다. 주소해석기는 후보문자와 인식 스코어의 집합을 이용하여 유효한 최종 주소를 생성한다. 우편물의 자동구분 율은 주소영상의 인식과정에 포함된 모든 과정의 성능에 따라 좌우되는데 특히 문자인식 성능이 중요한 요인이다. 주소인식에서 좋은 문자인식기란 주소해석이 용이할 수 있도록 신뢰도 높은 후보문자를 생성하는 것이라 할 수 있다. 본 논문에서는 문자인식기에서 신뢰도 높은 후보문자를 생성하는 방법을 제안한다. 논문에서는 현행 우편물 자동구분기의 주소인식 시스템에서 사용되고 있는 MLP 인식기를 개별 문자인식을 위한 인식기로 사용한다. MLP 인식기는 인식 속도와 인식률 측면에서 가장 우수한 인식기의 하나로 알려져 있지만, false alarm과 같은 잘못된 결과를 생성하기도 하는데 이는 주소해석을 어렵게 만드는 주요 요인이 된다. 본 논문에서는 주소해석을 쉽게 하고 우편물 구분율을 높이기 위해 기 구현된 MLP 인식기의 출력값을 재추정하는 방법을 제안한다. 재추정값의 신뢰도를 높이기 위한 인식기의 통계적 동작특성을 생성하는 방법과, 기존 MLP와 신뢰도 재추정기로서 동작하는 Subspace 인식기를 결합하는 방법을 제안한다. 제안 방법의 타당성을 확인하기 위해 우체국에 설치된 우편물구분기로부터 획득한 문자영상을 이용하여 실험하였다. 실험 결과 제안 방법이 개별 문자 및 비문자에 대한 오류율과 기각률 측면에서 높은 신뢰도를 보임을 확인할 수 있었다.

Keywords