• 제목/요약/키워드: Postal Envelope Images

검색결과 3건 처리시간 0.019초

Automatic Generation of Training Character Samples for OCR Systems

  • Le, Ha;Kim, Soo-Hyung;Na, In-Seop;Do, Yen;Park, Sang-Cheol;Jeong, Sun-Hwa
    • International Journal of Contents
    • /
    • 제8권3호
    • /
    • pp.83-93
    • /
    • 2012
  • In this paper, we propose a novel method that automatically generates real character images to familiarize existing OCR systems with new fonts. At first, we generate synthetic character images using a simple degradation model. The synthetic data is used to train an OCR engine, and the trained OCR is used to recognize and label real character images that are segmented from ideal document images. Since the OCR engine is unable to recognize accurately all real character images, a substring matching method is employed to fix wrongly labeled characters by comparing two strings; one is the string grouped by recognized characters in an ideal document image, and the other is the ordered string of characters which we are considering to train and recognize. Based on our method, we build a system that automatically generates 2350 most common Korean and 117 alphanumeric characters from new fonts. The ideal document images used in the system are postal envelope images with characters printed in ascending order of their codes. The proposed system achieved a labeling accuracy of 99%. Therefore, we believe that our system is effective in facilitating the generation of numerous character samples to enhance the recognition rate of existing OCR systems for fonts that have never been trained.

우편물 자동구분기의 구분율 향상을 위한 문자인식기의 구현 방법 (An Implementation Method of the Character Recognizer for the Sorting Rate Improvement of an Automatic Postal Envelope Sorting Machine)

  • 임길택;정선화;장승익;김호연
    • 한국산업정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.15-24
    • /
    • 2007
  • 우편물의 자동구분을 위해서는 주소영상의 인식이 필수적이다. 주소영상의 인식 과정은 주소영상 전처리, 문자인식, 주소해석의 과정으로 이루어져 있다. 주소영상 전처리 과정을 통해 추출된 문자영상들은 인식과정으로 전달되고 이 과정에서 각 문자영상마다 다수의 후보문자와 인식 스코어가 생성된다. 주소해석기는 후보문자와 인식 스코어의 집합을 이용하여 유효한 최종 주소를 생성한다. 우편물의 자동구분 율은 주소영상의 인식과정에 포함된 모든 과정의 성능에 따라 좌우되는데 특히 문자인식 성능이 중요한 요인이다. 주소인식에서 좋은 문자인식기란 주소해석이 용이할 수 있도록 신뢰도 높은 후보문자를 생성하는 것이라 할 수 있다. 본 논문에서는 문자인식기에서 신뢰도 높은 후보문자를 생성하는 방법을 제안한다. 논문에서는 현행 우편물 자동구분기의 주소인식 시스템에서 사용되고 있는 MLP 인식기를 개별 문자인식을 위한 인식기로 사용한다. MLP 인식기는 인식 속도와 인식률 측면에서 가장 우수한 인식기의 하나로 알려져 있지만, false alarm과 같은 잘못된 결과를 생성하기도 하는데 이는 주소해석을 어렵게 만드는 주요 요인이 된다. 본 논문에서는 주소해석을 쉽게 하고 우편물 구분율을 높이기 위해 기 구현된 MLP 인식기의 출력값을 재추정하는 방법을 제안한다. 재추정값의 신뢰도를 높이기 위한 인식기의 통계적 동작특성을 생성하는 방법과, 기존 MLP와 신뢰도 재추정기로서 동작하는 Subspace 인식기를 결합하는 방법을 제안한다. 제안 방법의 타당성을 확인하기 위해 우체국에 설치된 우편물구분기로부터 획득한 문자영상을 이용하여 실험하였다. 실험 결과 제안 방법이 개별 문자 및 비문자에 대한 오류율과 기각률 측면에서 높은 신뢰도를 보임을 확인할 수 있었다.

  • PDF

서장 우편물 자동처리를 위한 우편영상 인식 시스템 (Postal Envelope Image Recognition System for Postal Automation)

  • 김호연;임길택;김두식;남윤석
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.429-442
    • /
    • 2003
  • 본 논문에서는 우편물 자동처리론 위한 우편영상 인식 시스템을 소개한다. 우편영상 인식 시스템은 서장 우편물을 집배원이 배달하는 순서에 따라 자동으로 구분할 수 있도록 우편영상을 입력으로 받아 수신인 주소를 출력하는 인식 시스템을 말한다. 이 시스템은 수신인 주소영역 추출, 문자열 분리, 문자분할, 문자인식, 그리고 주소해석 모듈로 구성되어 있다. 주소영역 추출을 위해서는 우편물 주소 기입 위치에 대한 경험적 지식을 이용하였으며, 문자열 분리와 문자분한을 위해서는 연결요소 분석과 수직런 분석을 이용하였다. 문자인식에는 신경망 기반 인식기를 이용하였으며, 주소해석을 위해서는 동적 프로그래밍 기법을 적용하였다. 각 모듈은 독립적으로 구현되었기 때문에 인식 시스템의 성능 개선을 위한 모듈별 최적화가 용이하다는 장점이 있다. 실험에는 대전 유성우체국의 우편물 구분기를 이용하여 실제 우편물에서 수집한 인쇄 우편영상과 필기 우편영상을 이용하였으며, 비교적 우수한 인식 결과를 얻었다.