A Study on Implementation of Printed Character Recognition System And Performance Evaluation

인쇄체 문자 인식기의 성능 평가에 관한 연구

  • 김민수 (호서대학교 벤처전문대학원 컴퓨터응용기술분야) ;
  • 강은영 ((주)리드텍코리아 정보기술연구소) ;
  • 김우성 (호서대학교 컴퓨터공학부) ;
  • 한선화 (연구개발정보센터 한민족과학기술자네트워크지원단) ;
  • 김진형 (한국과학기술원 전산학과)
  • Published : 2000.11.01

Abstract

In this paper we propose measure for performance evaluationof character recognition, We used three commercial character recognizers and one laboratory character recognizer for test. The characteristics of each recognizer is compared by proposed evaluation standrd, and analyzed characteristrics For the input test data, KT test collection are used. KT test collection is composed of 1000 document images about and complete source text. In this paper we propose method for measuring recognition rage in character unit for evaluation of character recogrition, The recogrition rates are compared and analyzed by single feature characteristic or mixed feature characteristic.

본 논문에서는 국내의 대표적인 상용인식기들의 성능을 평가하기 위한 평가 방법과 평가 기준을 제안한다. 제안한 평가 기준으로 상용화된 오프라인 문자인식기들과 실험실 인식기를 비교해본 후 각각의 특성을 분석해 보았다. 인식에 필요한 대상 문서는 400 DPI로 스캔한 1000여개의 문서영상과 수작업으로 작성한 원문이 존재하는 KT 테스트 컬렉션을 사용하였다. 본 논문에서 인식기의 성능을 평가하기 위해 문자단위 인식률 측정 방법을 제안하였다. 비교를 위한 문서의 유형을 제안하여, 단일 특성을 가지는 문서, 복합 특성을 가지는 문서 등으로 비교·분석하였다.

Keywords

References

  1. J Liang, R M. Haralick. I. T. Phillips. 'Performance Evaluation of Algorithms in ISL Document Layout Arialysis Toolbox,' ISL Technical Repot. University of Washington, 1996
  2. G. Friensen. Suddenly. 'OCR is a Must BUY.' Imageing Magazine, pp 22-25, 1992
  3. 김동근, 황치정, '튜영과 텍스쳐를 이용한 문서영상의 블록 분류', 한국정보처리학회추계학술발표논문집 제4권 2호, 1997
  4. 김우성, 심진보, 박용범, 문경애, 지수영, '문서 영상내의 테이블 벡터화 연구', 정보처리논문지, 제3권 5호, pp1147-1157, 1996. 9
  5. Yasuo Korosu, Hidefumi Masuzaki, 'A Method of Skew Detection and Correction in Document Images for Personal Computers,' Transactions of Information Processing Socicty of Japan, Vol.39, No.8, pp.2466-2475, 1998, 8
  6. 김성혁, 서은경, 이원규, 김명철, 김영환, 김재군, '자동색인기 성능시험을 위한 Test Set 개발', 정보관리학회지. 제11권 제1호. pp81-102, 1996. 6
  7. 이준호, 이충식, 한선화, 김진형, '문자인식에 의해 구축된 한글 문서 데이터베이스에 대한 정보검색,' 정보처리논문지, 제6권 4호, pp.833-840, 1999. 4
  8. 한선화, 김진형, '문자 인식 기술을 이용한 데이터 베이스 구축에 대한 기초 연구', KORDIC 연구보고서, 1997. 9
  9. 한선화, 이충식, 한선화, 김진형, '문자 인식 기술을 이용한 데이터베이스 구축', 정보처리논문지, 제6권 7호, pp1713-1723, 1999. 7
  10. 김명진, 장원식, 'OCR 소프트웨어 4종 한글, 영어 인식 능력 완벽 테스트', Hello-PC 1997년 5월호, pp368-383, 1997. 5