Decomposition of a Text Block into Words Using Projection Profiles, Gaps and Special Symbols

투영 프로파일, GaP 및 특수 기호를 이용한 텍스트 영역의 어절 단위 분할

  • Published : 2004.09.01

Abstract

This paper proposes a method for line and word segmentation for machine-printed text blocks. To separate a text region into the unit of lines, it analyses the horizontal projection profile and performs a recursive projection profile cut method. In the word segmentation, between-word gaps are identified by a hierarchical clustering method after finding gaps in the text line by using a connected component analysis. In addition, a special symbol detection technique is applied to find two types of special symbols tying between words using their morphologic features. An experiment with 84 text regions from English and Korean documents shows that the proposed method achieves 99.92% accuracy of word segmentation, while a commercial OCR software named Armi 6.0 Pro$^{TM}$ has 97.58% accuracy.y.

본 논문에서는 인쇄체 텍스트 영상에 대한 문자열 분리 방법과 어절 분리 방법을 제안한다. 문자열 분리 방법은 수평 투영 프로파일을 분석하고, 오분리된 문자열에 대하여 재귀적 투영 프로파일 (Recursive Projection Profile) 분석을 수행한다. 어절 단위 분리는 문자열에 대한 연결요소 분석을 통하여 gap을 검출한 후, 계층적 군집화 기법에 의해 어절과 어절 사이에 존재하는 gap을 판별하여 어절 분리점을 결정한다. 또한 어절과 어절 사이에 존재하는 특수기호를 검출하여 어절 분리점을 추가하기 위해서, 연결요소의 종횡비와 골격선(skeleton)의 형태적 특징을 고려한다. 제안 방법의 성능 평가를 위하여 총 84 개의 텍스트 영상에 대하여 실험하였고, 국내 상용 OCR 소프트웨어인 아르미와 성능 비교하였다. 최종 어절 분리에 대하여 제안 방법과 아르미가 각각 99.92%와 97.58%의 성능으로 측정됨으로써 제안 방법이 아르미에 비해 우수함을 보였다.

Keywords

References

  1. AIM'96 Conference Handbooks, Association for imaging and information methodologies, 1996
  2. J. L. George, 'Digitization: a literature review and summary of technical processes,' Information Services Group, Oct. 1994
  3. 장명욱, 천대녕, 양현승, '연결화소를 이용한 문서 영상의 분할 및 인식', 한국정보과학회 논문지, Vol. 20, No. 12, pp. 1741-1750, 1993
  4. 김두식, 이성환, '한.영 혼용 문서의 디지털 라이브러리 구출을 위한효과적인 문서 기울기 교정 및 문자분할 방법', 한국정보과학회 봄 학술발표논문집, Vol. 23, No. 1, pp. 293-296, 1996
  5. 배진학, 박세현, 김항준, '영.숫자 한글 문서에서 문자 분리 및 인식', 정보과학회 논문지, 제23권 제9호, pp.941-949, 1996
  6. 김두식, 이성환, '한글과 영.숫자가 혼용된 문서를 위한 효과적인 문자 분할 방법', 제 8회 영상 처리 및 이해에 관한 워크샵 발표논문집, pp. 19-26, 1996
  7. 임장준, '인쇄된 한영 혼용 문서 인식을 위한 문자 분할 방법과 문자의 한글과 영어의 구별', 포항공과대학교 대학원 석사학위논문, 1998
  8. 최정호, 김태균, 남궁재찬, 신문 자동인식 시스템의 개발, 연구보고서, 1991
  9. 정규식, 권희웅, '내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징기반 단어 검색', 정보과학회 논문지 (B), 제26권, 제10호, pp.1204-1218, 1999
  10. 조현목, 이경무, 최영우, 'Projection Profile을 이용한 새로운 자동 문서영상의 영역분리 및 분류 알고리즘', 제9회 영상처리 및 이해에 관한 워크샵, pp.136-140, 1997
  11. S. N. Srihari, S. Lam, V. Govindaraju, R. Srihari and J. J. Hull, 'Document understanding: research directions,' CEDAR-TR-92-1, May 1992
  12. Y. Y. Tang, S. W. Lee and C. Y. Suen, 'Automatic document processing: a survey,' Pattern Recognition, Vol.29, No.l2, pp. 1931-1952, 1996 https://doi.org/10.1016/S0031-3203(96)00044-1
  13. F. R. Jenkins, T. A. Nartker and S. V. Rice, 'Result of the fifth annual test of OCR technology by UNLV's lnformation Science Research Institute,' Inform Magazine, pp.20-25, Sep, 1996
  14. K. Marukawa, T. Hu, H. Fujisawa and Y. Shima, 'Document retrieval tolerating character recognition errors-estimation and application,' Pattern Recognition, Vol.30, No.8, pp.1361-1371, 1997 https://doi.org/10.1016/S0031-3203(96)00155-0
  15. 류대석, 강선미, 이성환, '매개변수에 무관한 새로운 문서 구조 분석 방법', 한국정보과학회 가을 학술발표논문집, Vol. 26, No.2, pp. 482-484, 1999
  16. E. Gose, R. Johnsonbaugh and S. Jost, Pattern recognition and image analysis, Prentice Hall, 1996
  17. Soo H. Kim, S. Jeong, G.S. Lee, and C.Y. Suen, 'Gap Metrics for Handwritten Korean Word Segmentation,' IEE Electronics Letters, Vol. 37, No. 14, pp. 892-893, July 2001 https://doi.org/10.1049/el:20010596
  18. Lei Huang, Genxun Wan, Chanping Liu, 'An Improved Parallel Thinning Algorithm,' Proc. 7th International Conference on Document Analysis and Recognition, pp.780-783, 2003