Text Area Segmentation and Layout Vectorization of Off-line Handwritten Forms

손으로 설계한 서식 문서의 문자 영역 분리 및 서식 벡터화

  • 김병용 (상지영서대학 전자계산과) ;
  • 권오석 (충남대학교 컴퓨터공학과)
  • Published : 2000.10.01

Abstract

본 논문에서는 손으로 자유스럽게 그린 서식 문서에서 문자 영역을 분리하고, 이 중 선 성분을 벡터화하는 방법을 제안한다. 제안된 방법은 우선 이진화 및 세선화 과정에서의 데이터 손실을 방지하기 위해 스캔한 영상에 DRC 알고리즘을 적용한다. 그리고 영상의 기울어짐을 교정하기 위해 세선화된 영상에 허프 변환을 적용하여 기울어짐을 추정하고 교정한 다음, 서식의 구조를 이루는 선 성분을 추출해 낸다. 그리고 문자 영역은 연결 요소 분석법에 의해 문자 영역을 나타내는 데이터로 변환되며, 추출된 선 성분을 정렬, 합병 및 교정처리를 통해 벡터화 된다. 제안된 방법의 실효성을 입증하기 위해 각각 25명의 다른 사람이 필기구에 제한을 두지 않고 하나는 자를 사용하여 작성하고 다른 하나는 자를 사용하지 않고 작성한 서식에 대해 실험한 결과 전체 750개의 벡터 집합 중에서 전처리를 하지 않은 경우에는 666개, 전처리를 한 경우에는 746개의 서식 벡터 검출에 성공하여 그 유효성을 확인할 수 있었다.

Keywords

References

  1. 이성환, 문자인식 : 이론과 실제 I, II권, 홍릉과학출판사, 1994
  2. 김기철, 이성환, '서식 문서 영상의 구조 분석', 한국정보과학회논문지, 제22권 제1호, pp.182-192, 1995
  3. 정선화, 김수형, '과다 분리 및 사전 후처리 기법을 이용한 한글이 포함된 무제약 필기 문자열의 오프라인 인식', 정보과학회논문지(B), 제26권 제5호, pp. 647-656, 1999
  4. 곽희규, 김수형, '선택적 주의집중에 의한 문서영상의 효율적인 기울어짐 추정', 정보과학회논문지(B), 제26권, 제10호, pp.1193-1203, 1999
  5. 한동협, 조성배, '오프라인 필기한글을 위한 지식기반 세선화 알고리즘', 정보과학회논문지(B), 제25권 제9호, pp.503-515, 1998
  6. K. Y. Wong, R. G. Casey, F. M. Wahl, 'Document Analysis System,' IBM J. Res. Develop., Vol.26, No.6, pp.647-656, 1982
  7. L. A. Fletcher, R. Kasturi, 'A Robust Algorithm for Text String Separation from Mixed Text/Graphics Images,' IEEE Trans. on PAMI, Vol.10, No.6, pp.910-918, 1988 https://doi.org/10.1109/34.9112
  8. R. G. Casey, D. R. Ferguson, 'Intelligent Forms Processing,' IBM Systems Journal, Vol.29, No.3, pp.435-450, 1990
  9. J. Yuan, L. Xu, and C. Y. Suen, 'Form Items Extraction By Model Matching,' Proc. of ICDAR'91, pp.210-218, 1991
  10. C. D. Yan, Y. Y. Tang and C. Y. Suen, 'Form Understanding System Based on Form Description Language,' Proc. of ICDAR'91, pp.283-293, 1991
  11. S. W. Lam, L. Javanbakht and S. N. Srihari, 'Anatomy of a Form Reader,' Proc. ICDAR'93, pp.506-509, 1993 https://doi.org/10.1109/ICDAR.1993.395685
  12. S. Chandran and R. Kasturi, 'Structural Recognition of Tabulated Data,' Proc. of ICDAR'93, pp.516-519, 1993 https://doi.org/10.1109/ICDAR.1993.395683
  13. E. Green, M. Krishnamoorthy, 'Model-Based Analysis of Printed Tables,' Proc. of ICDAR95, pp.214-217, 1995 https://doi.org/10.1109/ICDAR.1995.598979
  14. J. Liu, X. Ding and Y. Wu, 'Description and Recognition of Form and Automated Form Data Entry,' Proc. of ICDAR'95, pp.579-582, 1995 https://doi.org/10.1109/ICDAR.1995.601963
  15. J. F. Arias, R. Kasturi and A. Chhabra, 'Efficient Techniques for Telephone Company Line Drawing Interpretation,' Proc. of ICDAR'95, pp.795-798, 1995 https://doi.org/10.1109/ICDAR.1995.602021
  16. J. F. Arias, A. Chhabra and V. Misra, 'Interpreting and Representing Tabular Documents,' Proc. of CVPR, pp.600-605, San Francisco, CA, 1996
  17. Y. Y. Tang, J. Liu, 'Information Acquisition and Storage of forms in Document Processing,' Proc. of ICDAR'97, pp.170-174, 1997 https://doi.org/10.1109/ICDAR.1997.619835
  18. K. Zuyev, 'Table Image Segmentation,' Proc. of ICDAR'97, pp.705-708, 1997
  19. J. F. Arias, A. Chhabra, and V. Misra, 'Finding Straight Lines in Drawings,' Proc. of ICDAR'97, pp.788-791, 1997
  20. Y. Solihin and G. Leedham, 'Mathematical Properties of the Native Integral Handwriting and Text Extraction Technique,' Proc. of ICDAR'97, pp.1102-1106, 1997
  21. C. Cracknell, A.C. Downton, and L. Du, 'An object-oriented form description language and approach to handwritten form processing,' Proc. of ICDAR'97, pp.180-184, 1997
  22. Yan Solihin and C. G. Leedham, 'Integral Ratio: A New Class of Global Thresholding Techniques for Handwriting Image,' IEEE Trans. on PAMI, Vol.21, No.8, pp.761-768, 1999 https://doi.org/10.1109/34.784289
  23. Rafael C. Gonzalez, Richard E. Woods, Digital Image Processing, Addison-Wesley Publishing Company, 1992
  24. F. Chang, Y. P. Cheng, T. Pavlidis, and T. Y. Shuai, 'A Line Sweep Thinning Algorithm,' Proc. of Third Int'l Conf. Document Analysis and Recognition, pp.227-230, 1995 https://doi.org/10.1109/ICDAR.1995.598982