DOI QR코드

DOI QR Code

Character Segmentation on Printed Korean Document Images Using a Simplification of Projection Profiles

투영 프로파일의 간략화 방법을 이용한 인쇄체 한글 문서 영상에서의 문자 분할

  • 박상철 (전남대학교 정보통신연구소) ;
  • 김수형 (전남대학교 전자컴퓨터정보통신공학부)
  • Published : 2006.04.01

Abstract

In this paper, we propose two approaches for the character segmentation on Korean document images. One is an improved version of a projection profile-based algorithm. It involves estimating the number of characters, obtaining the split points and then searching for each character's boundary, and selecting the best segmentation result. The other is developed for low quality document images where adjacent characters are connected. In this case, parts of the projection profile are cut to resolve the connection between the characters. This is called ${\alpha}$-cut. Afterwards, the revised former segmentation procedure is conducted. The two approaches have been tested with 43,572 low-quality Korean word images punted in various font styles. The segmentation accuracies of the former and the latter are 91.81% and 99.57%, respectively. This result shows that the proposed algorithm using a ${\alpha}$-cut is effective for low-quality Korean document images.

본 논문에서는 한글 문서 영상에서의 문자 분할을 위한 2가지 알고리즘을 제안한다. 첫째는 투영 프로파일 기반 개선된 문자 분할 알고리즘이다. 이 알고리즘은 크게 문자수 추정, 분할 점 획득 및 문자 경계 탐색, 그리고 최적의 문자 분할 결과 선택으로 구성된다. 두 번째는 근접한 문자들이 서로 연결된 저 품질 문서 영상에 적합한 분할 알고리즘이다. 이 경우 연결요소를 제거하기 위해 투영 프로파일의 일부를 잘랐는데, 이를 ${\alpha}$-cut이라 한다. 그 후 전자의 방법을 변형하여 문자 분할을 수행한다. 다양한 폰트 속성을 갖고 품질이 낮은 43,572개의 한글 단어 영상을 대상으로 실험한 결과, 투영 프로파일 기반 개선된 문자 분할 알고리즘이 91.81%, 투영 프로파일에 ${\alpha}$-cut을 적용한 알고리즘이 99.57% 의 문자 분할 성공률을 나타내어 저 품질 한글 문서 영상에서 ${\alpha}$-cut을 이용한 문자 분할 알고리즘이 효과적임을 입증하였다.

Keywords

References

  1. R. G. Casey and G. Nagy, 'Recursive segmentation and classification of composite character patterns,' 6th International Joint Conference on Pattern Recognition, pp. 1023-1026, 1982
  2. D. Doermann, 'The retrieval of document images: a brief survey,' Proc, ICDAR 97, Ulm, pp.945-949, 1997 https://doi.org/10.1109/ICDAR.1997.620650
  3. Y. Lu, and C. L. Tan, 'Word searching in document images using word portion matching,' 5th IAPR International Workshop on Document Analysis Systems, USA, pp. 319-328, 2002
  4. Y. Lu, L. Zhang, and C. L. Tan, 'A search engine for imaged documents in PDF files,' 27th Annual International ACM SIGIR Conference, UK, pp.536-537, 2004 https://doi.org/10.1145/1008992.1009108
  5. J. DeCurtins and E. Chen, 'Keyword spotting via word shape recognition,' Proc. SPIE Document Recognition II, pp. 270-277, 1995 https://doi.org/10.1117/12.205829
  6. J. DeCurtins and E. Chen, 'Keyword spotting via word shape recognition,' Proc. SPIE Document Recognition II, pp. 270-277, 1995 https://doi.org/10.1117/12.205829
  7. C. L. Tan, W. Huang, Z. Yu, and Y. Xu, 'Image document text retrieval without OCR,' IEEE Transaction on Pattern Analysis and Machine Intelligence, Vol.24, No.6, pp.838-844, July, 2002 https://doi.org/10.1109/TPAMI.2002.1008389
  8. Y. Lu and C.L. Tan, 'Chinese word searching in imaged documents,' International Journal of Pattern Recognition and Artificial Intelligence, Vol.18, No.2, pp.229- 246, 2004 https://doi.org/10.1142/S0218001404003137
  9. 김혜금, 양진호, 이진선, 오일석, '웨이브렛을 이용한 영상기반 인쇄 한글 단어 검색' 한국정보과학회 논문지, 제28권 제2호, pp.91-103, 2001
  10. I. S. Oh, Y. S. Choi, J. H. Yang, and S. H. Kim, 'A keyword spotting system of Korean document images,' Proc. 5th International Conference on Asian Digital Libraries, Singapore, p.530, Dec., 2002
  11. Y. Lu, 'Machine printed character segmentation-An overview,' Pattern Recognition, Vol.28, No.1, pp.67-80, 1995 https://doi.org/10.1016/0031-3203(94)00068-W
  12. R. G. Casey and E. Lecolinet, 'A survey of methods and strategies in character segmentation,' IEEE Transaction on Pattern Analysis and Machine Intelligence, Vo1.18, No.7, pp. 690-706, July, 1996 https://doi.org/10.1109/34.506792
  13. 김우성, 이기돈, 문승원, 유신재, 최명구, 김민수, '오프라인 인쇄체 문자 인식기 개발' 한국과학기술정보연구원, 1997년 12월
  14. Y. Lu, B. Haist, L. Harmon, J. Trenkle, and R. Vogt, 'An accurate and efficient system for segmenting machineprinted text,' Postal Service 5th Advanced Technology Conference, Washington D. C, Nov., Vo1.3, pp.A-93 to A -105, 1992
  15. S. Liang, M. Ahmadi, and M. Shridhard, 'Segmentation of touching characters in printed document recognition,' Proc. 2nd International Conference on Document Analysis and Recognition, pp.569-572, Oct., 1993 https://doi.org/10.1109/ICDAR.1993.395671
  16. 이근수, '퍼지 추론을 이용한 인쇄체 한글 인식' 숭실대학교 전자계산학과 박사학위논문, 1993
  17. 구건서, '비디오 영상 정보 검색을 위한 문자 추출 및 인식' 컴퓨터산업교육기술학회논문지, Vol.3, No.7, pp.901-914, 2002
  18. H. H. Kuo and J. F. Wang, 'A new method for the segmentation of mixed handprinted Chinese/English characters,' Proc. 2nd International Conference on Document Analysis and Recognition, pp.810-813, Oct., 1993 https://doi.org/10.1109/ICDAR.1993.395614
  19. 김광백, 김영주, '다해상도 영상과 개선된 RBF 네트워크를 이용한 계층적 영문 명함 인식' 정보처리학회논문지B, Vol. 10, No.4, pp.443-450, 2003 https://doi.org/10.3745/KIPSTB.2003.10B.4.443
  20. N. W. Strathy, C. Y. Suen, and A. Krzyzak, 'Segmentation of handwritten digits using contour features,' Proc. 2nd International Conference on Document Analysis and Recognition, pp.577-580, Oct., 1993 https://doi.org/10.1109/ICDAR.1993.395669
  21. M. C. Jung, Y. C. Shin, and S. N. Srihari, 'Machine printed character segmentation method using side profiles,' Proc. IEEE International Conference on Systems, Man, Cybernetics, Vol.6, pp.863-867, 1999 https://doi.org/10.1109/ICSMC.1999.816665
  22. C. B. Jeong and S. H. Kim, 'A document image preprocessing system for keyword spotting,' Proc. International Conference on Asian Digital Libraries, China, pp.440-443, Dec., 2004