An Approach to Segmentation of Address Strings of unconstrained handwritten Hangul using Run-Length Code

Rum-Length code를 이용한 제약없이 쓰여진 한글 필기체 주소열 분할

  • 김경환 (서강대학교 전자공학과) ;
  • 윤정석 (런던 City Unversity 전기전자정보공학과)
  • Published : 2001.11.01

Abstract

While recognition of isolated units of writing, such as a character or a word, has been extensively studied, emphasis on the segmentation itself has been lacking. In this paper we propose an active segmentation method for handwritten Hangul address strings based on the Run-length code. A slant correction algorithm, which is considered as an important preprocessing step for the segmentation, is presented. Three fundamental candidate estimation functions are introduced to detect the clues on touching points, and the classification of touching types is attempted depending on the structural peculiarity of Hangul. Our experiments show segmentation performance of 88.2% on touching characters with minimal over-segmentation.

대부분의 문자 인식기들이 인식대상영상이 인식단위로 분할되어있다는 가정아래 개발되고 있으나, 실제 필기한글의 분할에 대한 연구는 미미한 실정이다. 본 논문은 Run-length code를 이용한 능동적인 한글 분할방법을 제시한다. 전처리와 인식단위 분할에 응용할 수 있는, 한글의 구조적 특성을 반영한, 기울기 보정 알고리즘을 제안하고, 필기자들이 일반적인 필기 습관과 한글이 갖는 2차원 구조의 특성을 반영하면서 문자의 접촉점을 적극적으로 찾아내기 위한 기초 함수들과 접촉점들의 분류 방법을 제시한다. 임의의 필기자로부터 수집한 필기 한글 주소열 데이터를 이용해 수행한 실험을 통해, 초과분할을 포함하여, 88.2%의 접촉 문자들을 분리할 수 있었다.

Keywords

References

  1. 정선화, 김수형, '과다 분리 및 사전.후처리 기법을 이용한 한글이 포함됨 무제약 필기.문자열의 오프라인 인식', 한국정보과학회 논문지, 제26권, 제5호, pp. 647-655, 1999
  2. 김수형, '최소거리 분류 및 사전기반 후처리의 강결합에 의한 필기 한글 주소열의 인식' 한국정보과학회논문지(B), 제25권, 제8호, pp. 1195-1205, 1998
  3. 김민기, 권오성, 권영빈, '모음의 구조적 형태와 조합 규칙에 충실한 한글 문자의 유형분류' 한국정보과학회논문지(E), 제25권 제4호, pp 686-695, 1998
  4. S. -W. Lee and E.-S. Kim, 'Efficient post processing algorithms for error correction in handwritten Hangul address and human name recognition,' Pattern Recognition, vol. 27, no. 12, pp. 1631-1640, 1994 https://doi.org/10.1016/0031-3203(94)90082-5
  5. D. Guillevic, Unconstrained Handwriting Recognition Applied to the Processing of Bank Cheque, Ph.D thesis, Dept. of Computer Science, Concordia University, 1995
  6. S. Madhvanath, G. Kim and V. Govindaraju, 'Chaincode Contour Processing for Handwritten Word Recognition,' IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21, no. 9, pp. 928-932, 1999 https://doi.org/10.1109/34.790433
  7. H. Stark and J. W. Woods, Probability, Random Process and Estimation theory for Engineers, Prentice Hall, 1994
  8. 황순지, 김문현, '자소 클래스 인식에 의한 off-line 펼 기체 한글 문자 분할' 한국정보처리학회 논문지, 제3권, 제4호. pp. 1002-1013. 1996
  9. G. Kim and V. Govindaraju, 'Handwritten phrase recognition as applied to street name images,' Pattern Recognition, vol. 31, no. 1, pp. 41-51, 1998 https://doi.org/10.1016/S0031-3203(97)00023-X
  10. D. Nishiwaki and K. Yamada, 'Holistic Recognition of Touching Digits,' In Proc. of 6th International Workshop on Frontiers in Handwriting Recognition(IWFHR VI), Taejon, Korea, pp. 359-377, August 1998
  11. 곽후근, 최영우, 정규식, '모음 구조와 경험적인 규칙을 이용한 필기된 한글의 자소 분리 방법' 한국정보처리학회 논문지, 제8권, 제1호, pp. 10-19, 2001
  12. 박정선, 홍기천, 오일석, '필기 한글 문자의 모양 분해' 한국정보과학회 논문지:소프트웨어 및 응용, 제28권, 제7호 pp. 511-523, 2001