Browse > Article

Decomposition of a Text Block into Words Using Projection Profiles, Gaps and Special Symbols  

Jeong Chang Bu (전남대학교 전산학과)
Kim Soo Hyung (전남대학교 컴퓨터정보학부)
Abstract
This paper proposes a method for line and word segmentation for machine-printed text blocks. To separate a text region into the unit of lines, it analyses the horizontal projection profile and performs a recursive projection profile cut method. In the word segmentation, between-word gaps are identified by a hierarchical clustering method after finding gaps in the text line by using a connected component analysis. In addition, a special symbol detection technique is applied to find two types of special symbols tying between words using their morphologic features. An experiment with 84 text regions from English and Korean documents shows that the proposed method achieves 99.92% accuracy of word segmentation, while a commercial OCR software named Armi 6.0 Pro$^{TM}$ has 97.58% accuracy.y.
Keywords
Keyword Spotting; Word segmentation; Gap clustering; Special symbol detection;
Citations & Related Records
Times Cited By KSCI : 1  (Citation Analysis)
연도 인용수 순위
1 Lei Huang, Genxun Wan, Chanping Liu, 'An Improved Parallel Thinning Algorithm,' Proc. 7th International Conference on Document Analysis and Recognition, pp.780-783, 2003
2 조현목, 이경무, 최영우, 'Projection Profile을 이용한 새로운 자동 문서영상의 영역분리 및 분류 알고리즘', 제9회 영상처리 및 이해에 관한 워크샵, pp.136-140, 1997
3 S. N. Srihari, S. Lam, V. Govindaraju, R. Srihari and J. J. Hull, 'Document understanding: research directions,' CEDAR-TR-92-1, May 1992
4 Y. Y. Tang, S. W. Lee and C. Y. Suen, 'Automatic document processing: a survey,' Pattern Recognition, Vol.29, No.l2, pp. 1931-1952, 1996   DOI   ScienceOn
5 F. R. Jenkins, T. A. Nartker and S. V. Rice, 'Result of the fifth annual test of OCR technology by UNLV's lnformation Science Research Institute,' Inform Magazine, pp.20-25, Sep, 1996
6 K. Marukawa, T. Hu, H. Fujisawa and Y. Shima, 'Document retrieval tolerating character recognition errors-estimation and application,' Pattern Recognition, Vol.30, No.8, pp.1361-1371, 1997   DOI   ScienceOn
7 류대석, 강선미, 이성환, '매개변수에 무관한 새로운 문서 구조 분석 방법', 한국정보과학회 가을 학술발표논문집, Vol. 26, No.2, pp. 482-484, 1999   과학기술학회마을
8 E. Gose, R. Johnsonbaugh and S. Jost, Pattern recognition and image analysis, Prentice Hall, 1996
9 Soo H. Kim, S. Jeong, G.S. Lee, and C.Y. Suen, 'Gap Metrics for Handwritten Korean Word Segmentation,' IEE Electronics Letters, Vol. 37, No. 14, pp. 892-893, July 2001   DOI   ScienceOn
10 AIM'96 Conference Handbooks, Association for imaging and information methodologies, 1996
11 J. L. George, 'Digitization: a literature review and summary of technical processes,' Information Services Group, Oct. 1994
12 김두식, 이성환, '한글과 영.숫자가 혼용된 문서를 위한 효과적인 문자 분할 방법', 제 8회 영상 처리 및 이해에 관한 워크샵 발표논문집, pp. 19-26, 1996
13 장명욱, 천대녕, 양현승, '연결화소를 이용한 문서 영상의 분할 및 인식', 한국정보과학회 논문지, Vol. 20, No. 12, pp. 1741-1750, 1993
14 김두식, 이성환, '한.영 혼용 문서의 디지털 라이브러리 구출을 위한효과적인 문서 기울기 교정 및 문자분할 방법', 한국정보과학회 봄 학술발표논문집, Vol. 23, No. 1, pp. 293-296, 1996
15 배진학, 박세현, 김항준, '영.숫자 한글 문서에서 문자 분리 및 인식', 정보과학회 논문지, 제23권 제9호, pp.941-949, 1996
16 임장준, '인쇄된 한영 혼용 문서 인식을 위한 문자 분할 방법과 문자의 한글과 영어의 구별', 포항공과대학교 대학원 석사학위논문, 1998
17 최정호, 김태균, 남궁재찬, 신문 자동인식 시스템의 개발, 연구보고서, 1991
18 정규식, 권희웅, '내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징기반 단어 검색', 정보과학회 논문지 (B), 제26권, 제10호, pp.1204-1218, 1999