Document Image Segmentation and Classification using Texture Features and Structural Information

텍스쳐 특징과 구조적인 정보를 이용한 문서 영상의 분할 및 분류

  • 박근혜 (영남대학교 컴퓨터공학과) ;
  • 김보람 (영남대학교 컴퓨터공학과) ;
  • 김욱현 (영남대학교 컴퓨터공학과)
  • Received : 2010.06.25
  • Accepted : 2010.07.29
  • Published : 2010.07.30

Abstract

In this paper, we propose a new texture-based page segmentation and classification method in which table region, background region, image region and text region in a given document image are automatically identified. The proposed method for document images consists of two stages, document segmentation and contents classification. In the first stage, we segment the document image, and then, we classify contents of document in the second stage. The proposed classification method is based on a texture analysis. Each contents in the document are considered as regions with different textures. Thus the problem of classification contents of document can be posed as a texture segmentation and analysis problem. Two-dimensional Gabor filters are used to extract texture features for each of these regions. Our method does not assume any a priori knowledge about content or language of the document. As we can see experiment results, our method gives good performance in document segmentation and contents classification. The proposed system is expected to apply such as multimedia data searching, real-time image processing.

본 논문은 문서 영상을 대상으로 표, 그림, 글자 등의 각 구성요소들을 자동으로 분류하기 위한 새로운 텍스쳐 기반의 영상 분할 및 분류 방법을 제안한다. 제안한 방법은 문서 영상 분할 단계와 문서 영상 내 구성요소 분류 단계로 이루어진다. 먼저 영상 분할을 수행한 후, 분할된 영역을 대상으로 문서 영상의 구성 요소들을 분류하는데, 이때 각 구성 요소는 서로 다른 텍스쳐를 가지고 있는 영역이라는 특징을 이용한다. 분할된 영역들을 분류하기 위한 텍스쳐 특징을 추출하기 위해 다양한 텍스쳐 분석에 광범위하게 사용되는 2차원 가보필터를 이용한다. 제안한 방법은 구성 요소와 사용 언어에 대한 사전 지식을 이용하지 않으면서 문서 영상의 분할 및 구성요소 분류에서 좋은 성능을 보인다. 제안한 방법은 멀티미디어 데이터 검색, 실시간 영상 처리 등과 같은 다양한 분야에 적용 될 수 있다.

Keywords

References

  1. K. Y. Wong, R. G. Casey and F. M. Wahl, "Document analysis system", IBM J.Res. Development, Vol. 6, pp.642-656. Nov. 1982.
  2. F. M. Wahi K. Y. Wong, and R. G. Casey, "Block segmentation and text extraction in mixed text/image documents," Computer Graphics and Image Processing, vol. 22, pp.375-390, Feb. 1982.
  3. J. L. Fisher, S. C. Hinds and D. P. D'Amato, "A rule-based system for document image segmentation," Proc. 10th Int. conf. Pattern Recognition, pp.567-572, 1990.
  4. 서정, 김보람, 오준택, 김욱현, "텍스쳐 기반 BP 신경망을 이용한 위성영상의 도로영역 추출 ", 한국신호처리시스템학회논문지, v.10, no.3, pp.164-169, 2009년 7월.
  5. R. M. Haralick, "Statistical and structural approaches to texture", Proceeding IEEE, 67(5), pp.786-804, 1990
  6. N. Otsu, "A threshold selection method from gray level histograms", IEEE Trans. on Syst. Man Cybern. VoI.9, No.1, pp.62-66, 1979.
  7. R. C. Gonzalez and R. E. Woods, Digital Image Processing, Addison Wesley, New York, 1992.
  8. Anil K. .Jain , Farshid Farrokhnia, "Unsupervised texture segmentation using Gabor filters", Pattern Recognition, Vol.24 No.12, pp.1167-1186, Dec. 1991. https://doi.org/10.1016/0031-3203(91)90143-S
  9. 김보람, 오준택, 김욱현, "지역적 엔트로피와 텍스처의 주성분 분석을 이용한 문서양상의 분할 및 구성요소 분류", 정보처리학회, 제16-B권, 제5호, pp. 377-384, 2009. https://doi.org/10.3745/KIPSTB.2009.16B.5.377
  10. M-W Lin, J-R Tapamo, B Ndovie, "A texture-based method for document segmentation and classification," ARIMA/SACJ, Vol.36, pp.49-56, 2006.