Scene Text Extraction in Natural Images using Hierarchical Feature Combination and Verification

계층적 특징 결합 및 검증을 이용한 자연이미지에서의 장면 텍스트 추출

  • 최영우 (숙명여자대학교 정보과학부) ;
  • 김길천 (연세대학교 컴퓨터과학) ;
  • 송영자 (숙명여자대학교 컴퓨터과학) ;
  • 배경숙 (숙명여자대학교 컴퓨터과학) ;
  • 조연희 (숙명여자대학교 컴퓨터과학) ;
  • 노명철 (고려대학교 컴퓨터과학) ;
  • 이성환 (고려대학교 컴퓨터과학) ;
  • 변혜란 (연세대학교 컴퓨터과학과)
  • Published : 2004.04.01

Abstract

Artificially or naturally contained texts in the natural images have significant and detailed information about the scenes. If we develop a method that can extract and recognize those texts in real-time, the method can be applied to many important applications. In this paper, we suggest a new method that extracts the text areas in the natural images using the low-level image features of color continuity. gray-level variation and color valiance and that verifies the extracted candidate regions by using the high-level text feature such as stroke. And the two level features are combined hierarchically. The color continuity is used since most of the characters in the same text lesion have the same color, and the gray-level variation is used since the text strokes are distinctive in their gray-values to the background. Also, the color variance is used since the text strokes are distinctive in their gray-values to the background, and this value is more sensitive than the gray-level variations. The text level stroke features are extracted using a multi-resolution wavelet transforms on the local image areas and the feature vectors are input to a SVM(Support Vector Machine) classifier for the verification. We have tested the proposed method using various kinds of the natural images and have confirmed that the extraction rates are very high even in complex background images.

이미지에 인위적 또는 자연적으로 포함된 텍스트는 이미지의 내용을 함축적이고 구체적으로 표현하는 중요한 정의이다. 이러한 정보를 실시간에 추출하여 정확히 인식할 수 있다면 다양한 분야에서 활용될 수 있다. 본 논문에서는 자연이미지에 포함된 장면 텍스트를 추출하는 방법으로서 텍스트의 색 연속성, 자기 변화 및 색 변화와 같은 낮은 수준의 이미지 특징으로 텍스트 후보 영역을 찾고, 다해상도 (Multi-resolution) 웨이블릿(Wavelet) 변환을 이용하여 높은 수준의 텍스트 특징인 획의 구성 여부로 검증하는 계층적인 구조를 제안한다. 색 연속성 특징은 대부분의 텍스트는 동일한 색으로 구성된다는 특징을 이용하는 것이고, 밝기 변화 특징은 텍스트 영역은 주변과의 밝기 변화가 존재하며 에지 밀도가 높은 특징을 이용한다. 또한, 색 변화 특징은 텍스트 영역은 주변 배경과의 색 변화가 존재하며, 밝기 변화보다 민감한 색 분산 값으로 표현할 수 있다는 장점을 이용한다. 높은 수준의 텍스트 특징으로서 다해상도 웨이블릿 변환을 이용하여 텍스트 획의 방향성 정보를 추출하고, 추출된 정보를 SVM(Support Vector Machine) 분류기로 검증하여 최종 영역을 확정한다. 제안한 방법을 다양한 종류의 이미지에 적용한 결과 배경이 복잡해도 비교적 안정적으로 텍스트 영역을 추출하는 것을 확인할 수 있었다.

Keywords

References

  1. J. C. Shim, C. Dorai, R. Bolle, 'Automatic Text Extraction from Video for Content-Based Annotation and Retrieval,' Proceedings of 14th International Conference of Pattern Recognition, Vol. 1, pp. 618-620, Brisbane, 1998
  2. 장인영, 고병철, 김길천, 변혜란, '모폴로지를 이용한 비디오 영상에서의 자동 문자 추출', 정보과학회 추계 학술대회 논문집, pp. 418-420, 2001
  3. M. Bertini, C. Colombo, A. Del Isimbo, 'Automatic Caption Localization in Videos using Salient Points,' IEEE International Conference on Multimedia and Expo, pp. 69-72, 2001
  4. Y. Zhong, H. Shang and A. K. Jain, 'Automatic Caption Localization in Compressed Video,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No.4, pp. 385-392, 2000 https://doi.org/10.1109/34.845381
  5. F. LeBourgeois, 'Robust Multifont OCR System from Gray Level Images,' International Conference on Document Analysis and Recognition, Vol. 1, pp. 1-5, 1997 https://doi.org/10.1109/ICDAR.1997.619803
  6. R. Lienhart, F. Stuber, 'Automatic Text Recognition in Digital Videos,' Image and Video Proceeding IV, The International Society for Optical Engineering(SPIE), 1996 https://doi.org/10.1117/12.234741
  7. M. A. Smith, T. Kanade, 'Video Skimming for Quick Browsing Base on Audio and Image Characterization,' Technical Report CMU-CS-95186, Carnegie Mellon University. July 1995
  8. Chuang Li, Xiaoqing Ding, Youshou Wu, 'Automatic Text Location in Natural Scene Images,' Document Analysis and Recognition, Proceedings Sixth International Conference, pp. 1069-1073, Sept 2001 https://doi.org/10.1109/ICDAR.2001.953950
  9. Hao Wang, 'Automatic Character Location and Segmentation in Color Scene Images,' Image Analysis and Processing, Proceedings 11th International Conference, pp. 2-7, 2001 https://doi.org/10.1109/ICIAP.2001.956977
  10. Anil K. Jain, Bin Yu, 'Automatic Text Location in Images and Video Frames,' Pattern Recognition, Vol. 31, No. 12, pp. 2055-2076, 1998 https://doi.org/10.1016/S0031-3203(98)00067-3
  11. Yu Zhong, Kalle Karu, Anil K. Jain, 'Locating Text in Complex Images,' Pattern Recognition, Vol. 28, No. 10, pp. 1523-1535, 1995 https://doi.org/10.1016/0031-3203(95)00030-4
  12. H. K. Kim, 'Efficient Automatic Text Location Method and Content-based Indexing and Structuring of Video Database,' Journal of Visual Communications and Image Representation, Vol. 7, pp. 336-344, 1996 https://doi.org/10.1006/jvci.1996.0029
  13. Pyeoung-Kee Kim, 'Automatic Text Location in Complex Color Images using Local Color Quantization,' TENCON 99. Proceedings of the IEEE Region 10 Technical Conference, Vol. 1, pp. 629-632, 1999 https://doi.org/10.1109/TENCON.1999.818493
  14. J. Ohya, A. Shio, S. Akamatsu, 'Recognizing Characters in Scene images,' IEEE Transactions Pattern Analysis and Machine Intelligence, PAMI-16(2), pp. 67-82, 1995 https://doi.org/10.1109/34.273729
  15. Lixu Gu, Toyahisa Kaneko, 'Robust Extraction of Characters from Color Scene Image Using Mathematical Morphology,' Proceeding of 7th International Conference on Pattern Recognition, Vol. 2, pp. 1002-1004, 1998 https://doi.org/10.1109/ICPR.1998.711858
  16. John Canny, 'A Computational Approach to Edge Detection,' IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI 8(6), pp. 679-698, 1986 https://doi.org/10.1109/TPAMI.1986.4767851
  17. Proceedings of Machine Learning v.20 Support Vector Networks C.Cortes;V.Vapnik
  18. C. Cortes, V. Vapnik, 'Support Vector Networks,' In Proceedings of Machine Learning, Vol. 20, pp. 273-297, 1995 https://doi.org/10.1023/A:1022627411411
  19. Huiping Li, David Doermann, and Omid Kia, 'Automatic Text Detection and Tracking in Digital Video,' IEEE Transactions on Image Processing, Vol. 9, No.1, pp. 147-156, 2000 https://doi.org/10.1109/83.817607
  20. S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong and R. Young, 'ICDAR 2003 Robust Reading Competition,' International Conference on Document Analysis and Recognition (ICDAR), Vol. 2, pp.682-687, 2003