문자-에지 맵의 패턴 히스토그램을 이용한 자연이미지에서의 텍스트 영역 추출

Text Region Extraction using Pattern Histogram of Character-Edge Map in Natural Images

  • 박종천 (충북대학교 컴퓨터 공학과) ;
  • 황동국 (충북대학교 컴퓨터 공학과) ;
  • 이우람 (충북대학교 컴퓨터 공학과) ;
  • 권교현 (충북대학교 컴퓨터 공학과) ;
  • 전병민 (충북대학교 컴퓨터 공학과)
  • Park, Jong-Cheon (School of Electrical & Computer Engineering, Chungbuk National University) ;
  • Hwang, Dong-Guk (School of Electrical & Computer Engineering, Chungbuk National University) ;
  • Lee, Woo-Ram (School of Electrical & Computer Engineering, Chungbuk National University) ;
  • Kwon, Kyo-Hyun (School of Electrical & Computer Engineering, Chungbuk National University) ;
  • Jun, Byoung-Min (School of Electrical & Computer Engineering, Chungbuk National University)
  • 발행 : 2006.11.02

초록

자연이미지에 포함된 텍스트는 많은 중요한 정보를 포함하고 있다. 그러므로 자연이미지에서 텍스트를 추출할 수 있다면 다양한 분야에서 활용될 수 있다. 본 논문에서는 문자-에지 맵 패턴 히스토그램 분석함으로서 텍스트 영역을 추출하는 방법을 제안한다. 캐니-에지 검출기로 에지를 추출하여 16가지 에지 맵을 생성하고, 에지 맵을 조합하여 문자 특징을 갖는 8가지 문자-에지 맵을 생성한다. 8가지 문자-에지 맵과 16가지 에지 맵을 이용하여 텍스트 후보 영역을 추출하고, 문자-에지 맵의 패턴 히스토그램 및 텍스트 영역의 구조적 특징을 이용하여 텍스트 후보 영역에 대한 검증을 수행하였다. 제안한 방법은 다양한 종류의 자연이미지를 대상으로 실험하였고, 복잡한 배경, 다양한 글꼴, 다양한 텍스트 컬러로 구성된 자연이미지에서 텍스트 영역을 효과적으로 추출하였다.

The text to be included in the natural images has many important information in the natural image. Therefore, if we can extract the text in natural images, It can be applied to many important applications. In this paper, we propose a text region extraction method using pattern histogram of character-edge map. We extract the edges with the Canny edge detector and creates 16 kind of edge map from an extracted edges. And then we make a character-edge map of 8 kinds that have a character feature with a combination of an edge map. We extract text region using 8 kinds of character-edge map and 16 kind of edge map. Verification of text candidate region uses analysis of a character-edge map pattern histogram and structural feature of text region. The method to propose experimented with various kind of the natural images. The proposed approach extracted text region from a natural images to have been composed of a complex background, various letters, various text colors effectively.

키워드