Abstract
It is often assumed that text regions in images are characterized by some distinctive or characteristic spatial frequencies. This feature is highly intuitive, and thus appealing as much. We propose a method of detecting horizontal texts in natural scene images. It is based on the use of two features that can be employed separately or in succession: the frequency of edge pixels across vertical and horizontal scan lines, and the fundamental frequency in the Fourier domain. We confirmed that the frequency features are language independent. Also addressed is the detection of quadrilaterals or approximate rectangles using Hough transform. Since texts that is meaningful to many viewers usually appear within rectangles with colors in high contrast to the background. Hence it is natural to assume the detection rectangles may be helpful for locating desired texts correctly in natural outdoor scene images.
장면 영상 속의 분사 영역에는 다른 부분과는 구분되는 특징적인 공간주파수가 있다. 이 특징은 직관적이며 또한 유용한 정보로서의 가치가 있다. 본 논문에서는 장면 영상에서 수평 텍스트를 찾는 방법을 제안한다. 수직 및 수평 방향으로 걸친 edge 픽셀의 빈도수와 푸리에 변환에 의한 기본 주파수의 두 가지 특징을 이용한 방법이다. 두 가지 특징을 독립적으로 활용하여 그 결과를 결합하거나 연속하여 적용하여 원하는 결과를 얻을 수 있다. 이와 같은 특징은 대체로 언어 또는 문자에 무관함을 확인하였다. 이에 추가하여 Hough 변환을 이용한 장면 속의 사각형을 탐색하였다. 여러 사람들에게 유용한 정보는 보통 강한 색상대비로 눈에 잘 띄는 색깔의 사각형 안에 씌어있는 경우가 보통이므로 사자형의 탐색함으로써 보다 효과적으로 문자를 탐색할 수 있다.