Improved Binarization and Removal of Noises for Effective Extraction of Characters in Color Images

컬러 영상에서 효율적 문자 추출을 위한 개선된 2치화 및 잡음 저거

  • 이은주 (한밭대학교 정보통신컴퓨터 공학부) ;
  • 정장호 (한밭대학교 산업대학원)
  • Published : 2001.06.01

Abstract

This paper proposed a new algorithm for binarization and removal of noises in color images with characters and pictures. Binarization was performed by threshold which had computed with color-relationship relative to the number of pixel in background and character candidates and pre-threshold for dividing of background and character candidates in input images. The pre-threshold has been computed by the histogram of R, G, B In respect of the images, while background and character candidates of input images are divided by the above pre-threshold. As it is possible that threshold can be dynamically decided by the quantity of the noises, and the character images are maintained and the noises are removed to the maximum. And, in this study, we made the noise pattern table as a result of analysis in noise pattern included in the various color images aiming at removal of the noises from the Images. Noises included in the images can figure out Distribution by way of the noise pattern table and pattern matching itself. And then this Distribution classified difficulty of noises included in the images into the three categories. As removal of noises in the images is processed through different procedure according to the its classified difficulties, time required for process was reduced and efficiency of noise removal was improved. As a result of recognition experiments in respect of extracted characters in color images by way of the proposed algorithm, we conformed that the proposed algorithm is useful in a sense that it obtained the recognition rate in general documents without colors and pictures to the same level.

본 논문에서는, 문자와 그림을 포함한 컬러 영상에서 낮은 명도의 색상으로 인쇄된 문자를 효율적으로 추출하기 위하여, 컬러 영상에 대한 2치화와 잡음을 제거하는 새로운 방법을 제안하였다. 컬러 영상에 포함된 문자를 추출하기 위한 컬러 영상의 2치화는, 입력영상의 배경후보영역과 문자후보영역의 화소수 비에 따라 이 두 영역간의 컬러 관계성을 구하고, 이 관계성과 예비임계값에 의해 계산된 임계값에 의하여 이루어진다. 예비임계값은 입력 영상에 대한 RGB 히스토그램의 분석에 의하여 구하며, 입력영상의 배경후보영역과 문자후보영역의 기준이 된다. 제안한 임계값은 잡음의 양에 따라 동적으로 계산되므로, 문자정보는 최대한 유지하고, 잡음은 효과적으로 제거할 수 있다. 또, 본 연구에서는 2치화 영상에 포함된 잡음의 효과적 제거를 위하여, 다양한 컬러 영상의 2치화 영상에 포함된 잡음패턴을 분석하여 잡음패턴 테이블을 만들었다. 2치화 영상에 포함된 잡음은 잡음패턴 테이블과 템플릿 매칭을 하여 잡음의 분포도가 계산되고, 이 분포도에 의하여 잡음의 난이도를 3단계로 분류하였다. 잡음의 제거는 분류된 난이도에 따라 별개의 처리 과정을 두어 수행하므로, 잡음제거의 효율을 높였고, 처리시간을 줄였다.

Keywords