• Title/Summary/Keyword: 문자영역추출

Search Result 288, Processing Time 0.023 seconds

Extraction text-region's pixel on caption of video (동영상에 삽입된 자막 내 문자영역화소추출)

  • An, Kwon-Jae;Kim, Gye-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.43-45
    • /
    • 2011
  • 본 논문은 동영상 내 삽입된 자막을 문자인식이 가능하도록 문자영역을 이루는 화소를 추출하는 방법을 제안한다. 최초 자막영상을 통계학적 방법을 이용하여 색상극성을 결정한다. 이 후 색상극성에 따른 잡음제거 방법을 명암값기반과 형태학적기반으로 달리한다. 제안된 방법은 각 색상결정에 따른 적합한 잡음제거를 수행함으로서 추출된 화소들이 이루는 문자영역의 영상을 이용하여 문자인식을 수행하였을 때 기존방법보다 높은 문자인식률을 보였다.

  • PDF

The Character Area Extraction and the Character Segmentation on the Color Document (칼라 문서에서 문자 영역 추출믹 문자분리)

  • 김의정
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.9 no.4
    • /
    • pp.444-450
    • /
    • 1999
  • This paper deals with several methods: the clustering method that uses k-means algorithm to abstract the area of characters on the image document and the distance function that suits for the HIS coordinate system to cluster the image. For the prepossessing step to recognize this, or the method of characters segmentate, the algorithm to abstract a discrete character is also proposed, using the linking picture element. This algorithm provides the feature that separates any character such as the touching or overlapped character. The methods of projecting and tracking the edge have so far been used to segment them. However, with the new method proposed here, the picture element extracts a discrete character with only one-time projection after abstracting the character string. it is possible to pull out it. dividing the area into the character and the rest (non-character). This has great significance in terms of processing color documents, not the simple binary image, and already received verification that it is more advanced than the previous document processing system.

  • PDF

Text extraction from camera based document image (카메라 기반 문서영상에서의 문자 추출)

  • 박희주;김진호
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.8 no.2
    • /
    • pp.14-20
    • /
    • 2003
  • This paper presents a text extraction method of camera based document image. It is more difficult to recognize camera based document image in comparison with scanner based image because of segmentation problem due to variable lighting condition and versatile fonts. Both document binarization and character extraction are important processes to recognize camera based document image. After converting color image into grey level image, gray level normalization is used to extract character region independent of lighting condition and background image. Local adaptive binarization method is then used to extract character from the background after the removal of noise. In this character extraction step, the information of the horizontal and vertical projection and the connected components is used to extract character line, word region and character region. To evaluate the proposed method, we have experimented with documents mixed Hangul, English, symbols and digits of the ETRI database. An encouraging binarization and character extraction results have been obtained.

  • PDF

Text Extraction by Skew Normalization and Block Split & Merge (기울기 보정과 블록 분할 합병을 통한 문자 추출)

  • 김도현;차의영;강민경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.424-426
    • /
    • 2001
  • 신문, 잡지, 공문서, 영수증 등의 문서로부터 필요한 정보를 자동화하여 처리할 수 있는 문서영상 이해 시스템의 구현에 있어서 문서영상에 존재하는 문자를 추출하는 연구는 문자 인식의 전처리 단계로서 매우 중요한 의미를 지니고 있다. 하지만 현 시점에서 문서 자체가 가지는 다양한 형태 및 배경 등에 의하여 범용화되고 일반화된 방법을 찾기란 매우 어려운 실정이다. 본 논문에서는 특히 배경이 선이나 도표 등으로 이루어진 문서 영상에서 Hough Transform을 사용하여 기울어짐을 보정하고 문자들이 선에 겹친 부분을 효과적으로 보정하며 추출된 영역에 대한 분할 및 합병 과정을 거쳐 최종적으로 완전한 문자 영역을 추출하는 방법에 대하여 다룬다.

  • PDF

A Character Recognition on Complex Color Documents (복잡한 컬러 문서에 대한 문자인식)

  • 양철용;김갑기;김진욱;김항준
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.08a
    • /
    • pp.233-236
    • /
    • 2000
  • 최근 수많은 인쇄된 문서들이 HTML과 같은 디지털 문서로 바뀌고 있으며 이를 자동으로 변환해 주는 문자인식 기술에 대한 관심이 증가하고 있다. 본 논문에서는 그림과 글자가 공존하는 문서에서 자동으로 문자영역을 추출해서 문자를 인식하는 방법을 제안한다. 우선 입력문서는 유사한 칼라로 이루어진 영역들로 나누어진 뒤 휴리스틱 룰에 의해 문자후보 영역과 비 문자 영역으로 나누어진다. 그 다음 이들 문자후보영역들은 문자인식기를 이용하여 문자 혹은 문자의 일부분으로 인식된다. 제안된 방법으로 여러 문서들에 대하여 실험한 결과를 보이며 그 성능을 평가한다.

  • PDF

Character Grouping using 3-D Neighborhood Graph on Raster Map (래스터 지도상에서 3차원 인접 그래프를 이용한 문자 그룹핑)

  • Gang, Yong-Bin;Ok, Se-Yeong;Jo, Hwan-Gyu
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.2
    • /
    • pp.273-283
    • /
    • 1999
  • 래스터 지도에서 직선 또는 곡선과 중첩되어 있는 경우의 문자는 추출하기가 쉽지 않다. 따라서 본 논문에서는 고립되어 있는 문자뿐만 아니라 문자이외의 요소와 중첩되어 있는 문자도 효과적으로 추출할수 있는 분할 정복(divide and conquer) 개념에 기반한 문자 추출방법을 제시한다. 이를 위해 먼저 이미지의 연결 요소로부터 볼록다각형(convex hull)을 생성한다. 그리고 이 다각형이 충분한게 문자영역만을 포함할때가지 볼록 다각형을 이등분하면서 가장 긴 선분(투사 선분)을 기준으로 두 영역으로 분할한다. 다음으로 문자를 추출하기 위해서 이 선분을 기준으로 연결 요소상의 픽셀의 밀집도를 계산하는 알고리즘(프로파일링)을 적용한다. 또한 지도상에서 추출된 개별적인 문자들을 의미있는 단어들로 묶기(grouping)한 새로운 알고리즘을 소개한다. 특히 지도상에 나타나는 문자의 종류는 매우 다양하고 또한 이 문자들이 놓여있는 방향 역시 일정하지 않기 때문에 이러한 단어를 찾는 kd법은 쉽지 않다. 이를 위해 본 논문에서는 3차원 인접 그래프(3-D neighborhood graph)G를 소개한다. 이 그래프 G에서 각 노드는 하나의 분리된 문자를 나타내며 자신의 크기와 위치에 따라서 3차원 공간상에서 위치하게된다. 따라서, 크기가 큰 (작은)문자들은 보다 큰 (작은) z값을 가지고 되며 이 그래프 G에서 서로 인접한 노드들을 연결함으로써 지도상에 존재하는 서로 다른 종류의 문자 스트링을 추출할수 있다. 실험결과는 서로 다른 지도 이미지에 대해서 약 95% 이상의 단어 추출율을 보여준다.

A Study on Extraction of Character String in Document Image Using Morphology (Morphology를 이용한 문서화상내의 문자열 추출에 관한 연구)

  • 장희돈;김동현;김석태;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.1
    • /
    • pp.123-132
    • /
    • 1993
  • This paper presents the segmentation of sentence area and diagram area from docwnent image. For extracting the sentence area, we perform the Dilation, basic operation of Morphology, to the document image and obtain the smeared document image. After the smeared docwnent image is blocked, we determine the writing form by the vertical and horizontal characteristics of the document image and calculate the skew from it. And then, we relocate the document image and extract the chatacter string from the relocated docwnent. 11 document images of three classes are considered and the character string has been well extracting from 11 document images.

  • PDF

A Recognition Method of Container ISO-code for Vision & Information System in Harbors (항만 영상정보시스템 구축을 위한 컨테이너 식별자 인식)

  • Koo, Kyung-Mo;Cha, Eui-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.06a
    • /
    • pp.721-723
    • /
    • 2007
  • Recently, the size and location of the acquired container image while the container is loading and unloading in Harbors is not fixed. And it is difficult to get a good image for recognition because of the variation of external environment as those the size of container and where the yard-tractor stop is. In this paper, we estimate where the container ISO-code set is using Top-hat transform from realtime images and get an image to recognize container ISO-code using PAN/TILT/ZOOM camera. We extract the container ISO-code using Top-hat transform and Histogram projection. After binarization, we extract each character from complex background using labeling. We use BP(Backpropagation Network) to recognize extracted characters.

  • PDF

Extraction of Car License Plate Region Using Histogram Features of Edge Direction (에지 영상의 방향성분 히스토그램 특징을 이용한 자동차 번호판 영역 추출)

  • Kim, Woo-Tae;Lim, Kil-Taek
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.14 no.3
    • /
    • pp.1-14
    • /
    • 2009
  • In this paper, we propose a feature vector and its applying method which can be utilized for the extraction of the car license plate region. The proposed feature vector is extracted from direction code histogram of edge direction of gradient vector of image. The feature vector extracted is forwarded to the MLP classifier which identifies character and garbage and then the recognition of the numeral and the location of the license plate region are performed. The experimental results show that the proposed methods are properly applied to the identification of character and garbage, the rough location of license plate, and the recognition of numeral in license plate region.

A Method of Detecting Character Data through a Adaboost Learning Method (에이다부스트 학습을 이용한 문자 데이터 검출 방법)

  • Jang, Seok-Woo;Byun, Siwoo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.7
    • /
    • pp.655-661
    • /
    • 2017
  • It is a very important task to extract character regions contained in various input color images, because characters can provide significant information representing the content of an image. In this paper, we propose a new method for extracting character regions from various input images using MCT features and an AdaBoost algorithm. Using geometric features, the method extracts actual character regions by filtering out non-character regions from among candidate regions. Experimental results show that the suggested algorithm accurately extracts character regions from input images. We expect the suggested algorithm will be useful in multimedia and image processing-related applications, such as store signboard detection and car license plate recognition.