• Title/Summary/Keyword: 문자 추출

Search Result 671, Processing Time 0.032 seconds

Text extraction from camera based document image (카메라 기반 문서영상에서의 문자 추출)

  • 박희주;김진호
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.8 no.2
    • /
    • pp.14-20
    • /
    • 2003
  • This paper presents a text extraction method of camera based document image. It is more difficult to recognize camera based document image in comparison with scanner based image because of segmentation problem due to variable lighting condition and versatile fonts. Both document binarization and character extraction are important processes to recognize camera based document image. After converting color image into grey level image, gray level normalization is used to extract character region independent of lighting condition and background image. Local adaptive binarization method is then used to extract character from the background after the removal of noise. In this character extraction step, the information of the horizontal and vertical projection and the connected components is used to extract character line, word region and character region. To evaluate the proposed method, we have experimented with documents mixed Hangul, English, symbols and digits of the ETRI database. An encouraging binarization and character extraction results have been obtained.

  • PDF

개선된 퍼지 ART 기반 RBF 네트워크와 PCA 알고리즘을 이용한 여권 인식 및 얼굴 인증

  • Jang, Do-Won;Kim, Kwang-Baek
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2005.11a
    • /
    • pp.547-556
    • /
    • 2005
  • 본 논문에서는 출입국자 관리의 효율성과 제계적인 출입국 관리를 위하여 여권 코드를 자동으로 인식하고 위조 여권을 판별할 수 있는 여권 인식 및 얼굴 인증 방법을 제안한다. 여권 이미지가 기울어진 상태로 스캔되어 획득되어질 경우 개별 코드 인식과 얼굴 인증에 많은 영향을 미칠 수도 있으므로 기울기 보정은 문자 분할 및 인식, 얼굴 인증에 있어 매우 중요하다. 따라서 본 논문에서는 여권 영상을 스미어링한 후, 추출된 문자열 중에서 가장 긴 문자열을 선택하고 이 문자열의 좌측과 우측 부분의 두께 중심을 연결하는 직선과 수평선과의 기울기를 이용하여 여권 영상에 대한 각도 보정을 수행한다. 여권 모드 추출은 소벨 연산자와 수평 스미어링, 8 방향 윤곽선 추적 알고리즘을 적용하여 여권 코드의 문자열 영역을 추출하고, 추출된 여권 코드 문자열 영역에 대해 반복 이지화 방법을 적용하여 코드의 문자열 영역을 이진화한다. 이진화된 문자열 영역에 대해 CDM 마스크를 적용하여 문자열의 코드들을 복원하고 8 방향 윤곽선 추적 알고리즘을 적용하여 개별 코드를 추출한다. 추출된 개별 코드 인식은 개선된 RBF 네트워크를 제안하여 적용한다. 제안된 RBF 네트워크는 퍼지 논리 접속 연산자를 이용하여 경계변수를 통적으로 조정하는 개선된 퍼지 ART 알고리즘을 제안하여 RBF 네트워크의 중간층으로 적용한다. 얼굴 인증을 위해서는 얼굴 인증에 가장 보편적으로 사용되는 PCA 알고리즘을 적용한다. PCA 알고리즘은 고차원의 벡터를 저 차원의 벡터로 감량하여 전체 입력 영상들의 직교적인 공분산행렬을 계산한 후 그것의 고유 값에 따라 각 영상의 고유벡터를 구하므로 PCA 알고리즘을 적용하여 얼굴의 고유 벡터를 구한 후 특징 벡터를 추출한다. 따라서 여권 영상에서 획득되어진 얼굴 영상의 특징벡터와 데이터베이스에 있는 얼굴 영상의 특징벡터와의 거리 값을 계산하여 사진 위조 여부를 판별한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능을 평가를 위하여 원본 여권에서 얼굴 부분을 위조한 여권과 기울어진 여권 영상을 대상으로 실험한 결과, 제안된 방법이 여권의 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.

  • PDF

Character Region Detection using Edge Features of Character and Character String in Signboard Image (문자 및 문자열의 에지 특징을 이용한 표시판 이미지에서 문자영역 검출)

  • Park, Jong-Cheon;Hwang, Dong-Guk;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.05a
    • /
    • pp.212-214
    • /
    • 2008
  • 자연이미지에 포함된 안내 표시판은 많은 유용한 정보를 포함하고 있으므로 이를 효과적으로 검출하여 문자인식시스템과 연동될 수 있다면 다양한 응용분야에서 활용될 수 있다. 그러므로 본 논문에서는 문자 및 문자열의 에지 특징을 이용하여 표시판이미지로부터 문자영역을 검출하는 방법을 제안한다. 캐니-에지 검출기로 에지를 검출하여 에지 이미지를 생성한다. 에지 이미지를 레이블링을 하여 연결요소 성분을 추출한다. 레이블 영역에서 문자와 문자열 에지 특징을 분석하여 후보 문자영역으로 추출한다. 후보 문자영역에 대한 검증을 수행함으로서 최종적인 문자영역을 검출한다. 제안한 방법은 다양한 종류의 자연이미지를 대상으로 실험하였고, 자연이미지에서 기울어진 문자영역과 다양한 크기의 문자를 갖는 문자영역을 효과적으로 검출하였다.

  • PDF

The structure of the system for recognizing some calendars in an image. (임의 영상내 다수 객체에서 달력을 인식하기 위한 시스템의 구성)

  • 이광호;이승수;최운종;박장춘
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.559-561
    • /
    • 2000
  • 본 논문은 문자 인식의 기법을 이용하여 임의 영상에서 우리의 일상 생활에서 접하는 일반적인 달력을 포함하는 영상만을 검출하기 위한 영상 인식에 관한 연구이다. 달력이라는 영상내의 객체를 인식하기 위한 과정은 다음과 같이 요약된다. 우선 1~31까지의 숫자, 월요일(MON)과 같이 한글과 영문으로 된 요일, 월, 년과 같이 달력에 존재하는 아주 기본적인 문자에 대한 참조 패턴을 형성한다. 입력된 영상에서는 문자 영역 검출 단계, 문자의 특징 추출 단계를 거쳐 영상의 문자 추출이 이루어지고, 달력을 검출하기 위한 참조패턴과 입력 패턴의 비교를 수행하는 인식 단계를 거쳐, 영상 내의 달력 유무를 판단한다. 특히 불규칙적인 배열을 이루는 문자영역을 추출하기 위하여, 본 논문에서는 Hough Transform을 이용하여 기존의 규칙적 문자 인식의 문자 검출 방법의 한계점을 해결하였다.

  • PDF

The Block Segmentation and Extraction of Layout Information In Document (문서의 영역분리와 레이아웃 정보의 추출)

  • 조용주;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.17 no.10
    • /
    • pp.1131-1146
    • /
    • 1992
  • In this paper, we suggest a new algorithm applied to the segmentation of published documents to obtain constituent and layout information of document. Firstly, we begin the process of blocking and labeling on a 300dpi scanned document. Secondly, we classify the blocked document by individual sub-regions. Thirdly, we group sub-regions into graphic areas and text areas. Finally, we extract information for layout recognition by using the data. From an experiment on papers of an academic society, we obtain the above 98% of region classification rate and extraction rate of information for the layout recognition.

  • PDF

A Study on Extraction of Character String in Document Image Using Morphology (Morphology를 이용한 문서화상내의 문자열 추출에 관한 연구)

  • 장희돈;김동현;김석태;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.1
    • /
    • pp.123-132
    • /
    • 1993
  • This paper presents the segmentation of sentence area and diagram area from docwnent image. For extracting the sentence area, we perform the Dilation, basic operation of Morphology, to the document image and obtain the smeared document image. After the smeared docwnent image is blocked, we determine the writing form by the vertical and horizontal characteristics of the document image and calculate the skew from it. And then, we relocate the document image and extract the chatacter string from the relocated docwnent. 11 document images of three classes are considered and the character string has been well extracting from 11 document images.

  • PDF

Text Region Extraction And Tracking In Digital Video (디지털 비디오내의 문자영역 추출 및 추적)

  • Chang, Jea-Sig;Kim, Eun-Yi;Kim, Hang-Joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.301-304
    • /
    • 2001
  • 영상내의 문자정보는 색인에 필요한 유용한 정보를 제공하기 때문에 이를 이용한 멀티미디어 데이터의 색인기법이 최근 많이 연구되고 있다. 본 논문에서는 칼라동영상에서 실시간으로 문자를 추출하고 추적하는 방법을 제안하였다. 제안된 방법은 연결성분(connected component)방법을 이용한 문자추출 모듈과 SSD(a Sum Of Squared Difference)를 이용한 문자추적모듈로 구성되어져 있다. 실제 TV영상에 대하여 제안된 방법을 테스트 해본 결과 빠른 문자추출과 추적시간을 가졌다.

  • PDF

A study on the segmentation and extraction of the pictures and characters in korean document (한글 문서 인식을 위한 문서 영상에서의 문자와 그림의 분리 추출)

  • Lee, In-Dong;Ho, Kang-Tae;Kwon, Oh-Seok;Kim, Tae-Kyun
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.50-53
    • /
    • 1989
  • 한글 문서를 인식하기 위하여 문서 영상에서 문자와 그림을 분리 추출하기 위한 방법에 대하여 논하였다. 분리 추출 방법으로는 실시간으로 입력되는 영상 데이타로부터 문자와 그림 의 경계 위치를 알아내는 방법을 사용하였다. 한글, 영문, 한자, 기호 등의 문자와 그림이 혼합된 A4 크기의 문서 영상을 300 DPI의 해상도로 입력받아 실험하였다. 단 한번의 주사만으로 모든 문자와 그림이 정보 gm름의 순서에 따라 분리 추출되었다. 실험 결과 본 방법은 최소한의 시간과 최소한의 기억 용량으로 완벽한 분리 추출이 가능함을 보였다.

  • PDF

A Study on Stroke Extraction for Handwritten Korean Character Recognition (필기체 한글 문자 인식을 위한 획 추출에 관한 연구)

  • Choi, Young-Kyoo;Rhee, Sang-Burm
    • The KIPS Transactions:PartB
    • /
    • v.9B no.3
    • /
    • pp.375-382
    • /
    • 2002
  • Handwritten character recognition is classified into on-line handwritten character recognition and off-line handwritten character recognition. On-line handwritten character recognition has made a remarkable outcome compared to off-line hacdwritten character recognition. This method can acquire the dynamic written information such as the writing order and the position of a stroke by means of pen-based electronic input device such as a tablet board. On the contrary, Any dynamic information can not be acquired in off-line handwritten character recognition since there are extreme overlapping between consonants and vowels, and heavily noisy images between strokes, which change the recognition performance with the result of the preprocessing. This paper proposes a method that effectively extracts the stroke including dynamic information of characters for off-line Korean handwritten character recognition. First of all, this method makes improvement and binarization of input handwritten character image as preprocessing procedure using watershed algorithm. The next procedure is extraction of skeleton by using the transformed Lu and Wang's thinning: algorithm, and segment pixel array is extracted by abstracting the feature point of the characters. Then, the vectorization is executed with a maximum permission error method. In the case that a few strokes are bound in a segment, a segment pixel array is divided with two or more segment vectors. In order to reconstruct the extracted segment vector with a complete stroke, the directional component of the vector is mortified by using right-hand writing coordinate system. With combination of segment vectors which are adjacent and can be combined, the reconstruction of complete stroke is made out which is suitable for character recognition. As experimentation, it is verified that the proposed method is suitable for handwritten Korean character recognition.

A Spatial Filtering Neural Network Extracting Feature Information Of Handwritten Character (필기체 문자 인식에서 특징 추출을 위한 공간 필터링 신경회로망)

  • Hong, Keong-Ho;Jeong, Eun-Hwa
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.38 no.1
    • /
    • pp.19-25
    • /
    • 2001
  • A novel approach for the feature extraction of handwritten characters is proposed by using spatial filtering neural networks with 4 layers. The proposed system first removes rough pixels which are easy to occur in handwritten characters. The system then extracts and removes the boundary information which have no influence on characters recognition. Finally, The system extracts feature information and removes the noises from feature information. The spatial filters adapted in the system correspond to the receptive fields of ganglion cells in retina and simple cells in visual cortex. With PE2 Hangul database, we perform experiments extracting features of handwritten characters recognition. It will be shown that the network can extract feature informations from handwritten characters successfully.

  • PDF