• 제목/요약/키워드: text recognition

검색결과 670건 처리시간 0.024초

부가 주성분분석을 이용한 미지의 환경에서의 화자식별 (Speaker Identification Using Augmented PCA in Unknown Environments)

  • 유하진
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.73-83
    • /
    • 2005
  • The goal of our research is to build a text-independent speaker identification system that can be used in any condition without any additional adaptation process. The performance of speaker recognition systems can be severely degraded in some unknown mismatched microphone and noise conditions. In this paper, we show that PCA(principal component analysis) can improve the performance in the situation. We also propose an augmented PCA process, which augments class discriminative information to the original feature vectors before PCA transformation and selects the best direction for each pair of highly confusable speakers. The proposed method reduced the relative recognition error by 21%.

  • PDF

음성인식기술의 문화변동에 대한 인문학적 대응에 관한 연구 (A study on the humanistic measure about cultural changes of voice recognition technology)

  • 육현승;조병철
    • 디지털융복합연구
    • /
    • 제13권8호
    • /
    • pp.21-31
    • /
    • 2015
  • 최근 음성인식기술의 향상은 세계를 새로운 구비문화의 시대로 이끌 것이다. 그것은 문자를 기반으로 하는 존재하지 않았던 말문화의 시대이며 문화적 혁명이 될 수 있다. 본 연구는 언어와 문자의 기반에 뿌리를 두고 인간을 탐구하는 인문학의 입장에서 이러한 말과 글의 상보적 관계가 야기할 수 있는 미래의 문화적 문제에 대응하는 것을 목표로 한다. 이를 위해 먼저 최근 변화되고 있는 글문화에서 말문화의 양상을 논의하고, 음성인식기술의 변화에 대해 점검한 이후, 그것이 야기할 수 있는 문화적 변동의 가능성과 문제성을 논의하게 될 것이다. 이에 대한 예상 가능성으로는 말하기와 쓰기의 상보성, 사적 문화의 공적문화로의 확대, 동시적 병행성의 가능성 등을 논하고, 문제점으로는 음성의 새로운 기호화 필요성, 생활세계로의 확대에 대한 준비, 그리고 한국문화의 글로벌 기업 종속에 저항해야 할 필요성들을 논의하였다. 본 연구는 새로운 음성인식기술과 문화변동의 가능성에 대한 단초적 연구로서, 이후 구체적이고 세분화된 후속연구들을 여는데 유용하게 활용될 수 있을 것으로 기대한다.

Skewed Angle Detection in Text Images Using Orthogonal Angle View

  • Chin, Seong-Ah;Choo, Moon-Won
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -1
    • /
    • pp.62-65
    • /
    • 2000
  • In this paper we propose skewed angle detection methods for images that contain text that is not aligned horizontally. In most images text areas are aligned along the horizontal axis, however there are many occasions when the text may be at a skewed angle (denoted by 0 < ${\theta}\;{\leq}\;{\pi}$). In the work described, we adapt the Hough transform, Shadow and Threshold Projection methods to detect the skewed angle of text in an input image using the orthogonal angle view property. The results of this method are a primary text skewed angle, which allows us to rotate the original input image into an image with horizontally aligned text. This utilizes document image processing prior to the recognition stage.

  • PDF

Text Extraction in HIS Color Space by Weighting Scheme

  • Le, Thi Khue Van;Lee, Gueesang
    • 스마트미디어저널
    • /
    • 제2권1호
    • /
    • pp.31-36
    • /
    • 2013
  • A robust and efficient text extraction is very important for an accuracy of Optical Character Recognition (OCR) systems. Natural scene images with degradations such as uneven illumination, perspective distortion, complex background and multi color text give many challenges to computer vision task, especially in text extraction. In this paper, we propose a method for extraction of the text in signboard images based on a combination of mean shift algorithm and weighting scheme of hue and saturation in HSI color space for clustering algorithm. The number of clusters is determined automatically by mean shift-based density estimation, in which local clusters are estimated by repeatedly searching for higher density points in feature vector space. Weighting scheme of hue and saturation is used for formulation a new distance measure in cylindrical coordinate for text extraction. The obtained experimental results through various natural scene images are presented to demonstrate the effectiveness of our approach.

  • PDF

골프 동영상에서의 강건한 선수명 인식 (Robust Recognition of a Player Name in Golf Videos)

  • 정철곤;김중규
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.659-662
    • /
    • 2008
  • 스포츠의 경기에서 비디오 문자는 득점이나 선수명과 같은 중요한 정보를 제공한다. 본 논문에서는 골프 동영상에서 선수명 정보를 강건하게 인식하는 방법을 제안한다. 골프 경기의 경우, 원하는 선수의 플레이 장면을 검색하고자 하는 요구가 많은 스포츠 종목이다. 이러한 기능을 구현하기 위해 골프 동영상에 포함된 문자 정보를 이용한다. OCR 에 의해 검출된 문자 정보를 인식한 후, 사전 등록된 선수명 DB 를 이용해 선수명 정보를 인식한다. 이렇게 획득된 선수명 정보를 이용해 원하는 선수의 플레이 장면을 검색할 수 있도록 하였다. 다양한 골프 동영상에 대하여 실험을 수행한 결과, 본 논문에서 제안한 방법이 강건하게 선수명을 인식하는 것을 확인하였다.

  • PDF

표의 테두리 유사 라벨을 활용한 문자 영역 검출 방법 (Text Region Detection Method Using Table Border Pseudo Label)

  • 한정훈;박세진;문영식
    • 한국정보통신학회논문지
    • /
    • 제24권10호
    • /
    • pp.1271-1279
    • /
    • 2020
  • 문자 영역 검출이란 수기 혹은 인쇄된 문서에서 문자의 영역을 검출하는 기술이다. 검출된 문자 영역들은 인식 단계를 거쳐 디지털화되며 이는 활용 목적에 따라 다양한 곳에서 활용된다. 하지만 문자 단위의 검출 결과는 대용량 문서를 인식해야 하는 산업 현장의 문자 인식 단계에는 적합하지 않다. 또한, 문서 내 존재하는 표는 문자 영역 검출 단계에서 오검출을 야기하며 이는 문자 인식 단계에서 악영향을 끼친다. 이를 해결하기 위해 본 논문에서는 표의 테두리 정보를 활용한 문자 영역 검출 방법을 제안한다. 표의 테두리 정보를 활용하기 위하여 제안하는 방법은 2개 디코더를 추가하고 간접적인 학습을 유도하기 위하여 각 디코드의 흐름을 조절하였다. 실험을 통해 표의 테두리 유사 라벨을 이용한 약지도 학습 방법이 성능 향상에 도움이 됨을 보였다.

동영상에서 시간 영역 정보를 이용한 자막 검출 알고리듬 (Caption Detection Algorithm Using Temporal Information in Video)

  • 권철현;신청호;김수연;박상희
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권8호
    • /
    • pp.606-610
    • /
    • 2004
  • A noble caption text detection and recognition algorithm using the temporal nature of video is proposed in this paper. A text registration technique is used to locate the temporal and spatial positions of captions in video from the accumulated frame difference information. Experimental results show that the proposed method is effective and robust. Also, a high processing speed is achieved since no time consuming operation is included.

Text Line Segmentation using AHTC and Watershed Algorithm for Handwritten Document Images

  • Oh, KangHan;Kim, SooHyung;Na, InSeop;Kim, GwangBok
    • International Journal of Contents
    • /
    • 제10권3호
    • /
    • pp.35-40
    • /
    • 2014
  • Text line segmentation is a critical task in handwritten document recognition. In this paper, we propose a novel text-line-segmentation method using baseline estimation and watershed. The baseline-detection algorithm estimates the baseline using Adaptive Head-Tail Connection (AHTC) on the document. Then, the watershed method segments the line region using the baseline-detection result. Finally, the text lines are separated by watershed result and a post-processing algorithm defines the lines more correctly. The scheme successfully segments text lines with 97% accuracy from the handwritten document images in the ICDAR database.

Stroke Width-Based Contrast Feature for Document Image Binarization

  • Van, Le Thi Khue;Lee, Gueesang
    • Journal of Information Processing Systems
    • /
    • 제10권1호
    • /
    • pp.55-68
    • /
    • 2014
  • Automatic segmentation of foreground text from the background in degraded document images is very much essential for the smooth reading of the document content and recognition tasks by machine. In this paper, we present a novel approach to the binarization of degraded document images. The proposed method uses a new local contrast feature extracted based on the stroke width of text. First, a pre-processing method is carried out for noise removal. Text boundary detection is then performed on the image constructed from the contrast feature. Then local estimation follows to extract text from the background. Finally, a refinement procedure is applied to the binarized image as a post-processing step to improve the quality of the final results. Experiments and comparisons of extracting text from degraded handwriting and machine-printed document image against some well-known binarization algorithms demonstrate the effectiveness of the proposed method.

Machine Printed and Handwritten Text Discrimination in Korean Document Images

  • Trieu, Son Tung;Lee, Guee Sang
    • 스마트미디어저널
    • /
    • 제5권3호
    • /
    • pp.30-34
    • /
    • 2016
  • Nowadays, there are a lot of Korean documents, which often need to be identified in one of printed or handwritten text. Early methods for the identification use structural features, which can be simple and easy to apply to text of a specific font, but its performance depends on the font type and characteristics of the text. Recently, the bag-of-words model has been used for the identification, which can be invariant to changes in font size, distortions or modifications to the text. The method based on bag-of-words model includes three steps: word segmentation using connected component grouping, feature extraction, and finally classification using SVM(Support Vector Machine). In this paper, bag-of-words model based method is proposed using SURF(Speeded Up Robust Feature) for the identification of machine printed and handwritten text in Korean documents. The experiment shows that the proposed method outperforms methods based on structural features.