• 제목/요약/키워드: Digit recognition

검색결과 202건 처리시간 0.024초

CPgraph를 이용한 숫자열 영상에서 숫자 분할 (Digit Segmentation in Digit String Image Using CPgraph)

  • 오정수
    • 한국정보통신학회논문지
    • /
    • 제23권9호
    • /
    • pp.1070-1075
    • /
    • 2019
  • 본 논문은 영상에서 숫자열을 검출하고 숫자열을 구성하고 있는 숫자들을 분할하여 숫자 인식 시스템을 위한 입력 숫자 영상을 생성하는 알고리즘을 제안하고 있다. 제안된 알고리즘은 블랍 검출을 통해 블랍화된 숫자열을 검출하고, 검출된 블랍 정보를 이용해 숫자열 영역을 지정하고, 숫자열 기울어짐을 보정한다. 그리고 제안된 알고리즘은 본 논문에서 새롭게 정의된 세 종류의 CPgraph을 이용해 숫자 기울어짐을 보정하고, 보정된 숫자열에서 숫자 분할을 위한 경계 지점을 결정한다. 일정 영역의 폰트 크기로 인쇄된 숫자열을 포함하는 영상 그룹과 필기체 숫자열을 포함하는 영상 그룹을 이용한 숫자 분할 실험에서 제안된 알고리즘 각 영상 그룹에서 100%와 90% 이상의 숫자들을 성공적으로 분할하고 있다.

神經網을 利用한 韓國語 數字音 認識에 관한 硏究 (A Study on the Spoken KOrean-Digit Recognition Using the Neural Netwok)

  • 박현화;강해동;배건ㅅ성
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.5-13
    • /
    • 1992
  • 한국어 숫자음이 단음절인 특성을 이용하여 각 숫자음에 대해 시간정합을 필요로 하지 않으면서 일정한 수를 갖는 특징벡터를 추출하여 다층구조 신경망으로 인식실험을 하였다. 음성신호의 시작점/끝점과 더불어 모음의 최대 피크점을 기준으로 해석구간을 초성, 중성, 종성의 세 부분으로 나누었으며, 음성신호의 특징벡터로는 반사계수, 켑스트럼, ${\Delta}$켑스트럼, ${\Delta}$에너지 등을 이용하여, 각 특징벡터 및 입력층과 은닉층의 노드 수에 따른 인식율 및 학습속도 등을 비교하였다. 신경망의 입력층의 특징벡터로서 반사계수를 사용한 경우보다 켑스트럼을 사용했을 때가 더 좋은 인식율을 보였다. ${\Delta}$켑스트럼의 특성이 전체 인식율에 미치는 영향이 그다지 크지 않았는데, 이는 한국어 숫자음이 단음절로 구성되어 있는 특징을 이용해 분석 구간을 stationary한 특성을 갖는 세 부분으로 구분하였기 때문이라 생각된다. 각 숫자음에 대해 150개의 켑스트럼을 사용한 경우에 97.8%의 인식율을 얻었다.

  • PDF

선형예측에 의한 숫자음성 자동인식 (A Spoken Korean-Digits Recognition System Based on Linear Prdiction Spectra)

  • 오영환
    • 대한전자공학회논문지
    • /
    • 제17권3호
    • /
    • pp.12-19
    • /
    • 1980
  • A speech recognition system for separately pronounced Korean digits is described. The system is composed of four stages ; parameter extraction, segmentation by voiced-unovied analysis, formant tracking and pattern matching. Digit speech is segmented into an unvoiced segment and/or a voiced one using ZCR and energy measurements, then to estimate the first three formant frequencies a relatively simple formant tracking scheme is applied to the raw formant data extracted from linear prediction spectra. Finally, pattern matching is made using dynamic programmig method. Recognition experiment is carried out for 150 digit utterences spoken by three male speakers, and recgnition rate 94 % is obtained.

  • PDF

다중 신경망의 계층 결합에 의한 필기체 숫자 인식에 관한 연구 (A Study on Handwritten Digit Recognition by Layer Combination of Multiple Neural Network)

  • 김두식;임길택;남윤석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.468-471
    • /
    • 1999
  • In this paper, we present a solution for combining multiple neural networks. Each neural network is trained with different features. And the neural networks are combined by four methods. The recognition rates by four combination methods are compared. The experimental results for handwritten digit recognition shows that the combination at hidden layers by single layer neural network is superior to any other methods. The reasons of the results are explained.

  • PDF

숫자음 분석과 인식에 관한 연구 (A Study on Spoken Digits Analysis and Recognition)

  • 김득수;황철준
    • 한국산업정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.107-114
    • /
    • 2001
  • 본 논문에서는 한국어의 음성학적 규칙을 적용한 연속 숫자음 인식에 관하여 연구한다. 연속 숫자음의 인식률은 일반적으로 음성인식 시스템 중에서 낮은 인식률을 나타낸다. 따라서 숫자음에 대하여 강건한 모델을 작성하기 위하여 음성 특징 파라미터와 음성학적 규칙을 적용하고 실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서는 음성학적 규칙을 적용한 19개의 연속분포 HMM을 유사음소 단위(PLUs)로 사용한다. 또한, 인식실험에 있어서는 일반적인 멜 켑스트럽과 회귀계수를 이용한 경우와 음성학적 규칙과 특징을 확장하여 모델을 작성한 경우에 대해서 유한상태 오토마타(Finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming) 법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 멜 켑스트럼만을 사용한 경우 55.4%, 멜 켑스트럼과 회귀계수를 사용한 경우에는 64.6%, 특징 파라미터를 확장한 경우 74.3%, 음성학적 특징까지 고려한 경우 75.4%로 기존의 경우보다 높은 인식률을 보였다. 따라서, 음성 특징 파라미터를 확장하고 음성학적 규칙까지 함께 적용한 경우 비교적 높은 인식률을 보여 제안된 방법이 연속 숫자음 인식에 유효함을 확인하였다.

  • PDF

URAN VLSI chip을 이용한 숫자음 인식 (Spoken Digit Recognition Using URAN(Universally Reconstructable Artificial Neural-network)VLSI Chip)

  • 김기철
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.117-120
    • /
    • 1993
  • In this paper, we explore the possibility of URAN(Universally Reconstructable Artificial Neural-network) VLSI chip for speech recognition. URAN, a newly developed analog-digital hybrid neural chip, is discussed in respects to its input, output, and weight accuracy and their relations to its performance on speaker independent digit recognition. Multi-layer perceptron(MLP) nets including a large frame input layer are used to recognize a digit syllable at a forward retrieval. The simulation results using the full and limited floating precision computations for the input, output, and weight variables of the network give the comparable classification performance. An MLP with piecewise linear hidden and output units is also trained successfully using low accuracy computation.

  • PDF

연속음 처리를 위한 프랙탈 차원 방법 고찰 (Fractal Dimension Method for Connected-digit Recognition)

  • 김태식
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.45-55
    • /
    • 2003
  • Strange attractor can be used as a presentation method for signal processing. Fractal dimension is well known method that extract features from attractor. Even though the method provides powerful capabilities for speech processing, there is drawback which should be solved in advance. Normally, the size of the raw signal should be long enough for processing if we use the fractal dimension method. However, in the area of connected-digits problem, normally, syllable or semi-syllable based processing is applied. In this case, there is no evidence that we have sufficient data or not to extract characteristics of attractor. This paper discusses the relationship between the size of the signal data and the calculation result of fractal dimension, and also discusses the efficient way to be applied to connected-digit recognition.

  • PDF

Aurora 특징파라미터 추출기법에 따른 한국어 연속숫자음 전화음성의 인식 성능 비교 (Performance Comparison of Korean Connected Digit Telephone Speech Recognition According to Aurora Feature Extraction)

  • 김민성;정성윤;손종목;배건성;김상훈
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.145-148
    • /
    • 2003
  • To improve the recognition performance of Korean connected digit telephone speech, in this paper, both Aurora feature extraction method that employs noise reduction 2-state Wiener filter and DWFBA method are investigated and used. CMN and MRTCN are applied to static features for channel compensation. Telephone digit speech database released by SITEC is used for recognition experiments with HTK system. Experimental results has shown that Aurora feature is slightly better than MFCC and DWFBA without channel compensation. And when channel compensation is included, Aurora feature is slightly better than DWFBA with MRTCN.

  • PDF

열림방향을 이용한 자동차번호판 숫자인식 (Digit Recognition for Vehicle License Plate Based on Opened Enclosure)

  • 유쟁;김동욱
    • 한국정보전자통신기술학회논문지
    • /
    • 제8권6호
    • /
    • pp.453-459
    • /
    • 2015
  • 본 논문에서는 열림부분에 기반을 둔 자동차 번호판의 숫자인식 기법을 제안한다. 제안된 인식기법에서 숫자를 상부와 하부로 나누고, 각각에 대해 열림부분을 판정하여 숫자를 인식한다. 제안된 기법에서, 상부와 하부의 분할은 정해진 절단선을 바탕으로 하며, 교점의 개수에 따라 절단선의 위치가 조절된다. 제안된 방법은 템플릿 매칭 방법에 비해 잡음이나 회전 등의 영향을 받지 않으며 강건하다. 모의실험에서 제안된 기법의 성능을 평가하기 위해 번호판에 사용되는 숫자들에 대해 처리를 하고, 그 결과를 제시하였다. 제안된 기법은 번호판의 숫자인식에서 매우 높은 인식률을 보인다.

다층 퍼셉트론에 기반한 한국어 숫자음 인식시스템 구현을 위한 특징 연구 (A Study on the Features for Building Korean Digit Recognition System Based on Multilayer Perceptron)

  • 김인철;김대영
    • 한국산업정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.81-88
    • /
    • 2001
  • 본 논문에서는 한국어 숫자음 인식을 위해 다층 퍼셉트론을 이용한 인식시스템을 구현하였으며 음성인식 분야에서 일반적으로 널리 사용되는 여러 종류의 특징을 인식시스템의 입력으로 적용하여 각각의 인식 성능 및 특성을 알아보았다. 이를 위해 Mel-scale-Filterbank 계수, MFCC, LPCC, 그리고 PLP 계수를 입력 특징으로 사용하였다. 본 논문에서는 제한된 환경이 아닌 여러 종류의 잡음이 존재하는 일반적인 환경에서도 견실한 성능을 보일 수 있는 인식시스템을 구현하기 위해 잡음이 거의 포함되지 않은 음성 데이터뿐만 아니라 잡음이 첨가된 음성 데이터에 대해 인식 실험을 각각 수행하였다. 실험에서는 20개의 한국어 숫자음에 대한 인식 실험을 수행하였으며 그 결과로부터 Mel-scale Filterbank 계수가 잡음의 첨가 유무에 관계없이 화자 종속 및 화자 독립적인 음성 데이터에 대해 가장 견실한 인식 성능을 보임을 확인할 수 있었다.

  • PDF