• Title/Summary/Keyword: Connected digit recognition

Search Result 48, Processing Time 0.031 seconds

Telephone Speech Recognition with Data-Driven Selective Temporal Filtering based on Principal Component Analysis

  • Jung Sun Gyun;Son Jong Mok;Bae Keun Sung
    • Proceedings of the IEEK Conference
    • /
    • 2004.08c
    • /
    • pp.764-767
    • /
    • 2004
  • The performance of a speech recognition system is generally degraded in telephone environment because of distortions caused by background noise and various channel characteristics. In this paper, data-driven temporal filters are investigated to improve the performance of a specific recognition task such as telephone speech. Three different temporal filtering methods are presented with recognition results for Korean connected-digit telephone speech. Filter coefficients are derived from the cepstral domain feature vectors using the principal component analysis.

  • PDF

A Study on Recognition of Korean Connected-Digits Using group-labelling by VQ and One-stage DP (벡터양자화에 의한 group-labelling과 1-段 DP를 이용한 한국어 연결 숫자음 인식에 관한 연구)

  • Kim, Ja-Ryong;Choi, Kap-Seok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.2
    • /
    • pp.5-12
    • /
    • 1991
  • In this paper, we have recognized Korean connected-digits. To reduce the processing time the method of combining VQ one-stage DP is introduced and to reduce the number of reference pattern a new group labelling technique is proposed. Group-labelling is a method to segment and label connected-digit into groups by VQ. As experimental results with 3 connected-digits, the number of reference patterns are reduced in proportion to the number of groups which are labelled.

  • PDF

A Study on Digit Modeling for Korean Connected Digit Recognition (한국어 연결숫자인식을 위한 숫자 모델링에 관한 연구)

  • 김기성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.293-297
    • /
    • 1998
  • 전화망에서의 연결 숫자 인식 시스템의 개발에 대한 내용을 다루며, 이 시스템에서 다양한 숫자 모델링 방법들을 구현하고 비겨하였다. Word 모델의 경우 문맥독립 whole-word 모델을 구현하였으며, sub-word 모델로는 triphone 모델과 불파음화 자음을 모음에 포함시킨 modified triphone 모델을 구현하였다. 그리고 tree-based clustering 방법을 sub-word 모델과 문맥종속 whole-word 모델에 적용하였다. 이와 같은 숫자모델들에 대해 연속 HMM을 이용하여 화자독립 연결숫자 인식 실험을 수행한 결과, 문맥종속 단어 모델이 문맥독립 단어 모델보다 우수한 성능을 나타냈으며, triphone 모델과 modified triphone 모델은 유사한 성능을 나타냈다. 특히 tree-based clustering 방법을 적용한 문맥종속 단어 모델이 4연 숫자열에 대해 99.8%의 단어 dsltlr률 및 99.1%의 숫자열 인식률로서 가장 우수한 성능을 나타내었다.

  • PDF

Performance Improvement of Connected Digit Recognition by Considering Phoneme Variations in Korean Digit. (한국어 숫자음에서의 음운변화를 고려한 연결숫자 인식의 성능향상)

  • Song Myung Gyu;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.105-108
    • /
    • 2001
  • 한국어 숫자는 각 숫자가 단음절로 이루어져 있으며, 연속적으로 발음될 때 인접 숫자들의 상호조음현상에 의해 각 숫자의 고유 발음이 변화하고, 또한 그 숫자들의 경계도 모호해지는 문제점이 있다. 한편 연속적인 숫자의 발성을 기대하는 인식시스템에 반하여 일부 사용자는 숫자들을 고려시켜서 발성하기도 한다. 이는 연결숫자의 음운현상만을 고려한 인식 시스템에서는 성능저하의 한 원인이 된다 본 논문에서는 연결숫자의 인식성능 향상을 위해서 한국어 숫자들의 음운 변화를 고려하여 변이음군을 정하였으며, 사용자의 여러 가지 발성형태에 따른 다양한 음운 현상의 변화를 흡수 할 수 있도록 인식 네트웍을 구성하는 방식을 검토하였다. 전화망 4연숫자음을 이용한 화자독립 인식실험을 통해서 한국어 숫자에서 자주 오인식 되는 '이', '오', '일' 인식 성능이 각각 $4..2\%$, $4.2\%$, $2.9\%$씩 향상되었으며, 인식속도도 $33\%$의 개선이 있었다

  • PDF

Performance Improvement of korean Connected Digit Recognition Based on Acoustic Parameters (음향학적 파라메터를 이용한 한국어 연결숫자인식의 성능개선)

  • Kim Seunghi;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.44-47
    • /
    • 1999
  • 본 논문에서는 한국어 연결숫자인식에 있어서 모델간의 변별력 향상을 통해 인식률을 높이기 위하여 음향학적 파라메터(Acousticparameter)를 사용하는 짓을 제안한다. 제안된 방법은 음성학적 지식에 근거하여 적절한 주파수 대역별 에너지의 비의 로그값을 추가적인 특징파라메터로 사용한다. 실험결과, 제안된 방법을 사용함으로써 기본 인식시스템에 비해 오류율이 최고 $46\%$ 정도 감소됨을 확인할 수 있었다. 그리고 채널보상 기술을 함께 적용함으로써 $69\%$ 정도의 오류율 감소를 얻었다.

  • PDF

A Study on the Feature Extraction for the Segmentation of Korean Speech (한국어 음성 분할을 위한 특징 검출에 관한 연구)

  • Lee, Geuk;Hwang, Hee-Yeung
    • Proceedings of the KIEE Conference
    • /
    • 1987.11a
    • /
    • pp.338-340
    • /
    • 1987
  • The speech recognition system usually consists of two modules, segmentation module and identification module. So, the performance of the system heavily depends on the segmentation accuracy and the segmentation unit. This paper is concerned with the agreeable features for segmentation in syllables. Total energy and two band width energy. (LE:4000-5000Hz and HE:900-3100Hz) are suitable cues for segmentation. And we testify it through the experiment using connected digit.

  • PDF

Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition (PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험)

  • 정성윤;김민성;손종목;배건성
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.6
    • /
    • pp.279-283
    • /
    • 2004
  • In general, triangular shape filters are used in the filter bank when we extract MFCC feature parameters from the spectrum of the speech signal. A different approach, which uses specific filter shapes in the filter bank that are optimized to the spectrum of training speech data, is proposed by Lee et al. to improve the recognition rate. A principal component analysis method is used to get the optimized filter coefficients. Using a large amount of 4-digit telephone speech database, in this paper, we get the MFCCs based on the PCA-optimized filter bank and compare the recognition performance with conventional MFCCs and direct weighted filter bank based MFCCs. Experimental results have shown that the MFCC based on the PCA-optimized filter bank give slight improvement in recognition rate compared to the conventional MFCCs but fail to achieve better performance than the MFCCs based on the direct weighted filter bank analysis. Experimental results are discussed with our findings.

A Study on Improvement of the Connected Digit Recognition Using Finite State Network and Demi-Syllable Pair Models (FSN과 반음절쌍 모델을 이용한 연결 숫자음 인식의 성능 향상에 관한 연구)

  • 서은경;최태웅;김순협
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.212-215
    • /
    • 2003
  • 본 논문에서는 숫자음과 단위음으로 구성된 한국어 연결 단위숫자음 인식의 성능 향상을 위하여 한국어 연결 단위숫자음의 특징을 분석하였다. 한국어의 단위숫자음은 숫자음 한음절과 단위음 한음절로 구성된 두음절의 연속적이고 반복적인 발성으로 나타난다. 숫자음에서의 인식 대상 어휘는 숫자음이라는 제한된 규칙을 갖는 가변 숫자음이다. 따라서 개수, 금액, 단위량, 거래량 등에서 나타날 수 있는 가변 숫자음을 인식하기 위하여 FSN(Finite State Network)을 구성하였다. 음향 모델은 한국어 숫자음과 같이 발성구간이 짧은 어휘의 연결음 (connected word)의 인식에서 효과적인 반음절쌍(demi-syllable pair) 모델을 이용하였다 실험결과, 화자 독립적인 가변 숫자음 60문장의 테스트 데이터에 대해서 문장 인식률 91.0%로 인식 성능을 향상시킬 수 있었다.

  • PDF

Implementation of handwritten digit recognition CNN structure using GPGPU and Combined Layer (GPGPU와 Combined Layer를 이용한 필기체 숫자인식 CNN구조 구현)

  • Lee, Sangil;Nam, Kihun;Jung, Jun Mo
    • The Journal of the Convergence on Culture Technology
    • /
    • v.3 no.4
    • /
    • pp.165-169
    • /
    • 2017
  • CNN(Convolutional Nerual Network) is one of the algorithms that show superior performance in image recognition and classification among machine learning algorithms. CNN is simple, but it has a large amount of computation and it takes a lot of time. Consequently, in this paper we performed an parallel processing unit for the convolution layer, pooling layer and the fully connected layer, which consumes a lot of handling time in the process of CNN, through the SIMT(Single Instruction Multiple Thread)'s structure of GPGPU(General-Purpose computing on Graphics Processing Units).And we also expect to improve performance by reducing the number of memory accesses and directly using the output of convolution layer not storing it in pooling layer. In this paper, we use MNIST dataset to verify this experiment and confirm that the proposed CNN structure is 12.38% better than existing structure.

Extension of K-L Dynamic Parameter for Connected Digit Recognition (숫자음 인식을 위한 K-L 동적 특징파라미터의 확장)

  • 김주곤
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.257-261
    • /
    • 1998
  • 일반적으로 인식률이 저조한 연속 숫자음의 인식 정도 향상을 위해서 K-L 동적특징의 확장에 대해서 검토한다. 이 검토결과를 4연속 숫자음을 대상으로 하는 인식 실험을 수행하여 숫자음 인식에 있어서 확장된 K-L 동적특징의 유효성을 확인하고자 한다. 이를 위하여 음성자료는 국어공학센터에서 채록한 4연속 숫자음을 사용하며, 확장한 K-L 동적특징의 유효성을 확인하기 위해서는 단일 특징 파라미터로서 멜-켑스트럼과 회귀계수, K-L 동적계수 등과 이들 특징 파라미터를 결합한 경우에 대해서 특징파라미터를 확장하여 K-L 동적 특징을 추출하고, 4연속 숫자음인식 실험을 수행하였다. 이때 인식의 기본 단위로는 48개의 유사음소단위를 음소모델로 사용하였으며, 인식실험에 있어서는 유한 상태 오토마타에 의한 구문제어를 통한 OPDP 법을 이용하였다. 인식 실험 결과, 단일 특징파라미터로서 멜-켑스트럼을 사용한 경우 67.5%, 이를 확장한 K-L 동적계수를 사용한 경우 78.2%를 보였다. 또한 결합한 특징파라미터에 있어서는 멜-켑스트럼과 희귀계수를 사용한 경우 78.4%의 인식률을 보였으며, 이를 K-L 동적계수로 확장한 경우 82.3%의 인식률을 얻어 확장한 K-L 동적특징파라미터의 유효성을 확인하였다.

  • PDF