• Title/Summary/Keyword: 고립단어 인식

Search Result 109, Processing Time 0.022 seconds

Cepstrum PDF Normalization Method for Speech Recognition in Noise Environment (잡음환경에서의 음성인식을 위한 켑스트럼의 확률분포 정규화 기법)

  • Suk Yong Ho;Lee Hwang-Soo;Choi Seung Ho
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.4
    • /
    • pp.224-229
    • /
    • 2005
  • In this paper, we Propose a novel cepstrum normalization method which normalizes the probability density function (pdf) of cepstrum for robust speech recognition in additive noise environments. While the conventional methods normalize the first- and/or second-order statistics such as the mean and/or variance of the cepstrum. the proposed method fully normalizes the statistics of cepstrum by making the pdfs of clean and noisy cepstrum identical to each other For the target Pdf, the generalized Gaussian distribution is selected to consider various densities. In recognition phase, we devise a table lookup method to save computational costs. From the speaker-independent isolated-word recognition experiments, we show that the Proposed method gives improved Performance compared with that of the conventional methods, especially in heavy noise environments.

Robust End Point Detection for Robot Speech Recognition Using Double Talk Detection (음성인식 로봇을 위한 동시통화검출 기반의 강인한 음성 끝점 검출)

  • Moon, Sung-Kyu;Park, Jin-Soo;Ko, Han-Seok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.31 no.3
    • /
    • pp.161-169
    • /
    • 2012
  • This paper presents a robust speech end-point detector using double talk detection in echoic conditioned speech recognition robot. The proposed method consists of combining conventional end-point detector result and double talk detector result. We have tested the proposed method in isolated word recognition system under echoic conditioned environment. As a result, the proposed algorithm shows superior performance of 30 % to the available techniques in the points of speech recognition rates.

Speaker Adaptation in VQ and HMM Based Speech Recognition (VQ와 HMM을 이용한 음성인식에서 화자적응에 관한 연구)

  • 이대룡
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1991.06a
    • /
    • pp.54-57
    • /
    • 1991
  • 본 논무에서는 HMM과 VQ를 이용한 고립단어에 대한 화자종속 및 화자독립 음성인식시스템을 만들고 여기에 화자적응을 하는 방법에 대한 연구를 했다. 화자적응방법에는 크게 VQ코드북을 적응시키는 방법과 HMM패러미터블 적응시키는 방법이 있다. 코드북적응을 하는 방법으로서 기존코드북에 대해 새로운화자의 적응음성을 양자화한 뒤 각 코드벡터에 해당하는 적응음성의 평균을 구해서 새로운 화자의 코드북을 구해주는 방법과 기준코드북에 대해 새로운화자의 적응음성을 양자화할 때 HMM의 각 상태에서 각각의 코드벡터를 발생할 확률을 거리오차의 계산에서 고려해 비록 거리오차는 크지만 그 코드벡터를 발생할 확률이 매우 높으면 적응음성이 그 코드벡터에 index되게해서 각 코드벡터에 해당하는 모든 적응음성데이타의 평균을 새로운 코드북으로 하는 두가지 알고리즘을 제안한다. 이렇게 함으로써 기존의 기준코드북을 초기 코드북으로해서 LBG알고리즘을 사용해서 적응음성데이타에 대한 새로운 코드북을 만드는 방법에 비해 5-10배의 계산시간을 감소하게 된다. 이 새로운 코드북으로 적응음성데이타를 다시 index해서 이 index된 음성렬로 HMM패러미터를 적응했다. 제안된 알고리즘이 코드북적응을 하는 경우에 기존의 적응방법에 비해 5-10배의 계산 시간을 단축하면서 인식률에서는 더 나은결과를 얻었다. 또 같은 적응방법에 대해서 화자종속모델 보다는 화자독립모델에 대해서 화자적응하는 것이 더 나은 인식결과를 보여주었다.

  • PDF

A Study on a Model Parameter Compensation Method for Noise-Robust Speech Recognition (잡음환경에서의 음성인식을 위한 모델 파라미터 변환 방식에 관한 연구)

  • Chang, Yuk-Hyeun;Chung, Yong-Joo;Park, Sung-Hyun;Un, Chong-Kwan
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.5
    • /
    • pp.112-121
    • /
    • 1997
  • In this paper, we study a model parameter compensation method for noise-robust speech recognition. We study model parameter compensation on a sentence by sentence and no other informations are used. Parallel model combination(PMC), well known as a model parameter compensation algorithm, is implemented and used for a reference of performance comparision. We also propose a modified PMC method which tunes model parameter with an association factor that controls average variability of gaussian mixtures and variability of single gaussian mixture per state for more robust modeling. We obtain a re-estimation solution of environmental variables based on the expectation-maximization(EM) algorithm in the cepstral domain. To evaluate the performance of the model compensation methods, we perform experiments on speaker-independent isolated word recognition. Noise sources used are white gaussian and driving car noise. To get corrupted speech we added noise to clean speech at various signal-to-noise ratio(SNR). We use noise mean and variance modeled by 3 frame noise data. Experimental result of the VTS approach is superior to other methods. The scheme of the zero order VTS approach is similar to the modified PMC method in adapting mean vector only. But, the recognition rate of the Zero order VTS approach is higher than PMC and modified PMC method based on log-normal approximation.

  • PDF

Speech Recognition in Noisy Environments using the NOise Spectrum Estimation based on the Histogram Technique (히스토그램 처리방법에 의한 잡음 스펙트럼 추정을 이용한 잡음환경에서의 음성인식)

  • Kwon, Young-Uk;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.5
    • /
    • pp.68-75
    • /
    • 1997
  • Spectral subtraction is widely-used preprocessing technique for speech recognition in additive noise environments, but it requires a good estimate of the noise power spectrum. In this paper, we employ the histogram technique for the estimation of noise spectrum. This technique has advantages over other noise estimation methods in that it does not requires speech/non-speech detection and can estimate slowly-varying noise spectra. According to the speaker-independent isolated word recognition in both colored Gaussian and car noise environments under various SNR conditions. Histogram-technique-based spectral subtraction method yields superier performance to the one with conventional noise estimation method using the spectral average of initial frames during non-speech period.

  • PDF

Speech recognition in car noise environments using multiple models according to noise masking levls (잡음 마스킹 레벨에 따른 복수 모델을 이용한 자동차 소음환경에서의 음성인식)

  • 정회인
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.60-64
    • /
    • 1998
  • 음성인식 시스템의 실용화 과정에서 훈련환경과 테스트 환경의 불일치로 인한 인식성능의 저하는 반드시 극복되어야 할 문제이다. 본 논문에서는 잡음 tR인 입력음성의 비음성구간에서 잡음레벨을 추정하여 음성 스펙트럼에서 추정된 잡음레벨을 빼는 스펙트럼 차감법고 스펙트럼 영역에서 미리 정해진 마스킹 레벨보다 낮은 에너지 값을 마스킹 레벨로 올려주는 잡음 마스킹을 함께 사용함으로써 훈련 환경과 테스트환경의 불일치를 줄이는 방법을 제안한다. 그리고 복수의 마스킹 레벨에 대한 모델들을 미리 만들어 두고 추정된 잡음 레벨에 따라 적합한 마스킹 레벨의 보델을 사용하여 인식을 수해?는 다중 모델 방법을 적용하였다. 자동차 소음환경에서 두 가지 마스킹 레벨에 대한 모델을 이용한 화자독립고립단어 인식 실험을 통하여 본 논문에서 제안한 방식은 정차중 무시동 환경에서 95.8%, 정차중 시동 환경에서 95.6%, 한적한 도로환경에서 92.8%, 복잡한 시내도로 환경에서 89.6%, 고속도로 환경에서 74.4%의 인식성능을 나타내었으며, 평균 90.7%의 성능을 얻을 수 있다.

  • PDF

A study on real-time implementation of speech recognition and speech control system using dSPACE board (dSPACE 보드를 이용한 음성인식 명령처리시스템 실시간 구현에 관한 연구)

  • 김재웅;정원용
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.173-176
    • /
    • 2000
  • 음성은 인간이 가진 가장 편리한 제어전송수단으로 이를 통한 제어는 인간에게 많은 편리함을 제공할 것이다. 본 논문에서는 다층구조 신경망(Multi-Layer Perceptron)을 이용하여 간단한 음성인식 명령처리시스템을 Matlab 상에서 구성해 보았다. 음성인식을 통한 제어의 목적을 위해 화자종속, 고립단어인식기를 목표로 설정하여 연구를 수행하였다. 음성의 시작점과 끝점을 검출하기 위해 단구간 에너지와 영교차율(ZCR)을 이용하였고 인식기의 특징파라미터로는 12차 LPC켑스트럼 계수를 사용하였다. 그리고 신경망의 출력값을 기동, 정지시에 활성화되도록 3개의 계층으로 하였고, 신경망의 뉴런의 개수를 각각 12, 12, 2으로 설정하였다. 먼저 기준음성패턴으로 학습시킨 후에 Matlab 환경하에 동작하는 dSPACE 실시간처리보드에 변환된 C프로그램을 다운로드하고, 음성을 입력하여 인식 후 dSPACE보드의 D/A컨버터의 출력단에 연결된 DC모터를 기동, 정지제어를 수행하였다. 실시간 음성인식 명령처리 시스템 구현을 통하여 원격제어와 같은 음성명령을 통한 제어가 가능함을 확인할 수 있었다.

  • PDF

Isolated Words Recognition using Correlation VQ-HMM (상관성있는 VQ-HMM을 이용한 고립 단어 인식)

  • 이진수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1993.06a
    • /
    • pp.109-112
    • /
    • 1993
  • In this paper, we propose the modified VQ, applied correlation between codewords in order to reduce the error rate due to personal and speakers' temporal variation. Such a modified VQ is used in the stage of preprocessing of HMM and the temporal variation is absorbed by nonlinear Decimation and Interpolation of vowel part that we obtain higher recognition rate than not so case. The objects of experiment are Korea 142 DDD regional names and we show that the proposed method increase the recognition rate.

  • PDF

Digital Isolated Word Recognition System based on MFCC and DTW Algorithm (MFCC와 DTW에 알고리즘을 기반으로 한 디지털 고립단어 인식 시스템)

  • Zang, Xian;Chong, Kil-To
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.290-291
    • /
    • 2008
  • The most popular speech feature used in speech recognition today is the Mel-Frequency Cepstral Coefficients (MFCC) algorithm, which could reflect the perception characteristics of the human ear more accurately than other parameters. This paper adopts MFCC and its first order difference, which could reflect the dynamic character of speech signal, as synthetical parametric representation. Furthermore, we quote Dynamic Time Warping (DTW) algorithm to search match paths in the pattern recognition process. We use the software "GoldWave" to record English digitals in the lab environments and the simulation results indicate the algorithm has higher recognition accuracy than others using LPCC, etc. as character parameters in the experiment for Digital Isolated Word Recognition (DIWR) system.

  • PDF

Decreasing of Correlations Among Hidden Neurons of Multilayer Perceptrons (비선형 변환에 의한 중간층 뉴런 상관계수 감소)

  • 오상훈
    • The Journal of the Korea Contents Association
    • /
    • v.3 no.3
    • /
    • pp.98-102
    • /
    • 2003
  • For elucidating the key role of hidden neurons in information processing of Multilayer perceptrons(MLPs), we prove that the correlation coefficient between weighted sums to hidden neurons decreases under element-wise nonlinear transformations. This is verified through training of MLPs for an isolated word recognition problem. From this result, we can say that the element-wise nonlinear functions reduces redundancy in the information contents of hidden neurons.

  • PDF