• Title/Summary/Keyword: Baum-Welch 학습법

Search Result 4, Processing Time 0.023 seconds

HMM-Based Bandwidth Extension Using Baum-Welch Re-Estimation Algorithm (Baum-Welch 학습법을 이용한 HMM 기반 대역폭 확장법)

  • Song, Geun-Bae;Kim, Austin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.26 no.6
    • /
    • pp.259-268
    • /
    • 2007
  • This paper contributes to an improvement of the statistical bandwidth extension(BWE) system based on Hidden Markov Model(HMM). First, the existing HMM training method for BWE, which is suggested originally by Jax, is analyzed in comparison with the general Baum-Welch training method. Next, based on this analysis, a new HMM-based BWE method is suggested which adopts the Baum-Welch re-estimation algorithm instead of the Jax's to train HMM model. Conclusionally speaking, the Baum-Welch re-estimation algorithm is a generalized form of the Jax's training method. It is flexible and adaptive in modeling the statistical characteristic of training data. Therefore, it generates a better model to the training data, which results in an enhanced BWE system. According to experimental results, the new method performs much better than the Jax's BWE systemin all cases. Under the given test conditions, the RMS log spectral distortion(LSD) scores were improved ranged from 0.31dB to 0.8dB, and 0.52dB in average.

A Discriminative Training Algorithm for HMM Based on MAP Formulation (MAP 수식화에 의한 HMM의 변별력 있는 학습 알고리듬)

  • 전범기
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.138-141
    • /
    • 1994
  • 기존의 HMM을 이용한 음성인식기는 대부분 ML 추정에 기초한 Baum-Welch 알고리듬으로 학습되었다. ML학습은 기본적으로 무한한 양의 학습 데이터가 주어지고, 각 모델들이 서로 독립이라는 가정에 기초한다. 하지만 실제적인 학습의 경우에 각 모델들이 서로 독립이라고 보기 어렵고, 학습 데이터의 양도 상당히 제한되어 있어서 인식기의 변별력을 저하시키는 주된 원인이 되고 있다. 본 논문에서는 전통적인 패턴분류기법인 Bayes 결정이론에 따라 최소오차율분류를 위한 MAP 수식화를 유도하고, 그에 기초한 HMM의 변별력 있는 학습 알고리듬을 제안한다. 최소오차율분류를 근사화한 사후확률로 표현된 비용함수를 정의하고, 그 비용함수에 조건부 경사강하법을 적용한다. 제안된 알고리듬을 분류하기 어려운 한국어 단음절 인식에 적용한 결과, 기존의 ML 알고리듬으로 학습한 경우 발생한 오인식 개수의 약 10% 가량이 개선되었다.

  • PDF

Performance Comparison of GMM and HMM Approaches for Bandwidth Extension of Speech Signals (음성신호의 대역폭 확장을 위한 GMM 방법 및 HMM 방법의 성능평가)

  • Song, Geun-Bae;Kim, Austin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.27 no.3
    • /
    • pp.119-128
    • /
    • 2008
  • This paper analyzes the relationship between two representative statistical methods for bandwidth extension (BWE): Gaussian Mixture Model (GMM) and Hidden Markov Model (HMM) ones, and compares their performances. The HMM method is a memory-based system which was developed to take advantage of the inter-frame dependency of speech signals. Therefore, it could be expected to estimate better the transitional information of the original spectra from frame to frame. To verify it, a dynamic measure that is an approximation of the 1st-order derivative of spectral function over time was introduced in addition to a static measure. The comparison result shows that the two methods are similar in the static measure, while, in the dynamic measure, the HMM method outperforms explicitly the GMM one. Moreover, this difference increases in proportion to the number of states of HMM model. This indicates that the HMM method would be more appropriate at least for the 'blind BWE' problem. On the other hand, nevertheless, the GMM method could be treated as a preferable alternative of the HMM one in some applications where the static performance and algorithm complexity are critical.

Speech Recognition in the Pager System displaying Defined Sentences (문자출력 무선호출기를 위한 음성인식 시스템)

  • Park, Gyu-Bong;Park, Jeon-Gue;Suh, Sang-Weon;Hwang, Doo-Sung;Kim, Hyun-Bin;Han, Mun-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.158-162
    • /
    • 1996
  • 본 논문에서는 문자출력이 가능한 무선호출기에 음성인식 기술을 접목한, 특성화된 한 음성인식 시스템에 대하여 설명하고자 한다. 시스템 동작 과정은, 일단 호출자가 음성인식 서버와 접속하게 되면 서버는 호출자의 자연스런 입력음성을 인식, 그 결과를 문장 형태로 피호출자의 호출기 단말기에 출력시키는 방식으로 되어 있다. 본 시스템에서는 통계적 음성인식 기법을 도입하여, 각 단어를 연속 HMM으로 모델링하였다. 가우시안 혼합 확률밀도함수를 사용하는 각 모델은 전통적인 HMM 학습법들 중의 하나인 Baum-Welch 알고리듬에 의해 학습되고 인식시에는 이들에 비터비 빔 탐색을 적용하여 최선의 결과를 얻도록 한다. MFCC와 파워를 혼용한 26 차원 특징벡터를 각 프레임으로부터 추출하여, 최종적으로, 83 개의 도메인 어휘들 및 무음과 같은 특수어휘들에 대한 모델링을 완성하게 된다. 여기에 구문론적 기능과 의미론적 기능을 함께 수행하는 FSN을 결합시켜 자연발화음성에 대한 연속음성인식 시스템을 구성한다. 본문에서는 이상의 사항들 외에도 음성 데이터베이스, 레이블링 등과 갈이 시스템 성능과 직결되는 시스템의 외적 요소들에 대해 고찰하고, 시스템에 구현되어 있는 다양한 특성들에 대해 밝히며, 실험 결과 및 앞으로의 개선 방향 등에 대해 논의하기로 한다.

  • PDF