• Title/Summary/Keyword: CHMM

Search Result 39, Processing Time 0.02 seconds

A Study on the Speech Recognition For the Voice Dialing System (Voice Dialing System을 위한 음성인식)

  • 이성권
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.365-368
    • /
    • 1998
  • 본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 Voice Dialing System을 위한 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 전국 지역명과 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 음성으로 다이얼링을 수행하기 위하여 문맥자유문법을 이용하여 제한적이나마 대화체문장으로 수행할 수 있도록 하였다. 그리하여 숫자음에 대하여 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 문장으로도 음성 다이얼링을 수행하였을 경우 문장내에 단어와 숫자음에 대하여 약 80%의 인식률을 보였다.

  • PDF

Phoneme-Model Word Recognizer on RASTA-PLP (RASTA-PLP의 음소 모델 단어 인식기 적용)

  • 허창원
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1997.06a
    • /
    • pp.9-12
    • /
    • 1997
  • 대부분의 음성 파?너 추정 기법은 통신 채널의 주파수 응답에 의해 쉽게 영향을 받는다. 이 논문에서 우리는 음성에서 그러한 안정상태의 스펙트럼 계수에 있어서 좀더 강인한 기법인 RASTA-PLP 방법을 적용하여 파라미터를 추출하고 그 파라미터를 연속 HMM 인식기의 입력으로 사용하여 문맥독립 음소 모델을 훈련하는 과정에서 최적의 모델을 찾게 된다. 여기서는 ETRI 445 DB에 RASTA-PLP를 적용하였을 때 가장 좋은 성능을 나타내는 재추정 횟수와 mixutre 수를 찾는 데 목표를둔다. 문맥독립음소모델은 한국어의 발성학적 근거를 토대로 하고 여기에 묵음(silence)을 추가하여 총 40개로 정의하였다. 문맥독립 음소모델은 3개의 상태를 가지는 전형적인 left-to right CHMM(Continuous Hidden Markov Model)을 이용하여 훈련한다. 그리고 훈련시간을 줄이기 위해 Viterbi beam 탐색법을 적용한다.

  • PDF

Korean Phonological Viseme for Lip Synch Based on Phoneme Recognition (음소인식 기반의 립싱크 구현을 위한 한국어 음운학적 Viseme의 제안)

  • Joo Heeyeol;Kang Sunmee;Ko Hanseok
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.70-73
    • /
    • 1999
  • 본 논문에서는 한국어에 대한 실시간 음소 인식을 통한 Lip Synch 구현에 필수요소인 Viseme(Visual Phoneme)을 한국어의 음운학적 접근 방법을 통해 제시하고, Lip Synch에서 입술의 모양에 결정적인 영향을 미치는 모음에 대한 모음 인식 실험 및 결과 분석을 한다.모음인식 실험에서는 한국어 음소 51개 각각에 대해 3개의 State로 이루어진 CHMM (Continilous Hidden Makov Model)으로 모델링하고, 각각의 음소가 병렬로 연결되어진 음소네트워크를 사용한다. 입력된 음성은 12차 MFCC로 특징을 추출하고, Viterbi 알고리즘을 인식 알고리즘으로 사용했으며, 인식과정에서 Bigrim 문법과 유사한 구조의 음소배열 규칙을 사용해서 인식률과 인식 속도를 향상시켰다.

  • PDF

A Study on the Speaker Adaptation in HMM Using Variable Number of Branches in Each State (상태당 가지수를 가변시킨 HMM을 이용한 화자적응화에 관한 연구)

  • 김광태;서정일;한유수;홍재근
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.3
    • /
    • pp.90-95
    • /
    • 1998
  • 본 논문에서는 CHMM인 CDHMM과 ARHMM을 이용하여 화자적응화 하는 방법을 각각 연구하였다. CDHMM에서는 최대사후화확률 추정법에 의하여 각 상태마다 하나의 가 지를 이용하여 화자에 적응시킨다. 본 논문에서는 음성의 다양한 음향학적 특징을 표현하기 위하여 상태마다 여러 개의 가지를 갖는 방법을 제안하였다. 상태마다의 적절한 가지 수를 결정하기 위하여 각 상태에 속하는 프레임 수와 특징 벡터들의 분산행렬의 행렬식값을 이용 하였다. ARHMM에서는 특징벡터로 선형예측계수를 사용하기 때문에 최대사후화확률 추정 법을 사용할 수 없게 된다. 따라서 화자독립모델을 이용하여 적응화자에 대한 음성을 Viterbi 알고리듬으로 상태별로 분할한 후 k-means 알고리듬을 이용하여 각 상태마다 하나 의 가지를 갖는 모델로 적응시키는 방법을 제안하였다.

  • PDF

Auto-Segmentation of Unsegmented Speech based on HMM and Time-Synchronous Viterbi Algorithm (시간동기형 Viterbi 알고리즘과 HMM에 기반한 음성의 자동 세그멘테이션)

  • 오세진;황철준;김범국;정호열;정현열
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.592-594
    • /
    • 2001
  • 본 연구에서는 음성인식에 있어서 음향모델의 고정도화를 위해 통계적 방법인 HMM과 시간동기형 Viterbi 알고리즘을 기반으로 한 세그멘트되지 않은 음성의 자동 세그멘테이션에 관한 연구를 수행하였다. 본 연구에서는 소량의 세그멘트된 음성에 대해 연속분포형 HMM 기본모델을 작성한 후 이를 표준패턴으로 사용하고, 세그멘트되지 않은 입력음성의 특징 피라미터에 대해 시간동기형 Viterbi 알고리즘의 프레임마다 최대가 되는 지점을 최적경계로 설정하고, 앞에서 구현 최적 경계 정보와 언어학적 지식인 발음사전 정보를 이용하여 음성을 세그멘테이션 하는 것이다. 본 연구와의 비교를 위해 HTK를 이용하여 위와 동일한 과정을 수행하였다. 이렇게 구한 음성의 세그멘테이션 정보를 이용하여 연속분포형 HMM 기본모델과 HTK의 CHMM 기본모델을 각각 작성한 후, 국어공학센터(KLE) 단어 데이터에 대해 단어인식 성능을 평가하였다. 실험결과, KLE 452 남성과 여성에 대해, 본 연구실 인식 시스템은 화자독립 단어인식률 89.4%, 85.1%, HTK의 화자독립 단어인식률 85.1%, 81.9%를 각각 얻었다.

  • PDF

Implementation of the Multi-Channel Speech Recognition System for the Telephone Speech (전화음성인식을 위한 멀티채널 음성인식 시스템 구현)

  • Yi Siong-Hun;Suh Youngjoo;Kang Dong-Gyu
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 전화음성 서비스 시스템의 핵심 기술인 멀티채널 음성인식 시스템의 구현에 대해서 기술하고자 한다. 구현한 시스템은 전화망 인터페이스 모듈, 음성입력 모듈, 음성인식 모듈, 및 서비스 제어모듈로 구성되어 있다. 전화망 인터페이스 모듈은 전화망을 이용한 교환기와의 호 처리 및 이벤트 처리를 담당하며, 전화망 접속카드와 밀접한 관계를 가지고 있다. 음성입력 및 인식 모들은 호 접속이 이루어진 채널로부터 음성을 입력받아 단어인식 기능을 수행하는 부분으로서 멀티 채널을 수용할 수 있는 구조로 설계되어 있다. 음성인식 모델은 문맥 종속형 CHMM 모델이며, 각각의 HMM 모델은 3-state, skip path 로 구성되어 있다. 음성인식 모듈내의 함수들은 모두 re-entrant 하도록 구성함으로써 멀티 채별이 가능하며, 각각의 채널은 모두 독립적인 메모리 공간에서 동작하도록 되어있다. 이와 같은 멀티채널 전화음성인식 시스템은 Dialogic보드를 이용하여 Windows NT에서 동작하도록 구현하였다. 실험결과, 구현된 시스템은 실시간으로 상용서비스가 가능한 인식율을 보였으며 원활한 멀티채널 지원이 가능하였다.

  • PDF

Korean Speech Segmentation and Recognition by Frame Classification via GMM (GMM을 이용한 프레임 단위 분류에 의한 우리말 음성의 분할과 인식)

  • 권호민;한학용;고시영;허강인
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2003.06a
    • /
    • pp.18-21
    • /
    • 2003
  • In general it has been considered to be the difficult problem that we divide continuous speech into short interval with having identical phoneme quality. In this paper we used Gaussian Mixture Model (GMM) related to probability density to divide speech into phonemes, an initial, medial, and final sound. From them we peformed continuous speech recognition. Decision boundary of phonemes is determined by algorithm with maximum frequency in a short interval. Recognition process is performed by Continuous Hidden Markov Model(CHMM), and we compared it with another phoneme divided by eye-measurement. For the experiments result we confirmed that the method we presented is relatively superior in auto-segmentation in korean speech.

  • PDF

A Compensation of the Duration Bounds According to Speaking Speed (발음 속도에 따른 지속시간 제한 값의 보상)

  • Yang Tae-Young;Lee Chungyong;Youn Dae Hee;Cha Il-Whan
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.193-196
    • /
    • 2000
  • 본 논문에서는 제한 지속시간 모델링(bounded duration modeling)의 지속시간 제한 값(duration bound)을 화자의 발음 속도에 따라 조절해주는 발음 속도 보상 알고리즘을 제안한다. 제안된 알고리즘은 두 번의 인식 과정을 수행하는데, 1차 인식 과정은 화자의 발음 속도를 추정하기 위한 과정이고, 2차 인식 과정이 인식 결과를 얻기 위한 과정이다. 1차 인식 과정에서 추정된 화자의 발음 속도에 따라, 지속시간 제한 값을 증가, 또는 감소시킨 후, 2차 인식과정에 사용한다. 제안된 알고리즘은 CHMM 기반의 한국어 연결 숫자음 인식 시스템에 적용되었으며, KAIST에서 제작된 4-7자리 연결 숫자음 데이터베이스인 DigitDB를 대상으로 성능을 평가하였다. 인식 실험 결과, 제안된 발음 속도 보상 알고리즘이 적용된 인식 시스템에서는 $96.26\% 단어 인식률을 얻어, 제안된 알고리즘이 적용되지 않은 인식 시스템의 $94.72\%보다 $1.54\% 향상된 인식 성능을 얻을 수 있었다.

  • PDF

Lip-Synch System Optimization Using Class Dependent SCHMM (클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화)

  • Lee, Sung-Hee;Park, Jun-Ho;Ko, Han-Seok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.25 no.7
    • /
    • pp.312-318
    • /
    • 2006
  • The conventional lip-synch system has a two-step process, speech segmentation and recognition. However, the difficulty of speech segmentation procedure and the inaccuracy of training data set due to the segmentation lead to a significant Performance degradation in the system. To cope with that, the connected vowel recognition method using Head-Body-Tail (HBT) model is proposed. The HBT model which is appropriate for handling relatively small sized vocabulary tasks reflects co-articulation effect efficiently. Moreover the 7 vowels are merged into 3 classes having similar lip shape while the system is optimized by employing a class dependent SCHMM structure. Additionally in both end sides of each word which has large variations, 8 components Gaussian mixture model is directly used to improve the ability of representation. Though the proposed method reveals similar performance with respect to the CHMM based on the HBT structure. the number of parameters is reduced by 33.92%. This reduction makes it a computationally efficient method enabling real time operation.