• 제목/요약/키워드: CHMM

검색결과 39건 처리시간 0.023초

연속 음성 인식 향상을 위해 LMS 알고리즘을 이용한 CHMM 모델링 (CHMM Modeling using LMS Algorithm for Continuous Speech Recognition Improvement)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.377-382
    • /
    • 2012
  • 본 논문은 반향 제거 평균 예측 LMS 알고리즘을 이용하여 반향 잡음에 강인한 연속 음성 인식 모델인 CHMM 모델을 구성하는 방법을 제안하였다. 변화하는 반향 잡음에 적응하고 연속 음성 인식 성능 향상을 위한 반향 잡음 제거 평균 예측 LMS 알고리즘을 이용하여 CHMM 모델을 구성하였다. 제안한 알고리즘에 의해 구성된 CHMM 모델에 대하여 연속 인식 성능을 평가하였다. 실험 결과 변화하는 환경 잡음을 제거하여 얻은 음성의 SNR은 평균 1.93dB이 향상되었고 연속 음성의 인식률은 2.1% 향상되었다.

CHMM 어휘 인식에서 형상 형성 제어를 이용한 가우시안 모델 최적화 (Gaussian Model Optimization using Configuration Thread Control In CHMM Vocabulary Recognition)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권7호
    • /
    • pp.167-172
    • /
    • 2012
  • HMM(Hidden Markov Model)을 이용한 어휘 인식에서 모델들의 대한 관측 확률이 이산적인 분포를 나타내며 계산량이 적은 장점이 있지만 인식률이 상대적으로 낮고 정교한 스무딩 과정이 필요한 단점이 있다. 이를 개선하기 위해 가우시안 믹스쳐 연속 확률 밀도를 이용한 CHMM(Continuous Hidden Markov Model) 모델 최적화를 위한 시스템을 제안한다. 본 논문의 시스템은 CHMM 어휘 인식에서 가우시안 믹스쳐 모델을 최적화한 인식 모델을 형상 형성 시스템 지원에 의해 제공한다. 본 논문에서 제안한 시스템을 적용한 결과 어휘 인식률에서 98.1%의 인식률을 나타내었다.

이산 시간 제어 CHMM을 이용한 한국어 연속 음성 인식에 관한 연구 (A Study on Recognition of Korean Continuous Speech using Discrete Duration CHMM.)

  • 김상범
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.368-372
    • /
    • 1994
  • 확률적 모델을 이용한 HMM 으로 한국어 연속 음성 인식시스템을 구성하였다. 학습 모델로서는 양자화 DCK가 없는 연속출력 확률밀도를 사용한 연속출력 확률분포 HMM과 과도 구간 및 정상 구간의 시간구조를 충분히 BYGUS할 수 없는 것을 계속시간 확률 파라메터를 추가하여 보완한 이산 지속시간 제어 연속출력 확률분포 HMM을 이용하였다. 인식 알고리즘은 시계열 패턴의 시간축상에서의 비선형 신축을 고려한 에 매칭으로서, 음절의 경계를 자동으로 검출하는 O에을 이용하였다. 실험에서 사용된 연속음성데이타는 4연 숫자음과 연속음성 10문장으로 하였다. 인식 실험 결과 4연 숫자음에서 CHMM은 80.7%, DDCHMM은 92.9%의 인식률을 얻었고, 신문 사설에서 발췌한 연속 음성문장의 경우 CHMM 54.2%, DDCHMM에서는 68.9%을 얻어, 시간장 제어를 고려한 DDCHMM이 CHMM보다 SHB은 인식률을 얻었다.

  • PDF

음절인식을 위한 회귀예측신경망에 관한 연구 (A study on the Recurrent Predictioni Neural Networks for Syllables Recognition)

  • 한학용
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.272-277
    • /
    • 1998
  • MLP형 예측신경망, Jordan 형과 Elman 형 회귀예측신경망을 사용하여 예측차수오 kdmsslr층이 유니트수의 변화에 따른 인식결과를 CHMM과 비교하였다. 음성데이타는 100음절데이터와 ETRI 의 샘돌이 숫자음을 사용하였다. 숫자음에서 신경망의 인식률은 98.5%로 5상태 CHMM의 85.6%보다는 향상된 인식성능을 보였으며 6상태 이상의 CHMM보다는 다소 인식률이 낮게 나타났다.

  • PDF

세그먼트 차원압축을 이용한 HMM의 음절인식 (Syllable Recognition of HMM using Segment Dimension Compression)

  • 김주성;이양우;허강인;안점영
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.40-48
    • /
    • 1996
  • 본 논문은 단음절 전구간에 대해 4프레임폭과 7프레임폭을 결합하여 만든 40차원의 세그먼트를 K-L전개와 신경망으로 각각 10, 14, 20차원으로 압축하여 연속분포 HMM의 음성인식 특징파라미터로 사용하였다. 그리고 이산지속시간, 희귀계수 그리고 혼합분포를 특징 파라미터로 추가한 경우와 비교검토하였다. 단음절 100개에 대한 인식실험결과 연속분포 HMM의 인식률 85.19%에 비해 희귀계수를 부가한 경우 1.4%, 혼합분포를 이용한 경우 2.36%, 이산 지속시간제어를 한 경우 2.78%의 인식률이 향상되었다. 그리고 K-L전개에 의한 압축파라미터만 이용한 경우는 멜켑스트럼 + 희귀계수의 경우보다 인식률이 낮았으나, K-L전개에 의한 압축파라미터에 멜켑스트럼과 희귀계수를 부가한 경우는 동등한 결과를 얻을 수 있었다. 신경망에 의한 압축파라미터를 이용한 경우에는 비선형 변환인 시그모이드 함수를 사용하므로 음성의 동적변화가 잘 반영되어 K-L전개 및 다른 방법에 비해 향상된 인식결과를 얻을 수 있었다.

  • PDF

멀티모달 인터페이스를 위한 음성 및 문자 공용 인식시스템의 구현 (An On-line Speech and Character Combined Recognition System for Multimodal Interfaces)

  • 석수영;김민정;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제6권2호
    • /
    • pp.216-223
    • /
    • 2003
  • 본 논문에서는 음성과 온라인 문자를 단일시스템으로 인식할 수 있는 음성 문자 공용인식 시스템을 제안한다. 일반적으로 CHMM(Continuous Hidden Markov Model)은 음성인식과 온라인 문자인식을 위해 매우 유용한 도구로 잘 알려져 있으나, 인식을 위해서는 각각을 독립 시스템으로 구현하고 있어 추가적인 메모리와 계산량을 요구한다. 제안한 공용인식 시스템은 음성인식과 문자인식을 결합하기 위하여 이들을 동일한 CHMM모델로 구성한 후 상태단위로 지속정보를 제어하는 OPDP(One Pass Dynamic Programming) 알고리즘을 통하여 음성과 문자를 인식할 수 있는 확률 통계적 시스템을 구현하였다. 음성은 MFCC(Mel Frequency Cepstrum Coefficient) 파라미터, 문자는 위치 변화량 파라미터와 비트맵 파라미터를 사용하였으며, MLE(Maximum Likelihood Estimation) 추정법을 이용하여 음소와 자소를 결합한 115개의 3상태 9천이 CHMM모델을 구성하였다. 공용인식기의 실험결과 음소 인식률 51.65%, 음성 단어 인식률 88.6%, 자소 인식률 85.3%, 필기체 단어인식률 85.6%를 나타내어 공용인식의 유효함을 확인할 수 있었다.

  • PDF

CHMM 어휘인식에서 채널 유사성을 이용한 선택적 음성 특징 추출 (Selective Speech Feature Extraction using Channel Similarity in CHMM Vocabulary Recognition)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제11권10호
    • /
    • pp.453-458
    • /
    • 2013
  • HMM 음성 인식 시스템은 환경적 잡음과 여러 음성의 혼합으로 인하여 정확한 음성을 인지하지 못하는 단점이 있다. 따라서 본 논문은 잡음 음성으로 부터 원하는 음성만 선택하여 추출하기 위한 음성 특징 추출 기법을 CHMM을 이용하여 제안한다. 선택적 음성 추출을 위한 채널 유사성 상관 관계를 이용하여 음성 특징을 추출하는 방법을 사용하였다. 제안 기법의 실험 평가한 결과 평균 분리 왜곡도가 0.430dB 감소됨을 보임으로써 제안한 방법의 우수성을 확인하였다.

CHMM을 이용한 전화번호 인식에 관한 연구 (A Study of Telephone Digit Recognition Using CHMM)

  • 이성권
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.31-34
    • /
    • 1998
  • 본 연구는 음소 단위의 CHMM을 이용한 연속어 숫자음 인식에 관한 내용이다. ETRI 445 데이터를 사용하여 초기의 모델은 ML 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 또한 한국어 숫자음 음성의 음향학적 특성을 고려하여 발성 사전을 작성하였고 음절 다누이로 되어있는 한국어 숫자음의 모든 경우를 고려하여 복수개의 단어를 사전에 등록하였다. 또한 적응화 학습에 있어서 숫자음의 앞 뒤 모든 경우를 고려하여 작성한 21 종류의 7자리 전화번호 숫자음 DB로 사용하였고 이의 효율성을 입증하기 위하여 ETRI에서 작성한 35종류의 4연속 숫자음 목록을 대상으로 인식실험을 수행하였다. 그 결과 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 또한 후처리를 두어 연음 현상으로 인한 오인식의 경우에 대해서도 약 2%의 인식률의 증가를 보여주었다.

  • PDF

다중 Stream 구조를 가지는 VQ를 이용하여 연산량을 개선한 CHMM에 관한 연구 (A Study of CHMM Reducing Computational Load Using VQ with Multiple Streams)

  • 방영규;정익주
    • 산업기술연구
    • /
    • 제26권B호
    • /
    • pp.233-242
    • /
    • 2006
  • Continuous, discrete and semi continuous HMM systems are used for the speech recognition. Discrete systems have the advantage of low run-time computation. However, vector quantization reduces accuracy and this can lead to poor performance. Continuous systems let us get good correctness but they need much calculation so that occasionally they are unable to be used for practice. Although there are semi-continuous systems which apply advantage of continuous and discrete systems, they also require much computation. In this paper, we proposed the way which reduces calculation for continuous systems. The proposed method has the same computational load as discrete systems but can give better recognition accuracy than discrete systems.

  • PDF

수정된 EM알고리즘을 이용한 GMM 화자식별 시스템의 성능향상 (Performance Enhancement of Speaker Identification System Based on GMM Using the Modified EM Algorithm)

  • 김성종;정익주
    • 음성과학
    • /
    • 제12권4호
    • /
    • pp.31-42
    • /
    • 2005
  • Recently, Gaussian Mixture Model (GMM), a special form of CHMM, has been applied to speaker identification and it has proved that performance of GMM is better than CHMM. Therefore, in this paper the speaker models based on GMM and a new GMM using the modified EM algorithm are introduced and evaluated for text-independent speaker identification. Various experiments were performed to evaluate identification performance of two algorithms. As a result of the experiments, the GMM speaker model attained 94.6% identification accuracy using 40 seconds of training data and 32 mixtures and 97.8% accuracy using 80 seconds of training data and 64 mixtures. On the other hand, the new GMM speaker model achieved 95.0% identification accuracy using 40 seconds of training data and 32 mixtures and 98.2% accuracy using 80 seconds of training data and 64 mixtures. It shows that the new GMM speaker identification performance is better than the GMM speaker identification performance.

  • PDF