• 제목/요약/키워드: HMM decoder

검색결과 7건 처리시간 0.026초

최적화된 관측 신뢰도와 변형된 HMM 디코더를 이용한 잡음에 강인한 화자식별 시스템 (A Robust Speaker Identification Using Optimized Confidence and Modified HMM Decoder)

  • ;김진영;나승유
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.121-135
    • /
    • 2007
  • Speech signal is distorted by channel characteristics or additive noise and then the performances of speaker or speech recognition are severely degraded. To cope with the noise problem, we propose a modified HMM decoder algorithm using SNR-based observation confidence, which was successfully applied for GMM in speaker identification task. The modification is done by weighting observation probabilities with reliability values obtained from SNR. Also, we apply PSO (particle swarm optimization) method to the confidence function for maximizing the speaker identification performance. To evaluate our proposed method, we used the ETRI database for speaker recognition. The experimental results showed that the performance was definitely enhanced with the modified HMM decoder algorithm.

  • PDF

화자인식을 위한 관측신뢰도 기반 변형된 HMM 디코더 (Modified HMM Decoder based on Observation Confidence for Speaker Identification)

  • ;민소희;김진영;나승유
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.443-446
    • /
    • 2007
  • 음성신호는 잡음 또는 전송 채널의 특성에 의하여 왜곡되고, 왜곡된 음성은 음성인식 및 화자인식의 성능을 크게 저하시킨다. 이러한 문제점을 극복하기 위해 본 논문에서는 Gaussian mixture model (GMM)에 적용된 신호대잡음비 (SNR)기반 신뢰도 가중 기법[1][2]을 Hidden Markov model(HMM) 디코더에 변형하여 적용하였다. HMM 디코더 변형은 HMM 상태별 관측확률을 논문 [1]에서 제시된 신뢰도로 가중함으로써 이루어졌다. 제안한 방법의 성능을 확인하기 위해 ETRI에서 만든 한국어 화자인식용 휴대폰 음성 DB를 사용하여 문맥종속 화자식별 실험을 하였다. 실험결과 기존 방법에 비해 제안한 방법의 화자인식률이 크게 향상됨을 확인 할 수 있었다.

  • PDF

한국어 음성인식 플랫폼의 설계 (Design of a Korean Speech Recognition Platform)

  • 권오욱;김회린;유창동;김봉완;이용주
    • 대한음성학회지:말소리
    • /
    • 제51호
    • /
    • pp.151-165
    • /
    • 2004
  • For educational and research purposes, a Korean speech recognition platform is designed. It is based on an object-oriented architecture and can be easily modified so that researchers can readily evaluate the performance of a recognition algorithm of interest. This platform will save development time for many who are interested in speech recognition. The platform includes the following modules: Noise reduction, end-point detection, met-frequency cepstral coefficient (MFCC) and perceptually linear prediction (PLP)-based feature extraction, hidden Markov model (HMM)-based acoustic modeling, n-gram language modeling, n-best search, and Korean language processing. The decoder of the platform can handle both lexical search trees for large vocabulary speech recognition and finite-state networks for small-to-medium vocabulary speech recognition. It performs word-dependent n-best search algorithm with a bigram language model in the first forward search stage and then extracts a word lattice and restores each lattice path with a trigram language model in the second stage.

  • PDF

어텐션 기반 엔드투엔드 음성인식 시각화 분석 (Visual analysis of attention-based end-to-end speech recognition)

  • 임성민;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제11권1호
    • /
    • pp.41-49
    • /
    • 2019
  • 전통적인 음성인식 모델은 주로 음향 모델과 언어 모델을 사용하여 구현된다. 이때 음향 모델을 학습시키기 위해서는 음성 데이터에 대한 정답 텍스트뿐만 아니라 음성인식에 사용되는 단어의 발음사전과 프레임 단위의 음소 정답 데이터가 필요하다. 이 때문에 모델을 훈련하기 위해서는 먼저 프레임 단위의 정답을 생성하는 등의 여러 과정이 필요하다. 그리고 음향 모델과 별도의 텍스트 데이터로 훈련한 언어 모델을 적용하여야 한다. 이러한 불편함을 해결하기 위하여 최근에는 하나의 통합 신경망 모델로 이루어진 종단간(end-to-end) 음성인식 모델이 연구되고 있다. 이 모델은 훈련에 여러 과정이 필요없고 모델의 구조를 이해하기 쉽다는 장점이 있다. 하지만 인식이 내부적으로 어떤 과정을 거쳐 이루어지는지 알기 어렵다는 문제가 있다. 본 논문에서는 어텐션 기반 종단간 모델을 시각화 분석하여 내부적인 작동 원리를 이해하고자 하였다. 이를 위하여 BLSTM-HMM 하이브리드 음성인식 모델의 음향 모델과 종단간 음성인식 모델의 인코더를 비교하고, 신경망 레이어 별로 어떠한 차이가 있는지 분석하기 위해 t-SNE를 사용하여 시각화하였다. 그 결과로 음향모델과 종단간 모델 인코더의 차이점을 알 수 있었다. 또한 종단간 음성인식 모델의 디코더의 역할을 언어모델 관점에서 분석하고, 종단간 모델 디코더의 개선이 성능 향상을 위해 필수적임을 알 수 있었다.

동적 베이스망 기반의 걸음걸이 분석 (Dynamic Bayesian Network-Based Gait Analysis)

  • 김찬영;신봉기
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권5호
    • /
    • pp.354-362
    • /
    • 2010
  • 본 연구는 동적 베이스 망을 이용하여, 사람의 보행 동작을 보행 방향과 보행 자세로 분리하여 계층적으로 분석하는 방법을 제안한다. DBN의 일종인 FHMM을 기본 바탕으로 하여, 걸음걸이 동작 특성을 고려하여 순환 고리형 상태 공간 구조로 '보행 동작 디코더'(Gait Motion Decoder, GMD)를 설계한다. 기존 연구에는 보행자의 식별에만 치중을 하고 보행 방향의 변화, 관찰 각도에 제한적이거나 보행 동작에 대한 분석이 없었다. 반면에 본 연구에서는 동작과 자세를 적극적으로 표현하여 임의 방향의 보행, 방향의 변화, 보행 자세까지 인식할 수 있도록 하였다. 실험 결과 동작과 자세의 관점에서 걸음걸이 방향을 분석한 결과 96.5%의 방향 인식률을 기록하였다. 본 연구는 보행 동작을 방향과 보행 자세로 계층적으로 분석하는 최초의 방법 및 시도이며 향후 상황별 휴먼 동작 분석에 크게 활용할 수 있을 것이다.

IMM 기반 특징 보상 기법과 불확실성 디코딩의 결합 (Incorporation of IMM-based Feature Compensation and Uncertainty Decoding)

  • 강신재;한창우;권기수;김남수
    • 한국통신학회논문지
    • /
    • 제37권6C호
    • /
    • pp.492-496
    • /
    • 2012
  • 본 논문은 잡음이 많이 존재할 경우 특징 보상 기법들의 불완전한 추정 방법으로 인하여 발생할 수 있는 불확실성 정보를 음성 인식의 디코딩에 반영해 줌으로써 좀 더 인식 성능을 향상시킬 수 있는 방법에 대한 연구이다. 기존의 특징 보상 기법들은 현재 시간에서의 깨끗한 특징 파라미터를 추정하는 단일점 추정 기법들이 대부분이다. 하지만 낮은 SNR 환경에서의 잘못된 추정 파라미터들이 음성 인식 엔진의 입력으로 사용될 경우 성능이 저하되기 때문에 추정된 파라미터의 불확실성 정보를 이용하여 디코딩을 해주면 추정 오류를 보완해줄 수 있다. 본 논문에서는 대표적인 Aurora-2 DB를 활용하여 적용된 기법의 성능 향상을 확인한다.

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.