• 제목/요약/키워드: 연속 HMM

검색결과 150건 처리시간 0.03초

연속 숫자음 전화음성의 인식 성능 향상에 관한 연구 (A Study on the Performance Improvement of Connected Digit Telephone Speech Recognition)

  • 김민성;정성윤;손종목;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.143-146
    • /
    • 2002
  • 전화음성의 경우 전화 회선의 채널 대역폭 제한과 통화로 형성시 달라지는 채널의 특성으로 인하여 마이크 음성에 비하여 인식 성능이 많이 저하된다. 본 연구에서는 연속 숫자음 전화음성의 인식율 향상을 위해 채널 왜곡 보상 기법들을 적용하고, HTK 기반의 인식 실험을 통해 보상 기법에 따른 인식 성능을 비교하였다. 채널 왜곡 보상 기법으로 CMN, RASTA, RTCN 등을 적용하고, 각 보상 기법에 따라 HMM의 state 수, mixture 수를 바꾸어 가며 인식 실험한 결과를 제시한다.

  • PDF

보행 방향 및 상태 분석을 위한 병렬 가우스 과정 (Parallel Gaussian Processes for Gait and Phase Analysis)

  • 신봉기
    • 정보과학회 논문지
    • /
    • 제42권6호
    • /
    • pp.748-754
    • /
    • 2015
  • 본 연구에서는 다중 상태 변수의 인수 HMM을 일반화하여 연속 은닉 변수와 이산 은닉 변수가 결합된 순차 상태 추정 모형을 제안하고 이에 기반한 보행 동작 모형을 설계한다. 유한 상태의 이산변수는 마르코프 연쇄 구조로 보행의 동역학적 특성을 표현하고 각 이산 상태에 대해 연속 변수를 독립변수로 한 가우스 과정을 정의한다. 마르코프 상태 천이는 여러 가우스 과정 사이의 스위칭을 제어하며 각 가우스 과정은 동일한 자세의 회전 또는 다양한 시각을 표현한다. 온라인 필터링 추론을 위해 입자 필터 방식의 추론 알고리듬도 제시한다. 이 알고리듬은 입력 벡터 열이 주어졌을 때 이들 병렬적 가우스 과정을 동적으로 갈아타는 스위칭 궤적을 디코딩 해준다. 실험 결과 비선형적 보행자 비디오 영상을 보행방향과 보행 상태의 열로 분리하며 매우 직관적인 해석을 할 수 있음을 보였다.

주 인자 분석을 이용한 제스처 인식에 관한 연구 (A Study on Gesture Recognition Using Principal Factor Analysis)

  • 이용재;이칠우
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.981-996
    • /
    • 2007
  • 본 논문에서는 연속적인 제스처 영상으로 부터 주 인자 분석을 통해 얻어진 동작 특징 정보를 이용하여 제스처를 인식하는 방법에 대해 기술한다. 제안된 방법은 먼저, 인간의 신체 영상이 포함된 연속적인 입력영상에서 2차원 실루엣 제스처 영역을 분할한 다음 전역특징정보와 지역특징정보를 추출한다. 여기서 전역특징정보는 요인 분석을 통하여 제스처를 효과적으로 표현하는 의미 있는 소수의 핵심 특징을 선택하여 이용한다. 추출 된 특징정보로 부터 제스처의 시간 변화를 나타내는 특징히스토리정보를 얻어 저 차원 제스처공간을 구성한다. 마지막으로 제스처 공간상에 투영된 모델 특징 값은 은닉마르코프 모델의 입력 기호로 이용되기 위해 군집화 알고리즘을 통해 특정한 상태 기호로 구성되며 임의의 입력 동작은 확률 값이 가장 높은 해당 제스처 모델로 인식된다. 주 인자 분석으로부터 제스처에 기여도가 높은 특징인자로 모델을 구성하기 때문에 외관기반방법에서 몸의 형상 정보만을 특징 값으로 이용하거나 직관적인 방법으로 특징을 추출하는 방법보다 복잡한 동작에서 비교적 우수한 인식률을 나타낸다.

  • PDF

문자출력 무선호출기를 위한 음성인식 시스템 (Speech Recognition in the Pager System displaying Defined Sentences)

  • 박규붕;박전규;서상원;황두성;김현빈;한문성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.158-162
    • /
    • 1996
  • 본 논문에서는 문자출력이 가능한 무선호출기에 음성인식 기술을 접목한, 특성화된 한 음성인식 시스템에 대하여 설명하고자 한다. 시스템 동작 과정은, 일단 호출자가 음성인식 서버와 접속하게 되면 서버는 호출자의 자연스런 입력음성을 인식, 그 결과를 문장 형태로 피호출자의 호출기 단말기에 출력시키는 방식으로 되어 있다. 본 시스템에서는 통계적 음성인식 기법을 도입하여, 각 단어를 연속 HMM으로 모델링하였다. 가우시안 혼합 확률밀도함수를 사용하는 각 모델은 전통적인 HMM 학습법들 중의 하나인 Baum-Welch 알고리듬에 의해 학습되고 인식시에는 이들에 비터비 빔 탐색을 적용하여 최선의 결과를 얻도록 한다. MFCC와 파워를 혼용한 26 차원 특징벡터를 각 프레임으로부터 추출하여, 최종적으로, 83 개의 도메인 어휘들 및 무음과 같은 특수어휘들에 대한 모델링을 완성하게 된다. 여기에 구문론적 기능과 의미론적 기능을 함께 수행하는 FSN을 결합시켜 자연발화음성에 대한 연속음성인식 시스템을 구성한다. 본문에서는 이상의 사항들 외에도 음성 데이터베이스, 레이블링 등과 갈이 시스템 성능과 직결되는 시스템의 외적 요소들에 대해 고찰하고, 시스템에 구현되어 있는 다양한 특성들에 대해 밝히며, 실험 결과 및 앞으로의 개선 방향 등에 대해 논의하기로 한다.

  • PDF

잡음에 강한 음성 인식에서 SNR 기준 함수를 사용한 가우시안 함수 변형 및 결정에 관한 연구 (A Study on Variation and Determination of Gaussian function Using SNR Criteria Function for Robust Speech Recognition)

  • 전선도;강철호
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.112-117
    • /
    • 1999
  • 잡음에 강한 음성인식시스템을 위하여 주파수 차감법을 사용할 경우 음성 신호마저 차감하여 신호를 더욱 부식시키는 경우가 존재한다. 본 연구에서는 이러한 경우를 위해서 프레임 마다 추정 잡음과 차감 신호의 SNR(Signal to Noise Ratio) 함수로부터 반연속 HMM(Hidden Markov Model)의 가우시안 함수를 변형 및 결정하는 방법을 제안한다. 이 방법의 타당성을 위해 프레임마다 추정 잡음의 오류 정도가 추정 잡음의 크기와 관계함을 신호 파형 형태로써 보였으며, 이러한 이유에서 SNR을 기준으로 가우시안 함수를 변형 및 결정하게 된다. 실험에서 80㎞/h 이상의 속도로 달리는 차량 내에서 배경 잡음과 음성이 혼합되었을 때의 음성 인식율을 평가하였다. 그 결과 주파수 차감한 경우와 차감하지 않은 경우에 비해 본 논문에서 제안한 SNR에 의한 가우시안 결정 방법이 더욱 향상된 인식율을 보였다.

  • PDF

자동차 제어용 음성 인식시스템 구현 (An Implementation of Speech Recognition System for Car's Control)

  • 이광석;김현덕
    • 한국정보통신학회논문지
    • /
    • 제5권3호
    • /
    • pp.451-458
    • /
    • 2001
  • 본 연구는 자동차내의 각종 제어장치들을 음성으로 실시간 제어하기 위한 음성제어 시스템을 제안하고 실험적으로 검증하였다. 실시간 제어음성 인식시스템은 8bit-l0MHz로 A/D변환된 음성 데이터를 실시간으로 시작점과 끝점을 검출한 후, One Pass DP법으로 인식하였으며 그 결과를 모니터에 문장으로 출력하며 제어용 인터페이스에 제어데이터를 보내도록 구성하였다. HMM모델은 자동차내의 장치들을 제어하기 위한 제어음성 및 숫자음들로 구성되는 연속음성을 학습 및 모델링 하였다. 단어.제어문들의 인식률은 평균 97.3%, 숫자음의 경우는 평균 96.3% 정도의 인식률을 얻을 수 있었다.

  • PDF

연속 잡음 음성 인식을 위한 다 모델 기반 인식기의 성능 향상에 대한 연구 (Performance Improvement in the Multi-Model Based Speech Recognizer for Continuous Noisy Speech Recognition)

  • 정용주
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.55-65
    • /
    • 2008
  • Recently, the multi-model based speech recognizer has been used quite successfully for noisy speech recognition. For the selection of the reference HMM (hidden Markov model) which best matches the noise type and SNR (signal to noise ratio) of the input testing speech, the estimation of the SNR value using the VAD (voice activity detection) algorithm and the classification of the noise type based on the GMM (Gaussian mixture model) have been done separately in the multi-model framework. As the SNR estimation process is vulnerable to errors, we propose an efficient method which can classify simultaneously the SNR values and noise types. The KL (Kullback-Leibler) distance between the single Gaussian distributions for the noise signal during the training and testing is utilized for the classification. The recognition experiments have been done on the Aurora 2 database showing the usefulness of the model compensation method in the multi-model based speech recognizer. We could also see that further performance improvement was achievable by combining the probability density function of the MCT (multi-condition training) with that of the reference HMM compensated by the D-JA (data-driven Jacobian adaptation) in the multi-model based speech recognizer.

  • PDF

선형 변환망을 이용한 화자적응 음성인식 (Speaker Adaptation Using Linear Transformation Network in Speech Recognition)

  • 이기희
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.90-97
    • /
    • 2000
  • 본 논문에서는 불특정 화자의 음성에 대해서도 신뢰성 있는 인식이 이루어지도록 하는 음성인식 시스템을 구현하기 위한 화자적응 음성인식 기법을 제안한다. 제안한 화자적응 기법에 의한 음성인식 시스템은 표준화자의 음성특징을 1차선형 변환 망에 의해 새로운 화자의 음성특징에 선형적으로 적응하여 인식하며. 그 구성은 다층퍼셉트론을 퍼지 벡터양자화기로 사용하는 반연속 HMM을 기반으로 한다 구현한 인식시스템은 그 성능을 확인하기 위해 고립단어 인식실험을 수행하였다. 그 결과, 화자적응 인식인 경우가 화자적응 수행하지 않은 시스템에 비해 인식률이 개선됨을 보였다.

  • PDF

CHMM 어휘 인식에서 형상 형성 제어를 이용한 가우시안 모델 최적화 (Gaussian Model Optimization using Configuration Thread Control In CHMM Vocabulary Recognition)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권7호
    • /
    • pp.167-172
    • /
    • 2012
  • HMM(Hidden Markov Model)을 이용한 어휘 인식에서 모델들의 대한 관측 확률이 이산적인 분포를 나타내며 계산량이 적은 장점이 있지만 인식률이 상대적으로 낮고 정교한 스무딩 과정이 필요한 단점이 있다. 이를 개선하기 위해 가우시안 믹스쳐 연속 확률 밀도를 이용한 CHMM(Continuous Hidden Markov Model) 모델 최적화를 위한 시스템을 제안한다. 본 논문의 시스템은 CHMM 어휘 인식에서 가우시안 믹스쳐 모델을 최적화한 인식 모델을 형상 형성 시스템 지원에 의해 제공한다. 본 논문에서 제안한 시스템을 적용한 결과 어휘 인식률에서 98.1%의 인식률을 나타내었다.

손실 데이터 이론을 이용한 강인한 음성 인식 (Robust Speech Recognition Using Missing Data Theory)

  • 김락용;조훈영;오영환
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.56-62
    • /
    • 2001
  • 본 논문에서는 손실이 발생하는 상황에서 높은 인식률을 유지하기 위해서 손실 데이터 이론을 음성 인식기에 적용하였다 손실 데이터 이론은 일반적으로 이용되는 통계적 정합 방법인 은닉 마코프 모델 (HMM: hidden Markov model) 중 연속 Gaussian확률 밀도 함수를 이용하여 음성 특징들의 출력 확률을 나타내는 경우에 쉽게 적용할 수 있다는 장점을 갖고 있다. 손실 데이터 이론의 방법 중 계산량이 적고 인식기에 적용이 쉬운 주변화(marginalization)방법을 사용하였으며 특징 벡터의 특정 차수나 시간열의 손실 검출 방법은 음성 신호의 에너지와 주위 배경 잡음의 에너지의 차이가 임계치보다 작게 되는 부분을 찾는 주파수 차감 방법을 이용하였다. 본 논문에서 제안한 손실 영역의 신뢰도 평가는 분석 구간이 모음일 확률을 계산해서 비교적 잉여 정보가 많이 포함된 모음화된 구간의 손실만을 처리하도록 하였다. 제안한 방법을 사용하여 여러 잡음 환경에 대해서 기존의 손실 데이터 처리 방법만을 사용한 경우보다 452 단어의 화자독립 단어 인식 실험을 수행한 결과 오류율측면에서 평균적으로 약 12%의 성능 향상을 얻을 수 있었다.

  • PDF