• 제목/요약/키워드: 강인한 음성 인식

검색결과 197건 처리시간 0.029초

차량내에서의 음성인식에 관한 연구 (A Study on Speech Recognition inside the Car)

  • 박정훈;임형규;김종교
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.56-60
    • /
    • 1999
  • 본 논문은, 자동차에서 발생할 수 있는 다양한 형태의 잡음이 섞인 음성을 대상으로, 잡음에 강인한 파라미터들을 사용하여 인식기들을 구축하였으며, 이들 파라미터를 비교 평가하였다. 실험에 사용된 음성 데이터는 차종, 속도, 도로 환경, 라디오 ON/OFF, 창문 개폐여부 등 다양한 잡음 환경에서 수집하였다. 실험에서 비교된 파라미터는 MFCC(Mel-Blrequency Cepstral Coefficient)와 PLP(Perceptually Linear Prediction) 이며, 각각의 파라미터에 대해서 MKM(Modified k-mean)을 이용하여 코드북을 작성하였고, DHMM(Discrete Hidden Markov Model)을 인식알고리즘으로 사용하였다. 실험 결과로서, 아스팔트 도로에서 창문을 닫고, 라디오를 켜지 않은 상태에서 60km/h로 주행시 $96.25\%$로 가장 높은 인식률을 얻었고, 고속도로에서 창문을 열고 100km/h로 주행시에는$60\%$로 가장 낮은 인식률을 얻었다.

  • PDF

평균 예측 LMS 알고리즘을 이용한 반향 잡음에 강인한 HMM 학습 모델 (Echo Noise Robust HMM Learning Model using Average Estimator LMS Algorithm)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권10호
    • /
    • pp.277-282
    • /
    • 2012
  • 음성 인식 시스템은 다양하게 변화하는 환경 잡음에 빠르게 적응할 수 없어서 인식 성능을 저하시키는 요인이 된다. 본 논문에서는 평균 예측 LMS 알고리즘을 이용하여 반향 잡음에 강인하게 하는 방법으로 HMM 학습 모델을 구성하는 방법을 제안하였으며, 변화하는 반향 잡음에 적응하도록 HMM 학습 모델을 구성하여 인식 성능을 평가하였다. 실험 결과 변화하는 환경 잡음을 제거하여 얻은 음성의 SNR은 평균 3.1dB이 향상되었고 인식률은 3.9% 향상되었다.

주행중인 자동차 환경에서의 고립단어 음성인식 연구 (A Study on Isolated Words Speech Recognition in a Running Automobile)

  • 유봉근
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.381-384
    • /
    • 1998
  • 본 논문은 주행중인 자동차 환경에서 운전자의 안전성 및 편의성의 동시 확보를 위하여, 보조적인 스위치 조작없이 상시 음성의 입, 출력이 가능하도록 한다. 이때 잡음에 강인한 threshold 값을 구하기 위하여, 일정한 시간마다 기준 에너지와 영교차율(Zero Crossing Rate)을 변경하며, 밴드패스 필터(bandpass filter)를 이용하여 1차, 2차로 나누어 실시간 상태에서 자동으로, 정확하게 끝점검출(End Point Detection)을 처리한다. 기준패턴(reference pattern)은 DMS(Dynamic Multi-Section)을 사용하며, 화자의 변별력을 높이기 위하여 2개의 모델사용을 제안한다. 또한 주행중인 차량의 잡음환경에 강인하기 위하여 일반주행(80km/h 이내), 고속주행(80km/h 이상)등으로 나누며 차량의 가변잡음 크기에 따라 자동으로 선택하도록 한다. 음성의 특징 벡터와 인식 알고리즘은 PLP 13차와 One-Stage Dynamic Programming (OSDP)를 이용한다. 실험결과, 자주 사용되는 차량 편의장치 제어명령 33개에 대하여 중부, 영동 고속도로(시속 80Km/h 이상)에서 화자독립 89.75%, 화자종속 90.08%의 인식율을 구하였으며, 경부 고속도로에서는 화자독립 92.29%, 화자종속 92.42%의 인식율을 구하였다. 그리고 저속 주행중인 자동차 환경(80km/h 이내, 시멘트, 아스팔트 등의 서울시내 및 시외독립)에서는 화자독립 92.89%, 화자종속 94.44% 인식율을 구하였다.

  • PDF

고립단어 음성인식에서 신경망을 이용한 사용자 적응형 후처리 (User Adjustment Post-Process Using Neural Network In Isolated Word Speech Recognition)

  • 김영진;김은주;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.736-738
    • /
    • 2005
  • 최근 PDA나 PMP와 같은 개인용 모바일 기기의 인터페이스 개발로써 잡음환경에 강인한 음성인식 기술들이 연구되고 있으며 이러한 방법으로 오류패턴, 순차패턴, 의미정보, 문맥정보와 같이 인식기에 독립적인 정보를 이용하거나 영상 정보와 같이 언어와 성격이 다른 이질적인 정보를 이용하여 후처리를 하는 연구들이 진행되어 왔다. 그러나 인식기와 독립적인 정보로 후처리를 하는 방법들의 인식률은 인식기의 사전 인식률이 주변 잡음에 의해 떨어질 경우 후처리 인식률도 같이 떨어지는 현상이 벌어진다. 따라서 본 논문에서는 주변 잡음으로 인한 인식기의 사전 인식률에 저하를 줄이는 방법으로 사용자 적응형 후처리를 제안한다. 사용자 적응형 후처리에 사용되는 데이터는 사용자의 발화에 대한 인식기의 출력 값들이며, 출력 값들은 화자독립모델에 의해 계산되는 각 단어들의 유사도 들이다. 따라서 화자독립모델의 결과를 사용자 적응형 후처리에 적용한 결과 인식기의 오류를 $58.7\%$ 줄일 수 있었다.

  • PDF

잡음환경및 채널왜곡에 강인한 ARS용 전화음성인식 방식 연구 (The Development of a Speech Recognition Method Robust to Channel Distortions and Noisy Environments for an Audio Response System(ARS))

  • 안정모;임계종;계영철;구명완
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.41-48
    • /
    • 1997
  • 본고는 음성인식 기능이 추가된 음성응답장치(ARS)의 음성 인식률을 향상시키는 방법을 제안한다. ARS에 입력되는 전화음성은 안내방송, 전화잡음, 그리고 채널왜곡에 의하여 영향을 받기 때문에, 양질의 음성을 대상으로 하여 개발된 인식 알고리듬을 그대로 적용하면 상당한 인식률의 저하를 가져오게 된다. 이러한 문제점을 극복하기 위하여 본고에서는 세 가지 방법을 제안한다: 1)음성이 시작되는 순간 안내 방송을 즉시 끊기 위한 음성 입력순간의 정확한 검출, 2)Teager 에너지를 이용한 잡음 섞인 전화음성의 효과적인 끝점검출, 3)SDCN 알고리듬을 이용한 채널왜곡의 보상. 위의 세 가지 방법을 모두 결합하여 화자독립인 전화음성을 대상으로 실험한 결과, 기존의 방법이 약 23%의 인식률을 보인 반면, 제안된 방식은 약 77%의 인식률로서 상당한 성능향상을 보여주었다.

  • PDF

외부응향잡음 차단을 위한 강인한 입술움직임 영상영역 추적방법 (A Tracking Method of Robust Lip Movement Image Regions for Blocking the External Acoustic Noise)

  • 김응규
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2009년도 제40회 하계학술대회
    • /
    • pp.1913_1914
    • /
    • 2009
  • 본 논문에서 조명환경하에서 음성/영상 연동시스템을 통해서 외부음향잡음의 차단을 위한 강인한 입술움직임 영상영역을 추적하는 한 가지 방법을 제안한다. 조명환경하에서 강인한 입술움직임 영상영역을 추적하기 위해 온라인상에서 입술움직임 표준영상을 수집하였고 다양한 조명환경에 적응하는 입술 움직임 영상의 특징들을 추출하였다. 동시에 온라인 템플릿 영상을 획득하였고, 이 영상들을 템플릿 정합을 위해 사용했다. 음성/영상처리시스템의 연동결과, 다양한 조명환경하에서 그 연동률을 99.3%까지 높일 수 있었고 음향잡음에 의한 음성인식 실행을 원천적으로 차단할 수 있었다.

  • PDF

잡음환경에서의 음성인식을 위한 켑스트럼의 확률분포 정규화 기법 (Cepstrum PDF Normalization Method for Speech Recognition in Noise Environment)

  • 석용호;이황수;최승호
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.224-229
    • /
    • 2005
  • 본 논문에서는 부가잡음 환경에서의 강인한 음성인식을 위해 켑스트럼의 확률밀도 (pdf) 정규화 기법을 제안한다. 기존의 방법들은 켑스트럼의 평균 및 분산 등 주로 1, 2차 통계치 만을 정규화 하지만 제안한 방법은 깨끗한 음성과 잡음이 부가된 음성의 켑스트럼의 pdf를 동일하게 함으로써 켑스트럼의 통계치를 완벽하게 정규화 한다. 목표 pdf로는 다양한 확률분포를 고려하기 위하여 일반 (generalized) 가우시안 분포를 선택하였다. 또한 인식시 계산량을 감축하기 위하여 표 참조방법 (table lookup method)를 개발하였다. 화자독립 고립단어 인식 실험에서 제안된 기법이 기존 방법들보다 우수한 성능을 보였으며, 특히 잡음이 심한 환경에서 성능향상이 두드러졌다.

시변 잡음에 대처하기 위한 다중 모델을 이용한 PCMM 기반 특징 보상 기법 (PCMM-Based Feature Compensation Method Using Multiple Model to Cope with Time-Varying Noise)

  • 김우일;고한석
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.473-480
    • /
    • 2004
  • 본 논문에서는 잡음 환경에서 강인한 음성 인식을 위하여 음성 모델을 기반으로 하는 효과적인 특징 보상 기법을 제안한다. 제안하는 특징 보상 기법은 병렬 결합된 혼합 모델 (PCMM)을 기반으로 한다. 기존의 PCMM 기반의 기법은 시간에 따라 변하는 잡음 환경을 반영하기 위하여 매 음성 입력마다 복잡한 과정의 혼합 모델 결합이 필요하다. 제안하는 기법에서는 다중의 혼합 모델을 보간하는 방법을 채용함으로써 시간에 따라 변하는 배경 잡음에 대응할 수 있다. 보다 신뢰성 있는 혼합 모델 생성을 위하여 데이터 유도 기반의 방법을 도입하고, 실시간 처리를 위하여 프레임에 동기화된 환경 사후 확률 예측 과정을 제안한다. 다중 모델로 인한 연산량 증가를 막기 위하여 혼합 모델을 공유하는 기법을 제안한다. 가우시안 혼합 모델 사이에 통계학적으로 유사한 요소들을 선택하여 공유에 필요한 공통 모델을 생성한다. Aurora 2.0 데이터베이스와 실제 자동차 주행 환경에서 수집된 음성 데이터베이스에 대한 성능 평가를 실시한다. 실험 결과로부터 제안한 기법이 모의 환경과 실제 잡음 환경에서 강인한 음성 인식 성능을 가져오고 연산량 감소에 효과적임을 확인한다.

손실 데이터 이론을 이용한 강인한 음성 인식 (Robust Speech Recognition Using Missing Data Theory)

  • 김락용;조훈영;오영환
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.56-62
    • /
    • 2001
  • 본 논문에서는 손실이 발생하는 상황에서 높은 인식률을 유지하기 위해서 손실 데이터 이론을 음성 인식기에 적용하였다 손실 데이터 이론은 일반적으로 이용되는 통계적 정합 방법인 은닉 마코프 모델 (HMM: hidden Markov model) 중 연속 Gaussian확률 밀도 함수를 이용하여 음성 특징들의 출력 확률을 나타내는 경우에 쉽게 적용할 수 있다는 장점을 갖고 있다. 손실 데이터 이론의 방법 중 계산량이 적고 인식기에 적용이 쉬운 주변화(marginalization)방법을 사용하였으며 특징 벡터의 특정 차수나 시간열의 손실 검출 방법은 음성 신호의 에너지와 주위 배경 잡음의 에너지의 차이가 임계치보다 작게 되는 부분을 찾는 주파수 차감 방법을 이용하였다. 본 논문에서 제안한 손실 영역의 신뢰도 평가는 분석 구간이 모음일 확률을 계산해서 비교적 잉여 정보가 많이 포함된 모음화된 구간의 손실만을 처리하도록 하였다. 제안한 방법을 사용하여 여러 잡음 환경에 대해서 기존의 손실 데이터 처리 방법만을 사용한 경우보다 452 단어의 화자독립 단어 인식 실험을 수행한 결과 오류율측면에서 평균적으로 약 12%의 성능 향상을 얻을 수 있었다.

  • PDF

차량 항법용 음성 인식 시스템 구현 (Implementation of Speech Recognition System for Car Navigation)

  • 김지성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.51-54
    • /
    • 1998
  • 본 논문에서는 자동차 잡음 환경에서 녹음된 데이터 베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 잡음 제거 방법을 연구하였다. 먼저, 잡음 및 주변 환경 변화에 강인한 것으로 알려져 있는 특징 벡터들의 인식 성능을 비교하교, 가중 켑스트랄 거리 측정 방법을 이용한 인식 실험을 통하여 시스템의 성능 향상을 확인하였다. 실험 결과, 본 논문에서 기준 시스템으로 사용한 LPC 켑스트럼의 경우에 비하여 MFCC나 root-cepstrum을 사용한 경우 인식률이 향상되었다. 켑스트럼간의 거리 측정에 있어서는 RPS와 BPL과 같은 가중 켑스트랄 거리 측정 함수들이 인식 성능 향상에 도움을 주었다. 또한 켑스트럼 평균 차감법이라는 간단한 잡음 제거기술을 적용하여 자동차 잡음 환경에서 인식 성능 향상을 보였다. 마지막으로, 차량 항법용 음성 인식 시스템의 실시간구현을 위하여 여러 경우의 인식 성능을 비교하고, 메모리 량과 실행 시간 등을 고려하여 최적 시스템을 제시하였다.

  • PDF