• 제목/요약/키워드: robust speech recognition

검색결과 225건 처리시간 0.021초

지능형 TV의 음성인식을 위한 참조 잡음 기반 음성개선 (Reference Channel Input-Based Speech Enhancement for Noise-Robust Recognition in Intelligent TV Applications)

  • 정상배
    • 한국정보통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.280-286
    • /
    • 2013
  • 본 논문에서는 지능형 TV의 음성인터페이스를 위한 잡음제거 시스템에 대해서 제안한다. 음성인식 성능 저하에 매우 나쁜 영향을 주는 TV 소리를 제거하기 위해서 TV 소리 자체를 참조 잡음으로 하는 잡음제거 알고리즘이 구현된다. 제안된 알고리즘에서 TV 스피커와 다채널 장비간의 전달함수를 추정한다. 그 후, 위너 필터를 동작시키기 위해서 잡음의 전력 스펙트럼이 추정된다. 추가적으로 후처리 과정이 적용되어 잔존 잡음을 제거한다. 실험의 의해서 제안된 알고리즘이 5 dB 입력 SNR에서 88 %의 음성인식률을 나타내었다.

초음파 도플러를 이용한 음성 인식 (Automatic speech recognition using acoustic doppler signal)

  • 이기승
    • 한국음향학회지
    • /
    • 제35권1호
    • /
    • pp.74-82
    • /
    • 2016
  • 본 논문에서는 음성 신호 대신 초음파 도플러 신호를 이용하여 음성을 인식하는 새로운 음성 인식 방법을 제안하였다. 제안된 방법은 주변 잡음에 대한 강인성과 무 접촉식 센서 사용에 따른 사용자의 불편함 감소를 포함하는 기존의 음성/무음성 인식 방법에 비해 몇 가지 장점을 갖는다. 제안된 방법에서는 40 kHz의 주파수를 갖는 초음파 신호를 입 주변에 방사하여, 반사된 신호를 취득하고, 취득된 신호의 도플러 주파수 변화를 이용하여 음성 인식을 구현하였다. 단일 채널 초음파 신호를 사용하는 기존의 연구와 달리, 다양한 위치에서의 취득된 초음파 신호를 음성 인식에 사용하기 위해 다채널 취득 장치를 고안하였다. PCA(Principal Component Analysis)특징 변수를 사용한 음성 인식에는 좌-우 모델을 갖는 은닉 마코프 모델을 사용하였다. 제안된 방법의 검증을 위해 60개의 한국어 고립어에 대해 6명의 화자로부터 취득된 초음파 도플러 신호를 인식에 사용하였으며, 기존 음성기반 음성인식 기법과 비교할 만한 수준의 인식율을 얻을 수 있었다. 또한 실험 결과 제안된 방법은 기존의 단일 채널 음성 인식 방법과 비교하여 우수한 성능을 나타내었으며, 특히 잡음 환경에서도 90 % 이상의 인식율을 얻을 수 있었다.

시각 음성인식을 위한 영상 기반 접근방법에 기반한 강인한 시각 특징 파라미터의 추출 방법 (Robust Feature Extraction Based on Image-based Approach for Visual Speech Recognition)

  • 송민규;;민소희;김진영;나승유;황성택
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.348-355
    • /
    • 2010
  • 음성 인식 기술의 발전에도 불구하고 잡음 환경하의 음성 인식은 여전히 어려운 분야이다. 이를 해결하기 위한 방안으로 음성 정보 이외에 시각 정보를 이용한 시각 음성인식에 대한 연구가 진행되고 있다. 하지만 시각 정보 또한 음성과 마찬가지로 주위 조명 환경이나 기타, 다른 요인에 따른 영상잡음이 존재하며, 이런 영상잡음은 시각 음성 인식의 성능 저하를 야기한다. 따라서 인식 성능 향상을 위해 시각 특징 파라미터를 어떻게 추출하느냐는 하나의 관심분야이다. 본 논문에서는 HMM기반 시각 음성인식의 인식 성능 향상을 위한 영상 기반 접근방법에 따른 시각 특징 파라미터의 추출 방법에 대하여 논하고 그에 따른 인식성능을 비교하였다. 실험을 위해 105명에 화자에 대한 62단어의 데이터베이스를 구축하고, 이를 이용하여 히스토그램 매칭, 입술 접기, 프레임 간 필터링 기법, 선형마스크, DCT, PCA 등을 적용하여 시각 특징 파라미터를 추출하였다. 실험결과, 제안된 방법에 의해 추출된 특징 파라미터를 인식기에 적용하였을 때의 인식 성능은 기본 파라미터에 비해 약21%의 성능 향상이 됨을 알 수 있다.

군사적 환경에서 음성인식 모델의 취약성에 관한 연구 (Study on the Vulnerabilities of Automatic Speech Recognition Models in Military Environments)

  • 원엘림;나성중;고영진
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.201-207
    • /
    • 2024
  • 목소리는 인간의 의사소통에서 중요한 요소로, 음성인식 모델의 발전은 인공지능의 중요한 성과 중 하나이며 최근 인간의 생활에 다방면으로 사용되고 있다. 음성인식 모델의 활용은 군사분야에서도 피해갈 수 없는 과제이다. 하지만 인공지능 모델의 군사적 활용 이전에 모델의 취약성에 대한 연구가 필요하다. 본 연구에서는 다국적 음성인식 모델인 Whisper의 군사적 활용 가능성을 알아보기 위해, 전장소음, 잡음, 적대적 공격에 대한 취약성을 평가하였다. 전장소음을 포함하는 실험에서는 Whisper의 성능 저하가 크게 나타났으며, 평균 72.4%의 문자 오류율(CER)을 기록하여 군사적 활용에 어려움이 있는 것으로 나타났다. 또한, 잡음을 포함하는 실험에서는 낮은 강도의 잡음에 대해 Whisper가 강건하였으나, 높은 강도의 잡음에서는 성능이 저하되었고, 적대적 공격 실험에서는 특정 입실론 값에서 취약성이 드러났다. 따라서 Whisper 모델을 군사적 환경에서 사용하기 위해서는 파인튜닝, 적대적 훈련 등을 통해 개선이 필요하다는 것을 시사한다.

대각공분산 GMM에 최적인 선형변환을 이용한 강인한 화자식별 (Robust Speaker Identification Using Linear Transformation Optimized for Diagonal Covariance GMM)

  • 김민석;양일호;유하진
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.67-80
    • /
    • 2008
  • We have been building a text-independent speaker recognition system that is robust to unknown channel and noise environments. In this paper, we propose a linear transformation to obtain robust features. The transformation is optimized to maximize the distances between the Gaussian mixtures. We use rotation of the axes, to cope with the problem of scaling the transformation matrix. The proposed transformation is similar to PCA or LDA, but can achieve better result in some special cases where PCA and LDA can not work properly. We use YOHO database to evaluate the proposed method and compare the result with PCA and LDA. The results show that the proposed method outperforms all the baseline, PCA and LDA.

  • PDF

한국어 방송 뉴스 인식 시스템을 위한 OOV update module (Korean broadcast news transcription system with out-of-vocabulary(OOV) update module)

  • 정의정;윤승
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.33-36
    • /
    • 2002
  • We implemented a robust Korean broadcast news transcription system for out-of-vocabulary (OOV), tested its performance. The occurrence of OOV words in the input speech is inevitable in large vocabulary continuous speech recognition (LVCSR). The known vocabulary will never be complete due to the existence of for instance neologisms, proper names, and compounds in some languages. The fixed vocabulary and language model of LVCSR system directly face with these OOV words. Therefore our Broadcast news recognition system has an offline OOV update module of language model and vocabulary to solve OOV problem and selects morpheme-based recognition unit (so called, pseudo-morpheme) for OOV robustness.

  • PDF

음성인식기 구현을 위한 잡음에 강인한 음성구간 검출기법 (Robust Speech Segmentation Method in Noise Environment for Speech Recognizer)

  • 김창근;박정원;권호민;허강인
    • 융합신호처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.18-24
    • /
    • 2003
  • 실시간 음성 인식기의 구현에 있어서 선행되어야 할 과제는 신뢰성 있는 음성구간 검출과 적절한 음성특징벡터를 구하는 것이다. 그러나, 주변 잡음이 인가되는 환경에서는 신뢰성 있는 음성구간 검출이 어렵게 되어 적절한 음성특징벡터를 구할 수 없게 되어 최종적으로 인식기의 성능 저하를 초래하게 된다. 이러한 문제점을 보완하기 위하여 본 논문에서는 일반적으로 사용되어지는 단구간 파러 스펙트럼 외에 잡음에 강인한 특성을 가질 수 있도록 하는 새로운 특징 파라메터로써 스펙트럼 밀도비교척도와 선형회귀를 이용한 선형결정함수를 사용하였다. 이러한 두 가지 파라메터를 추가하여 주변 잡음의 크기에 따라 각각의 (파라메터를 적절한 가중치로 조합하여 음성구간 결정을 수행한 다음 DTW를 사용하여 인식실험을 한 결과 주변 잡음이 존재하는 환경에서도 강인한 특성을 가짐을 확인할 수 있었다.

  • PDF

잡음환경에서의 음성인식을 위한 모델 파라미터 변환 방식에 관한 연구 (A Study on a Model Parameter Compensation Method for Noise-Robust Speech Recognition)

  • 장육현;정용주;박성현;은종관
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.112-121
    • /
    • 1997
  • 본 논문에서는 잡음에 강한 음성 인식기를 위한 모델 파라미터 변환 방식에 관하여 살펴보았다. 모델 파라미터 변환에 있어서 잡음에 대한 어떠한 통계 모델도 사용하지 않고 각 단어 단위로 수행되어 실시간 음성 인식이 가능하도록 하였다. Parallel model combination(PCM)은 본 논문에서 제안한 방법과의 성능 비교를 위하여 cepstrum 영역에서 구현되었다. 본 논문에서 제안한 PCM 방법은 modified PCM(MPMC)라 하며, 이 방법은 각 hidden Markov mode(HMM)의 state별로 평균적인 가우시안 믹스처(Gaussian mixture)의 변화률과 개별적인 변화률간에 결합지수를 이용하여 평균을 재조정한다. 또한, vector Taylor series 근사화를 이용한 모델 파라미터 변환을 위하여 cepstrum 영역에서의 환경모델 예측을 위한 expectation-maximization(EM) 해를 유도하여 구현하였다. 본 논문에서 구현된 알고리즘들의 성능 위해 HMM 인식기를 이용한 화자독립 고립단어 인식을 수행하였다. 시용된 잡음은 가우시안 백색 잡음과 주행중에 녹음된 자동차 잡음이며, 각 잡음울 signal-to-noise ratio(SNR)별로 사용하였다. 잡음의 모델은 1 state HMM으로 단어시작 3 프레임(frame)을 이용하여 만들어졌다. 인식 결과는 VTS 접근방식을 이용하였을 경우 매우 우수한 인식률을 나타내었으며, MPMC의 경우도 기존의 PMC보다 인식률이 향상되었다. 특히, 영차 VTS의 경우는 단순히 평균만을 조정하였음에도 불구하고 PMC와 MPMC보다 인식률이 우수하게 나타났다.

  • PDF

잡음 환경에 강인한 원거리 음향 정보 검출 기술 연구 (Noise robust distant sound recognition)

  • 유인철;육동석
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.37-38
    • /
    • 2007
  • This paper reviews the issues in implementing sound recognizers in real environments. First is the signal corruption caused by background noises and reverberation. Second is the open-set problem which is the problem of rejecting out-of-vocabulary words and noises. These two issues must be solved for noise robust recognizers.

  • PDF

다중대역 음성인식을 위한 부대역 신뢰도의 추정 및 가중 (Estimation and Weighting of Sub-band Reliability for Multi-band Speech Recognition)

  • 조훈영;지상문;오영환
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.552-558
    • /
    • 2002
  • 최근에 Fletcher의 HSR (human speech recognition) 이론을 기초로 한 다중대역 (multi-band) 음성인식이 활발히 연구되고 있다. 다중대역 음성인식은 주파수 영역을 다수의 부대역으로 나누고 별도로 인식한 뒤 부대역들의 인식결과를 부대역 신뢰도로 가중 및 통합하여 최종 판단을 내리는 새로운 음성인식 방식으로서 잡음환경에 특히 강인하다고 알려졌다. 잡음이 정상적인 경우 무음구간의 잡음정보를 이용하여 부대역 신호대 잡음비(SNR)를 추정하고 이를 가중치로 사용하기도 하였으나, 비정상잡음은 시간에 따라 특성이 변하여 부대역 신호대 잡음비를 추정하기가 쉽지 않다. 본 논문에서는 깨끗한 음성으로 학습한 은닉 마코프 모델과 잡음음성의 통계적 정합에 의해 각 부대역에서 모델과 잡음음성 사이의 거리를 추정하고, 이 거리의 역을 부대역 가중치로 사용하는 ISD (inverse sub-band distance) 가중을 제안한다. 1500∼1800㎐로 대역이 제한된 백색잡음 및 클래식 기타음에 대한 인식 실험 결과, 제안한 방법은 정상 및 비정상대역제한잡음에 대하여 부대역의 신뢰도를 효과적으로 표현하며 인식 성능을 향상시켰다.