• 제목/요약/키워드: Voice Activity Detection

검색결과 103건 처리시간 0.028초

주파수 영역에서의 Gaussian Mixture Model 기반의 동시통화 검출 연구 (Frequency Domain Double-Talk Detector Based on Gaussian Mixture Model)

  • 이규호;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.401-407
    • /
    • 2009
  • 본 논문에서는 주파수 영역에서의 가우시안 혼합 모델 (Gaussian Mixture Model, GMM) 기반의 새로운 동시통화 검출 (Double-talk Detection, DTD) 알고리즘을 제안한다. 구체적으로 주파수 영역에서의 음향학적 반향억제 (Acoustic Echo Suppression, AES)를 위한 동시 통화 검출 알고리즘을 구성하기 위해 기존의 시간 영역에서의 동시통화 검출에 사용되는 상호 상관계수를 이산 푸리에 변환을 통해 16개 채널의 주파수 영역으로 변환하였다. 이러한 주파수 영역에서의 상호 상관계수를 GMM의 보다 효과적인 구성을 위해 통계적 분류 특성에 근거하여 우수한 7개를 선별하였다. 본 논문은 이러한 특징 벡터로 패턴인식에서 우수한 성능을 보이는 GMM을 구성하였으며 원단화자만 있는 구간, 동시통화 구간, 근단 화자만 있는 구간을 우도 (Likelihood) 비교에 따라 분류함으로써 별도의 원단 화자 신호에 대한 음성 검출기 (Voice Activity Detector, VAD)의 사용 없이 잡음환경과 반향 경로 변화에서 강인한 동시통화 검출 알고리즘을 제안한다. 다양한 실험 결과 제안된 방법은 기존의 상호 상관계수를 고정된 문턱 값과 가부 비교하여 동시 통화 구간을 검출하는 hard decision 방법에 비해 검출 오류 확률 (Detection Error Probability)을 비교한 결과 우수한 성능을 보였다.

가변위치 고음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 관한 연구 (A Study on the Realization of Wireless Home Network System Using High-performance Speech Recognition in Variable Position)

  • 윤준철;최상방;박찬섭;김세영;김기만;강석엽
    • 한국정보통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.991-998
    • /
    • 2010
  • 실내 환경에서 음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 있어, 잡음과 실내 잔향음은 시스템 성능 저하의 주요 원인이다. 본 연구에서는 실내 인식환경에서 스펙트럼 엔트로피(Spectral entropy) 기반의 음성 구간검출법을 이용하여 잔향음(reverberation) 및 실내잡음에 강인한 음성인식 홈 네트워크 시스템을 구현하고자 한다. 스펙트럼 차감법(Spectral Subtraction)은 잔향으로 인해 왜곡된 신호를 스펙트럼 상에서 제거하여 잔향의 효과를 줄일 수 있고 음성신호와 독립적인 잡음을 제거 할 수 있다. 효과적인 스펙트럼 차감을 위해서는 음성과 비음성 구간의 정확한 구분이 수반되어야 하며 이를 위해서 엔트로피 기반의 음성 구간 검출법을 적용하여 성능을 향상시킨다. 모의 및 실내환경 실험 결과 Spectral entropy 기반의 음성 구간 검출법을 이용할 경우 실내 잔향 및 잡음환경에서 명령어 인식률의 향상이 증명되었다.

웨이블렛 패킷 변환과 Teager 에너지를 이용한 잡음 환경에서의 단일 채널 음성 판별 (A Single Channel Voice Activity Detection for Noisy Environments Using Wavelet Packet Decomposition and Teager Energy)

  • 구본응
    • 한국음향학회지
    • /
    • 제33권2호
    • /
    • pp.139-145
    • /
    • 2014
  • 본 논문에서는 WPD (Wavelet Packet Decomposition) 계수에 Teager 에너지를 적용한 특징 계수를 임계값 알고리듬에 적용하여 잡음에 강인한 VAD 알고리듬을 제안하였다. 임계값은 비음성 구간의 평균과 표준편차를 추산하여 설정하였다. TIMIT 음성과 NOISEX 잡음 데이터베이스를 사용한 실험 결과, 제안된 알고리듬이 기존의 대표적인 비교 대상 알고리듬보다 우수함을 보였다. 정확도는 SNR 10 dB부터 -10 dB까지 ROC (Receiver Operating Characteristics) 곡선을 사용하여 비교하였다.

통계적 비선형 차원축소기법에 기반한 잡음 환경에서의 음성구간검출 (Voice Activity Detection in Noisy Environment based on Statistical Nonlinear Dimension Reduction Techniques)

  • 한학용;이광석;고시영;허강인
    • 한국정보통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.986-994
    • /
    • 2005
  • 본 논문은 잡음 환경하에서 적응 가능한 음성구간검출를 구축하기 위하여 우도기반의 음성 특징 파라미터의 비선형 차원축소 방법을 제안한다. 제안하는 차원축소 방법은 음성/비음성 클래스에 대한 가우시아 확률 밀도 함수의 비선형적 우도값을 새로운 특징으로 취하는 방법이다. 음성구간검출기의 음성/비음성 결정은 우도비 검증(LRT)의 통계적 방법을 이용하며, 선형판별분석(LDA)에 의한 차원축소 결과와 성능을 비교한다. 실험 결과 제안된 차원 축소 방법으로 음성 특징 파라미터를 2차원으로 축소한 결과가 원래 특징백터의 차원에서의 결과와 대등한 성능을 확인하였다.

음향학적 반향 제거를 위한 Soft Decision 기반의 동시통화 검출 (Double-Talk Detection Based on Soft Decision for Acoustic Echo Suppression)

  • 박윤식;장준혁
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.285-289
    • /
    • 2009
  • 본 논문에서는 음향학적 반향 제거(AES, acoustic echo suppression)를 위해 주파수영역에서 soft decision 기법에 근거한 새로운 동시통화 검출 (DTD, double-talk detection) 알고리즘을 제안한다. 제시된 방법은 효과적인 DTD를 위해 상관계수 (cross-correlation coefficient)에 기반하여 hard decision을 사용하는 기존의 알고리즘 대신 주파수 영역에서 입력 및 원단신호의 VAD (voice activity detection) 결과와 음성 통계모델에 기반한 soft decision 방법을 도입하여 전역 근단화자존 재확률 (GNSPP, global near-end speech presence probability)을 DTD에 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 우수한 성능을 보였다.

상태변수 기반의 실시간 음성검출 알고리즘의 최적화 (Optimization of State-Based Real-Time Speech Endpoint Detection Algorithm)

  • 김수환;이영재;김영일;정상배
    • 말소리와 음성과학
    • /
    • 제2권4호
    • /
    • pp.137-143
    • /
    • 2010
  • In this paper, a speech endpoint detection algorithm is proposed. The proposed algorithm is a kind of state transition-based ones for speech detection. To reject short-duration acoustic pulses which can be considered noises, it utilizes duration information of all detected pulses. For the optimization of parameters related with pulse lengths and energy threshold to detect speech intervals, an exhaustive search scheme is adopted while speech recognition rates are used as its performance index. Experimental results show that the proposed algorithm outperforms the baseline state-based endpoint detection algorithm. At 5 dB input SNR for the beamforming input, the word recognition accuracies of its outputs were 78.5% for human voice noises and 81.1% for music noises.

  • PDF

음성인식기 성능 향상을 위한 영상기반 음성구간 검출 및 적응적 문턱값 추정 (Visual Voice Activity Detection and Adaptive Threshold Estimation for Speech Recognition)

  • 송태엽;이경선;김성수;이재원;고한석
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.321-327
    • /
    • 2015
  • 본 연구에서는 음성인식기 성능향상을 위한 영상기반 음성구간 검출방법을 제안한다. 기존의 광류기반 방법은 조도변화에 대응하지 못하고 연산량이 많아서 이동형 플렛홈에 적용되는 스마트 기기에 적용하는데 어려움이 있고, 카오스 이론 기반 방법은 조도변화에 강인하지만 차량 움직임 및 입술 검출의 부정확성으로 인해 발생하는 오검출이 발생하는 문제점이 있다. 본 연구에서는 기존 영상기반 음성구간 검출 알고리즘의 문제점을 해결하기 위해 지역 분산 히스토그램(Local Variance Histogram, LVH)과 적응적 문턱값 추정 방법을 이용한 음성구간 검출 알고리즘을 제안한다. 제안된 방법은 조도 변화에 따른 픽셀 변화에 강인하고 연산속도가 빠르며 적응적 문턱값을 사용하여 조도변화 및 움직임이 큰 차량 운전자의 발화를 강인하게 검출할 수 있다. 이동중인 차량에서 촬영한 운전자의 동영상을 이용하여 성능을 측정한 결과 제안한 방법이 기존의 방법에 비하여 성능이 우수함을 확인하였다.

음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 (Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.169-174
    • /
    • 2013
  • 음성 인식 성능 저하의 문제는 모델 훈련 환경과 인식 환경의 차이이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음 특징 정규화 방법을 사용하고 있다. 기존의 묵음 특징 정규화 방법은 낮은 신호 대 잡음비에서 묵음 구간의 에너지 레벨이 증가하여 음성과 비음성에 대한 분류의 정확도가 떨어짐으로 인해 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 방법을 제안하였다. 제안한 방법은 높은 신호 대 잡음비에서는 음성 에너지를 최대화시켜 특징이 잡음의 영향을 적게 받는 특성을 이용하였고 낮은 신호 대 잡음비에서는 음성/비음성의 켑스트럼 특징 분포 특성을 이용하여 인식 성능을 향상시켰다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었다.

소아애성에 영향을 주는 환경에 대한 연구 (Environments of Hoarseness in Children)

  • 안철민;박상준;이건영
    • 대한후두음성언어의학회지
    • /
    • 제8권2호
    • /
    • pp.173-177
    • /
    • 1997
  • The speech movements are acquired activity, not determined by instincts or by biologic inheritance either. The child listens to the sound from the surrounding persons, observes the speech movement of the people and tried to imitate them. Then the child acquires their specific phonation pattern. We guessed that the parents influences to the child are very important in the developing of the speech movements. Because the parents are first contact person to the baby. The recognition of parents about the voice changes in the child will be important too. And social environments such as kindergarden, school, friends contact with, can influence to the voice of the child. We investigated the state of the voice, parents influence and social environmental factor. In the bases of this study, we knew that the parents recognition about the voice changes of child, faulty vocal habits of child, social environmental factors influenced to the voice of child. And we thought we have to do our best for the early detection of voice changes and proper treatment.

  • PDF

문서 편집 접근성 향상을 위한 음성 명령 기반 모바일 어플리케이션 개발 (Voice Activity Detection Algorithm using Wavelet Band Entropy Ensemble Analysis in Car Noisy Environments)

  • 박주현;박세아;이무늬;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제21권11호
    • /
    • pp.1342-1352
    • /
    • 2018
  • Voice Command systems are important means of ensuring accessibility to digital devices for use in situations where both hands are not free or for people with disabilities. Interests in services using speech recognition technology have been increasing. In this study, we developed a mobile writing application using voice recognition and voice command technology which helps people create and edit documents easily. This application is characterized by the minimization of the touch on the screen and the writing of memo by voice. We have systematically designed a mode to distinguish voice writing and voice command so that the writing and execution system can be used simultaneously in one voice interface. It provides a shortcut function that can control the cursor by voice, which makes document editing as convenient as possible. This allows people to conveniently access writing applications by voice under both physical and environmental constraints.