• 제목/요약/키워드: Voice-activity detection

검색결과 103건 처리시간 0.027초

입술 영역의 움직임과 밝기 변화를 이용한 음성구간 검출 알고리즘 개발 (Voice Activity Detection using Motion and Variation of Intensity in The Mouth Region)

  • 김기백;유제웅;조남익
    • 방송공학회논문지
    • /
    • 제17권3호
    • /
    • pp.519-528
    • /
    • 2012
  • 음성구간을 검출하는 일반적인 방법은 음향신호로부터 특징값을 추출하여 판별식을 거치는 것이다. 그러나 잡음이 많은 환경에서 그 성능은 당연히 저하되며, 이 경우 영상신호를 이용하거나 영상과 음성을 동시에 사용함으로써 성능향상을 도모할 수 있다. 영상신호를 이용하여 음성구간을 검출하는 기존 방법들에서는 액티브 어피어런스 모델, 옵티컬 플로우, 밝기 변화 등 주로 하나의 특징값을 이용하고 있다. 그러나 음성구간의 참값은 음향신호에 의해 결정되므로 한 가지의 영상정보만으로는 음성구간을 검출하는데 한계를 보이고 있다. 본 논문에서는 입술 영역의 옵티컬 플로우와 밝기 변화 두 가지 영상정보로부터 특징값을 추출하고, 추출된 특징값들을 결합하여 음성구간을 검출하는 알고리즘을 제안하고자 한다. 또한, 음성구간 검출 알고리즘이 다른 시스템의 전처리로 활용되는 경우에 적은 계산량만으로 수행되는 것이 바람직하므로, 통계적 모델링에 의한 방법보다는 추출된 특징값으로부터 간단한 대수적 연산만으로 스코어를 산정하여 문턱값과 비교하는 방법을 제안하고자 한다. 입술 영역 검출을 위해서는 얼굴에서 가장 두드러진 특징점을 갖는 눈을 먼저 검출한 후, 얼굴의 구조와 밝기값을 이용하는 알고리즘을 제안하였다. 실험 결과 본 논문에서 제안하는 두 가지 특징값을 결합한 음성구간 검출 알고리즘이 하나의 특징값만을 이용했을 때보다 우수한 성능을 보임을 확인할 수 있다.

실시간 변별적 가중치 학습에 기반한 음성 검출기 (Voice Activity Detection Based on Real-Time Discriminative Weight Training)

  • 강상익;조규행;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제45권4호
    • /
    • pp.100-106
    • /
    • 2008
  • 본 논문에서는 다양한 잡음 환경에서 음성의 통계적 모델에 기반한 음성 검출기의 성능향상을 위해 PSFM (Power Spectral Flatness Measure)을 이용하여 실시간으로 변별적 가중치 학습 (Discriminative Weight Training) 기반의 최적화된 우도비 테스트 (Likelihood Ratio Test, LRT)를 제안한다. 먼저, 기존의 통계모델기반의 음성 검출기를 분석하고, 이를 기반으로 MCE (Minimum Classification Error)방법을 도입하여 도출한 각 주파수 채널별 가중치를 PSFM 값에 기반하여 실시간 매 프레임마다 다른 가중치를 적용한 우도비 기반의 음성 검출 결정법을 제시한다. 제안된 알고리즘은 다양한 잡음 환경에서 기존에 제시된 음성 검출기와 비교하였으며, 우수한 성능을 보인다.

다자간 음성통화 품질 향상을 위한 오디오 믹서 알고리즘 (Audio Mixer Algorithm for Enhancing Speech Quality of Multi-party Audio Telephony)

  • 류상현;김형국
    • 한국음향학회지
    • /
    • 제32권6호
    • /
    • pp.541-547
    • /
    • 2013
  • 두세 명 혹은 그 이상의 참가자간사이의 다자간통화 시 음량불균형, 음량포화, 잡음레벨상승으로 인해서 음질 저하가 발생한다. 이 문제를 해결하기 위해서 본 논문은 소프트웨어 기반의 다지점제어장치를 위한 향상된 오디오 믹싱 알고리즘을 제안한다. 제안된 방식은 음성구간검출과 게인콘트롤이 결합된 기술로서 음성신호 분류, 음량 추정, 게인값 적용, 모든 채널의 음성신호를 믹싱하는 알고리즘들로 구성되어 있다. 제안된 오디오 믹싱 알고리즘은 효율적인 연산과 고품질의 음성을 제공하며, 실질적인 다자간 음성 통화에 적합하다.

음성 향상 전처리와 문턱값 갱신을 적용한 향상된 음성검출 방법 (An Improved VAD Algorithm Employing Speech Enhancement Preprocessing and Threshold Updating)

  • 이윤창;안상식
    • 한국통신학회논문지
    • /
    • 제28권11C호
    • /
    • pp.1161-1168
    • /
    • 2003
  • 본 논문에서는 음성검출의 성능을 향상시킬 목적으로 정합 필터를 이용한 음성향상 전처리 과정을 통하여 SNR을 개선한 후, 이를 LLR(Log Likelihood Ratio) 검사에 의한 최적 결정방법을 적용하여 확률적인 모델을 기준으로 하는 향상된 음성검출 방법을 제안한다. 또한 기존의 음성검출 방법들에서는 제시되지 않았던 문턱값 갱신 알고리즘을 제안하며, 이 방법을 통해서 기존의 방법들에서 성능이 좋지 않았던 낮은 SNR 환경에서도 음성검출을 할 수 있게 되었다. 마지막으로 컴퓨터 시뮬레이션을 통하여 이미 상용화되어 널리 이용중인 G.729B(ITU-TG.729 Annex B)의 음성검출 결과와 비교를 통해서 제안한 음성검출 방법의 성능의 우수성을 검증하며, 실제적인 환경에도 적용이 가능함을 보인다.

Neural Network을 이용한 무선 통신시스템에서의 VAD (VAD By Neural Network Under Wireless Communication Systems)

  • 이호선;김수경;박승권
    • 한국통신학회논문지
    • /
    • 제30권12C호
    • /
    • pp.1262-1267
    • /
    • 2005
  • EBF(Elliptical basis function) 신경망은 비선형 처리를 가능하게 하며, 잡음에 강하고 빠른 수렴을 하는 장점이 있다. 또한 EBF는 설계가 간단하여 실시간 음성 구간 검출기(Voice Activity Detection, VAD)에 적용하기 용이하다. 따라서 전송 효율을 높이기 위해 사용되는 음성구간 검출기를 제안함에 있어 EBF 신경망을 이용하였다. EBF의 학습 알고리즘은 평균 클러스터링(K-means Clustering) 알고리즘과 선형 최소 제곱 방범(Least Mean Square error, LMS)을 사용하였다. G.729 Annex B 와 RBF(Radial Basis Function) 신경망을 이용한 음성구간 검출기와 성능 비교에 있에서, G.729 Annex B 음성 검출기보다 $70\%$ 이상의 높은 성능재선을 나타냈고, RBF 신경망을 이용한 음성구간 검출기 보다 비음성 구간에서 $50\%$정도의 높은 효율을 보였다.

Adaptive Post Processing of Nonlinear Amplified Sound Signal

  • Lee, Jae-Kyu;Choi, Jong-Suk;Seok, Cheong-Gyu;Kim, Mun-Sang
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.872-876
    • /
    • 2005
  • We propose a real-time post processing of nonlinear amplified signal to improve voice recognition in remote talk. In the previous research, we have found the nonlinear amplification has unique advantage for both the voice activity detection and the sound localization in remote talk. However, the original signal becomes distorted due to its nonlinear amplification and, as a result, the rest of sequence such as speech recognition show less satisfactorily results. To remedy this problem, we implement a linearization algorithm to recover the voice signal's linear characteristics after the localization has been done.

  • PDF

조정 응답 파워 방법과 결합된 generalized cross correlation with phase transform 음원 위치 추정 (Generalized cross correlation with phase transform sound source localization combined with steered response power method)

  • 김영준;오민재;이인성
    • 한국음향학회지
    • /
    • 제36권5호
    • /
    • pp.345-352
    • /
    • 2017
  • 본 논문에서는 잔향과 잡음이 존재하는 실제 환경을 모델링하여 두 개의 마이크로폰을 이용한 음원 위치추정의 정확성을 향상시키는 방법을 제안하였다. 입력신호에 VAD(Voice Activity Detection)를 적용하여 묵음 구간을 제외한 음성 구간만을 사용하였고, 샘플링 주파수의 제한으로 인한 측정 범위를 벗어나는 프레임은 업샘플링(up-sampling)을 통해 지연시간을 다시 추정하였다. 여기서 계산된 도착 지연 시간은 Time-table을 참조해 주변 후보위치의 지연 값들과의 비교로 최대 파워 값을 갖는 지연 시간을 선택하여 음원 위치의 정확도를 높였다. 또한 프레임간의 상관성을 이용하여 연속된 음성 프레임의 경우 큰 추정 차가 발생하는 곳을 찾아 주변 프레임의 평균값으로 대체함으로써 음원의 위치 추정 성능을 향상시켰다.

강인한 핵심어 인식을 위해 유용한 주파수 대역을 이용한 음성 검출기 (Accurate Speech Detection based on Sub-band Selection for Robust Keyword Recognition)

  • 지미경;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.183-186
    • /
    • 2002
  • The speech detection is one of the important problems in real-time speech recognition. The accurate detection of speech boundaries is crucial to the performance of speech recognizer. In this paper, we propose a speech detector based on Mel-band selection through training. In order to show the excellence of the proposed algorithm, we compare it with a conventional one, so called, EPD-VAA (EndPoint Detector based on Voice Activity Detection). The proposed speech detector is trained in order to better extract keyword speech than other speech. EPD-VAA usually works well in high SNR but it doesn't work well any more in low SNR. But the proposed algorithm pre-selects useful bands through keyword training and decides the speech boundary according to the energy level of the sub-bands that is previously selected. The experimental result shows that the proposed algorithm outperforms the EPD-VAA.

  • PDF

운전자 대화 여부 인식을 통한 운전부하 측정 (Workload Assessment of Driver Conversation while Driving)

  • 윤대섭;최종우;김현숙;노용완;홍광석
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.372-375
    • /
    • 2008
  • 텔레매틱스환경에서 운전자는 외부로부터 들어오는 정보와 같은 외부 자극에 대해서 능동적으로 처리 할 수 있어야 한다. 그러나 최근 정보기기의 발전으로 운전자가 운전 중에 처리하여야 하는 정보의 양은 급격하게 늘어났고, 운전자의 정보처리 능력을 초과한 운전부하의 과부하로 인한 교통사고를 야기시키기도 한다. 특히 운전 중 핸드폰의 사용이나 동승자와의 지속적인 대화는 운전자의 인지처리 능력을 저하시키고 운전부하를 과부하로 만드는 경향이 있어 지양되어야 한다. 본 논문에서는 운전 중에 운전자 대화가 운전자에게 미치는 영향에 대하여 논의하고 운전자의 대화여부에 따른 운전부하 측정을 위해 필요한 운전자 대화 여부 판단 알고리즘에 대해 제안하고 구현된 시스템을 이용하여 운전부하를 측정하는 방법에 대해 논의 하고자 한다.

  • PDF

UMP 테스트에 근거한 새로운 통계적 음성검출기 (A New Statistical Voice Activity Detector Based on UMP Test)

  • 장근원;장준혁;김동국
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 2007
  • 음성검출기는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성검출방식은 통계적인 모델을 기반으로 하여 likelihood ratio test (LRT)를 하게 된다. 그리고 이 값을 임계값과 비교하여 음성인지 아닌지 판단하게 된다. 본 논문에서는 가우시안 (Gaussian) 분포를 기반으로 하고 uniformly most powerful (UMP) 테스트를 이용하여 새로운 음성검출기법을 제안한다. 새로운 음성검출기법의 결정규칙은 기존 LRT에 기반하여 UMP 테스트를 통해 식을 유도하였다. UMP 테스트를 이용하면, 입력음성에 대한 절대값의 확률 분포를 Rayleigh 분포 형태로 얻을 수 있으며, 이 분포에 따라 최종적으로 음성검출을 하게 된다. 이 새로운 방식의 음성검출기는 기존의 방식에서 필요한 a priori signal-to-noise ratio (SNR) 값을 구하지 않고도 음성 유무를 판단할 수 있다는 장점이 있다. 실제로 다양한 음성검출에 대한 성능 평가결과, 제안된 기법이 기존 방식에 비해 우수한 성능을 나타내었다.