• 제목/요약/키워드: Speech activity detection

검색결과 85건 처리시간 0.028초

음성인식기 구현을 위한 잡음에 강인한 음성구간 검출기법 (Robust Speech Segmentation Method in Noise Environment for Speech Recognizer)

  • 김창근;박정원;권호민;허강인
    • 융합신호처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.18-24
    • /
    • 2003
  • 실시간 음성 인식기의 구현에 있어서 선행되어야 할 과제는 신뢰성 있는 음성구간 검출과 적절한 음성특징벡터를 구하는 것이다. 그러나, 주변 잡음이 인가되는 환경에서는 신뢰성 있는 음성구간 검출이 어렵게 되어 적절한 음성특징벡터를 구할 수 없게 되어 최종적으로 인식기의 성능 저하를 초래하게 된다. 이러한 문제점을 보완하기 위하여 본 논문에서는 일반적으로 사용되어지는 단구간 파러 스펙트럼 외에 잡음에 강인한 특성을 가질 수 있도록 하는 새로운 특징 파라메터로써 스펙트럼 밀도비교척도와 선형회귀를 이용한 선형결정함수를 사용하였다. 이러한 두 가지 파라메터를 추가하여 주변 잡음의 크기에 따라 각각의 (파라메터를 적절한 가중치로 조합하여 음성구간 결정을 수행한 다음 DTW를 사용하여 인식실험을 한 결과 주변 잡음이 존재하는 환경에서도 강인한 특성을 가짐을 확인할 수 있었다.

  • PDF

A Weighted Feature Voting Approach for Robust and Real-Time Voice Activity Detection

  • Moattar, Mohammad Hossein;Homayounpour, Mohammad Mehdi
    • ETRI Journal
    • /
    • 제33권1호
    • /
    • pp.99-109
    • /
    • 2011
  • This paper concerns a robust real-time voice activity detection (VAD) approach which is easy to understand and implement. The proposed approach employs several short-term speech/nonspeech discriminating features in a voting paradigm to achieve a reliable performance in different environments. This paper mainly focuses on the performance improvement of a recently proposed approach which uses spectral peak valley difference (SPVD) as a feature for silence detection. The main issue of this paper is to apply a set of features with SPVD to improve the VAD robustness. The proposed approach uses a weighted voting scheme in order to take the discriminative power of the employed feature set into account. The experiments show that the proposed approach is more robust than the baseline approach from different points of view, including channel distortion and threshold selection. The proposed approach is also compared with some other VAD techniques for better confirmation of its achievements. Using the proposed weighted voting approach, the average VAD performance is increased to 89.29% for 5 different noise types and 8 SNR levels. The resulting performance is 13.79% higher than the approach based only on SPVD and even 2.25% higher than the not-weighted voting scheme.

잔향제거를 이용한 음성통신 시스템 성능 향상 (Performance Enhancement of Speech Communication System using Reverberation Rejection)

  • 김세영;강석엽;김기만
    • 한국정보통신학회논문지
    • /
    • 제13권10호
    • /
    • pp.2211-2217
    • /
    • 2009
  • 본 논문에서는 잔향이 존재하는 환경에서 단일 마이크로폰을 사용한 음성 개선 방법을 제시한다. 스펙트럼 차감법(Spectral Subtraction)은 스펙트럼 상에서 잔향성분 및 잡음을 제거 할 수 있는 효과적인 방법이다. 스펙트럼 차감법은 음성과 비음성 구간의 정확한 구분을 필요로 하며 성능을 향상시키기 위해 본 논문에서는 엔트로피(Entropy) 기반의 음성 구간 검출법을 적용하였다. 제시된 방법을 기존의 에너지 검출 기반의 음성 검출법을 적용한 스펙트럼 차감법과 비교하여 성능 평가를 수행하였다. SNR 및 잔향시간에 따른 잔향 제거비율을 평가지표로 사용하였으며, 시뮬레이션 결과 기존의 스펙트럼 차감법과 비교하여 제시된 방법이 우수한 성능을 보였다.

Teager Energy 기반의 수정된 파워 스펙트럼 편차를 이용한 음성 검출 (Voice Activity Detection Using Modified Power Spectral Deviation Based on Teager Energy)

  • 송지현;송영록;심현민;이상민
    • 재활복지공학회논문지
    • /
    • 제8권1호
    • /
    • pp.41-46
    • /
    • 2014
  • 본 논문에서는 잡음 상황에서 강인한 음성 특성을 나타내는 TE (teager energy) 기반의 특징벡터를 이용한 음성 검출 알고리즘을 제안하였다. 입력 신호에 TEO (teager energy operator)를 적용하고, 이를 이용하여 음성 검출 알고리즘에서 우수한 성능을 보여주는 파워 스펙트럼 편차를 구하였다. 또한, 제안된 음성 검출 알고리즘의 성능 향상을 위하여 통계적 모델 기반의 우도비를 TE 기반의 파워 스펙트럼 편차의 가중치 요소로 적용하였다. 제안된 알고리즘의 성능 검증을 위해서 전체 오차율, ROC (receiver operating characteristics), PESQ (perceptual evaluation of speech quality)와 같은 객관적 실험을 수행하였다. 실험결과 5dB SNR 이하의 낮은 SNR을 갖는 비 정상 잡음 환경에서 제안한 음성 검출 알고리즘이 약 2.6%의 전체 오차율 감소와 약 0.053의 PESQ 점수 향상을 나타내었다.

  • PDF

잡음 환경에서의 전송율 감소를 위한 G.723.1 VAD 성능개선에 관한 연구 (The Research of Reducing the Fixed Codebook Search Time of G.723.1 MP-MLQ)

  • 김정진;박영호;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
    • /
    • pp.98-101
    • /
    • 2000
  • On CELP type Vocoders G.723.1 6.3kbps/5.3kbps Dual Rate Speech Codec, which is developed for Internet Phone and videoconferencing, uses VAD(Voice Activity Detection)/CNG (Comfort Noise Generator) in order to reduce the bit rate in a silence period. In order to reduce the bit rate effectively in this paper, we first set the boundary condition of the energy threshold to prevent the consumption of unnecessary processing time, and use three decision rules to detect an active frame by energy, pitch gain and LSP distance. To evaluate the performance of the proposed algorithm we use silence-inserted speech data with 0, 5, 10, 20dB of SNR. As a result when SNR is over 5dB, the bit rate is reduced up to about 40% without speech degradation and the processing time is additionally decreased.

  • PDF

소아애성에 영향을 주는 환경에 대한 연구 (Environments of Hoarseness in Children)

  • 안철민;박상준;이건영
    • 대한후두음성언어의학회지
    • /
    • 제8권2호
    • /
    • pp.173-177
    • /
    • 1997
  • The speech movements are acquired activity, not determined by instincts or by biologic inheritance either. The child listens to the sound from the surrounding persons, observes the speech movement of the people and tried to imitate them. Then the child acquires their specific phonation pattern. We guessed that the parents influences to the child are very important in the developing of the speech movements. Because the parents are first contact person to the baby. The recognition of parents about the voice changes in the child will be important too. And social environments such as kindergarden, school, friends contact with, can influence to the voice of the child. We investigated the state of the voice, parents influence and social environmental factor. In the bases of this study, we knew that the parents recognition about the voice changes of child, faulty vocal habits of child, social environmental factors influenced to the voice of child. And we thought we have to do our best for the early detection of voice changes and proper treatment.

  • PDF

잡음 환경에서의 전송률 감소를 위한 G.723.1 음성활동 검출기 성능 개선에 관한 연구 (Improvement of VAD Performance for the Reduction of the Bit Rate Under the Noise Environment in the G.723.1)

  • 김정진;장경아;배명진
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.42-47
    • /
    • 2001
  • 본 논문에서는 인터넷 폰 및 화상통신 등을 위해 개발된 G.723.1 부록 A 6.3kbps/5.3kbps 이중 전송율 음성 코덱의 음성활동 검출기의 성능을 개선한다. 본 논문에서는 에너지 레벨을 크게 3가지 범위로 구분하여 음성활동 유무 판정을 하도록 한다. 제안한 알고리즘에 대한 처리시간, 음질평가 및 전송율 감소량을 측정한 결과 처리시간의 경우 묵음구간에 대한 판정의 정확성에 기인하여 G.723.1에 비해 감소하고 주관적인 음질평가의 경우 G.723.1과 거의 차이가 없다. 전송율 측정을 위해 VAD=1로 판정한 프레임을 측정한 결과 묵음 구간이 많이 나타날수록 뚜렷한 전송율 감소효과를 얻을 수 있다.

  • PDF

가변위치 고음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 관한 연구 (A Study on the Realization of Wireless Home Network System Using High-performance Speech Recognition in Variable Position)

  • 윤준철;최상방;박찬섭;김세영;김기만;강석엽
    • 한국정보통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.991-998
    • /
    • 2010
  • 실내 환경에서 음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 있어, 잡음과 실내 잔향음은 시스템 성능 저하의 주요 원인이다. 본 연구에서는 실내 인식환경에서 스펙트럼 엔트로피(Spectral entropy) 기반의 음성 구간검출법을 이용하여 잔향음(reverberation) 및 실내잡음에 강인한 음성인식 홈 네트워크 시스템을 구현하고자 한다. 스펙트럼 차감법(Spectral Subtraction)은 잔향으로 인해 왜곡된 신호를 스펙트럼 상에서 제거하여 잔향의 효과를 줄일 수 있고 음성신호와 독립적인 잡음을 제거 할 수 있다. 효과적인 스펙트럼 차감을 위해서는 음성과 비음성 구간의 정확한 구분이 수반되어야 하며 이를 위해서 엔트로피 기반의 음성 구간 검출법을 적용하여 성능을 향상시킨다. 모의 및 실내환경 실험 결과 Spectral entropy 기반의 음성 구간 검출법을 이용할 경우 실내 잔향 및 잡음환경에서 명령어 인식률의 향상이 증명되었다.

음성재생 속도 제어를 위한 활성화 영역 검출방법 (An Active Region Detection Method for The Speech Playback-speed Control)

  • 유덕현;김동현;전준현
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.98-105
    • /
    • 2012
  • 본 논문은 고품질을 갖는 음성재생 속도제어를 위한 새로운 방법을 다루었다. 제안 방법은 재생 속도에 따른 음성 신호의 활성화 영역을 검출하는 가변적 임계필터링 솔루션을 제공하였다. 임계필터링을 위한 임계값은 주어진 배속에 따라 재생되는 음성 신호 내의 각 프레임의 통계(평균과 표준편차)에 의해 가변적으로 결정되며 프레임 내의 활성화 블록구간 만을 축출하는데 사용된다. 또한 높은 재생 속도에 따른 피치 손상과 같은 품질 저하를 최소화하기 위하여, 임계필터링은 유, 무성음 구분 없이 상대적은 낮은 활성도를 갖는 블록들을 우선적으로 제거한다. 실험 결과, 제안 방식은 기존의 피치 축출을 사용하는 SOLA(Synchonized OverLap Add) 방식보다 높은 품질 갖는 재생속도 제어 솔루션을 제공함을 알 수가 있었다.

UMP 테스트에 근거한 새로운 통계적 음성검출기 (A New Statistical Voice Activity Detector Based on UMP Test)

  • 장근원;장준혁;김동국
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 2007
  • 음성검출기는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성검출방식은 통계적인 모델을 기반으로 하여 likelihood ratio test (LRT)를 하게 된다. 그리고 이 값을 임계값과 비교하여 음성인지 아닌지 판단하게 된다. 본 논문에서는 가우시안 (Gaussian) 분포를 기반으로 하고 uniformly most powerful (UMP) 테스트를 이용하여 새로운 음성검출기법을 제안한다. 새로운 음성검출기법의 결정규칙은 기존 LRT에 기반하여 UMP 테스트를 통해 식을 유도하였다. UMP 테스트를 이용하면, 입력음성에 대한 절대값의 확률 분포를 Rayleigh 분포 형태로 얻을 수 있으며, 이 분포에 따라 최종적으로 음성검출을 하게 된다. 이 새로운 방식의 음성검출기는 기존의 방식에서 필요한 a priori signal-to-noise ratio (SNR) 값을 구하지 않고도 음성 유무를 판단할 수 있다는 장점이 있다. 실제로 다양한 음성검출에 대한 성능 평가결과, 제안된 기법이 기존 방식에 비해 우수한 성능을 나타내었다.