Extraction of Unvoiced Consonant Regions from Fluent Korean Speech in Noisy Environments

잡음환경에서 우리말 연속음성의 무성자음 구간 추출 방법

  • 박정임 (한국해양대학교 컴퓨터공학과) ;
  • 하동경 (한국해양대학교 컴퓨터공학과) ;
  • 신옥근 (한국해양대학교 컴퓨터공학과)
  • Published : 2003.05.01

Abstract

Voice activity detection (VAD) is a process that separates the noise region from silence or noise region of input speech signal. Since unvoiced consonant signals have very similar characteristics to those of noise signals, it may result in serious distortion of unvoiced consonants, or in erroneous noise estimation to can out VAD without paying special attention on unvoiced consonants. In this paper, we propose a method to extract in an explicit way the boundaries between unvoiced consonant and noise in fluent speech so that more exact VAD could be performed. The proposed method is based on histogram in frequency domain which was successfully used by Hirsch for noise estimation, and a1so on similarity measure of frequency components between adjacent frames, To evaluate the performance of the proposed method, experiments on unvoiced consonant boundary extraction was performed on seven kinds of noisy speech signals of 10 ㏈ and 15 ㏈ SNR respectively.

음성 구간 추출이란 입력된 음성신호를 음성 구간과 묵음, 또는 잡음구간으로 구분하는 과정이다. 잡음이 섞여있는 음성신호의 무성자음 신호는 잡음신호와 매우 유사하다. 따라서 음성 구간을 추출하거나 잡음을 제거 또는 감소시킬 때 무성자음에 특별히 주의하지 않으면 무성자음을 손상시키거나 잘못된 잡음 추정으로 이어질 수 있다. 본 논문에서는 잡음 환경에서 연속음성신호의 음성 구간을 정확하게 추출하기 위해 잡음과 무성자음사이의 경계를 명시적으로 검출함으로써 무성자음의 구간을 추출하는 방법을 제안한다. 제안하는 추출방법은 Hirsch가 잡음 추정을 위해 사용한 히스토그램 방법과 연속된 프레임 사이의 주파수 성분의 유사성을 나타내는 파라미터들을 이용하였다. 제안한 방법의 성능을 평가하기 위해 음성신호에 SNR이 각각 10㏈와 15㏈인 7가지의 잡음을 첨가하여 무성자음신호의 추출 실험을 수행하였다.

Keywords

References

  1. AT&T tech. J. v.63 no.3 An improved word-detection algorithm for telephone-quality speech incorporating both syntactic and semantic constraints J.G.Wilpon;L.R.Rabiner;T.B.Martin
  2. Fundamentals of Speech Recognition L.R.Rabiner;B.H.Juang
  3. IEEE Transactions on Speech and Audio Processing v.2 no.3 A robust algorthm for word boundary detection in the presence in of noise J.C.Junqua
  4. Technical Report TR-93-012, International Computer Science Institute Estimation of noise spectrum and its application to SNR estimation and speech enhancement H.G.Hirsch
  5. 한국해양대학교 컴퓨터공학과 석사논문 피치 정보를 이용한 모음의 특징 벡터 변별력 향상에 관한 연구 하동경
  6. EALPIIT2000 Adaptation of pitch information in vowel feature extraction for speech recognition D.G.Ha;O.K.Shin
  7. 제9회 음성통신 및 신호처리 워크샵 논문집 v.SCAS-9 no.1 쌍 자기 상관관계에 의한 음성 신호의 끝점검출 유건수;김건명;배명진
  8. EUROSPEECH Robust energy normalization using speech/nonspeech discriminator for german connected digit recognition R.Chengalvarayan
  9. 한국해양대학교, 컴퓨터공학과 석사논문 히스토그램을 이용한 무성자음과 잡음의 경계 추출 박정임
  10. J. Acoust. Soc. Am. v.100 no.5 Landmark detection for distinctive feature-based speech recognition S.A.Liu https://doi.org/10.1121/1.416983