DOI QR코드

DOI QR Code

최대우도를 부가한 주파수 변이 PMC 방법의 잡음 음성 인식 성능개선

Recognition Performance Improvement for Noisy-speech by Parallel Model Compensation Adaptation Using Frequency-variant added with ML

  • 최숙남 (영남대학교 정보통신공학과) ;
  • 정현열 (영남대학교 정보통신공학과)
  • 투고 : 2013.04.16
  • 심사 : 2013.07.17
  • 발행 : 2013.08.31

초록

잡음에 강건한 음성 인식을 위한 주파수 변이를 이용한 PMC( Parallel Model Compensation Using Frequency-variant, FV-PMC) 방법은 인식시 입력음성에 혼입이 예상되는 잡음들을 평균 주파수 변이도를 임계치로 하여 몇 가지 잡음 군으로 분류한 후 각 잡음 군 별로 인식을 수행하는 방법이다. 이 방법은 기준 임계치를 이용하여 양호하게 분류된 잡음 음성들에 대해서는 매우 우수한 성능을 보이나, 미 분류된 잡음 음성들에 대해서는 기존의 PMC 방법에서와 같이 무잡음 모델과 결합하여 음성 인식을 수행함으로 인해 평균 음성 인식률이 낮아지는 문제점이 있다. 이러한 문제점을 해결하기 위하여 본 논문에서는 기존의 방법에서 사용하였던 평균주파수 임계치 방법 대신에 최대 우도를 부가하여 미분류를 방지함으로써 입력 잡음음성에 포함되는 잡음의 군별 잡음 분류 율을 높여 인식률을 제고하는 개선된 주파수 변이 PMC 인식방법을 제안하였다. Aurora 2.0 데이터베이스를 이용한 인식실험결과, 기존의 FV-PMC 방법에 비해 향상된 결과를 확인할 수 있었다.

The Parallel Model Compensation Using Frequency-variant: FV-PMC for noise-robust speech recognition is a method to classify the noises, which are expected to be intermixed with input speech when recognized, into several groups of noises by setting average frequency variant as a threshold value; and to recognize the noises depending on the classified groups. This demonstrates the excellent performance considering noisy speech categorized as good using the standard threshold value. However, it also holds a problem to decrease the average speech recognition rate with regard to unclassified noisy speech, for it conducts the process of speech recognition, combined with noiseless model as in the existing PMC. To solve this problem, this paper suggests a enhanced method of recognition to prevent the unclassified through improving the extent of rating scales with use of maximum likelihood so that the noise groups, including input noisy speech, can be classified into more specific groups, which leads to improvement of the recognition rate. The findings from recognition experiments using Aurora 2.0 database showed the improved results compared with those from the method of the previous FV-PMC.

키워드

참고문헌

  1. 김상만, 서광석, 김종교, "이산 웨이브렛과 비균일 필터뱅크를 적용한 음성특징 추출," 정보통신산업진흥원, 2000.
  2. Gong Y., "Speech Recognition in Noisy Environments: A Survey," Speech Communication, Vol. 16, Issue 3, pp. 261-292, 1995. https://doi.org/10.1016/0167-6393(94)00059-J
  3. 최숙남, 신광호, 정현열, "켑스트럼 정규화와 켑스트럼 거리기반 묵음특징정규화 방법을 이용한 잡음음성 인식" 멀티미디어학회논문지, 제14권, 제10호, pp.1221-1228, 2011
  4. J.C. Junqua and J.P. Haton, "Robustness in Automatic Speech Recognition: Fundamentals and Applications," Kluwer Academic Publishers, Netherlands, 1996.
  5. J.S. Lim, "Speech Enhancement," Prentice Hall, New Jersey, 1983.
  6. D.H. Klatt, "A Digital Filterbank for Spectral Matching," Proc. ICASSP , pp. 573-576, 1979.
  7. A.P. Varga and R.K. Moore, "Hidden Markov Model Decomposition of Speech and Noise," Proc. ICASSP, pp. 845-848, 1990.
  8. M.J.F. Gales and S. Young, Model Based Techniques for Noise Robust Speech Recognition, Dissertation at the University of Cambridge, 1995.
  9. M.J.F. Gales and S. Young, "An improved Approach to the Hidden Markov Model Decomposition of Speech and Noise," Proc. ICASSP-92, Vol. 1, pp. 233-236, 1992.
  10. 최숙남, 정현열, "주파수 변이를 이용한 환경 인식 기반의 GMM 적응에 관한 연구," 한국 신호처리.시스템 학회 추계학술대회 논문집, pp. 181-185, 2012.
  11. Richard O. Duda, Peter E. Hart, and David G. Stock, Pattern Classification 2nd Edition, Wiley-Interscience, New York, 2001.
  12. Philipos C .Loizou, Speech Enhancement -Theory and Practice, CRC Press, Florida, 2007.
  13. ITU-T PSQM, Objective Quality Measurement of Telephone-band(300-3400Hz) Speech Codecs, 2001.
  14. J.G. Beerends, A.P. Heckstra, A.W. Rix, and M.P. Hollier, "Perceptual Evaluation of Speech Quality (PESQ) the New Itu Standard for End-to-end Speech Quality Assessment Part II - Psychoacoustic Model," Journal of the Audio Engineering Society, Vol. 50, No. 10, pp. 765-778, 2002.
  15. 손영호, 최재훈, 장준혁, "환경인식 기반의 향상된 Minimum Statistics 잡음전력 추정기법," 한국음향학회지, 제30권, 제3호, pp. 123-128, 2011. https://doi.org/10.7776/ASK.2011.30.3.123
  16. H.-G Hirsch and D. Pearce, "The AURORA Experimental Framework for the Performance Evaluation of Speech Recognition Systems Under Noisy Conditions," ISCA ITRW ASR 2000, 2000.