DOI QR코드

DOI QR Code

음향음성학 파라미터를 사용한 비음 위치 검출

Nasal Place Detection with Acoustic Phonetic Parameters

  • 이석명 (연세대학교 전기전자공학과) ;
  • 최정윤 (연세대학교 전기전자공학과) ;
  • 강홍구 (연세대학교 전기전자공학과)
  • 투고 : 2012.04.19
  • 심사 : 2012.06.15
  • 발행 : 2012.08.31

초록

논문은 지식기반의 음성인식 시스템에서 비음 위치를 검출하기 위한 음향음성학적 파라미터를 제시하였다. 음향음성학적 파라미터는 앞선 연구자들의 연구내용을 토대로 비강을 통해 음성이 발성될 때 나타나는 특징을 기반으로 하여 선별하였다. 선별된 파라미터들은 대역별 에너지 비율, 대역별 에너지의 차이, 포먼트 그리고 포먼트의 차이로써, 비음 위치에 따라 변화하는 조음기관의 영향을 잘 나타내 주었다. 이러한 음향음성학 파라미터를 이용하여 비음을 순비음(/m/), 치경비음(/n/), 그리고 연구개비음(/ng/)으로 나누는 실험을 진행하였고, TIMIT 데이터베이스로 실험하였을 때 57.5%의 검출률을 얻을 수 있었다.

This paper describes acoustic phonetic parameters for detecting nasal place in a knowledge-based speech recognition system. Initial acoustic phonetic parameters are selected by studying nasal production mechanisms which are radiation of the sound through the nasal cavity. Nasals are produced with differing articulatory configuration which can be classified by measuring acoustic phonetic parameters such as band energy ratio, band energy differences, formants and formant differences. These acoustic phonetic parameters were tested in a classification experiment among labial nasal, alveolar nasal and velar nasal. An overall classification rate of 57.5% is obtained using the proposed acoustic phonetic parameters on the TIMIT database.

키워드

참고문헌

  1. K. N. Stevens, "Toward a model for lexical access based on acoustic landmarks and distinctive features," J. Acoust. Soc. Am., vol. 111, no. 4, pp. 1872-1891, 2002. https://doi.org/10.1121/1.1458026
  2. O. Fujimura, "Analysis of Nasal Consonants," J. Acoust. Soc. Am., vol. 34, no. 12, pp. 1865-1875, 1962. https://doi.org/10.1121/1.1909142
  3. K. N. Stevens, Acoustic Phonetics, MIT, 1998.
  4. R.D. Kent, and C. Read, The Acoustic Analysis of Speech, Thomson Learning, 2001.
  5. J.R. Glass, and V.W. Zue, "Detection of nasalized vowels in American English," in Proc. ICASSP, pp. 1569-1572, 1985.
  6. M.Y. Chen, "Nasal Detection Module for a Knowledgebased Speech Recognition System," in Proc. ICSLP, pp. 636-639, 2000.
  7. T. Pruthi, and C. Y. Espy-Wilson, "Acoustic parameters for automatic detection of nasal manner," Speech Communication, vol. 43, pp. 225-239, 2004. https://doi.org/10.1016/j.specom.2004.06.001
  8. D. A. Reynolds, and R. C. Rose, "Robust textindependent speaker identification using Gaussian mixture speaker models," IEEE Trans. Speech Audio Process., vol. 3, no. 1, pp. 72-83, 1995. https://doi.org/10.1109/89.365379
  9. J. Gustafson and K. Sjolander, "Educational tools for speech technology," in Proc. Fonetik, pp. 176-179, 1998.
  10. J. S. Garofalo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett, and N. L. Dahlgren, "The DARPA TIMIT acoustic-phonetic continuous speech corpus CDROM," Linguistic Data Consortium, 1993.
  11. P. F. Seitz, M. M. McCormick, M. C. Watson, and R. A. Bladon "Relational spectral features for place of articulation in nasal consonants," J. Acoust. Soc. Am., vol. 87, no. 1, pp. 351-358, 1990. https://doi.org/10.1121/1.399256
  12. R. De Mori, and G. Flammia "Speaker-independent consonant classification in continuous speech with distinctive features and neural networks," J. Acoust. Soc. Am., vol. 94, no. 6, pp. 3091-3103, 1993. https://doi.org/10.1121/1.407243