DOI QR코드

DOI QR Code

Automatic Vowel Onset Point Detection Based on Auditory Frequency Response

청각 주파수 응답에 기반한 자동 모음 개시 지점 탐지

  • Zang, Xian (Electronics and Information Department, Chonbuk National University) ;
  • Kim, Hag-Tae (Electronics and Information Department, Chonbuk National University) ;
  • Chong, Kil-To (Electronics and Information Department, Chonbuk National University)
  • 장한 (전북대학교 전자정보공학부) ;
  • 김학태 (전북대학교 전자정보공학부) ;
  • 정길도 (전북대학교 전자정보공학부)
  • Received : 2011.11.04
  • Accepted : 2012.01.05
  • Published : 2012.01.31

Abstract

This paper presents a vowel onset point (VOP) detection method based on the human auditory system. This method maps the "perceptual" frequency scale, i.e. Mel scale onto a linear acoustic frequency, and then establishes a series of Triangular Mel-weighted Filter Bank simulate the function of band pass filtering in human ear. This nonlinear critical-band filter bank helps greatly reduce the data dimensionality, and eliminate the effect of harmonic waves to make the formants more prominent in the nonlinear spaced Mel spectrum. The sum of mel spectrum peaks energy is extracted as feature for each frame, and the instinct at which the energy amplitude starts rising sharply is detected as VOP, by convolving with Gabor window. For the single-word database which contains 12 vowels articulated with different kinds of consonants, the experimental results showed a good average detection rate of 72.73%, higher than other vowel detection methods based on short-time energy and zero-crossing rate.

이 논문에서는 인간 청각 시스템에 기반한 모음 개시 지점 (VOP) 탐지 방법을 제시하였다. 이 방법을 통해 '지각의' 주파수 범위, 즉 선형 음향 주파수에서의 Mel Scale을 보여준 후 일련의 삼각 Mel-weighted Filter Bank를 만들어 인간의 청각 시스템에서 대역 필터링 기능을 시뮬레이션하였다. 이러한 비선형 임계 대역 Filter Bank는 데이터 차원수를 크게 감소시키고 비선형적으로 간격을 둔 Mel 스펙트럼에서 더욱 효과적으로 포먼트를 생성하기 위해 조파들의 영향을 제거해준다. Mel 스펙트럼의 첨두 에너지 합은 각 프레임의 특징으로 추출하고 에너지 진폭이 급격히 상승하기 시작할 때의 특성은 Gabor 윈도우를 사용하여 VOP로 탐지한다. 실험 결과를 통해서 다른 종류의 자음들과 연결된 12개의 모음들을 포함하는 한 단어 데이터베이스에 대한 제안된 방법의 평균 정확도는 단시간 에너지와 zero-crossing 비율에 기반을 둔 다른 모음 탐지 방법들보다 높은 72.73% 이상임을 확인하였다.

Keywords

References

  1. Fant, G. (1960). Acoustic Theory of Speech Production. Mouton & Co, The Hague, Netherlands.
  2. J. O. Pickles, "An introduction to the Physiology of Hearing", New York: Academic press, 1988.
  3. A. R. Moller, "Auditory Physiology", New York: Academic press, 1983.
  4. Stevens, SS, Volkman, J, "The relation of pitch to frequency", American Journal of Psychology, Vol.53, pg. 329. https://doi.org/10.2307/1417526
  5. J. R. Deller, J. G. Proakis, and J. H. L. Hansen, " Discrete Time Processing of Speech Signals", New York: MacMillan,1993.
  6. J. Markel and A. H. Gray, Jr., "Linear Prediction of Speech", New York: Springer-Verlag, 1980.
  7. L. R. Rabiner and R. W. Schafer, "Digital Processing of Speech Signals", Englewood Cliffs, NJ: Prentice-Hall, 1978.
  8. M. Sigmund, Voice Recognition by Computer, Tectum Verlag, Marburg, 2003.
  9. O. E. Brigham, "The Fast Fourier Transform", Englewood Cliffs, NJ: Prentice-Hall, 1974.
  10. X. Huang, A. Acero, and H.W. Hon, "Spoken Language Processing: A Guide to Theory, Algorithm and System Development", Prentice Hall, 2001.
  11. Schroeder, MR, "Recognition of complex acoustic signals", Life Science Research Reports, Vol.55, pp.323-328, 1977.
  12. D. Gabor, "Theory of communication", Journal of IEE, vol. 93, pp. 429-457, 1946.
  13. R. L. Smith and J. J. Zwislocki, "Short-term adaptation and incremental response of single auditory-nerve fibers", Biological Cybernetics, Vol.17, pp.169-182, 1975. https://doi.org/10.1007/BF00364166