DOI QR코드

DOI QR Code

A Study on the Multilingual Speech Recognition using International Phonetic Language

IPA를 활용한 다국어 음성 인식에 관한 연구

  • 김석동 (호서대학교 컴퓨터공학과) ;
  • 김우성 (호서대학교 컴퓨터공학과) ;
  • 우인성 (호서대학교 컴퓨터공학과)
  • Received : 2011.05.19
  • Accepted : 2011.07.07
  • Published : 2011.07.31

Abstract

Recently, speech recognition technology has dramatically developed, with the increase in the user environment of various mobile devices and influence of a variety of speech recognition software. However, for speech recognition for multi-language, lack of understanding of multi-language lexical model and limited capacity of systems interfere with the improvement of the recognition rate. It is not easy to embody speech expressed with multi-language into a single acoustic model and systems using several acoustic models lower speech recognition rate. In this regard, it is necessary to research and develop a multi-language speech recognition system in order to embody speech comprised of various languages into a single acoustic model. This paper studied a system that can recognize Korean and English as International Phonetic Language (IPA), based on the research for using a multi-language acoustic model in mobile devices. Focusing on finding an IPA model which satisfies both Korean and English phonemes, we get 94.8% of the voice recognition rate in Korean and 95.36% in English.

최근 다양한 모바일 기기의 사용자 환경과 다양한 음성인식 소프트웨어의 영향으로 음성인식 기술역시 빠르게 발전되고 있다. 그러나 다국어를 대상으로 하는 음성인식의 경우 다국어 혼합음성에 대한 이해 부족과 시스템 성능의 한계로 인하여 원활한 인식율의 개선은 이루어지지 않고 있다. 여러 나라의 혼합 언어로 표현된 음성의 경우 하나의(단일) 음성모델로 구현하는 것이 쉽지 않고, 또한 여러 개의 음성모델을 사용한 시스템의 경우 음성인식 성능의 저하라는 문제점이 있다. 이에 따라 다양한 언어로 구성되어 있는 음성을 하나의 음성모델로 표현할 수 있는 다국어 음성인식 모바일 시스템의 개발 필요성이 증가되고 이에 대한 연구가 필요하다. 본 논문에서는 모바일 시스템에서 다국어 혼합 음성모델을 사용하기 위한 기본연구로써 한국어와 영어 음성을 국제 음성기호(IPA)로 인식하는 통합음성모델 시스템 구축을 연구하였고, 한국어와 영어 음소를 동시에 만족하는 IPA모델을 찾는데 중점을 두어 실험한 결과 우리말 음성은 94.8%, 영어 음성은 95.36%라는 인식률을 얻을 수 있었다.

Keywords

References

  1. Stefanie Tomko, and Roni Rosenfeld. " A Speechand Language-based Information Management Environment". In Proc. IEEE Int.l Conference on Acoustics, Speech and Signal Processing, Toulouse, France, May 2006.
  2. Z. Al Bawab, B, Raj, and R. M. Stern, "Analysis-by-synthesis features for speech recognition," IEEE International Conference on Acoustics, Speech, and Signal Processing, April 2008, Las Vegas, Nevada. https://doi.org/10.1109/ICASSP.2008.4518577
  3. H.-M. Park and R. M. Stern, "Missing-feature speech recognition using dereverberation and echo suppression in reverberant environments," IEEE International Conference on Acoustics, Speech, and Signal Processing, April 2007, Honolulu, Hawaii. https://doi.org/10.1109/ICASSP.2007.366929
  4. Thomas K. Harris, Arthur Toth, James Sanders, Alexander Rudnicky. "Towards Efficient Human Machine Speech Communication". ACM Transactions on Speech and Language Processing, February 2005..
  5. Jahanzeb Sherwani et el " Towards Speech-based Access by Semi-literate Users". In Proc. Speech in Mobile and Pervasive Environments, Singapore, September 2007.
  6. John S. Garofolo, Jonathan G. Fiscus,William M. Fisher "Design and prtparation of the 1996 HUB-4 Broadcast News Benchmark Test Corpora." DARPA Speech Recognition Workshop, Feb. 1997, pp. 15 - 21.
  7. A. G. Hauptmann, et el. "Multi-Lingual Broadcast News Retrieval", TRECVID'06 TREC, NIST Gaithersburg, MD., November 2006.