DOI QR코드

DOI QR Code

파형 특징 추출과 신경망 학습 기반 모음 'ㅣ' 음성 인식

Speech Recognition for the Korean Vowel 'ㅣ' based on Waveform-feature Extraction and Neural-network Learning

  • 노원빈 (숙명여자대학교 멀티미디어과학과) ;
  • 이종우 (숙명여자대학교 멀티미디어과학과) ;
  • 이재원 (성신여자대학교 IT학부)
  • 투고 : 2015.10.14
  • 심사 : 2015.11.26
  • 발행 : 2016.02.15

초록

최근 모든 산업에서 사물인터넷에 대한 관심이 집중되면서 집, 회사, 차, 길거리 등 인간이 생활하는 모든 환경에 컴퓨팅 기술이 접목되고 있다. 이 같은 사물인터넷 환경에서 음성인식은 중요한 HCI 수단으로 자리 잡고 있다. 현존하는 서버 기반의 음성인식은 속도가 빠르고 꽤 높은 인식률을 보여주고는 있지만, 데이터베이스 내에 저장되어 있는 단어 단위로 인식하기 때문에 인터넷 연결과 복잡한 컴퓨팅이 필수적이다. 본 논문은 한국어 음소 모음 'ㅏ', 'ㅓ' 인식에 대한 휴리스틱 알고리즘에 이은 연구로 모음 'ㅣ'에 대한 음성 인식을 구현하고자 한다. 모음 'ㅣ' 음성의 여러 파형 패턴들을 관찰한 결과 모음 'ㅏ', 'ㅓ'와는 다른 특정한 파형의 패턴을 가지고 있음을 발견하였고, 그 패턴을 인식하는 알고리즘을 제시한다. 또한, 제시한 알고리즘에 신경망 학습을 적용하여 인식성공률을 높이는 실험 결과도 제시한다. 모음 'ㅣ'에 대한 본 알고리즘은 파형의 특징적인 부분 추출 기반으로 인식하며, 신경망 학습까지 적용한 후 실험한 결과 90% 이상의 정확도로 모음 'ㅣ'를 인식하는 것을 확인하였다.

With the recent increase of the interest in IoT in almost all areas of industry, computing technologies have been increasingly applied in human environments such as houses, buildings, cars, and streets; in these IoT environments, speech recognition is being widely accepted as a means of HCI. The existing server-based speech recognition techniques are typically fast and show quite high recognition rates; however, an internet connection is necessary, and complicated server computing is required because a voice is recognized by units of words that are stored in server databases. This paper, as a successive research results of speech recognition algorithms for the Korean phonemic vowel 'ㅏ', 'ㅓ', suggests an implementation of speech recognition algorithms for the Korean phonemic vowel 'ㅣ'. We observed that almost all of the vocal waveform patterns for 'ㅣ' are unique and different when compared with the patterns of the 'ㅏ' and 'ㅓ' waveforms. In this paper we propose specific waveform patterns for the Korean vowel 'ㅣ' and the corresponding recognition algorithms. We also presents experiment results showing that, by adding neural-network learning to our algorithm, the voice recognition success rate for the vowel 'ㅣ' can be increased. As a result we observed that 90% or more of the vocal expressions of the vowel 'ㅣ' can be successfully recognized when our algorithms are used.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단, 숙명여자대학교

참고문헌

  1. Y. K. Lee, "Speech Interface Technology and Service Trend under the Smart Phone Environment," Information & Communications Magazine, Vol. 29, No. 4, pp. 3-9, 2012. (in Korean)
  2. H. S. Baek, S. H. Cho, D. S. Yook, "Connected Korean Digit Speech Recognition Using Syllable-based Recognition Units," Proc. of the KMMS Conference 2010, pp. 514-515, 2010. (in Korean)
  3. H. Jung, "Korean Speech Recognition Using Neural Networks," Korean Institute of Information Scientists and Engineers, pp. 63-82, 1993.
  4. D. K. Kim, C. G. Jeong, and H. Jeong, "Hierarchy and Modulatity in Time-Delay Neural Networks for Korean Phoneme Recognition using HMM," IEEK, Vol. 16, No. 1, pp. 81-84, 1994.
  5. T. W. Jang, H. Y. Kim, B. M. Kim, C. H, "Implementation of Real-time Vowel Recognition Mouse based on Smartphone," KIISE Transactions on Computing Practices, Vol. 21, No. 8, pp. 531-536, 2015. https://doi.org/10.5626/KTCP.2015.21.8.531
  6. J. H. Lee, J. W. Lee, J. W. Lee, "Korean Phonemes 'ㅅ', 'ㅈ', 'ㅊ' Recognition based on Sign Distribution Volatility," Communications of the Korean Institute of Information Scientists and Engineers, Vol. 19, pp. 377-382, 2013. (in Korean)
  7. J. W. Lee, "Speech Recognition of Korean Phonemes 'ㅅ', 'ㅈ', 'ㅊ' based on Volatility and Turning Points," KIISE Transactions on Computing Practices, Vol. 20, No. 11, pp. 579-585, 2014. https://doi.org/10.5626/KTCP.2014.20.11.579
  8. W. B. Roh, J. W. Lee, "Implementation of Korean Vowel 'ㅏ' Recognition based on Common Feature Extraction of Waveform Sequence," KIISE Transactions on Computing Practices, Vol. 20, No. 11, pp. 567- 572, 2014. https://doi.org/10.5626/KTCP.2014.20.11.567
  9. W. B. Rho, J. W. Lee, "Implementation of Waveform Sequence Feature Extraction For Korean Vowel 'ㅓ' Recognition," KCC2015, pp. 128-130, 2015 (in Korean)