DOI QR코드

DOI QR Code

Implementation of Real-time Vowel Recognition Mouse based on Smartphone

스마트폰 기반의 실시간 모음 인식 마우스 구현

  • 장태웅 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 김현용 (금오공과대학교 전자공학부) ;
  • 김병만 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 정해 (금오공과대학교 전자공학부)
  • Received : 2015.03.17
  • Accepted : 2015.06.08
  • Published : 2015.08.15

Abstract

The speech recognition is an active research area in the human computer interface (HCI). The objective of this study is to control digital devices with voices. In addition, the mouse is used as a computer peripheral tool which is widely used and provided in graphical user interface (GUI) computing environments. In this paper, we propose a method of controlling the mouse with the real-time speech recognition function of a smartphone. The processing steps include extracting the core voice signal after receiving a proper length voice input with real time, to perform the quantization by using the learned code book after feature extracting with mel frequency cepstral coefficient (MFCC), and to finally recognize the corresponding vowel using hidden markov model (HMM). In addition a virtual mouse is operated by mapping each vowel to the mouse command. Finally, we show the various mouse operations on the desktop PC display with the implemented smartphone application.

음성인식은 HCI(Human Computer Interface)분야에서 가장 활발히 연구되고 있는 분야로 음성을 이용하여 디지털 디바이스를 제어하는 것을 목적으로 하고 있으며 마우스는 GUI 컴퓨터 환경에서 가장 널리 사용하는 장치로서 높은 보급률을 자랑하는 컴퓨터 주변기기 중의 하나이다. 본 논문은 스마트폰 환경에서 실시간 모음 음성 인식을 이용한 마우스 제어 방법에 관하여 제안한다. 구현 방법은 스마트폰에서 실시간으로 일정크기의 음성 신호를 입력 받아 핵심 음성 신호를 추출하고 MFCC(Mel Frequency Cepstral Coefficient)를 이용하여 특징을 추출하여 학습되어 있는 코드 북을 이용하여 양자화를 진행하고 HMM(Hidden Markov Model)을 이용하여 해당 모음 단어를 인식한다. 그리고 각 모음에 해당하는 마우스 명령어로 변환하여 화면상의 가상의 마우스를 제어한다. 최종적으로, 우리는 구현된 스마트폰의 앱을 가지고 데스크톱 PC의 화면상에서 다양한 마우스의 동작을 보여준다.

Keywords

References

  1. Korea Creative Content Agency, "Depth Analysis of Culture Technology," Nov. 2011.
  2. Korea Disabled Information Gap Eliminating Org., "Investigation on the Current Situation of Information Devices for the Disabled," Jun. 2002. [Online]. Available:http://www.wah.or.kr/board/boardView.asp?page=2&brd_sn=5&brd_idx=167
  3. H. Chung et al., A Voice Recognition Mouse Circuit and a Method of Operating the Same, Korea Patent 10-1486875, Jan. 21, 2015.
  4. C. Ittichaichareon, S. Suksri, and T. Yingthawornsuk, "Speech recognition using MFCC," Proc. of ICGSM' 2012, Pattaya, Jul. 28-29, 2012.
  5. C. K. Kum, J. W. Park, and K. I. Hur, "Robust Feature Parameter for Implementation of Speech Recognizer Using Support Vector Machines," Journal of IEEK, Vol. 41, No. 3, pp. 195-200, May 2004. (in Korean)
  6. Y. P. Kim and H. Y. Lee, "A Study on Improved Method of Voice Recognition Rate," Journal of KICS, Vol. 8, No. 1, pp. 77-83, Jan 2013. (in Korean)
  7. L. Muda, M. Begam, and I. Elamvazuthi, "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques," Journal of Computing, Vol. 2, Issue 3. pp. 138-143, 2010.
  8. L. Rl Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition," Proc. of the IEEE, Vol. 77, No. 2, pp. 257-286. Feb. 1989. https://doi.org/10.1109/5.18626

Cited by

  1. Speech Recognition for the Korean Vowel 'ㅣ' based on Waveform-feature Extraction and Neural-network Learning vol.22, pp.2, 2016, https://doi.org/10.5626/KTCP.2016.22.2.69