Voice Command Web Browser Using Variable Vocabulary Word Recognizer

가변어휘 단어 인식기를 사용한 음성 명령 웹 브라우저

  • 이항섭 (한국전자통신연구원 음성신호처리팀)
  • Published : 1999.02.01

Abstract

In this paper, we describe a Voice Command Web Browser using a variable vocabulary word recognizer that can do Internet surfing with Korean speech recognition on the Web. The feature of this browser is that it can handle the links and menus of the web browser by speech. Therefore, we can use speech interface together with mouse for web browsing. To recognize the recognition candidates dynamically changing according to Web pages, we use the variable vocabulary word recognizer. The recognizer was trained using POW (Phonetically Optimized Words) 3,848 words. So that it can recognize new words which did not exist in training data. The preliminary test results showed that the performance of speaker-independent and vocabulary-independent recognition is 93.8% for 32 Korean words. The Voice Command Web Browser was developed on windows 95/NT using Netscape Navigator and reflected usability test results in order to offer easy interface to users unfamiliar with speech interface. In on-line experiment of speaker-independent and environment-independent situation, Voice Command Web Browser showed recognition accuracy of 90%.

본 논문에서는 웹 브라우저 상에서 한국어 음성인식을 이용하여 정보검색을 할 수 있는 가변어휘 단어 인식기를 사용한 음성 명령 웹 브라우저에 대하여 기술한다. 이 시스템의 특징은 웹 브라우저 상에서 보여지는 링크를 가지는 HyperText Word들과 웹 브라우저 메뉴를 음성으로 인식할 수 있는 것으로, 마우스 click 뿐만이 아니라 음성인식을 이용하여서도 웹 브라우저를 사용할 수 있다는 것이다. 웹 브라우저를 통해서 보여지는 문서에서 추출되는 인식 후보들은 각 문서에 따라 고정되지 않고 계속하여 변화하므로, 이러한 가변적인 인식 후보들을 인식하기 위해 가변어휘 단어 인식기를 사용하였다. 가변어휘 단어 인식기는 훈련용 음성 데이터와 무관한 임의의 새로운 어휘를 훈련 없이 인식해 낼 수 있는 인식기로 POW (Phonetically Optimized Words) 3,848 단어를 사용하여 훈련한 결과 32단어에 대해 93.8%의 단어 인식률을 보인다. 음성 명령 웹 브라우저는 Windows 95/NT 환경에서 Netscape Navigator를 사용하여 개발되었으며, 사용자가 음성을 사용하는 새로운 인터페이스를 배울 필요 없이 바로 사용할 수 있도록 사용자 편의성 부분도 고려하여 개발되었다. 개발된 음성 명령 웹 브라우저는 환경 독립, 화자 독립에 대해 On-line으로 실험한 결과 평균 90%의 인식성능을 보인다.

Keywords

References

  1. Jour. of Acoustical Sociery of Korea v.16 no.2 Variable vocabulary word recognizer using phonetic knowledge-based allophone model Hou-Rin Kim;Hang-Seop Lee
  2. 한국음향학회지 v.16 no.2 음성학적 지식 기반 변이음 모델을 이용한 가변 어휘 단어 인식기 김희린;이항섭
  3. Proc. of ICASSP Implementation of the POW(Phonetically Optimized Words) algorithm for speech data-base Yeonja Lim;Youngjik Lee
  4. 제13회 음성 동신 및 신호처리 워크샵(KSCSP'96) 논문집 v.13 no.1 음성학적 지식에 기반한 한국어 변이음 집단회 수형도의 구현 서영주;성철재;이정철;한민수;이영직
  5. version 0x00020002, available from the Internet site Netscape's DDE implementation
  6. Proc. of ICSPAT'93 v.2 Development of a real-time endpoint detection algorithm H.S.Lee;M.S.Hahn
  7. available from the Internet site Speech interface guidelines Alexander I. Rudnicky
  8. HCI 98 학술대회 논문집 음성인식을 이용한 사용자 인터페이스의 평가 지침 어흥준;김범수;한성호;이영직;이항섭