The Continuous Speech Recognition with Prosodic Phrase Unit

운율구 단위의 연속음 인식

  • 강지영 (전남대학교 전자공학과) ;
  • 엄기완 (전남대학교 전자공학과) ;
  • 김진영 (전남대학교 전자공학과) ;
  • 최승호 (동신대학교 정보통신공학과)
  • Published : 1999.11.01

Abstract

Generally, a speaker structures utterances very clearly by grouping words into phrases. This facilitates the listener's recovery of the meaning of the utterance and the speaker's intention. To this purpose, a speaker uses, among other things, prosodic information such as intonation pause, duration, intensity, etc. The research described here is concerned with the relationship between the strength of prosodic boundaries in spoken utterances as perceived by untrained listeners(Perceptual boundary strength, PBS)-In this paper, the preceptual boundary strength is used as the same meaning of the prosodic boundary strength-and prosodic information. We made a rule determinating the prosodic boundaries and verified the usefulness of the prosodic phrase as a recognition unit. Experiments results showed that the performance of speech recognition(SR) is improved in aspect of recognition rate and time compared with that using sentences as recognition unit. In the future we will suggest the methods that estimate more appropriate boundaries and study more various methods of prosody assisted SR.

일반적으로 사람은 말을 할 때 어절들은 몇몇의 구로 그룹핑하여 발음함으로써 발화한다. 이것은 듣는 사람으로 하여금 발화의 의미와 의도를 잘 파악하도록 도와준다. 특히, 이러한 목적으로 발화자는 무의식적으로 운율정보(억양, 장단, 리듬 등)를 적절히 사용하게 된다. 본 논문에서는 발화된 문장에서 운율경계를 인식의 단위로 하는 음성인식방법에 대하여 제안한다. 즉, 발화된 문장을 운율구단위로 나누는 방법을 제안하고 나누어진 단위에 따라 연속음 인식실험을 수행하였다. 인식실험결과 연속음인식 시간의 감소를 관찰할 수 있었으며, 물론 음성인식률도 20-10%정도 증가하였다.

Keywords

References

  1. 다중 매체 환경에서의 대화체 음성 번역 통신 기술 개발 ETRI
  2. 음성 언어 시스템 개발을 위한 한국어의 운율구조 및 담화구조 연구 한국통신 연구개발본부
  3. 서울대학교 박사학위 논문 한국어의 리듬단위와 문법구조 김선미
  4. 한국어 운율구조 연구 전남대학교 공업기술 연구소
  5. 음성언어 시스템 개발을 위한 한국어의 운율구조 및 담화구조 연구 KAIST AI
  6. Korean Prosody Information Processing for Speech Recognition and Synthesis 전남대학교
  7. Models of Prosody and Syntax and their Application to Automatic Speech Recognition A.J.Hunt
  8. Trainable Speech Synthesis R.E.Donovan
  9. IEEE Transactions on Acoustics, Speech and Signal Proc. v.ASSP-25 no.6 A Pitch Extraction Algorithm Based on LPC Inverse Filtering and AMDF Chong Kwan Un
  10. Digtal Processing of Speech Signals L.R.Rabiner;R.W.Schafer
  11. Digital Signal Processing A Practical Approach Emmanuel C. Ifeachor;Barrie W. Jervis
  12. Fundamentals of Speech Recognition L.R.Rabiner
  13. J. Acoust. Soc. Am On the preceptual strength of prosodic boundaries and its relation to suprasegmental cues Jan Roelof de Pijper;Angelien A. Sanderman
  14. Digital Speech Coding for Low Bit Rate Communications Systems Kondoz