Real-time Unknown Word Identification Using Support Vector Machine For Chinese Text-to-Speech

중국어 음성합성을 위한 지진 벡터 기반 실시간 미등록어 처리

  • Ha, Ju-Hong (Department of Computer Science Engineering, POSTECH) ;
  • Zheng, Yu (Department of Computer Science Engineering, POSTECH) ;
  • Lee, Gary G. (Department of Computer Science Engineering, POSTECH)
  • 하주홍 (포항공과대학교 컴퓨터공학과) ;
  • 정옥 (포항공과대학교 컴퓨터공학과) ;
  • 이근배 (포항공과대학교 컴퓨터공학과)
  • Published : 2003.10.10

Abstract

음성 합성 시스템 구축에 있어서 입력 텍스트를 정확한 발음 표기로 변환하는 것은 매우 중요하다. 중국어에는 하나의 한자가 의미나 사용에 따라 다르게 발음되는 다음자(polyphony)들이 존재한다. 다음자의 처리는 상당히 복잡한 문제이기 때문에 본 논문에서는 그 중 가장 발음에 영향을 미치는 요소인 인명과 지명에 대한 미등록어 처리를 수행했다. 무엇보다 실시간 음성 합성 시스템을 위해서는 처리 속도의 향상이 요구된다. 따라서 본 연구에서는 미등록어 후보 구간 선정을 선행하고, 선정된 후보에 대해 추정하는 두 단계로 진행하였다. 후보 구간 선정은 단일 한자 단어(monosyllable word)의 확률과 간단한 패턴들을 이용한다. 최종 선정된 후보의 미등록어 추정은 SVM(Support Vector Machine)을 기반으로 실시하였다.

Keywords