대용량 음성 D/B 구축을 위한 AUTO-SEGMENTATION에 관한 연구

A study on Auto-Segmentation Improvement for a Large Speech DB

  • 이병순 (한양대학교 전자전기제어계측공학부) ;
  • 장성욱 (한양대학교 전자전기제어계측공학부) ;
  • 양성일 (한양대학교 전자전기제어계측공학부) ;
  • 권영헌 (한양대학교 물리학과)
  • Lee Byong-soon (School of Clectrical and Computer Engineering, Hanyang University) ;
  • Chang Sungwook (School of Clectrical and Computer Engineering, Hanyang University) ;
  • Yang Sung-il (School of Clectrical and Computer Engineering, Hanyang University) ;
  • Kwon Y. (Department of Physics Hanyang University)
  • Published : 2000.11.01

Abstract

본 논문은 음성인식에 필요한 대용량 음성 D/B 구축을 위한 auto-segmentation의 향상에 관한 논문이다. 50개의 우리말 음소(잡음, 묵음 포함)를 정하고 음성특징으로 MFCC(Mel Frequency Cepstral Coefficients), $\Delta$MFCC, $\Delta\Delta$MFCC, 39차를 추출한 다음 HMM 훈련과 CCS(Constrained Clustering Segmentation) 알고리즘(1)을 사용하여auto-segmentation을 수행하였다. 이 과정에서 대부분의 음소는 오류범위$(\pm25ms)$ 안에서 분절이 이루어지지만, 짧은 묵음, 모음+유성자음('ㅁ', 'ㄴ', 'ㄹ', 'o') 등에서 자주 오류범위를 넘어 분절이 발생하였다. 이러한 음운환경에 따른 경계의 오류를 구간별로 Wavelet 변환 신호의 MLR(Maximum Likelihood Ratio) 값을 이용, 기존 문제점을 보완하여 오류의 범위를 줄임으로서 auto-segmentation의 성능 향상을 얻을 수 있었다.

Keywords