A Study on Automatic Phoneme Segmentation of Continuous Speech Using Acoustic and Phonetic Information

음향 및 음소 정보를 이용한 연속제의 자동 음소 분할에 대한 연구

  • 박은영 (인하대학교 전자공학과, 디지털 신호처리 연구실) ;
  • 김상훈 (한국전자통신연구원, 통신단말 연구부) ;
  • 정재호 (인하대학교 전자공학과, 디지털 신호처리 연구실)
  • Published : 2000.01.01

Abstract

The work presented in this paper is about a postprocessor, which improves the performance of automatic speech segmentation system by correcting the phoneme boundary errors. We propose a postprocessor that reduces the range of errors in the auto labeled results that are ready to be used directly as synthesis unit. Starting from a baseline automatic segmentation system, our proposed postprocessor trains the features of hand labeled results using multi-layer perceptron(MLP) algorithm. Then, the auto labeled result combined with MLP postprocessor determines the new phoneme boundary. The details are as following. First, we select the feature sets of speech, based on the acoustic phonetic knowledge. And then we have adopted the MLP as pattern classifier because of its excellent nonlinear discrimination capability. Moreover, it is easy for MLP to reflect fully the various types of acoustic features appearing at the phoneme boundaries within a short time. At the last procedure, an appropriate feature set analyzed about each phonetic event is applied to our proposed postprocessor to compensate the phoneme boundary error. For phonetically rich sentences data, we have achieved 19.9 % improvement for the frame accuracy, comparing with the performance of plain automatic labeling system. Also, we could reduce the absolute error rate about 28.6%.

본 논문은 자동 음소 분할기의 음소 경계 오류를 보상하기 위한 후처리(Postprocessing)에 관한 연구이다. 자동 분절 경계의 오류 범위를 줄일 수 있는 후처리기를 제안하고, 자동 분절 결과를 직접 합성 단위로 사용할 수 있는 대량의 합성용 운율데이터 베이스 구축에 유용함을 기술한다. 제안된 후처리기는 수작업으로 보정된 데이터의 특징벡터를 다층 신경회로망(MLP: Multi-layer perceptron)을 통해 학습을 한 후, 자동 분절 결과와 MLP 기반 후처리를 이용하여 새로운 음소 경계를 추출한다. 우선, 특징벡터 set은 음성학적 지식이 최대한 반영되도록 선정되었다. 그리고, 경계를 추출하기 위해서 비선형 패턴분리에 탁월한 성능을 보이는 MLP를 이용한다. MLP는 매우 다양하게 나타나는 음소 경계간 음성학적 특징을 단시간 내에 적용할 수 있기 때문이다. 마지막으로, 음운환경별로 특징 벡터가 적용되는 제안된 후처리 알고리즘을 이용하여 자동 분절의 경계 오류에 대한 보상이 이루어진다. 문장 단위로 발화된 합성용 데이터베이스에서 후처리기로 보정된 분절 결과는 음성 언어 번역 시스템의 분할율보다 약 19.9%의 향상된 성능을 보였으며, 절대오류 (|Hand label position-Auto label position|)는 약 28.6% 감소되었다.

Keywords

References

  1. Pro. ICSP Processing o Speech Corpus for CHATR Synthesis Nick Campbell
  2. 제15회 음성통신 및 신호처리 워크샵 대용량 운율 음성 데이터를 이용한 자동합성방식 김상훈;이정철;강동규;이영직
  3. 한국음향학회지 v.17 no.7 합성 단위 자동 생성을 위한 자동음소 분할기 후처리에 대한 연구 박은영;김상훈;정재호
  4. EUROSPEECH Optimizing Selection of Units from Speech Databases for concatenative Synthesis A. W. Black;Nick Campbell
  5. Proc. ICASSP Automatic generation of synthesis unit based on context oriented clustering Nakajima S.;Hamada H.
  6. Proc. ICASSP On the Automatic Segmentation of Speech Signals T. Svendsen;Frank K. Soong
  7. SICOPS96 SESSON 3.6 운율 분석용 DB작성을 위한 자동 레이블러의 성능 평가 및 유용성 김상훈;이항섭;김희린
  8. Speech Communication Broad phonetic classification and segmentation of continuous speech by means of neural networks and dynamic programming J.P. Marten;L. Depuydt
  9. Proc. ICSLP Phoneme Segmentation of Continuous Speech Using The Multi-Layer Perceptrons Y. Suh;Y. Lee
  10. Proceeding of the IEEE The Use of speech knowledge in automatic speech recognition Victor W. Zue
  11. Proc. ICASSP Segmentation and Broad Classification of Continuous Speech Ronald A. Cole;Llly Hou
  12. Proc. ICASSP Phonemic Segmentation of Fluent Speech David B.Grayden;Michael S. Scordilis
  13. Proc. ICASSP Perceptually Based Linear Predictive Analysis of Speech H. Hermansky;B. A. Hanson;H. Walkita
  14. IEEE ASSP magazine An Introduction to Computing with Neural Nets Richard P. Lippmann