• Title/Summary/Keyword: Diphone Clustering

Search Result 2, Processing Time 0.014 seconds

Speech Synthesis using Diphone Clustering and Improved Spectral Smoothing (다이폰 군집화와 개선된 스펙트럼 완만화에 의한 음성합성)

  • Jang, Hyo-Jong;Kim, Kwan-Jung;Kim, Gye-Young;Choi, Hyung-Il
    • The KIPS Transactions:PartB
    • /
    • v.10B no.6
    • /
    • pp.665-672
    • /
    • 2003
  • This paper describes a speech synthesis technique by concatenating unit phoneme. At that time, a major problem is that discontinuity is happened from connection part between unit phonemes, especially from connection part between unit phonemes recorded by different persons. To solve the problem, this paper uses clustered diphone, and proposes a spectral smoothing technique, not only using formant trajectory and distribution characteristic of spectrum but also reflecting human's acoustic characteristic. That is, the proposed technique performs unit phoneme clustering using distribution characteristic of spectrum at connection part between unit phonemes and decides a quantity and a scope for the smoothing by considering human's acoustic characteristic at the connection part of unit phonemes, and then performs the spectral smoothing using weights calculated along a time axes at the border of two diphones. The proposed technique removes the discontinuity and minimizes the distortion which can be occurred by spectrum smoothing. For the purpose of the performance evaluation, we test on five hundred diphones which are extracted from twenty sentences recorded by five persons, and show the experimental results.

Concatenative Speech Sythesis based on Diphone Clustering using improved spectral smoothing (개선된 스펙트럼 스무딩을 이용한 다이폰 클러스터링 기반의 연결 음성합성)

  • 장효종;김계영;최형일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.499-501
    • /
    • 2002
  • 최근의 합성음성단위 연결을 통한 음성합성 방법의 잘 알려진 문제점은 연결 부분에서 불연속이 발생한다는 것이다. 본 논문에서는 음성을 합성할 때 나타나는 스펙트럼의 불연속을 제거하기 위하여 개선된 스펙트럼 스무딩 방법을 제안한다. 그리고 보다 좋은 스무딩의 결과를 얻기 위하여 음성합성의 단위로는 문맥에 민감한 클러스터링된 다이폰을 사용한다. 스무딩 방법에서는 연결 구간에서의 다이폰 바운더리에서의 양쪽 스펙트럼의 분포를 고려하여 시간에 따라 가중치를 다르게 주어 스무딩을 수행한다. 또한 가중치를 결정할 때 비선형 함수인 B-Spline함수를 사용하여 스무딩을 수행하여 보다 자연스러운 스펙트럼을 생성 할 수 있었다.

  • PDF