• 제목/요약/키워드: segmental prosody

검색결과 23건 처리시간 0.015초

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 (UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS)

  • 이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.91-98
    • /
    • 2010
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

Shapes of Vowel F0 Contours Influenced by Preceding Obstruents of Different Types - Automatic Analyses Using Tilt Parameters-

  • Jang, Tae-Yeoub
    • 음성과학
    • /
    • 제11권1호
    • /
    • pp.105-116
    • /
    • 2004
  • The fundamental frequency of a vowel is known to be affected by the identity of the preceding consonant. The general agreement is that strong consonants trigger higher F0 than weak consonants. However, there has been a disagreement on the shape of this segmentally affected F0 contours. Some studies report that shapes of contours are differentiated based on the consonant type, but others regard this observation as misleading. This research attempts to resolve this controversy by investigating shapes and slopes of F0 contours of Korean word level speech data produced by four male speakers. Instead of entirely relying on traditional human intuition and judgment, I employed an automatic F0 contour analysis technique known as tilt parameterisation (Taylor 2000). After necessary manipulation of an F0 contour of each data token, various parameters are collapsed into a single tilt value which directly indicates the shape of the contour. The result, in terms of statistical inference, shows that it is not viable to conclude that the type of consonant is significantly related to the shape of F0 contour. A supplementary measurement is also made to see if the slope of each contour bears meaningful information. Unlike shapes themselves, slopes are suspected to be practically more practical for consonantal differentiation, although confirmation is required through further refined experiments.

  • PDF

운율경계정보를 이용한 HMM기반 한국어 TTS 자연성 향상 연구 (Improvement of Naturalness for a HMM-based Korean TTS using the prosodic boundary information)

  • 임기정;이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권9호
    • /
    • pp.75-84
    • /
    • 2012
  • HMM 기반 음성합성시스템은 성능향상을 위해 일반적으로 대용량 음성 DB로부터 생성된 문맥의존 tri-phone을 이용한다. 그리고 대용량 DB의 경량화를 위해서 문맥의존정보를 이용하여 결정트리 방식으로 발화특성이 유사한 문맥의존음소들을 군집화한다. 군집화에 사용하는 문맥의존정보는 음소열 뿐만 아니라 운율정보도 포함하는데 이는 합성음의 자연성이 끊어 읽기, 억양패턴, 음의 장단과 같은 운율에 의해 크게 좌우되기 때문이다. 그러나 복잡한 운율정보를 사용할 경우 훈련과정에 포함되지 않은 문맥의존음소는 하나의 대표값으로 평활화되며 이로 인해 합성음의 자연성이 크게 저하된다. 본 논문에서는 합성음의 자연성을 향상시키기 위해 복잡한 운율정보 대신 억양 변화를 상승, 평탄, 하강으로 구분함으로써 운율정보표현을 간소화시킨 운율경계정보를 포함하는 문맥의존정보에 대한 문맥질의, 그리고 해당 질의의 패턴을 정의하는 방법을 제안하였다. 본 논문에서 제안하는 세 가지 운율경계정보를 포함한 문맥의존정보를 이용하여 합성음을 생성하고 MOS평가를 수행한 결과 운율경계정보를 이용한 HMM기반 한국어 TTS 합성음의 자연성이 향상됨을 확인하였다.