• Title/Summary/Keyword: TTS system

Search Result 145, Processing Time 0.031 seconds

Singing Voice Synthesis Using HMM Based TTS and MusicXML (HMM 기반 TTS와 MusicXML을 이용한 노래음 합성)

  • Khan, Najeeb Ullah;Lee, Jung-Chul
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.5
    • /
    • pp.53-63
    • /
    • 2015
  • Singing voice synthesis is the generation of a song using a computer given its lyrics and musical notes. Hidden Markov models (HMM) have been proved to be the models of choice for text to speech synthesis. HMMs have also been used for singing voice synthesis research, however, a huge database is needed for the training of HMMs for singing voice synthesis. And commercially available singing voice synthesis systems which use the piano roll music notation, needs to adopt the easy to read standard music notation which make it suitable for singing learning applications. To overcome this problem, we use a speech database for training context dependent HMMs, to be used for singing voice synthesis. Pitch and duration control methods have been devised to modify the parameters of the HMMs trained on speech, to be used as the synthesis units for the singing voice. This work describes a singing voice synthesis system which uses a MusicXML based music score editor as the front-end interface for entry of the notes and lyrics to be synthesized and a hidden Markov model based text to speech synthesis system as the back-end synthesizer. A perceptual test shows the feasibility of our proposed system.

A Pre-Selection of Candidate Units Using Accentual Characteristic In a Unit Selection Based Japanese TTS System (일본어 악센트 특징을 이용한 합성단위 선택 기반 일본어 TTS의 후보 합성단위의 사전선택 방법)

  • Na, Deok-Su;Min, So-Yeon;Lee, Kwang-Hyoung;Lee, Jong-Seok;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.26 no.4
    • /
    • pp.159-165
    • /
    • 2007
  • In this paper, we propose a new pre-selection of candidate units that is suitable for the unit selection based Japanese TTS system. General pre-selection method performed by calculating a context-dependent cost within IP (Intonation Phrase). Different from other languages, however. Japanese has an accent represented as the height of a relative pitch, and several words form a single accentual phrase. Also. the prosody in Japanese changes in accentual phrase units. By reflecting such prosodic change in pre-selection. the qualify of synthesized speech can be improved. Furthermore, by calculating a context-dependent cost within accentual phrase, synthesis speed can be improved than calculating within intonation phrase. The proposed method defines AP. analyzes AP in context and performs pre-selection using accentual phrase matching which calculates CCL (connected context length) of the Phoneme's candidates that should be synthesized in each accentual phrase. The baseline system used in the proposed method is VoiceText, which is a synthesizer of Voiceware. Evaluations were made on perceptual error (intonation error, concatenation mismatch error) and synthesis time. Experimental result showed that the proposed method improved the qualify of synthesized speech. as well as shortened the synthesis time.

Speech Synthesis System for Detected Objects by Smart Phone (스마트폰으로 검출된 객체의 음성합성 시스템)

  • Kwon, Soon-Kak
    • Journal of Korea Multimedia Society
    • /
    • v.19 no.2
    • /
    • pp.469-478
    • /
    • 2016
  • This paper designs an application for detecting various objects using a smart phone with camera sensor, then implements the application that detects the number of faces in front of a user by using the Face API provided by android and generates a speech to the user. For implementing the application, the GoF strategy pattern is applied to design the application. It provides some advantages; first, the algorithm development schedule can separate the whole application development schedule; next, it makes easier to add the algorithm. For example, another detecting algorithm for the other objects (character, motion detection) that may be developed in the future, or it may be replaced by a more high-performance algorithm. With the propose method, a general smart phone can make some advantages that can provide information of various objects (such as moving people and objects, and detected character from signboards) to the person who is visually impaired.

Implementation of the Voice Conversion in the Text-to-speech System (Text-to-speech 시스템에서의 화자 변환 기능 구현)

  • Hwang Cholgyu;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.33-36
    • /
    • 1999
  • 본 논문에서는 기존의 text-to-speech(TTS) 합성방식이 미리 정해진 화자에 의한 단조로운 합성음을 가지는 문제를 극복하기 위하여, 임의의 화자의 음색을 표현할 수 있는 화자 변환(Voice Conversion) 기능을 구현하였다. 구현된 방식은 화자의 음향공간을 Gaussian Mixture Model(GMM)로 모델링하여 연속 확률 분포에 따른 화자 변환을 가능케 했다. 원시화자(source)와 목적화자(target)간의 특징 벡터의 joint density function을 이용하여 목적화자의 음향공간 특징벡터와 변환된 벡터간의 제곱오류를 최소화하는 변환 함수를 구하였으며, 구해진 변환 함수로 벡터 mapping에 의한 스펙트럼 포락선을 변환했다. 운율 변환은 음성 신호를 정현파 모델에 의해서 모델링하고, 분석된 운율 정보(피치, 지속 시간)는 평균값을 고려해서 변환했다. 성능 평가를 위해서 VQ mapping 방법을 함께 구현하여 각각의 정규화된 켑스트럼 거리를 구해서 성능을 비교 평가하였다. 합성시에는 ABS-OLA 기반의 정현파 모델링 방식을 채택함으로써 자연스러운 합성음을 생성할 수 있었다.

  • PDF

The Modeling of Pause Duration For Text-To-Speech Synthesis System (TTS 시스템을 위한 휴지기간 모델링)

  • Chung Jihye;Lee Yanhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

Transcribing Some Text Symbols for Improving Korean TTS System (한국어 음성 합성을 위한'이음표'의 문자 전사)

  • 정영임;정휘웅;윤애선;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.558-560
    • /
    • 2003
  • 최근 신문기사의 음성 서비스 등 음성합성 연구가 실용단계로 접어들고 있으나, 텍스트의 비-문자 처리에는 오류율이 높다. 본 연구는 신문 텍스트에 나타나는 비-문자 중 중의성이 높은 이음표의 문자화 유형을 6가지로 제시하고, 이음표를 포함한 어절의 패턴화된 구조 및 좌우 문맥 정보를 이용하여 이음표의 문자화 규칙을 알아본다. 제시된 이응표의 문자화 규칙과 이음표가 좌우 문맥 숫자의 문자화에 미치는 영향에 따른 숫자 읽기 방식을 포함하여 이음표 포함된 텍스트의 문자화 전사 시스템을 구현하였고, 2런치 J신문 텍스트를 코퍼스로 하여 이음표 문자화 시스템의 정확도를 측정하였다. 아울러 실험 결과에서 오류로 나타난 유형을 분석하여 정확도를 향상시킬 수 있는 방안을 제시하였다.

  • PDF

Development of a 3D-Graphics Based Visualization Application for Reliability-Centered Maintenance (신뢰도 중심 유지보수 기법을 이용한 3차원 기반의 변전소 유지보수 시각화 프로그램 개발)

  • Jung, Hong-Suk;Park, Chang-Hyun;Jang, Gil-Soo
    • Proceedings of the KIEE Conference
    • /
    • 2007.11b
    • /
    • pp.288-290
    • /
    • 2007
  • This paper presents a visualization application using 3D-graphics for effective maintenance of power equipment. The maintenance algorithm implemented in the application is based on Condition-Based Maintenance (CBM) and Reliability -Centered Maintenance (RCM). The main frame of the developed application was made up based on Windows Application Programming Interface (API) and Microsoft Fundamental Classes (MFC). In order to develop the interactive 3D application, the WorldToolKit (WTK) library based on Open GL was used. Also Text-to-Speech (TTS) technology was used to enhance the efficiency of operators. The developed application can help the power system operators to intuitively recognize the present state and maintenance information of the equipment.

  • PDF

Text-driven Speech Animation with Emotion Control

  • Chae, Wonseok;Kim, Yejin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.14 no.8
    • /
    • pp.3473-3487
    • /
    • 2020
  • In this paper, we present a new approach to creating speech animation with emotional expressions using a small set of example models. To generate realistic facial animation, two example models called key visemes and expressions are used for lip-synchronization and facial expressions, respectively. The key visemes represent lip shapes of phonemes such as vowels and consonants while the key expressions represent basic emotions of a face. Our approach utilizes a text-to-speech (TTS) system to create a phonetic transcript for the speech animation. Based on a phonetic transcript, a sequence of speech animation is synthesized by interpolating the corresponding sequence of key visemes. Using an input parameter vector, the key expressions are blended by a method of scattered data interpolation. During the synthesizing process, an importance-based scheme is introduced to combine both lip-synchronization and facial expressions into one animation sequence in real time (over 120Hz). The proposed approach can be applied to diverse types of digital content and applications that use facial animation with high accuracy (over 90%) in speech recognition.

Prosodic Characteristics of Politeness in Korean (한국어에서의 공손함을 나타내는 운율적 특성에 관한 연구)

  • Ko Hyun-ju;Kim Sang-Hun;Kim Jong-Jin
    • MALSORI
    • /
    • no.45
    • /
    • pp.15-22
    • /
    • 2003
  • This study is a kind of a preliminary study to develop naturalness of dialog TTS system. In this study, as major characteristics of politeness in Korean, temporal(total duration of utterances, speech rate and duration of utterance final syllables) and F0(mean F0, boundary tone pattern, F0 range) features were discussed through acoustic analysis of recorded data of semantically neutral sentences, which were spoken by ten professional voice actors under two conditions of utterance type - namely, normal and polite type. The results show that temporal characteristics were significantly different according to the utterance type but F0 characteristics were not.

  • PDF

The Development of Speech Synthesizer In Korean TTS System (한국어 문어변환 시스템 내에서의 음성 합성기 개발)

  • 강찬희;진용옥
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.2
    • /
    • pp.14-27
    • /
    • 1993
  • 본 논문은 매 40ms 정도의 음성파형으로부터 추출된 6내지 9ms 정도의 1피치주기 파형을 합성단위로 사용하여 합성시킨 시간영역에서의합성방식을 한국어 문어 변환 시스템내에서의 음성합성기에 적용시킨 연구결과이다. 시험 결과, 4가지 유형의 한국어 음절 합성이 가능하고, 장단강약과 같은 운율요소의 제어가 용이하고, 또한 합성 알고리즘이 간단하여 실시간 처리가 가능하였으나, 문장 단위의 음성을 합성하기 위하여는 문장내에서의 다양한 피치 패턴에 대한 연구와 이의 효율적인 제어에 관한 연구가 이루어져야 할 것이다. 합성음에 대한 평가방법으로는 원음과 합성음에 대한 시간영역에서의 파형비교, 주파수 영역에서의 스펙트럼 포락선 유사성 비교 및 합성음에 대한 청취도 실험을 행하였다.

  • PDF