• Title/Summary/Keyword: Concatenative synthesis

Search Result 7, Processing Time 0.018 seconds

Improved Text-to-Speech Synthesis System Using Articulatory Synthesis and Concatenative Synthesis (조음 합성과 연결 합성 방식을 결합한 개선된 문서-음성 합성 시스템)

  • 이근희;김동주;홍광석
    • Proceedings of the IEEK Conference
    • /
    • 2002.06d
    • /
    • pp.369-372
    • /
    • 2002
  • In this paper, we present an improved TTS synthesis system using articulatory synthesis and concatenative synthesis. In concatenative synthesis, segments of speech are excised from spoken utterances and connected to form the desired speech signal. We adopt LPC as a parameter, VQ to reduce the memory capacity, and TD-PSOLA to solve the naturalness problem.

  • PDF

Quantifying the Urgency Perception of Voice Alarm Generated by Concatenative Synthesizer (연결형 합성음성을 이용한 경보음의 주관적 위급도 정량화)

  • Jang, Pil-Sik;Lee, Gyeong-Tae
    • Journal of the Ergonomics Society of Korea
    • /
    • v.25 no.2
    • /
    • pp.63-70
    • /
    • 2006
  • This paper presents an experimental study of the factors modulating the urgency perception of voice alarm generated by concatenative synthesizers. Four experiments were conducted using psycho-physical approach in which 105 participants made magnitude estimation for urgency perception of various voice alarm stimuli. Experiment 1 identified 6 acoustic and non-acoustic factors modulating the perceived urgency of synthesized voice alarm. Experiment 2, 3 and 4 quantified the relations between the objective changes in each of the quantifiable parameters and the subjective changes in urgency perception. This research has implications for the design and implementation of synthesized voice alarm systems where urgency mapping is required.

Speech Modification and Concatenative Speech Synthesis by using Analysis-By-Synthesis/OverLap-Add(ABS/OLA) Sinusoidal Model (Analysis- By-Synthesis/OverLap- Add( ABS/OLA) Sinusoidal Model 을 이용한 음성변환과 연결음성합성)

  • 구자형
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.339-343
    • /
    • 1998
  • Sinusoidal model 은 음성신호처리의 넓은 분야에 적용되고 있는 방법으로 고음질의 합성음을 생성해 낼 수 있고, 조작이 용이하다는 장점을 가지고 있다. 본 논문에서는 Analysis-by-synthesis/Overlap-add Sinusoidal model 이라는 방법을 이용하여 시간축 변환과 dam성 변환을 수행하였다. 특히 본 논문에서는 음질향상을 위하여 시간축 변환시에는 정적인 구간과 변화하는 구간을 구별하여 서로 다른 시간축 변환비를 이용하였고, 기존의 LPC 방법에 비해 스펙트럼 포락선을 보다 잘 추정하는 Improved Cepstrum을 이용하여 음정변환에 적용하였다. 또 서로 다른 문맥에서 얻어진 음성단위들을 결합할 때 생기는 위상차이를 극복하기 위하여, 기본주파수 성분이 일치하도록 시간축을 이동하여 합성하였다. 실험결과 본 논문에서 적용한 방법들을 통해 기존 방식에 비해 개선된 음질을 얻을 수 있었다.

  • PDF

Context-adaptive Smoothing for Speech Synthesis (음성 합성기를 위한 문맥 적응 스무딩 필터의 구현)

  • 이기승;김정수;이재원
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.285-292
    • /
    • 2002
  • One of the problems that should be solved in Text-To-Speech (TTS) is discontinuities at unit-joining points. To cope with this problem, a smoothing method using a low-pass filter is employed in this paper, In the proposed soothing method, a filter coefficient that controls the amount of smoothing is determined according to contort information to be synthesized. This method efficiently reduces both discontinuities at unit-joining points and artifacts caused by undesired smoothing. The amount of smoothing is determined with discontinuities around unit-joins points in the current synthesized speech and discontinuities predicted from context. The discontinuity predictor is implemented by CART that has context feature variables. To evaluate the performance of the proposed method, a corpus-based concatenative TTS was used as a baseline system. More than 6075 of listeners realized that the quality of the synthesized speech through the proposed smoothing is superior to that of non-smoothing synthesized speech in both naturalness and intelligibility.

An algorithm of the Non-uniform synthesis unit selection for concatenative speech synthesis system (연결형 합성시스템을 위한 문맥종속 단위 기반의 비정형 합성단위 추출 알고리즘)

  • 김영일
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.273.2-277
    • /
    • 1998
  • 본 논문에서는 음소단위 비정형 연결합성 시, 접합점에서 포만트 불연속을 최소화할 수 있도록 이웃음소간 경계강도 예측모델과 합성단위 검색시 음소단위 최장일치 검색 알고리즘을 설계하였다. 합성단위 연결부에서 발생하는 신호왜곡을 최소화하기 위해 “_C_”환경에서 자음이 유성음화된 경우, “_V_”환경에서 모음이 무성음화된 경우, 그리고 유성음 사이의 포만트 주파수 차이에 대한 모델을 생성하여, 음소간의 조음강도가 약한 부분이 합성단위 경계로 설정되도록 하였다. 합성단위 경계가 결정되면 주어진 문장의 문맥정보만을 이용하여 코포스로부터 후보를 선택한다. 선택된 후보를 사이의 연결성을 측정하기 위하여 합성 경계를 기준으로 전, 후 음소에 대한 음성적 특성과 포만트 천이 특성을 고려하였다. 실험은 K-ToBI 레이블링된 200문장을 기반으로 하였으며, 코퍼스로부터 한 문장을 선택하여 이를 목적치 패턴으로 선정 한 후, 목적치 패턴과 후보사이의 단위비용과 후보들 간의 연결비용을 계산하여 최적의 합성단위열을 추출하는 방식으로 이루어졌다. 본 논문에서는 이러한 문맥종속 단위 기반의 합성단위 추출 알고리즘과 실험 결과에 대해 보고한다.

  • PDF

Study on the Non-uniform synthesis unit selection and FO modeling for concatenative speech synthesis system (연결형 합성시스템을 위한 비정형 합성단위 추출 및 F0 모델링에 관한 검토)

  • 김영일
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.93-98
    • /
    • 1998
  • 자연스러운 한국어 음성을 합성할 수 있는 비정형 합성단위 선택기술 및 접합을 이용한 한국어 합성 시스템의 갭라을 최종 목표로 하고 있다. 이러한 최종 목쵸에 도달하기 위해 본 연구팀에서 검토중인 연구방향과 시스템의 구조 및 이를 토대로 현재까지 진행된 결과를 보고한다. 현재 검토중인 시스템은 입력된 문장으로부터 목적치 패턴을 생성하고, 이에 근사한 임의 길이 합성단위를 대량의 음성DB 로부터 선택하여 접합시키는 방식을 이용하고자 한다. 본 논문에서는 음성의 왜곡을 최소화할 수 있는 비정형 합성단위의 추출법에 관한 검토 결과와 본 연구팀에서 성능평가 중인 F0 자동 생성 알고리즘에 대하여 보고한다.

  • PDF

The Error Pattern Analysis of the HMM-Based Automatic Phoneme Segmentation (HMM기반 자동음소분할기의 음소분할 오류 유형 분석)

  • Kim Min-Je;Lee Jung-Chul;Kim Jong-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.25 no.5
    • /
    • pp.213-221
    • /
    • 2006
  • Phone segmentation of speech waveform is especially important for concatenative text to speech synthesis which uses segmented corpora for the construction of synthetic units. because the quality of synthesized speech depends critically on the accuracy of the segmentation. In the beginning. the phone segmentation was manually performed. but it brings the huge effort and the large time delay. HMM-based approaches adopted from automatic speech recognition are most widely used for automatic segmentation in speech synthesis, providing a consistent and accurate phone labeling scheme. Even the HMM-based approach has been successful, it may locate a phone boundary at a different position than expected. In this paper. we categorized adjacent phoneme pairs and analyzed the mismatches between hand-labeled transcriptions and HMM-based labels. Then we described the dominant error patterns that must be improved for the speech synthesis. For the experiment. hand labeled standard Korean speech DB from ETRI was used as a reference DB. Time difference larger than 20ms between hand-labeled phoneme boundary and auto-aligned boundary is treated as an automatic segmentation error. Our experimental results from female speaker revealed that plosive-vowel, affricate-vowel and vowel-liquid pairs showed high accuracies, 99%, 99.5% and 99% respectively. But stop-nasal, stop-liquid and nasal-liquid pairs showed very low accuracies, 45%, 50% and 55%. And these from male speaker revealed similar tendency.