• 제목/요약/키워드: Speech Synthesis

검색결과 381건 처리시간 0.019초

음성 합성 시스템의 품질 향상을 위한 한국어 문장 기호 전처리 시스템 (Korean Sentence Symbol Preprocess System for the Improvement of Speech Synthesis Quality)

  • 이호준
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.149-156
    • /
    • 2015
  • 본 논문에서는 한국어 문장 기호의 처리를 통해 자연스러운 음성 합성 결과를 생성하는 방법에 대해서 논의한다. 이를 위해 한국어 위키피디아 문서를 분석하여 문장 기호의 사용을 8가지 형태로 분류하고, 11개의 정규표현식 규칙으로 문장 기호를 처리하는 방안을 제시한다. 그 결과 63,000 문장에 대해 56%의 정확도와 71.45%의 재현율을 달성하였으며, 문장 기호 처리 결과를 SSML 기반의 음성 합성 표현으로 변환하여 음성 합성 결과의 품질을 향상시키는 방법을 제안한다.

음성/영상의 인식 및 합성 기능을 갖는 가상캐릭터 구현 (Cyber Character Implementation with Recognition and Synthesis of Speech/lmage)

  • 최광표;이두성;홍광석
    • 전자공학회논문지CI
    • /
    • 제37권5호
    • /
    • pp.54-63
    • /
    • 2000
  • 본 논문에서는 음성인식, 음성합성, Motion Tracking, 3D Animation이 가능한 가상캐릭터를 구현하였다. 음성인식으로는 K-means 128 Level VQ와 MFCC의 특징패턴을 바탕으로 Discrete-HMM 알고리즘을 이용하였다. 음성합성에는 반음절 단위의 TD-PSOLA를 이용하였으며, Motion Tracking에서는 계산량을 줄이기 위해 Fast Optical Flow Like Method를 제안하고, 3D Animation 시스템은 Vertex Interpolation방법으로 Animation을 하고 Direct3D를 이용하여 Rendering을 하였다. 최종적으로 위에 나열된 시스템들을 통합하여 사용자를 계속적으로 주시하면서 사용자와 함께 구구단 게임을 할 수 있는 가상캐릭터를 구현하였다.

  • PDF

고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구 (A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis)

  • 이진이
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.60-69
    • /
    • 1998
  • 본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

  • PDF

다음색 감정 음성합성 응용을 위한 감정 SSML 처리기 (An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications)

  • 유세희;조희;이주현;홍기형
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.523-529
    • /
    • 2021
  • 본 논문에서는 감정 마크업을 포함하는 Speech Synthesis Markup Language(SSML) 처리기를 설계하고 개발하였다. 다양한 음색과 감정 표현이 가능한 음성합성 기술이 개발되고 있으며 다양한 음색 및 감정 음성합성의 응용 확대를 위하여 표준화된 음성 인터페이스 마크업 언어인 SSML을 감정 표현이 가능하도록 확장한 감정 SSML(Emotional SSML)을 설계하였다. 감정 SSML 처리기는 그래픽 사용자 인터페이스로 손쉽게 음색 및 감정을 원하는 텍스트 부분에 표시할 수 있는 다음색 감정 텍스트 편집기, 편집 결과를 감정 SSML 문서로 생성하는 감정 SSML 문서 생성기, 생성된 감정 SSML 문서를 파싱하는 감정 SSML 파서, 감정 SSML 파서의 결과인 다음색 감정 합성 시퀀스를 기반으로 합성기와 연동하여 음성 스트림의 합성 을 제어하는 시퀀서로 구성된다. 본 논문에서 개발한 다음색 감정합성을 위한 감정 SSML 처리기는 프로그래밍 언어 및 플랫폼 독립적인 개방형 표준인 SSML을 기반으로 하여 다양한 음성합성 엔진에 쉽게 연동할 수 있는 구조를 가지며 다양한 음색과 감정 음성합성이 필요한 다양한 응용 개발에 활용될 것으로 기대한다.

영상 기반 음성합성에서 심도 영상의 유용성 (The usefulness of the depth images in image-based speech synthesis)

  • 이기승
    • 한국음향학회지
    • /
    • 제42권1호
    • /
    • pp.67-74
    • /
    • 2023
  • 발성하고 있는 입 주변에서 취득한 영상은 발성 음에 따라 특이적인 패턴을 나타낸다. 이를 이용하여 화자의 얼굴 하단에서 취득한 영상으로부터 발성 음을 인식하거나 합성하는 방법이 제안되고 있다. 본 연구에서는 심도 영상을 협력적으로 이용하는 영상 기반 음성합성 기법을 제안하였다. 심도 영상은 광학 영상에서는 관찰되지 않는 깊이 정보의 취득이 가능하기 때문에 평면적인 광학 영상을 보완하는 목적으로 사용이 가능하다. 본 논문에서는 음성 합성 관점에서 심도 영상의 유용성을 평가하고자 한다. 60개의 한국어 고립어 음성에 대해 검증 실험을 수행하였으며, 실험결과 객관적, 주관적 평가에서 광학적 영상과 근접한 성능을 얻는 것을 확인할 수 있었으며 두 영상을 조합하여 사용하는 경우 각 영상을 단독으로 사용하는 경우보다 향상된 성능을 나타내었다.

교육용 한국어 TTS 플랫폼 개발 (A Korean TTS System for Educational Purpose)

  • 이정철;이상호
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.41-50
    • /
    • 2004
  • Recently, there has been considerable progress in the natural language processing and digital signal processing components and this progress has led to the improved synthetic speech qualify of many commercial TTS systems. But there still remain many obstacles to overcome for the practical application of TTS. To resolve the problems, the cooperative research among the related areas is highly required and a common Korean TTS platform is essential to promote these activities. This platform offers a general framework for building Korean speech synthesis systems and a full C/C++ source for modules supports to implement and test his own algorithm. In this paper we described the aspect of a Korean TTS platform to be developed and a developing plan.

  • PDF

코퍼스기반 음성합성기의 데이터베이스 최적화 방안 (An Optimization of Speech Database in Corpus-based speech synthesis sytstem)

  • 장경애;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.209-213
    • /
    • 2002
  • This paper describes the reduction of DB without degradation of speech quality in Corpus-based Speech synthesizer of Korean language. In this paper, it is proposed that the frequency of every unit in reduced DB should reflect the frequency of units in Korean language. So, the target population of every unit is set to be proportional to their frequency in Korean large corpus(780K sentences, 45Mega phonemes). Second, the frequent instances during synthesis should be also maintained in reduced DB. To the last, it is proposed that frequency of every instance should be reflected in clustering criterion and used as criterion for selection of representative instances. The evaluation result with proposed methods reveals better quality than using conventional methods.

  • PDF

코퍼스기반 음성합성기의 데이터베이스 감축방안 (A Reduction of Speech Database in Corpus-based Speech Synthesis System)

  • 장경애;정민화;김재인;구명완
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.145-156
    • /
    • 2002
  • This paper describes the reduction of DB without degradation of speech quality in Corpus-based Speech synthesizer of the Korean language. In this paper, it is proposed that the frequency of every unit in reduced DB reflect the frequency of units in the Korean language. So, the target population of every unit is set to be proportional to its frequency in Korean large corpus (780k sentences, 45Mega phones). Secondly, the frequent instances during synthesis should be also maintained in reduced DB. To the last, it is proposed that frequency of every instance be reflected in clustering criteria and used as another important criterion for selection of representative instances. The evaluation result with proposed methods reveals better quality than that using conventional methods.

  • PDF

한국어 TTS 시스템의 객관적인 성능평가를 위한 기초검토 (Basic consideration for assessment of Korean TTS system)

  • 고락환;김영일;김봉완;이용주
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.37-40
    • /
    • 2005
  • Recently due to the rapid development of speech synthesis based on the corpora, the performance of TTS systems, which convert text into speech through synthesis, has enhanced, and they are applied in various fields. However, the procedure for objective assessment of the performance of systems is not well established in Korea. The establishment of the procedure for objective assessment of the performance of systems is essential for the assessment of development systems for the developers and as the standard for choosing the suitable systems for the users. In this paper we will report on the results of the basic research for the establishment of the systematic standard for the procedure of objective assessment of the performance of Korean TTS systems with reference to the various attempts for this project in Korea and other countries.

  • PDF

MPE-LPC음성합성에서 Maximum- Likelihood Estimation에 의한 Multi-Pulse의 크기와 위치 추정 (Multi-Pulse Amplitude and Location Estimation by Maximum-Likelihood Estimation in MPE-LPC Speech Synthesis)

  • 이기용;최홍섭;안수길
    • 대한전자공학회논문지
    • /
    • 제26권9호
    • /
    • pp.1436-1443
    • /
    • 1989
  • In this paper, we propose a maximum-likelihood estimation(MLE) method to obtain the location and the amplitude of the pulses in MPE( multi-pulse excitation)-LPC speech synthesis using multi-pulses as excitation source. This MLE method computes the value maximizing the likelihood function with respect to unknown parameters(amplitude and position of the pulses) for the observed data sequence. Thus in the case of overlapped pulses, the method is equivalent to Ozawa's crosscorrelation method, resulting in equal amount of computation and sound quality with the cross-correlation method. We show by computer simulation: the multi-pulses obtained by MLE method are(1) pseudo-periodic in pitch in the case of voicde sound, (2) the pulses are random for unvoiced sound, (3) the pulses change from random to periodic in the interval where the original speech signal changes from unvoiced to voiced. Short time power specta of original speech and syunthesized speech obtained by using multi-pulses as excitation source are quite similar to each other at the formants.

  • PDF