• 제목/요약/키워드: Speech Synthesis

검색결과 381건 처리시간 0.027초

퍼지 벡터 양자화기 사상화와 신경망에 의한 화자적응 음성합성 (Speaker-Adaptive Speech Synthesis based on Fuzzy Vector Quantizer Mapping and Neural Networks)

  • 이진이;이광형
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.149-160
    • /
    • 1997
  • 본 연구에서는 퍼지사상화(fuzzy mapping)와 FLVQ(fuzzy learning vector quantization)에 의한 사상된(mapped)코드북을 사용하는 화자적용 음성합성 알고리즘 을 제안하고, 기존의 음성합성결과와 비교한다. 입력화자와 기준화자의 코드북은 FLVQ 방법으로 작성한다. 사상된 코드북은 퍼지 히스토그램을 작성하여 이들을 선형 결합함으로써 얻어지는 퍼지 사상화에 의하여 작성된다. 대응 코드벡터의 퍼지 히스 토그램은 동일 입력벡터에 대해 선택된 입력화자의 코드벡터와 기준화자의 코드벡터 사이의 DTW(dynamic time warping)을 행하여 대응하는 코드벡터들의 소속값 (membership value)을 누적하여 얻는다. 음성합성시에는 사상된 코드북을 사용하여 입력화자의 음성을 퍼지벡터 양자화한 다음, FCM(fuzzy c means) 합성규칙을 사용하 여 사상된 코드북내의 코드벡터가 아닌 새로운 하나의 합성벡터를 얻게 되어 좀 더 입력화자에 적응된 합성음을 얻게 된다. 이 기술의 성능평가는 성별이 서로 다른 화 자를 입력화자 및 기준화자로 선정하여 입력화자의 음성에 가까운 정도로 평가하였으 며 그 결과 기존의 음성합성보다 입력화자에 더 적용된 합성음을 얻었다.

  • PDF

인자화된 최대 공산선형회귀 적응기법을 적용한 해양IT융합기술을 위한 HMM기반 음성합성 시스템 (Factored MLLR Adaptation for HMM-Based Speech Synthesis in Naval-IT Fusion Technology)

  • 성준식;홍두화;정민아;이연우;이성로;김남수
    • 한국통신학회논문지
    • /
    • 제38C권2호
    • /
    • pp.213-218
    • /
    • 2013
  • 은닉 마코프 모델 (hidden Markov Model, HMM) 기반 음성 합성 시스템에서 파라미터 적응을 위해 널리 쓰이는 기법으로 최대 공산 선형 회귀 (maximum likelihood linear regression, MLLR)이 있다. 이전 연구에서 우리는 각 MLLR 파라미터를 인자화된 MLLR (Factored MLLR, FMLLR) 형태로 확장하는 형태를 제안하였다. FMLLR 파라미터를 기존의 EM 알고리즘 형태로 구하는 기법 역시 제안하였고, 이를 통해 보완 정보를 활용하여 적응 학습을 수행할 수 있게 하였다. 본 논문에서는, FMLLR 기법을 스펙트럼 파라미터에 사용하는 것뿐 아니라 피치에도 적용하여 그 성능을 향상시키는 것에 대한 탐구를 수행하였다. 감정 음성을 생성하는 여러 실험을 통해, 우리는 제안하는 기법이 피치 및 스펙트럼에 대해 효과적으로 작용하는 것을 확인하였다.

EVALUATION OF THE SYNTHETIC SPEECH QUALITY BY THE TD-PCULI METHOD

  • Kang, Chan-Hee;Shin, Yong-Jo;Kim, Yun-Seok;Kwon, Ki-Hyung;Chin, Yong-Ohk
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.977-983
    • /
    • 1994
  • In this paper we have evaluated the synthetic speech quality by the proposed TD-PCULI speech synthesis method. For the synthesis we have extracted parameters from the Korean monosyllables through the analysis of speech waveforms in the time domain. We have constructed the Korean data format dictionary for the synthesis-by-rule depending upon the frequencies of the Korean pronunciation large vocabulary dictionary, in which V type syllables are 19, CV type's are 80, VC type's are 30 and CVC type's are 100. And using them we have synthesized various Korean monosyllables, words and sentences. We have tested each 10 syllables selected according to the 4 Korean syllable types with the objective MOS(Mean Opinion Score) evluation method about the 4 items i.e., intelligibility, clearness, loudness, and naturality after selecting random group without the knowledge of them. And also we have tested the possibility to modify a duration and F0 into another forms with changing a duration (i.e., 150msec, 300msec, 500msec, 700msec and 1sec) and a central fundamental frequency(i.e., 80Hz, 118Hz, 140Hz, 170Hz, and 200Hz). As the results of experiments the noises occurred in the course of synthesizing the speech by the rules are removed to be a very clear level and we can find that the prosodic elements can be controled as a good condition.

  • PDF

코퍼스 기반 음성합성기의 데이터베이스 축소 방법 (Pruning Methodology for Reducing the Size of Speech DB for Corpus-based TTS Systems)

  • 최승호;엄기완;강상기;김진영
    • 한국음향학회지
    • /
    • 제22권8호
    • /
    • pp.703-710
    • /
    • 2003
  • 코퍼스 기반 음성합성방식은 그 합성음의 자연성이 매우 우수하여 널리 사용되고 있으나 대용량의 데이터베이스 (DB)를 사용하기 때문에 그 적용분야가 매우 제한적이다. 본 연구에서는 이러한 코퍼스 기반 음성합성기의 대용량 DB 문제를 해결하기 위한 방안으로서 DB 축소 방법 대한 알고리듬을 제안하고 평가하였다. 본 논문에서는 DB 축소 알고리듬으로서 세 가지 방법을 제안하였는데, 첫 번째는 Modified K-means 군집화를 이용한 DB 축소 알고리듬이고 다음은 적절한 문장 셋을 정의하고 이 문장 셋을 합성할 때 사용된 단위들을 이용하는 방법이다. 마지막으로는 대용량 문장 셋을 정의하고 해당 문장을 음성합성하고, 음편들의 사용 빈도수를 고려하여 군집화를 하는 것이다. 세 가지 방법을 이용하여 합성 DB를 유사한 크기로 축소하였을 때, 대용량 문장 셋과 빈도를 고려한 세 번째 방법이 가장 우수한 음질을 보였다. 또한 마지막 방법은 합성음의 음질은 저하시키지 않으면서 합성 DB만을 감소시키는 성능을 보여, 제안된 방법의 타당함을 입증할 수 있었다.

Merlin 툴킷을 이용한 한국어 TTS 시스템의 심층 신경망 구조 성능 비교 (Performance comparison of various deep neural network architectures using Merlin toolkit for a Korean TTS system)

  • 홍준영;권철홍
    • 말소리와 음성과학
    • /
    • 제11권2호
    • /
    • pp.57-64
    • /
    • 2019
  • 본 논문에서는 음성 합성을 위한 오픈소스 시스템인 Merlin 툴킷을 이용하여 한국어 TTS 시스템을 구성한다. TTS 시스템에서 HMM 기반의 통계적 음성 합성 방식이 널리 사용되고 있는데, 이 방식에서 문맥 요인을 포함시키는 음향 모델링 구성의 한계로 합성 음성의 품질이 저하된다고 알려져 있다. 본 논문에서는 여러 분야에서 우수한 성능을 보여 주는 심층 신경망 기법을 적용하는 음향 모델링 아키텍처를 제안한다. 이 구조에는 전연결 심층 피드포워드 신경망, 순환 신경망, 게이트 순환 신경망, 단방향 장단기 기억 신경망, 양방향 장단기 기억 신경망 등이 포함되어 있다. 실험 결과, 문맥을 고려하는 시퀀스 모델을 아키텍처에 포함하는 것이 성능 개선에 유리하다는 것을 알 수 있고, 장단기 기억 신경망을 적용한 아키텍처가 가장 좋은 성능을 보여주었다. 그리고 음향 특징 파라미터에 델타와 델타-델타 성분을 포함하는 것이 성능 개선에 유리하다는 결과가 도출되었다.

성문파형이 모음음소합성에 미치는 영향 (Effect of Glottal Wave Shape on the Vowel Phoneme Synthesis)

  • 안점영;김명기
    • 한국통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.159-167
    • /
    • 1985
  • 男性話者가 發音한 韓國語 母音/아, 에, 이, 오, 우/의 聲門波를 직접 抽出하여 音聲에 따라 성문파가 각각 다르다는 것을 확인하였다. 具現한 5가지의 성문파로 母音을 다시 合成하여 聲門波形이 音聲合成에 미치는 영향을 波形的으로 비교하였다. 상문파의 모양, 개방시간과 폐쇄기간에 따라 合成音聲波形은 變化가 있었으며, 聲門波形이 合成音質向上의 중요 factor로 作用함을 알 수 있었다.

  • PDF

LP 방법에 의한 한국모음의 분석과 합성 (Analysis and synthesis of Korean Vowels by LP Method)

  • 손호인;신동진;안수길
    • 대한전자공학회논문지
    • /
    • 제18권1호
    • /
    • pp.41-50
    • /
    • 1981
  • The human speech contains many redundancies. To economize communication channel or memory size for a computerized synthesis of human voices, it is necessary to compress the data before sending. We have treated human speech organ as an eighth order dynamic system which is time varying as the person speaks. Using an anaylyzer of our design, each eight parameters are obtained for the vowels [아], [어], [오], [우], [으], [이], [애], and (외) of korean language with considerable discrepancies between persons. Supplying those parameters to a synthesizer which we have made, we have sucoeeded in the simulation of human speech for the above mentioned vowels of Korean language and observed that they bear all the features of the original speakers.

  • PDF

Perceptual Experiment on Number Production for Speaker Identification

  • Yang, Byung-Gon
    • 음성과학
    • /
    • 제8권1호
    • /
    • pp.7-19
    • /
    • 2001
  • The acoustic parameters of nine Korean numbers were analyzed by Praat, a speech analysis software, and synthesized by SenSynPPC, a Klatt formant synthesizer. The overall intensity, pitch and formant values of the numbers were modified dynamically by a step of 1 dB, 1 Hz and 2.5% respectively. The study explored the sensitivity of listeners to changes in the three acoustic parameters. Twelve subjects (male and female) listened to 390 pairs of synthesized numbers and judged whether the given pair sounded the same or different. Results showed that subjects perceived the same sound quality within the range of 6.6 dB of intensity variation, 10.5 Hz of pitch variation and 5.9% of the first three formant variations. The male and female groups showed almost the same perceptual ranges. Also, an asymmetrical structure of high and low boundary was observed. The ranges may be applicable to the development of a speaker identification system while the method of synthesis modification may apply to its evaluation data.

  • PDF

음성인식.합성을 위한 한국어 운율단위 음운론의 계산적 연구:음운단위에 따른 경계의 발견 (A Computation Study of Prosodic Structures of Korean for Speech Recognition and Synthesis:Predicting Phonological Boundaries)

  • 이찬도
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.280-287
    • /
    • 1997
  • 성공적인 음성인식·합성 시스템을 구축하기 위해서는 음운론적 지식, 특히 운율 정보의 도입이 매우 중요하다. 본 연구에서는 우선 음성인식·합성을 위한 운율음운 론의 연구동향을 개관하고, 국어의 음운단위와 경계의 설정에 관한 이론적·실험적 고찰을 정리하였으며, 음운단위에 따른 경계의 자동적 발견을 위하여, 데이터를 수집 하고 시스템을 구현하여 실험을 행하였다. 단순회귀 신경망을 이용하여, 2,200여 개 의 문장에 있는 12,000여개의 음운단어를 외부정보의 도움이 전혀 없이 훈련시킨 결 과, 70%정도의 예측률을 보였다. 본 연구에서 사용한 방법을 다른 정보와 결합하여 사용한다면, 음운경계의 발전과 그에 따른 분절화를 정확하게 행할 수 있으리라 기대 된다.

  • PDF

음성 인식/합성을 위한 국어의 음성-음운론적 특성 연구 (A Study of Korean Phonetic and Phonological Properties for Speech Recognition and Synthesis)

  • 정국;구희산;이찬도;김종미;한선희
    • 한국음향학회지
    • /
    • 제13권6호
    • /
    • pp.31-44
    • /
    • 1994
  • 본 논문은 국어 음성 인식 및 합성을 위한 음운$\cdot$음성학적인 기초 연구 몇가지를 포괄적으로 소개하고자 한다. 그 구체적인 내용은 첫째, 분절음의 음운론적 특성연구로서, 분절음의 변이 목록및 컴퓨터 입력 기호의 작성, 둘째, 분절음의 음성학적 특성 연구로서, 단어내 자음의 위치에 따라 음향 파라메타를 조정하는 시범안 제시, 세째, 운율의 음운론적 특성 연구로서 운율 자질들의 음운론적 기능과 인식 단서의 제시, 네째, 운율의 음성학적 특성 연구로서 표준 한국어의 악센트와 억양 패턴의 제시, 다섯째, 음성 인식 및 합성에의 국어 음성$\cdot$음운 지식의 활용 방안 제시이다.

  • PDF