• 제목/요약/키워드: Speech Synthesis

검색결과 381건 처리시간 0.023초

Stem-ML에 기반한 한국어 억양 생성 (Korean Prosody Generation Based on Stem-ML)

  • 한영호;김형순
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.45-61
    • /
    • 2005
  • In this paper, we present a method of generating intonation contour for Korean text-to-speech (TTS) system and a method of synthesizing emotional speech, both based on Soft template mark-up language (Stem-ML), a novel prosody generation model combining mark-up tags and pitch generation in one. The evaluation shows that the intonation contour generated by Stem-ML is better than that by our previous work. It is also found that Stem-ML is a useful tool for generating emotional speech, by controling limited number of tags. Large-size emotional speech database is crucial for more extensive evaluation.

  • PDF

한국어 동시조음 모델에 기반한 스피치 애니메이션 생성 (Speech Animation Synthesis based on a Korean Co-articulation Model)

  • 장민정;정선진;노준용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제26권3호
    • /
    • pp.49-59
    • /
    • 2020
  • 본 논문에서는 규칙 기반의 동시조음 모델을 통해 한국어에 특화된 스피치 애니메이션을 생성하는 모델을 제안한다. 음성에 대응되는 입 모양 애니메이션을 생성하는 기술은 영어를 중심으로 많은 연구가 진행되어 왔으며, 자연스럽고 사실적인 모션이 필요한 영화, 애니메이션, 게임 등의 문화산업 전반에 널리 활용된다. 그러나 많은 국내 콘텐츠의 경우, 스피치 애니메이션을 생략하거나 음성과 상관없이 단순 반복 재생한 뒤 성우가 더빙하는 형태로 시각적으로 매우 부자연스러운 결과를 보여준다. 또한, 한국어에 특화된 모델이 아닌 언어 비의존적 연구는 아직 국내 콘텐츠 제작에 활용될 정도의 퀄리티를 보장하지 못한다. 따라서 본 논문은 음성과 텍스트를 입력받아 한국어의 언어학적 특성을 반영한 자연스러운 스피치 애니메이션 생성 기술을 제안하고자 한다. 한국어에서 입 모양은 대부분 모음에 의해 결정된다는 특성을 반영하여 입술과 혀를 분리한 동시조음 모델을 정의해 기존의 입술 모양에 왜곡이 발생하거나 일부 음소의 특성이 누락되는 문제를 해결하였으며, 더 나아가 운율적 요소에 따른 차이를 반영하여 보다 역동적인 스피치 애니메이션 생성이 가능하다. 제안된 모델은 유저 스터디를 통해 자연스러운 스피치 애니메이션을 생성함을 검증하였으며, 향후 국내 문화산업 발전에 크게 기여할 것으로 기대된다.

음성 합성을 위한 음성 파라미터 분석법의 개선에 관한 연구 (A Study on Improvements of Speech Analysis Methods for Speech Synthesis)

  • 방호균
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.111-114
    • /
    • 1995
  • 포만트 합성에 필요한 음성 파라미터를 분석하는 방법의 개선에 관하여 논한다. 내용은 주로 피치 동기 분석을 위한 피치 위치 추정법의 개선과 포만트 분석시 발생하는 스펙트럼의 왜곡 현상을 기존이 포만트 분석법 및 선형예측분방법과 비교한다.

  • PDF

고음질 합성용 스펙트럼 보상된 시간축조절 피치 변경법 (On a Pitch Alteration Method by Time-axis Scaling Compensated with the Spectrum for High Quality Speech Synthesis)

  • 배명진;이원철;임성빈
    • 한국음향학회지
    • /
    • 제14권4호
    • /
    • pp.89-95
    • /
    • 1995
  • 파형부호화법은 음성신호에서 잉여성분 제거과정을 통해 유용한 파형의 꼴을 단순히 보존하는 방법이다. 음성합성분야에서 고음질의 파형부호화법은 분석에 의한 합성방식으로 주로 적용된다. 그렇지만 이러한 부호화법에서 파라미터들은 여기용과 성도 여파기용으로 분리되지 않기 때문에 이 파형부호화법을 규칙에 의한 합성 방식으로 사용하기는 어렵다. 파형부호화합을 규칙합성에 적용하려면 운율조절을 위해 피치변경법이 필요하다. 본 논문에서는 시간축 스케일링과 주파수상에서의 스펙트럼 보정을 통해 파형부호화법에서 피치를 변경할 수 있는 새로운 피치변경법을 제안하였다. 이 방식은 파형의 위상성분을 보존하는 시간-주파수 혼성법이고, 50%의 피치변경을 수행하였을 때 2.5%정도의 스펙트럼 왜곡을 나타내었다.

  • PDF

음성 합성기를 위한 문맥 적응 스무딩 필터의 구현 (Context-adaptive Smoothing for Speech Synthesis)

  • 이기승;김정수;이재원
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.285-292
    • /
    • 2002
  • 문자-음성 합성기 (Text-To-Speech, TTS)에서 해결되어야 할 문제점 중의 하나는 음소의 연결 부위에서 발생하는 불연속성이다. 이러한 문제점을 해결하기 위한 방안으로 본 논문에서는 저역 여파기를 이용한 스무딩 기법을 적용하였다. 제안된 스무딩 기법은 스무딩의 정도를 제어하는 필터 계수를 현재 합성하고자 하는 문맥에 따라 결정하여, 경계에서의 불연속성을 효과적으로 제거하고 스무딩으로 인하여 발생할 수 있는 음성의 왜곡을 억제하였다. 스무딩 정도는 현재 합성된 음성의 불연속 정도와 주어진 문맥으로부터 예측된 불연속 정도를 통해 결정하였으며, 문맥으로부터 불연속 정도의 예측은 음소 정보를 입력, 불연속 값을 출력으로 하는 CART(Classification And Regression Tree)를 통해 이루어진다. 제안된 기법의 성능 평가를 위해 코퍼스 기반 연결(corpus-based concatenative) 문자-음성 합성기를 기본 시스템으로 사용하였으며, 청취 테스트에서 60%이상 의 청취자가 제안된 스무딩 기법을 통해 합성된 음성이 스무딩 기법이 사용되지 않은 경우와 비교하여 명료성과 자연성 면에서 우수하다고 판단하였다.

대화 영상 생성을 위한 한국어 감정음성 및 얼굴 표정 데이터베이스 (Korean Emotional Speech and Facial Expression Database for Emotional Audio-Visual Speech Generation)

  • 백지영;김세라;이석필
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.71-77
    • /
    • 2022
  • 본 연구에서는 음성 합성 모델을 감정에 따라 음성을 합성하는 모델로 확장하고 감정에 따른 얼굴 표정을 생성하기 위한 데이터 베이스를 수집한다. 데이터베이스는 남성과 여성의 데이터가 구분되며 감정이 담긴 발화와 얼굴 표정으로 구성되어 있다. 성별이 다른 2명의 전문 연기자가 한국어로 문장을 발음한다. 각 문장은 anger, happiness, neutrality, sadness의 4가지 감정으로 구분된다. 각 연기자들은 한 가지의 감정 당 약 3300개의 문장을 연기한다. 이를 촬영하여 수집한 전체 26468개의 문장은 중복되지 않으며 해당하는 감정과 유사한 내용을 담고 있다. 양질의 데이터베이스를 구축하는 것이 향후 연구의 성능에 중요한 역할을 하므로 데이터베이스를 감정의 범주, 강도, 진정성의 3가지 항목에 대해 평가한다. 데이터의 종류에 따른 정확도를 알아보기 위해 구축된 데이터베이스를 음성-영상 데이터, 음성 데이터, 영상 데이터로 나누어 평가를 진행하고 비교한다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

고음질 운율조절용 시간-주파수 혼성영역 피치변경법 (On a Pitch Alteration Technique in Time-Frequency Hybrid Domain for High Quality Prosody Control of Speech Signal)

  • 이상효;배명진
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.106-109
    • /
    • 1997
  • 음성합성분야에서 파형부호화 합성방식은 합성음의 자연성과 명료성을 유지할 수 있다. 그렇지만 법칙에 의한 합성방식에 적용하려고 하면 운율조절을 위해 음성의 피치를 변경해야만 한다. 우리는 본 논문에서 시간영역에서 시간축조절 피치변경법에 의해 켑스트럼 피치변경법의 위상왜곡을 보상하는 시간-주파수 혼성형 피치변경법을 새로이 제안하였다. 이 방법은 연속 프레임에서 파형들간의 연결점에서 유발될 수 있는 위상스펙트럼 왜곡을 제거할 수 있고, 또한 200%의 피치변경에 대해서도 진폭스펙트럼의 왜곡이 1.18% 이하인 성능을 얻었다.

  • PDF

다중신호처리를 이용한 인터렉티브 시스템 (Interactive System using Multiple Signal Processing)

  • 김성일;양효식;신위재;박남천;오세진
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.282-285
    • /
    • 2005
  • This paper discusses the interactive system for smart home environments. In order to realize this, the main emphasis of the paper lies on the description of the multiple signal processing on the basis of the technologies such as fingerprint recognition, video signal processing, speech recognition and synthesis. For essential modules of the interactive system, we adopted the motion detector based on the changes of brightness in pixels as well as the fingerprint identification for adapting home environments to the inhabitants. In addition, the real-time speech recognizer based on the HM-Net(Hidden Markov Network) and the speech synthesis were incorporated into the overall system for interaction between user and system. In experimental evaluation, the results showed that the proposed system was easy to use because the system was able to give special services for specific users in smart home environments, even though the performance of the speech recognizer was not better than the simulation results owing to the noisy environments.

  • PDF

인지에 중요한 음향신호의 위상에 대해 (On the Perceptually Important Phase Information in Acoustic Signal)

    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.28-33
    • /
    • 2000
  • 음성 신호의 효과적인 양자화를 위해서 인간의 청각 인지 특성을 이용하는 방법이 널리 사용되고 있다. 그러나 아직까지는 음성 스펙트럼의 크기 정보에 대한 인지 특성만을 이용하고 있을 뿐, 음성의 위상 정보는 그 중요성에 비해 간과되어 온 것이 사실이다. 본 논문에서는, 음향 신호로부터 청각 인지 측면에서 관련 없는 위상 성분을 추정하는 PIPE(Perceptually Irrelevant Phase Elimination) 방법을 제안하였다. 제안된 방법은 청각 특성이 critical band 대역 내의 상대적인 위상 관계에 민감하다는 관측 결과에 근거하여, 일반적인 stationary 푸리에(Fourier) 신호와 고조파(harmonic) 신호에 대해 각각 인지 측면에서 관련 없는 위상을 판별하는 방법을 제공한다. 제안된 방법을 음성 분석-합성(analysis / synthesis) 시스템에 적용함으로써 일부 위상 정보만을 이용해 음성을 복원하였으며, 청취 실험 결과 제안된 방법의 효율성을 알 수 있었다.

  • PDF