• Title/Summary/Keyword: 합성된 음성

검색결과 695건 처리시간 0.038초

음성합성시 에너지 정규화가 음질에 미치는 영향 (Effect of Energy Normalization on the Quality of Synthetic Speech)

  • 정은석;최의선;이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.95-98
    • /
    • 1998
  • 본 논문에서는 코퍼스 기반 음성합성시 각 음성 세그머트의 에너지 정규화가 합성된 음성의 음질에 미치는 영향에 대하여 연구한다. 음성합성에 사용되는 음성 세그먼트를 실제 자연 음성 데이터로부터 추출된 것으로 다양한 발음세기를 가진다. 따라서 이들을 조합하여 만든 합성음성의 음질은 일반적으로 음량이 고르지 못하고 듣기에 부자연스럽다. 이러한 문제를 해결하기 위해 음성합성시 음성 세그먼트의 에너지를 정규화하는 방법을 제안하고 정규화방법으로 최대진폭 정규화방식을 사용하였다. 녹음환경이 비교적 일정한 코퍼스와 그렇지 않은 환경에서 녹음된 코퍼스를 사용하여 정규화 없이 합성한 음성의 음질과 정규화를 거쳐서 합성한 음성의 음질을 비교한다. 실험결과 음성 세그먼트의 에너지를 정규화한 경우 합성음성의 음질이 개선되었다.

  • PDF

지속시간 변경에 의한 다중음성 합성에 관한 연구 (A Study on the Multiple-Speech Synthesis using the Duration Control)

  • 김명;서지호;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.97-100
    • /
    • 2004
  • 다중음성 합성시스템은 단일 화자의 음성을 입력받아 다양한 음색의 다중음성으로 합성을 해주는 음성합성 시스템이다. 기존의 다중음성 합성시스템의 출력인 다중 합성음은 피치만 변경된 음성으로 원 음성과 동일한 지속시간을 갖게 된다. 따라서 피치 변경된 음성간의 구분이 어렵게 되며 이러한 사항을 개선하고자 본 논문에서는 피치와 지속시간 변경에 의한 다중음성 합성시스템에서 관한 연구를 하였다. 본 논문에서는 시간 영역에서의 지속시간 변경법인 PSOLA방식을 적용하여 피치 변경된 음성의 지속시간을 변경하였다. 지속시간 변경을 적용한 다중음성 합성시스템을 이용하면 한 사람의 음원 목소리로 여러 사람이 응원하는 효과음을 낼 수 있는 합성기로 사용할 수 있고 영화의 효과음, 핸드폰의 음성 메시지 서비스 등에서 용이하게 사용될 것으로 예상하고 있다.

  • PDF

한소리 : 무제한 음성합성시스팀 (HanSoRi : an Unlimited Synthesis System)

  • 김응인
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.342-345
    • /
    • 1994
  • 본 논문에서는 무제한단어 음성합성 시스템인 한소리에 대해서 간략히 기술하고 청취실험을 통한 성능평가에 대해 논한다. 음성합성시스템의 음질을 결정하는 주요 요소들은 합성의 기본단위, 합성방법, 음운학적 전처리방법 및 운율조절방법이다. 한소리 합성시스템은 반음소를 음성합성의 기본단위로 하고, 형식형태소를 이용 음성학적 전처리를 실행하며, 개선된 한국어 운율조절방법이 적용되고, 음성단편조합방식을 합성방식을 사용한다. 청취실험결과 매우 한소리 합성시스템의 합성음이 자연스러움을 알 수 있다.

  • PDF

다양한 발성에 따른 다중음성 합성 시스템 (Mutiple-Speech Synthesis System according to Various Utterance)

  • 박현영;김명;배명진
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2003년도 추계학술대회 논문집
    • /
    • pp.151-154
    • /
    • 2003
  • 음성 합성이란 기계적인 장치나 전지회로 또는 컴퓨터 모의를 이용하여 자동으로 음성파형을 생성해 내는 것으로 정의한다. 음성 합성에 대한 연구는 다른 음성에 관련된 기술들보다 가장 먼저 연구된 기술이다. 음성 합성기는 PC의 보급이 확대되고 통신 시장이 컴짐에 따라 그 응용 분야가 점차 확대되어 가고 다양한 방식의 음성 합성 기법에 관한 연구가 이루어지고 있다. 일반적으로 자연스러운 대화를 할 때나 글을 읽을 때의 음성에는 퍼지, 지속시간, 에너지 등의 운율 정보가 포함되어 있다. 따라서, 문장을 합성하는 경우 운율정보를 합성음에 반영하면 보다 명확한 의미 전달과 다양한 발성변환이 가능해 진다. 본 논문에서는 시간영역에서 PSOLA 합성방식에 의한 피치 변경과 지속시간 변경을 이용하여 다양한 발성변환에 따른 다중음성 합성기를 구현하였다.

  • PDF

인식 및 합성용 음성 코퍼스의 발성 목록 설계 (Design of the Linguistic Contents of Speech Corpus for Speech Recognition and Synthesis)

  • 김형주;김봉완;이용주
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(상)
    • /
    • pp.330-335
    • /
    • 2002
  • 최근 컴퓨터와 인간간의 대화 수단으로 음성을 활용하는 기술인 음성정보기술이 발달함에 따라 대어휘 연속 음성 인식 및 무제한 어휘 음성 합성의 고도화를 위한 연구가 진행되고 있다. 음성 인식의 경우 HMM으로 대표되는 통계적 수법의 발달에 따라 시스템의 학습을 위해 대량의 음성데이터가 필요하며, 음성 합성의 경우에도 최근 대형의 음성 데이터 베이스로부터 임의 길이의 음성 부분을 골라내어 접속함으로써 좋은 합성 품질을 얻고 있다. 본 논문에서는 이러한 음성 인식 및 합성을 위해 공동으로 사용하기 위한 음성 데이터베이스의 발성 목록을 설계하고 설계된 결과에 대하여 논의한다.

  • PDF

연속 음성으로부터 추출한 CVC 음성세그먼트 기반의 음성합성 (Speech Synthesis Based on CVC Speech Segments Extracted from Continuous Speech)

  • 김재홍;조관선;이철희
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.10-16
    • /
    • 1999
  • 본 논문에서는 설계하지 않은 연속 음성 코퍼스로부터 추출된 CVC 음성 세그먼트를 사용하는 연결 기반 음성 합성기를 제안한다. 연속 음성은 각 음운간의 상호조음효과가 비교적 잘 반영되고, 자연스러운 억양 변화를 포함하고 있으므로 이를 적절하게 활용할 수 있는 합성 단위를 선택하면 자연스런 음성합성이 가능하다. 여러 가지 합성단위 가운데 CVC 합성 단위는 자음의 안정 부분에서 접속이 일어나므로 연결부에서의 음질 저하가 적고, 전후 자음과 모음간의 조음 현상을 잘 반영하는 장점이 있다. 본 논문에서는 CVC 합성 단위를 사용하는 경우 나타나는 문장 세그먼트들의 조합을 4가지로 분류하여 각각의 통계적 특성과 합성음성의 품질을 분석하고, CVC에 근거한 새로운 복합 합성 단위를 사용하는 방식을 제안한다. 제안된 방식을 사용하여 설계하지 않은 연속 음성 코퍼스로부터 CVC 음성 세그먼트를 추출하여 다양한 예제 문장을 합성하였다. 만일 필요한 CVC 음성 세그먼트가 음성 코퍼스에 존재하지 않는 경우 반음절 음성 세그먼트로 대치하여 합성하였다. 실험 결과 약 100 Mbytes의 연속 음성 코퍼스로 비교적 자연스러운 음성합성이 가능함을 알 수 있었다.

  • PDF

분산형 시스템을 적용한 음성합성에 관한 연구 (A Study on Speech Synthesizer Using Distributed System)

  • 김진우;민소연;나덕수;배명진
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.209-215
    • /
    • 2010
  • 최근 광대역 무선 통신망의 보급과 소형 저장매체의 대용량화로 인하여 이동형 단말기가 주목 받고 있다. 이로 인해 이동형 단말기에 문자정보를 청취할 수 있도록 문자를 음성으로 변환해 주는 TTS(Text-to-Speech) 기능이 추가되고 있다. 사용자의 요구사항은 고음질의 음성합성이지만 고음질의 음성합성은 많은 계산량이 필요하기 때문에 낮은 성능의 이동형 단말기에 는 적합하지 않다. 본 논문에서 제안하는 분산형 음성합성기 (DTTS)는 고음질 음성합성이 가능한 코퍼스 기반 음성합성 시스템을 서버와 단말기로 나누어 구성한다. 서버 음성합성 시스템은 단말기에서 전송된 텍스트를 데이터베이스 검색 후 음성파형 연결정보를 생성하여 단말기로 전송하고, 단말기 음성합성 시스템은 서버 음성합성 시스템에서 생성된 음성파형 연결정보와 단말기에 존재하는 데이터베이스를 이용하여 간단한 연산으로 고음질 합성음을 생성할 수 있는 시스템이다. 제안하는 분산형 합성기는 단말기에서의 계산량을 줄여 저가의 CPU 사용, 전력소모의 감소, 효율적인 유지보수를 할 수 있도록 하는 장점이 있다.

가변 운율 모델링을 이용한 고음질 감정 음성합성기 구현에 관한 연구 (A Study on Implementation of Emotional Speech Synthesis System using Variable Prosody Model)

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제14권8호
    • /
    • pp.3992-3998
    • /
    • 2013
  • 본 논문은 고음질의 대용량 코퍼스 기반 음성 합성기에 감정 음성 코퍼스를 추가하여 보다 다양한 합성음을 생성할 수 있는 방법에 관한 것이다. 파형 접합형 합성기에서 사용할 수 있는 형태로 감정 음성 코퍼스를 구축하여 기존의 일반 음성 코퍼스와 동일한 합성단위 선택과정을 통해 합성음을 생성할 수 있도록 구현하였다. 감정 음성 합성을 위해 태그를 사용하여 텍스트를 입력하고, 억양구 단위로 일치하는 데이터가 존재하는 경우 감정 음성으로 합성하고, 그렇지 않은 경우 일반 음성으로 합성하도록 하였다. 그리고 음성에서 운율을 구성하는 요소로 휴지기(break)가 있는데, 감정 음성의 휴지기는 일반 음성보다 불규칙한 특성이 있다. 따라서 합성기에서 생성되는 휴지기 정보를 감정 음성 합성에 그대로 사용하는 것이 어려워진다. 이 문제를 해결하기 위해 가변 휴지기(Variable break)[3] 모델링을 적용하였다. 실험은 일본어 합성기를 사용하였고, 그 결과 일반 음성의 휴지기 예측 모듈을 그대로 사용하면서 자연스러운 감정 합성음을 얻을 수 있었다.

음성정보처리기술 응용서비스

  • 구명완;김재인
    • 정보처리학회지
    • /
    • 제11권2호
    • /
    • pp.17-24
    • /
    • 2004
  • 음성정보처리 기술은 사람의 말을 음향, 언어, 심리학 및 공학적인 측면에서 연구하여 사람과 기계사이의 인터페이스를 자연스럽게 하는 것을 목표로 하고 있으며, 음성인식, 음성합성 및 언어처리 기술로 이루어져 있다. 음성인식기술이란 사람의 말을 이해하는 것뿐만 아니라 화자를 식별하고 인증하는 기술도 포함하고 있으며, 음성합성 기술이란 문자로부터 음성을 생성하는 기술을 의미한다. 그리고 언어처리 기술은 음성인식, 음성합성기술 속에 포함될 수 있으나 최근 마크업 언어를 활용하여 음성인식, 합성 등을 제어하는 경향이 도래함에 따라 언어처리 기술을 따로 분류하기도 한다[1][2].(중략)

  • PDF

제한된 고음질 음성 합성용 DB 압축법에 관한 연구 (A Study on the Compression Method for Restricted DB in High Quality Speech Synthesis)

  • 박형빈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.265-268
    • /
    • 1998
  • 일반적으로 음성 합성용 데이터 베이스에서는 고음질을 유지할 수 있는 파형 부호화법을 주로 사용한다. 그것은 파형 부호화법이 발성자의 개성과 메시지 정보를 보존하기 때문에 음질의 명료성이 우수하기 때문이다. 그러나 기존에는 파형 부호화법을 적용해서 음성 파형 자체의 잉여성분만을 제거한 후 합성용 데이터 베이스로 사용하기 때문에 음성 합성용 데이터 베이스의 크기가 커지는 단점을 가진다. 따라서 본 논문에서는 이러한 단점을 극복하기 위해서 기존의 운율조절법을 통해서 음성 합성용 데이터 베이스를 압축하는 방법을 제안한다. 결과적으로 제안한 방법을 사용함으로써 고음질을 갖는 음성 합성용 데이터 베이스를 가질 수 있었고 데이터 베이스의 크기도 줄일 수 있었다.

  • PDF