• 제목/요약/키워드: Speech Synthesis

검색결과 381건 처리시간 0.021초

음성인식 및 합성을 이용한 십자말 게임의 구현 (An Implementation of Crossward Game using Speech Recognition and Synthesis System)

  • 김동주;윤재선;이용주;김동환;홍광석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.29-32
    • /
    • 2001
  • 본 논문에서는 연구실에서 만든 음성인식기와 합성기를 이용하여 십자말 게임을 구현하였다. 십자말 게임에는 고사성어 600개 정도의 단어가 사용되었으며, 다른 영역별 사전을 추가 할 수 있도록 만들어졌다. 구현된 게임은 시작, 진행 등의 모든 과정이 음성으로 동작하며, 부과적인 정보는 음성 합성(TTS)에 의해 이루어진다. 십자말 게임에 사용되는 단어의 배열은 매번 랜덤하게 선택되도록 구성되며, 음성 인식기는 VCCV (Vowel + Consonant + Consonant + Vowel) 기반의 화자독립으로 구현되었다. 선택된 문제에 대한 설명은 텍스트로 보여주면서, 동시에 TTS 시스템에 의해 음성으로 출력된다.

  • PDF

켑스트럼 파라미터와 다중대역 여기신호를 사용한 음성 합성 시스팀 (A Speech Synthesis System based on Cepstral Parameters and Multiband Excitation Signal)

  • 김기순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.211-215
    • /
    • 1995
  • 명료하고 자연스러운 한국어 음성을 생성하기 위하여 다중대역 여기신호를 이용한 음성 합성 시스팀을 제안한다. 분석계에서는 켑스트럼 파라미터를 사용하여 유성/무성 판별 스펙트럼을 이용한 유/무성 구간 자동판별법을 제안하고, 현재 단순 임펄스와 백색잡음만으로도 구성된 음원과 간단한 유성/무성 판별로 구동되어지는 합성음의 음질상의 한계를 개선하기 위하여 합성계에서는 음질개선 방안으로 유성음 구동시 다중대역 여기신호를 도입하여 합성시 이용한다. 제안된 방법에 대한 청취실험을 한 결과, 유성음 부분 특히 잡음이 많이 섞여 있는 유성음화 마찰음과 모음의 천이부분 등에서 일반적으로 사용되고 있는 간단한 유성/무성 파라미터를 사용한 합성음에 비하여 다중대역 여기신호를 사용한 합성음의 명료도가 매우 우수함을 확인하였다.

  • PDF

가변합성단위를 사용한 문서 음성 변환 시스템 (Text-to-Speech System Using Variable Synthesis Units)

  • 조관선;이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.99-102
    • /
    • 1998
  • 본 논문에서는 자연스러운 음성을 합성하기 위해 가변합성단위를 사용한 합성시스템을 제안한다. 음소나 diphone과 같은 작은 단위를 사용하는 기존의 시스템은 음성세그먼트 연결시 접속점이 많아지는 단점이 있다. 반면에 단어나 복합음소와 같이 큰 단위를 사용할 경우 접속점의 수가 감소하여 음질이 향상되지만 단위수 증가로 무제한 합성이 어려워진다. 이러한 문제를 해결하기 위하여 본 논문에서는 접속점의 수를 줄이고 적정한 크기의 메모리로 향상된 음질을 얻기 위한 방법으로 어절 및 CVC와 같은 큰 단위와 반음절과 같은 작은 단위를 선택적으로 사용하여 음성을 합성한다. 실험은 특정문장을 대상으로 각각 반음절, CVC로 합성한 음성과 이들을 어절과 혼합하여 합성한 음성을 비교하였으며 그 결과 가변단위를 사용하여 합성한 음성이 비교적 자연스러움을 알 수 있었다.

  • PDF

FVQ(Fuzzy Vector Quantization) 사상화에 의한 화자적응 음성합성 (Speaker-Adaptive Speech Synthesis by Fuzzy Vector Quantization Mapping)

  • 이진이;이광형
    • 한국지능시스템학회논문지
    • /
    • 제3권4호
    • /
    • pp.3-20
    • /
    • 1993
  • 본 연구에서는 퍼지사상화(fuzzy mapping)에 의한 사상된(mapped) 코드북을 사용하는 화자적은 음성합성 알고리즘을 제안한다. 입력화자와 기준화자의 코드북은 신경망 클러스터링 알고리즘인 자율경쟁 학습을 사용하여 작성된다. 사상된 코드북은 입력 음성벡터에 대한 두 화자의 대응 코드벡터의 소속갑(membership value)으로 퍼지 히스토그랩을 작성하여 이들을 1차 결합함으로써 얻어지는 퍼지사상화에 의하여 작성된다. 음성합성시에는 사상된 코드북을 사용하여 입력화자의 음것을 퍼지 벡터양자화한 다음, CFM 연산으로 합성함으로써 입력화자에 적응된 합성음을 얻는다. 실험에서 여러 입력화자로 30대의 남성, 20대의 여성음을 사용하였고 기준음석으로 입력음성과는 다른 20대의 여성음성을 사용하였다.실험에 사용된 음성데이타는 문장/안녕하십니까/와/굿모닝/이다. 실험결과는 각각의 입력화자에 기준화자 음성이 적응된 합성음을 얻었다.

  • PDF

담화표지의 음성언어적 특성과 음성합성 시스템에서의 활용 (Characteristics of Spoken Discourse Markers and their Application to Speech Synthesis Systems)

  • 이호준;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.254-260
    • /
    • 2007
  • 음성은 컴퓨터로 대변되는 기계와 사람 그리고 기계를 매개로 한 사람과 사람의 상호작용에서 가장 쉽고 직관적인 인터페이스로 널리 활용되고 있다. 인간에게 음성정보를 제공하는 음성합성 분야에서는 합성결과의 자연스러움과 인식성이 시스템의 주요 평가요소로 활용되고 있는데 이러한 자연스러움과 인식성은 합성결과의 정확성뿐만 아니라 발화환경이나 발화자의 발화특징 혹은 감정상태 등에 의해 많은 영향을 받게 된다. 담화표지는 문장의 명제 내용에는 직접 관여하지 않으면서 화자의 발화 의도나 심리적 태도를 전달하는 구성 요소를 말하는데 본 논문에서는 담화표지가 포함된 대화 음성 데이터를 수집하여 담화표지의 음성언어적인 특징을 분석하고 분석된 결과를 음성합성 시스템에 활용하는 표현방식에 대해 논의한다.

  • PDF

한국어 음성 합성을 이용한 이메일 매니저 (Using of The Korean Language Voice Synthesis For E-Mail Manager System)

  • 조규상;이영훈;이병렬;서대영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.266-270
    • /
    • 2009
  • IT 관련 산업의 발전에 의한 저변의 확대로 장애우들의 IT 사용 수요가 늘고 있다. 본 논문에서는 IT분야에서 가장 기초적으로 활용되는 E-Mail을 시각 장애우가 활용 하는 데에 불편함이 없도록 하는 이메일 매니저 개발에 관련된 기법에 대해 논하고자 한다. TTS(Text-To Speech : 문자 텍스트를 음성으로 전환하여 들려줌)와 음성키보드(키보드 입력 시 입력한 문자를 음성으로 알려줌) 기능으로 시각 장애우가 이메일을 사용함에 있어 불편함을 느끼지 않도록 하였으며 본 시스템의 TTS 알고리즘은 국어 표준발음법을 참고로 하여 자바로 구현 하였다.

  • PDF

PSOLA 전처리과정을 이용한 G.723.1 보코더의 전송률 감소에 관한 연구 (On a Study of the Reduction of Bit Rate by the Preprocessing of PSOLA Coding Technique in the G. 723.1 Vocoder)

  • 장경아;조성현;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.401-404
    • /
    • 2002
  • In general, speech coding methods are classified into the following three categories: the waveform coding, the source coding and the hybrid coding. In this paper, First, the reference waveform is detected after searching the pitch period by NAMDF similarity and similarity between the reference waveform and the waveform each pitch period. It made a decision whether the waveform is compressed with the threshold of similarity. If the waveform is compressed only magnitude and pitch information is transmitted into the input of G.723.1 vocoder. Performing through the G.723.1 vocoder, the waveform is restored with the magnitude and pitch information by PSOLA synthesis method. The result of simulation with proposed algorithm has a 31% reduction of bit rate than the standard 5.3kbps G.723.1 ACELP vocoder.

  • PDF

Switched Capacitor Filter를 이용한 한국어자음합성에 관한 연구 (A Study on the Korean Consonants Synthesis using Switched-Capaciter Filter)

  • 이영훈;이대영
    • 한국통신학회논문지
    • /
    • 제9권1호
    • /
    • pp.30-38
    • /
    • 1984
  • 本論文에서는 中心周波數를 클럭周波數에 의해 線型的으로 변화시킬 수 있고 選揮度와 最大利得은 캐패시터 array에 의해 디지틀信號로 制擧할 수 있는 프로그램 可能한 2次SC filter를 構成하였다. 또한 이 filter를 이용하여 formant音聲合成시스템을 構成하고 韓國誤子音을 合成함으로써 이 filter를 가지고 韓國語의 대부분이 吟聲을 實時間으로 合成할 수 있다는 可能性을 보였다.

  • PDF

표정짓고 말하는 가상 얼굴의 실시간 합성 (Realtime Synthesis of Virtual Faces with Facial Expressions and Speech)

  • 송경준;이기영;최창석;민병의
    • 한국음향학회지
    • /
    • 제17권8호
    • /
    • pp.3-11
    • /
    • 1998
  • 본 논문에서는 고품질의 얼굴 동영상과 운율이 첨가된 음성을 통합하여 자연스런 가상얼굴을 실시간으로 합성하는 방법을 제안한다. 이 방법에서는 한글 텍스트를 입력하여, 텍스트에 따라 입모양과 음성을 합성하고, 얼굴 동영상과 음성의 동기를 맞추고 있다. 먼저, 텍스트를 음운 변화한 후, 문장을 분석하고 자모음사이의 지속시간을 부여한다. 자모음과 지 속시간에 따라 입모양을 변화시켜 얼굴 동영상을 생성하고 있다. 이때, 텍스트에 부합한 입 모양 변화뿐만 아니라, 두부의 3차원 동작과 다양한 표정변화를 통하여 자연스런 가상얼굴 을 실시간으로 합성하고 있다. 한편, 음성합성에서는 문장분석 결과에 따라 강세구와 억양구 를 정하고 있다. 강세구와 억양구를 이용하여 생성된 운율모델이 고품질의 음성합성에 필요 한 지속시간, 억양 및 휴지기를 제어한다. 합성단위는 무제한 어휘가 가능한 반음절과 triphone(VCV)의 조합이며, 합성방식은 TD-PSOLA를 사용한다.

  • PDF

웨이블릿 변환을 이용한 음성신호의 AbS/OLA 정현파 모델링 (AbS/OLA Sinusoidal Modeling of Speech Signal Using Wavelet Transform)

  • 김기홍;홍진근;정용익;이상이
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 추계학술대회
    • /
    • pp.114-117
    • /
    • 2004
  • 본 논문에서는 합성에 의한 분석(Analysis-by-Synthesis) 및 가산중첩(Overlap-Add) 방식을 채택하고 있는 음성신호의 AbS/OLA 정현파 모델에 웨이블릿 변환을 적용한 새로운 모델을 제안하였다. 즉, 기존의 모델에 웨이블릿 변환을 적용하여 입력신호를 몇 개의 부대역 신호로 나눈 다음 각각 다른 길이의 분석 윈도우를 적용한다. 이는 기존 모델의 정현파 파라미터 추출 시 고정된 길이의 분석 윈도우를 이용하는 단점을 극복하여 좀 더 정확한 파라미터 추출을 가능하게 한다. 시험결과 제안된 정현파 모델이 기존 모델에 비해 합성음의 스펙트럼 및 위상 특성, 음질 등에서 성능이 개선됨을 확인할 수 있었다.

  • PDF