• Title/Summary/Keyword: 자연음

Search Result 228, Processing Time 0.023 seconds

Pause Predictor for Korean Text-to-Speech conversion (한국어 음성합성기용 끊어읽기 추정기)

  • 이정철;김상훈;성굉모
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.5
    • /
    • pp.51-56
    • /
    • 1998
  • 문장내 휴지구간의 위치와 길이는 합성음의 자연성을 결정짓는 주요 운율 파라미터 중 하나이다. 본 연구에서는 한국어 음성합성기의 합성음 생성에서 자연성 개선을 위해서 문장내 끊어읽기 위치 및 길이를 추정하기 위한 방법을 제안한다. 먼저 실제 발화에서 끊어 읽기가 발생하는 요인을 검토하였다. 그리고 이들 요인에 부합하여 텍스트에 4단계의 끊어 읽기를 표기함으로써 다량의 데이터를 확보하고 이를 이용한 NN 학습 결과와 HMM 추정 기의 성능을 비교 검토한다. 현재까지의 결과로는 NN 학습의 경우 끊어읽기 없는 경우와 긴 끊어읽기의 추정에서는 우수한 예측능력을 보이지만 짧은 끊어읽기, 중간 끊어읽기의 경 우는 HMM의 성능이 우수한 것으로 판명되었다. 전반적인 성능에서는 HMM이 우수하며 끊어읽기 종류에 따라 추정오차가 10∼25%로서 안정적인 결과를 얻었으며 TTS에의 활용 가능성을 보였다.

  • PDF

The Modeling of Pause Duration For Text-To-Speech Synthesis System (TTS 시스템을 위한 휴지기간 모델링)

  • Chung Jihye;Lee Yanhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

The Prosodic characteristics of Subjective Particles of Korean - With Respect to Discourse Function - (한국어 주어자리 조사의 운율적 특징 - 담화기능과 관련하여 -)

  • 성철재
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.409-412
    • /
    • 1998
  • 본 논문의 목적은 자연음에 가까운 합성음을 구현하기 위한 기초작업으로 한국어의 운율구조를 담화구조와 연관시켜 그 상관관계를 밝히는데 있다. 특히 문장내에서 주격표지로 작용하는 '이/가/은/는' 조사의 운율패턴에 중점을 두었다. 주어가 문장 내에서 어떤 자리에 오는가에 의해 조사어절을 구분해 본 결과 Fo값은 문장의 뒤, 즉 동사 앞 위치로 갈수록 낮아졌다. 중립적 문장에서 문두의 위치라면 '은/는' 조사의 기본주파수가 두드러짐이 예상되며, 이와 상대적으로, 담화가 구성되어 의사소통의 의미가 많이 가미될수록 '은/가' 조사의 두드러짐이 예상된다고 정리해 볼 수 있다. 운율구 경계의 발생은 특정한 문장성분의 전.후에서 주로 나타나는데 절이나 독립어 뒤에서, 그리고 부사어, 관형어, 목적어 앞에서 빈번히 일어남을 알 수 있었다.

  • PDF

A Study on the Korean Text-to-Speech Using Demisyllable Units (반음절단위를 이용한 한국어 음성합성에 관한 연구)

  • Yun, Gi-Sun;Park, Sung-Han
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.27 no.10
    • /
    • pp.138-145
    • /
    • 1990
  • This paper present a rule-based speech synthesis method for improving the naturalness of synthetic speech and using the small data base based on demisyllable units. A 12-pole Linear Prediction Coding method is used to analyses demisyllable speech signals. A syllable and vowel concatenation rule is developed to improve the naturalness and intelligibility of the synthetic speech. in addiion, phonological structure transform rule using neural net and prosody rules are applied to the synthetic speech.

  • PDF

Implementation of The Audio for HiMCS System (지능형 고품질 서비스를 위한 오디오 개발)

  • 송재종;이석필;장세진
    • Proceedings of the IEEK Conference
    • /
    • 2003.11a
    • /
    • pp.77-80
    • /
    • 2003
  • 본 논문에서는 디지털방송과 인터넷의 융합에 따른 MPEG-2/4/7 방송 및 인터넷 콘텐츠를 비롯한 게임등과 같은 다양한 멀티미디어 서비스를 제공하기 위한 차세대 지능형 고품질 홈 엔터테인먼트 시스템 Platform 개발에서 사용될 MPEG-4 오디오를 개발한다. 인터넷 상에서의 스트리밍 서비스를 위해서는 저 전송률과 고 품질의 비디오/오디오 알고리즘이 필요하다. 이러한 서비스를 제공하기 위하여 MPEG-4 오디오는 음성에서 고품질의 다중 채널의 오디오까지, 그리고 자연음(Natural Sound)에서 합성음에 이르기까지 다양한 알고리즘을 제공한다. 본 논문에서는 지능형 고품질 미디어 에이전트 시스템에 적합한 MPEG-4 AAC, MPEG-1 Layer-3인 MP3, G.723.1을 구현하고, 이 시스템에 알맞은 7㎑ 대역폭을 가지는 광대역(Wideband) 음성신호를 16kbps로 압축하는 음성 압축기를 제안 및 개발한다.

  • PDF

음성합성을 위한 분절음 길이예측 모델링

  • 정현성
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.236-236
    • /
    • 2003
  • 음성합성을 위한 운율연구는 실험음성학과 음성공학 분야에서 활발히 이루어져 왔고, 가시적인 성과도 거두어 왔다. 최근 운율의 자연성을 향상시키기 위한 노력은 corpus-based unit selection에서와 같이, 대단위 음성자료에 의존하게 되면서 급격한 자연성의 향상을 가져온 것이 사실이지만, 여전히 새로 주어진 자료에 대해서 부자연스러운 운율을 극복해야 한다는 과제를 안고 있다. 이 논문은 길이, 억양, 에너지 등의 운율요소 가운데, 우선적으로 분절음의 길이에 초점을 두고, 대규모 음성자료를 바탕으로 한 자료기반형 길이예측모델을 지양하고 언어학적 지식과 언어자질을 이용한 지식기반형 길이예측모델을 제시하고자 한다. 모델링을 위한 방법으로는, 기본적으로 자료기반형 모델링 기법이지만 언어자질을 이용한 길이예측이 가능한 Classification and Regression Tree (CART) 모델링과 전통적인 지식기반형 모델링인 sequential rule systems을 확대시킨 Sums-of-Products 모델링을 사용한다. (중략)

  • PDF

A Questionnaire Research on the Subjective Sound Recognition (주관적 소리인식에 관한 설문조사 연구)

  • Shin, Yong-Gyu;Shin, Hoon;Kook, Chu
    • Transactions of the Korean Society for Noise and Vibration Engineering
    • /
    • v.15 no.5 s.98
    • /
    • pp.558-563
    • /
    • 2005
  • This research aims to derive the general emotion and preference of the 25 sounds by using the questionnaire method to provide the contents for the soundscape design fit to the characteristics of the given situation. The results can be summarized as follows : Nature sounds except dog barking and locust crying showed highest preference, and the traffic sounds, baby crying and footstep of upper floor showed the lowest. Hereby, the sound recognition can be different each other according to quality of tone and situation even they are the same sounds. The most impressive, wanted to be conserved and retrospective sound was the nature sound, and the most wanted to be removed sound was the machinery sound. And the social sound was shown as the most korean and fit to the art theme street.

Realtime Synthesis of Virtual Faces with Facial Expressions and Speech (표정짓고 말하는 가상 얼굴의 실시간 합성)

  • 송경준;이기영;최창석;민병의
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.8
    • /
    • pp.3-11
    • /
    • 1998
  • 본 논문에서는 고품질의 얼굴 동영상과 운율이 첨가된 음성을 통합하여 자연스런 가상얼굴을 실시간으로 합성하는 방법을 제안한다. 이 방법에서는 한글 텍스트를 입력하여, 텍스트에 따라 입모양과 음성을 합성하고, 얼굴 동영상과 음성의 동기를 맞추고 있다. 먼저, 텍스트를 음운 변화한 후, 문장을 분석하고 자모음사이의 지속시간을 부여한다. 자모음과 지 속시간에 따라 입모양을 변화시켜 얼굴 동영상을 생성하고 있다. 이때, 텍스트에 부합한 입 모양 변화뿐만 아니라, 두부의 3차원 동작과 다양한 표정변화를 통하여 자연스런 가상얼굴 을 실시간으로 합성하고 있다. 한편, 음성합성에서는 문장분석 결과에 따라 강세구와 억양구 를 정하고 있다. 강세구와 억양구를 이용하여 생성된 운율모델이 고품질의 음성합성에 필요 한 지속시간, 억양 및 휴지기를 제어한다. 합성단위는 무제한 어휘가 가능한 반음절과 triphone(VCV)의 조합이며, 합성방식은 TD-PSOLA를 사용한다.

  • PDF

A questionnaire research on the subjective sound recognition (주관적 소리인식에 관한 설문조사 연구)

  • Shin, Yong-Gyu;Jang, Gil-Su;Kook, Chan
    • Proceedings of the Korean Society for Noise and Vibration Engineering Conference
    • /
    • 2004.11a
    • /
    • pp.806-809
    • /
    • 2004
  • This research aims to derive the general emotion and preference of the 25 sounds by using the questionnaire method to provide the contents for the soundscape design fit to the characteristics of the given situation. The results can be summarized as follows; Nature sounds except dog barking and locust crying showed highest preference, and the traffic sounds, baby crying and footstep of upper floor showed the lowest. Hereby, the sound recognition can be different each other according to quality of tone and situation even they are the same sounds. The most impressive, wanted to be conserved and retrospective sound was the nature sound, and the most wanted to be removed sound was the machinery sound. And the social sound was shown as the most korean and fit to the art theme street.

  • PDF

Two-photon resonance condition in Three level Atomic System (3준위 원자계에서 2광자 공진 조건)

  • Park, Jong-Dae;Cho, Chang-Ho
    • The Journal of Natural Sciences
    • /
    • v.12 no.1
    • /
    • pp.23-30
    • /
    • 2002
  • Atomic coherences induced by the interaction with light provide new physical properties and optical phenomena. Even though two-photon resonances play important roles in build-up of atomic coherences, only approximate formula for two-photon resonance condition has often been used. In this paper, we present the more accurate two-photon resonance condition and confirm it using numerical simulation. We also studied the effects of laser frequency detuning and intensity on the two-photon resonance .

  • PDF