• Title/Summary/Keyword: 음합성

Search Result 333, Processing Time 0.025 seconds

A Speech Synthesis System based on Cepstral Parameters and Multiband Excitation Signal (켑스트럼 파라미터와 다중대역 여기신호를 사용한 음성 합성 시스팀)

  • 김기순
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.211-215
    • /
    • 1995
  • 명료하고 자연스러운 한국어 음성을 생성하기 위하여 다중대역 여기신호를 이용한 음성 합성 시스팀을 제안한다. 분석계에서는 켑스트럼 파라미터를 사용하여 유성/무성 판별 스펙트럼을 이용한 유/무성 구간 자동판별법을 제안하고, 현재 단순 임펄스와 백색잡음만으로도 구성된 음원과 간단한 유성/무성 판별로 구동되어지는 합성음의 음질상의 한계를 개선하기 위하여 합성계에서는 음질개선 방안으로 유성음 구동시 다중대역 여기신호를 도입하여 합성시 이용한다. 제안된 방법에 대한 청취실험을 한 결과, 유성음 부분 특히 잡음이 많이 섞여 있는 유성음화 마찰음과 모음의 천이부분 등에서 일반적으로 사용되고 있는 간단한 유성/무성 파라미터를 사용한 합성음에 비하여 다중대역 여기신호를 사용한 합성음의 명료도가 매우 우수함을 확인하였다.

  • PDF

Design and Implementation of Multi-channel MPEG Audio Decoder to compress Sound (음원 압축을 위한 다채널 MPEG 오디오 복호화기에 설계 및 구현)

  • 김태훈;장호근;백광렬;박주성
    • Journal of the Korean Institute of Telematics and Electronics S
    • /
    • v.36S no.5
    • /
    • pp.112-121
    • /
    • 1999
  • 본 연구에서는 사운드 합성에 응용할 목적으로 설계된 오디오 복호화기에 대한 내용을 담고 있다. 악기음을 ROM에 저장한 후 그 데이터를 이용하여 사운드 합성을 하는 PCM 방식에서 많은 악기음 데이터를 저장하면 할수록 더욱 좋은 음질의 사운드를 합성할 수 있다. 따라서 한정된 용량에 더욱 많은 악기음을 저장하기 위해서는 압축이 꼭 필요하다. 이를 위해서는 미리 압축한 악기음을 ROM에 저장한 후 그것을 필요시 복호화해 줄 복호화기만 있으면 된다. 그와 동시에 많은 악기음을 내기 위해서는 빠른 복호화기 필수적이다. 그래서 MPEG-1 오디오의 layer-1을 기본으로 하여 44.1 KHz의 샘플링 주파수로 32가지 악기음에 대한 실시간 복호화를 수행한다. 여기서는 음원 압축이라는 특수한 목적에 맞추어 압축의 효율성을 높이고 스스로 루프를 만들어서 합성의 편의를 제공하고 기존의 MPEG-1 오디오 layer-1에서 변형이 된 새로운 포맷과 추가된 기능에 관한 내용을 담고 있으며 이러한 복호화기를 설계하고 FPGA를 이용하여 검증하였다.

  • PDF

A Study on the Artificial Neural Networks for the Sentence-level Prosody Generation (문장단위 운율발생용 인공신경망에 관한 연구)

  • 신동엽;민경중;강찬구;임운천
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.53-56
    • /
    • 2000
  • 무제한 어휘 음성합성 시스템의 문-음성 합성기는 합성음의 자연감을 높이기 위해 여러 가지 방법을 사용하게되는데 그중 하나가 자연음에 내재하는 운을 법칙을 정확히 구현하는 것이다. 합성에 필요한 운율법칙은 언어학적 정보를 이용해 구현하거나, 자연음을 분석해 구한 운을 정보로부터 운율 법칙을 추출하여 합성에 이용하고 있다. 이와 같이 구한 운을 법칙이 자연음에 존재하는 운율 법칙을 전부 반영하지 못했거나, 잘못 구현되는 경우에는 합성음의 자연성이 떨어지게 된다. 이런 점을 고려하여 우리는 자연음의 운율 정보를 이용해 인공 신경망을 훈련시켜, 문장단위 운율을 발생시킬 수 있는 방식을 제안하였다. 운율의 세 가지 요소는 피치, 지속시간, 크기 변화가 있는데, 인공 신경망은 문장이 입력되면, 각 해당 음소의 지속시간에 따른 피치 변화와 크기 변화를 학습할 수 있도록 설계하였다. 신경망을 훈련시키기 위해 고립 단어 군과 음소균형 문장 군을 화자로 하여금 발성하게 하여, 녹음하고, 분석하여 구한 운을 정보를 데이터베이스로 구축하였다. 문장 내의 각 음소에 대해 지속시간과 피치 변화 그리고 크기 변화를 구하고, 곡선적응 방법을 이용하여 각 변화 곡선에 대한 다항식 계수와 초기치를 구해 운을 데이터베이스를 구축한다. 이 운을 데이터베이스의 일부를 인공 신경망을 훈련시키는데 이용하고, 나머지를 이용해 인공 신경망의 성능을 평가한 결과 운을 데이터베이스를 계속 확장하면 좀더 자연스러운 운율을 발생시킬 수 있음을 관찰하였다.

  • PDF

Learning of Artificial Neural Networks about the Prosody of Korean Sentences. (인공 신경망의 한국어 운율 학습)

  • Shin Dong-Yup;Min Kyung-Joong;Lim Un-Cheon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.121-124
    • /
    • 2001
  • 음성 합성기의 합성음의 자연감을 높이기 위해 자연음에 내재하는 정확한 운율 법칙을 구하여 음성합성 시스템에서 이를 구현해 주어야 한다 무제한 어휘 음성합성 시스템의 문-음성 합성기에서 필요한 운율 법칙은 언어학적 정보를 이용해 구하거나, 자연음에서 추출하고 있다 그러나 추출한 운율 법칙이 자연음에 내재하는 모든 운율 법칙을 반영하지 못했거나, 잘못 구현되는 경우에는 합성음의 자연성이 떨어지게 된다. 이런 점을 고려하여 본 논문에서는 한국어 자연음을 분석하여 추출한 운율 정보를 인공 신경망이 학습하도록 하고 훈련을 마친 인공 신경망에 문장을 입력하고, 출력으로 나오는 운율 정보와 자연음의 운율 정보를 비교한 결과 제안한 인공 신경망이 자연음에 내재하고 있는 운율을 학습할 수 있음을 알 수 있었다. 운율의 3대 요소는 피치 , 지속시간, 크기의 변화이다. 제안한 인공 신경망이 한국어 문장의 음소 열을 입력으로 받아들이고, 각 음소의 지속시간에 따른 피치변화와 크기 변화를 출력으로 내보내면 자연음을 분석해 구한 각 음소의 운율 정보인 목표 패턴과 출력 패턴 의 오차를 최소화하도록 인공 신경망의 가중치를 조절할 수 있도록 설계하였다. 지속시간에 따른 각 음소의 피치와 크기 변화를 학습시키기 위해 피치 및 크기 인공 신경망을 구성하였다. 이들 인공 신경망을 훈련시키기 위해 먼저 음소 균형 문장 군을 구축하여야 하고, 이들 언어 자료를 특정 화자가 일정 환경에서 읽고 이를 녹음하여 , 분석하여 구한운율 정보를 운율 데이터베이스로 구축하였다. 문장 내의 각 음소에 대해 지속 시간과 피치 변화 그리고 크기 변화를 구하고, 곡선 적응 방법을 이용하여 각 변화 곡선에 대한 다항식 계수와 초기 값을 구해 운율 데이터베이스를 구축한다. 이 운율 데이터베이스의 일부는 인공 신경망을 훈련시키는데 이용하고, 나머지로 인공 신경망의 성능을 평가하여 인공 신경망이 운율 법칙을 학습할 수 있었다. 언어 자료의 문장 수를 늘리고 발음 횟수를 늘려 운율 데이터베이스를 확장하면 인공 신경망의 성능을 높일 수 있고, 문장 내의 음소의 수를 감안하여 인공 신경망의 입력 단자의 수는 계산량과 초분절 요인을 감안하여 결정해야 할 것이다

  • PDF

A Study on the Prosody Generation of Korean Sentences (한국어 문장 단위운율 발생에 관한 연구)

  • 민경중
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.419-423
    • /
    • 1998
  • 법칙합성 시스템은 합성단위 합성기, 합성방식 등에 따라 여러 가지 다양한 음성합성시스템이 있으나 순수한 법칙합성 시스템이 아니고 기본 합성단위를 연결하여 합성음을 발생시키는 연결합성 시스템은 연결단위사이 그리고 문장단위에서의 매끄러운 합성계수의 변화를 구현하지 못해 자연감이 떨어지는 실정이다. 자연감을 높이기 위해 보다 자연음에 가까운 운율을 발생시키기 위해 먼저 운율에 영향을 주는 요소들을 고려하여 신경망 입력 패턴을 구성한다. 분절요인에 의한 영향을 고려해주기 위해 전후 3음소를 동시에 입력시키고 문장내에서의 구문론적인 영향을 고려해주기 위해 해당 음소의 문장내에서의 위치, 운율구에 관한 정보등을 신경망의 입력 패턴으로 구성하였다. 신경망을 훈련시키기 위한 언어자료로는 고립단어군과 음소균형 문장군 그리고 삽입음절연결어 등으로 구성한다. 특정화자로 하여금 신경망을 훈련시켜 자연음의 운율과 유사한 합성운을 발생시켰다.

  • PDF

The Development of Speech Synthesizer In Korean TTS System (한국어 문어변환 시스템 내에서의 음성 합성기 개발)

  • 강찬희;진용옥
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.2
    • /
    • pp.14-27
    • /
    • 1993
  • 본 논문은 매 40ms 정도의 음성파형으로부터 추출된 6내지 9ms 정도의 1피치주기 파형을 합성단위로 사용하여 합성시킨 시간영역에서의합성방식을 한국어 문어 변환 시스템내에서의 음성합성기에 적용시킨 연구결과이다. 시험 결과, 4가지 유형의 한국어 음절 합성이 가능하고, 장단강약과 같은 운율요소의 제어가 용이하고, 또한 합성 알고리즘이 간단하여 실시간 처리가 가능하였으나, 문장 단위의 음성을 합성하기 위하여는 문장내에서의 다양한 피치 패턴에 대한 연구와 이의 효율적인 제어에 관한 연구가 이루어져야 할 것이다. 합성음에 대한 평가방법으로는 원음과 합성음에 대한 시간영역에서의 파형비교, 주파수 영역에서의 스펙트럼 포락선 유사성 비교 및 합성음에 대한 청취도 실험을 행하였다.

  • PDF

A Study on the prosody generation of artificial neural networks (인공신경망의 운률 발생에 관한 연구)

  • 신동엽;민경중;강찬구;임운천
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.87-90
    • /
    • 2000
  • 문-음성 합성기의 자연감을 높이기 위해 주로 자연음에 존재하는 운률 법칙을 정확히 구현해 주어야 한다. 일반적으로 언어학적 정보를 이용하거나 자연음으로부터 추출한 운률 정보를 추출한 운률 법칙을 합성에 이용하고 있다. 이와 같이 구한 운률 법칙이 자연음에 존재하는 모든 운률 법칙을 포함할 수 있으면, 자연스러운 합성음을 들을 수 있겠으나, 실질적으로는 모든 법칙을 구현한다는 것은 어려운 실정이고, 자연음으로부터 추출한 운률 법칙이 잘못 구현되는 경우 합성음의 자연성이 떨어지는 것을 피할 수 없을 것이다. 이런 점을 고려하여 우리는 자연음에 내재하는 운율 법칙을 훈련을 통해 학습할 수 있는 인공 신경망을 제안하였다 운률의 세 가지 요소는 피치, 지속시간, 크기 변화가 있는데, 인공 신경망은 문장이 입력되면, 각 해당 음소의 지속시간에 따른 피치 변화와 크기 변화를 학습할 수 있도록 설계하였다. 신경망을 훈련시키기 위해 고립 단어군과 음소균형 문장군을 화자로 하여금 발성하게 하여, 녹음하고, 분석하여 운률 데이터베이스를 구축하였다. 자연음의 각 음소에 대해 지속시간과 피치변화 그리고 크기 변화를 구하여 곡선 적응 방법을 이용하여 각 변화 곡선에 대한 계수를 구해 데이터베이스를 구축한다. 이렇게 구축한 데이터베이스를 이용해 인공 신경망을 훈련시켜 평가한 결과 훈련용 데이터를 계속 확장하면 좀 더 자연스러운 운률을 발생시킬 수 있음을 관찰하였다.

  • PDF

Implementation of the Wireless Sanjo Gayageum Based on Physical Modeling Using Arduino and DSP (아두이노와 DSP를 이용한 물리적 모델링 기반의 현 없는 산조 가야금 구현)

  • Seo, Jun-Sang;Jung, In-Kyu;Kim, Jong-Myon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.19-21
    • /
    • 2014
  • 본 논문에서는 기존의 산조가야금의 음을 합성하여 아두이노(Arduino)와 DSP(Digital Signal Processor)를 이용한 물리적 모델링 기반의 현 없는 산조 가야금을 구현한다. 아두이노는 저렴한 가격에 마이크로컨트롤러를 효율적으로 제어하며, DSP는 높은 분해능과 빠른 A/D변환 기능을 지원하여 복잡한 음 합성 연산의 빠른 처리를 만족시킨다. 또한 기존 가야금의 복잡한 연주법을 초보자도 쉽게 다루기 위해 가야금의 현을 대신해 터치 패널을 사용한다. 본 논문에서는 기본적인 I/O동작은 아두이노 MEGA 2560보드를, 음 합성의 복잡한 연산을 위해 CCSv5(Code Composer Studio) 툴과 DSP칩을 내장한 DSK5510 보드를 이용하여 기능을 검증한다. 모의실험 결과 현 없는 가야금의 합성음은 기존의 음과 매우 유사하였으며, 초보자도 쉽게 제어하고 연주가 가능한 환경을 구현하였다.

  • PDF

Collision Sound Representation for Realtime Synthesis (실시간 합성을 위한 가상 충돌음 표현)

  • Yi, Jeong-Seon;Nam, Yang-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.257-260
    • /
    • 2006
  • 가상현실에서의 사운드는 충돌이나 접촉 등의 인터랙션을 전달함에 있어서 그래픽 영상보다도 효과적인 경우가 많다. 그러나, 기존 연구에서는 발생 가능한 충돌음을 임의적으로 녹음한 후 실시간에서 단순 재생하는 방법으로 재현하고 있는 것이 대부분이다. 그러나, 가상환경은 미리 주어진 시나리오에 의해 플레이되는 것이 아니기 때문에 실시간으로 주어지는 인터랙션에 대해 적합한 충돌음을 실시간에 합성해야 한다. 본 논문에서는 녹음된 음의 단순재생을 피하고 실시간 가상환경의 충돌음 발생 요인을 바탕으로 유사한 물질의 충돌음을 하나의 대표 모델로서 표현하는 방법을 제안한다. 즉, 모든 샘플들을 저장하는 대신 하나의 고유음과 필요한 속성 표현을 제공하는 것이다. 이러한 고유음 표현은 실시간에 속성 요소의 변형에 의해 다양한 상황에 적응적인 음을 생성하게 된다. 이러한 충돌음 표현의 생성과 타당성을 파악하기 위해 충돌음을 방생시키는 물질들에 대한 진동음의 스펙트로그램 분석을 행하였고, 유사 물질별로 하나의 고유음 표현을 생성하여 해당 물질의 실제 충돌음과 비교함으로써 주요 주파수 패턴의 유사함을 확인하였다.

  • PDF

An Effective Parallel Implementation of Sound Synthesis of Guitar using GPU (GPU를 이용한 기타의 음 합성을 위한 효과적인 병렬 구현)

  • Kang, Sung-Mo;Kim, Jong-Myon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.8
    • /
    • pp.1-8
    • /
    • 2013
  • This paper proposes an effective parallel implementation of a physical modeling synthesis of guitar on the GPU environment. We used appropriate filter coefficients and adjusted the length of delay line for each open string to generate 44,100 six-polyphonic guitar sounds (E2, A2, D3, G4, B3, E4) by using physical modeling synthesis. In addition, we analyzed the physical modeling synthesis algorithm and observed that we can exploit parallelism inherent in the length of delay line. Thus, we assigned CUDA cores as many as the length of delay line and effectively implemented the physical modeling synthesis using GPU to achieve the highest performance. Experimental results indicated that synthetic guitar sounds using GPU were very similar to the original sounds when we compared their spectra. In addition, GPU achieved 68x and 3x better performance than high-performance TI DSP and CPU, respectively. Furthermore, this paper implemented and evaluated the performance of multi-GPU systems for the physical modeling algorithm.