• 제목/요약/키워드: 포만트 합성

검색결과 26건 처리시간 0.023초

음성천이구간에서의 성도 파라메타 시변추정에 관한 연구 (Time-varying Estimation of Vocal Track Parameters During the Speech Transition Regions)

  • 최홍섭
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.101-106
    • /
    • 1997
  • 음성의 천이구간에서의 특징 파라메타를 찾아내기 위하여 본 논문에서는 AR모델을 사용하여 적응적으로 성문폐쇄구간을 찾은 후, 이를 제외한 구간에서 성도 파라메타를 추정함으로써 음원의 피치바이어스 영향을 제거하는 SSRLS(Sample Selective RLS)방법을 제안한다. 성능을 비교하기 위하여 합성음과 실제음에 대하여 포만트 추정실험을 했으며, 실험결과 제안된 방법이 WRLS 보다 우수함을 알 수 있었다.

  • PDF

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 한국통신학회논문지
    • /
    • 제27권3A호
    • /
    • pp.196-204
    • /
    • 2002
  • STC(Sinusoidal Transform Coding) 방식은 주파수 영역에서 음성신호의 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 음성부호화 방식을 말한다. 저전송률 STC 방식에서는 스펙트럼의 모든 피크를 이용하는 대신, 기본 주파수와 고조파에 해당하는 스펙트럼 포락선에서의 크기와 그때의 위상을 이용하여 음성을 합성한다. 본 논문에서는 정현파 모델에 기반한 2.4kbps 음성부호화 알고리즘을 제안한다. 피치정보는 모든 스펙트럼 피크를 사용한 합성음과 선택된 주파수와 고조파를 이용한 합성음과의 평균자승에러를 이용하여 추정하고, 위상정보는 여기신호 펄스의 시작시기를 나타내는 onset time과 성도 모델 전달함수의 위상을 이용하여 얻는다. 크기정보는 SEEVOC 알고리즘과 선형예측계수를 이용하여 추정한다. 실험결과, 합성음의 스펙트럼 특성은 원음성의 포만트 정보를 대부분 가지고 있으며, 위상정보도 원음성의 위상을 잘 따라감을 확인하였다. 합성음의 음질평가를 위해서 informal한 MOS(Mean Opinion Score) 테스트를 시행하였으며, 2.0kbps의 HVXC와 비교하여 대체적으로 MOS 3.1 이상의 음질을 얻을 수 있었다.

에너지 연산자에 기초한 간단한 피치 추적 방법 (A Simple Pitch Tracking Algorithm based on the Energy Operator)

  • Tai-Ho Lee
    • 융합신호처리학회논문지
    • /
    • 제5권1호
    • /
    • pp.1-5
    • /
    • 2004
  • 유성음의 피치주파수 궤적을 추정할 수 있는 새로운 방법을 제시하였다. 이 방법은 에너지연산자[1]를 두 번 적용하는데 기초하고 있다. Kaiser의 에너지연산자는 정현파의 진폭과 주파수 정보를 추출하는 기능을 가지고 있다. 변조모형에 의하면 유성음은 피치 신호로 변조된 포만트들의 합성으로 파악될 수 있으므로 이 파형의 진폭 포락선을 추출해서 피치 신호와 유사한 파형을 얻는다. 이 파형의 평균 주파수를 검출하여 피치 주파수를 구하는 것이다. 앞부분은 Gopalan의 접근법[9]과 마찬가지이나, 뒷부분의 LPC-스펙트럼 분석등의 과정 대신 또 한번 에너지 연산자를 적용하도록 하여 매우 단순화되고 온라인 적용이 가능한 알고리듬을 얻었다. 추정 결과는 거친 편이지만 온라인으로 피치 궤적의 일반적 스케치를 얻는데 유용할 것으로 기대된다.

  • PDF

고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구 (A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis)

  • 이진이
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.60-69
    • /
    • 1998
  • 본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

  • PDF

HMM 기반 감정 음성 합성기 개발을 위한 감정 음성 데이터의 음색 유사도 분석 (Analysis of Voice Color Similarity for the development of HMM Based Emotional Text to Speech Synthesis)

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제15권9호
    • /
    • pp.5763-5768
    • /
    • 2014
  • 하나의 합성기에서 감정이 표현되지 않는 기본 음성과 여러 감정 음성을 함께 합성하는 경우 음색을 유지하는 것이 중요해 진다. 감정이 과도하게 표현된 녹음 음성을 사용하여 합성기를 구현하는 경우 음색이 유지되지 못해 각 합성음이 서로 다른 화자의 음성처럼 들릴 수 있다. 본 논문에서는 감정 레벨을 조절하는 HMM 기반 음성 합성기를 구현하기 위해 구축한 음성데이터의 음색 변화를 분석하였다. 음성 합성기를 구현하기 위해서는 음성을 녹음하여 데이터베이스를 구축하게 되는데, 감정 음성 합성기를 구현하기 위해서는 특히 녹음 과정이 매우 중요하다. 감정을 정의하고 레벨을 유지하는 것은 매우 어렵기 때문에 모니터링이 잘 이루어져야 한다. 음성 데이터베이스는 일반 음성과 기쁨(Happiness), 슬픔(Sadness), 화남(Anger)의 감정 음성으로 구성하였고, 각 감정은 High/Low의 2가지 레벨로 구별하여 녹음하였다. 기본음성과 감정 음성의 음색 유사도 측정을 위해 대표 모음들의 각각의 스펙트럼을 누적하여 평균 스펙트럼을 구하고, 평균 스펙트럼에서 F1(제 1포만트)을 측정하였다. 감정 음성과 일반 음성의 음색 유사도는 Low-level의 감정 데이터가 High-level의 데이터 보다 우수하였고, 제안한 방법이 이러한 감정 음성의 음색 변화를 모니터링 할 수 있는 방법이 될 수 있음을 확인할 수 있었다.

한국어 음성인식에서 음성의 특성을 고려한 음소 경계 검출 (Phoneme Segmentation in Consideration of Speech feature in Korean Speech Recognition)

  • 서영완;송점동;이정현
    • 인터넷정보학회논문지
    • /
    • 제2권1호
    • /
    • pp.31-38
    • /
    • 2001
  • 음소 단위로 구축된 음성 데이터는 음성인식과 음성합성 및 분석 등의 분야에서 매우 중요한 문제이다. 일반적으로 음소는 유성음과 무성음으로 구분된다. 이러한 유성음과 무성음은 많은 특징적 차이가 있지만, 기존의 음소 경계 검출 알고리즘은 이를 고려하지 않고 시간 축을 기준으로 이전 프레임과의 스펙트럼 비교만을 통하여 음소의 경계를 결정한다. 본 논문에서는 음소 경계 검출을 위하여 유성음과 무성음의 특징적 차이를 고려한 블록기반의 분류 알고리즘을 설계하였다. 분류 알고리즘을 사용하기 위한 스펙트럼 비교 방법은 MFCC(kel-Frequency Cepstrum Coefficient)를 기반으로 한 거리 측정 법을 사용하였고 유성음과 무성음의 구분은 에너지 영 교차율, 스펙트럼 비, 포만트 주파수를 이용하였다. 본 논문의 실험결과 3-4음절 고립단어를 대상으로 약 7%,의 정확도를 얻음으로써 기존의 음소 경계 검출 시스템보다 약 8%의 정확도 향상을 보였다.

  • PDF