• Title/Summary/Keyword: 음향 파라미터

Search Result 387, Processing Time 0.021 seconds

Recognition of isolated digits using Predictive RBF Network (Predictive RBFN을 이용한 단독 숫자음 인식)

  • Han Hag-Yong;Kim Sang-Berm;Kim Joo-Sung;Kim Soo-Hoon;Hur Kang-In
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.71-76
    • /
    • 1999
  • 본 논문에서 제안한 예측형 RBFN(Radial Basis Function Network)은 HMM과 신경망을 결합한 하이브리드 구조이다. 이 신경망은 HMM으로 추정한 확률분포 파라미터를 사용하여 중간층의 활성화 함수의 출력을 결정하고, 중간층과 출력층의 연결강도만 네트워크 내에서 학습한다. 그리고 HMM으로 추정한 확률분포 파라미터는 두 가지 방법으로 예측형 RBFN에 이용하였다. 첫 번째는 HMM의 각 상태의 혼합수 만큼의 중간층 유니트를 주는 방법이고, 두 번째는 HMM의 혼합수$\times$출력분포수 만큼의 중간층 유니트를 주는 방법이다. 실험결과, 예측형 RBFN은 다른 방법들의 결과보다 $4.5\~6.5\%$ 저하된 결과를 보였지만 다른 신경망에 비해서 학습 반복 횟수를 작게할 수 있었으며 전체 학습시간을 대폭 단축할 수 있었다.

  • PDF

A Study on the optimum characteristic parameter of Modified CFDN's (Modified CFDN's 특성 파라미터의 최적화에 대한 고찰)

  • Ko Byeong-Seob;Kim Hack-Yoon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.223-226
    • /
    • 1999
  • 인공 잔향기를 구현하는데 있어서, 잔향 시스템의 안정도 및 시간-주파수 응답을 용이하게 제어하기 위하여 일반 FDN's(Feedback Delay Networks)에서의 귀환 행렬인 unitary 행렬를 circulant 행렬로 사용한 CFDN's가 최근에 제안되었다. 그러나, 이 구조는 주파수 응답의 평탄도가 낮고, 영점들의 위치를 조절하기 어렵다는 문제점이 있다. 따라서, 본 연구에서는 CFDN's의 시간응답 특성을 최대한 유지하면서 주파수 응답 특성을 개선하기 위하여, 일반 귀환 필터의 귀환부에 직접경로가 없는 CFDN's를 적용한 MCFDN's(Modified CFDN's) 에 관하여 고찰하고, 이 시스템의 특성을 결정하는 특성 파라미터의 최적화에 대하여 고찰하고자 한다.

  • PDF

An Improved LSP Transformation Algorithm Using the LSP and Formant Distribution in a Speech Signal (LSP와 포만트 분포특성을 이용한 음성신호의 LSP 변환 알고리즘의 성능개선)

  • LEE HeeWon;NA Ducksu;KIM ManKi;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.29-32
    • /
    • 1999
  • LSP 파라미터는 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하여 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 본 논문에서는 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법의 계산 시간 단축방법을 제안한다. real root 방법은 다항식의 근을 구하여 LSP로 변환하는 방법이다. 그러나 이 방법은 관을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요된다. 제안하는 알고리즘은 LSP 파라미터의 분포도에 따라 검색구간의 순서를 주파수 별로 달리 한다. 그리고 제 1포만트와 제 2포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root방법과 제안한 방법을 비교한 결과 평균 $48\%$ 이상의 검색시간이 단축되었다.

  • PDF

Development of a Diphone-Based Audiote System (다이폰단위의 합성방법을 이용한 오디오텍스 시스템의 구현에 관한 연구)

  • 이승훈
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.99-102
    • /
    • 1994
  • 당 연구실에서 개발했던 초기의 오디오텍스 시스템은 LSP 파라미터를 이용한 무제한 한국어 음성합성 장치로서 합성데이타베이스는 640개의 반음절로 구성되어 있었다. 그러나 이 시스템은 일반 사용자들에게 음성합성 서비스를 제공하기에는 damwlf이 너무 미흡하였으므로 음원모델의 수정, 에너지 contour의 조절등을 사용하여 어느 정도 음질개선을 꾀하였으나 만족할 만한 수준에는 도달하지 못했다. 그래서 합성단위를 다이폰단위로 수정한 새로운 오디오텍스 시스템을 ngus하였다. 다이폰단위의 오디오텍스시스템은 한국어의여러가지 음운환경을 고려하여 1228개의 합성단위로 구성되어 있으며 LSP 파라미터를 이용한 합성방식을 채택하고 있다. 또한 음원생성시 수정된 LF 모델에 자음의 명료도 및 자연성을 높이기 위해 TMS320C30 DSP chip, MC68020 CPU, 고속 메모리소자, 및 VRTOS를 사용하여 시스템을 구현하였으며, 청취실험결과 기존의 합성방법보다 자연성 및 명료도에서 개선된 음질을 얻을 수 있었다.

  • PDF

A Study on a comparison and analysis of Speaking rate estimation for adaptive bit rate on CELP vocoder (가변전송률 CELP 부호화기 설계를 위한 발성률 비교 분석에 관한 연구)

  • Jang KyungA;Min SoYeon;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.105-108
    • /
    • 2004
  • 음성 부호화 기술은 전송률과 복잡도를 줄이고 음질을 향상시키는 방향으로 진행되고 있다. 현재 상용화되고 있는 CELP형 보코더는 낮은 전송률에 비해 우수한 음질을 제공한다. 본 논문에서는 기존의 방식과 다르게 보코더 단에 입력 음성이 들어가기 앞서 전처리 기법을 수행하는 전처리단을 부가하여 전송률을 낮추는 방법을 소개하고, 소개된 방법들을 각기 비교하고 분석하고자 한다. 전처리기법들을 음성 인식이나 합성에서 사용되는 파라미터들을 적용시켰으며, 처리시간이나 계산시간에 있어 기존의 방식에서 많은 영향을 미치지 않은 간단한 알고리즘으로 구현하였다. 소개하는 전처리단에서는 기존의 코딩방식에서 사용하지 않은 파라미터들, 발성율, 지속시간, PSOLA 방식들을 이용하였다.

  • PDF

On the Classification of Normal, Benign, Malignant Speech Using Neural Network and Cepstral Method (Cepstrum 방법과 신경회로망을 이용한 정상, 양성종양, 악성종양 상태의 식별에 관한 연구)

  • 조철우
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.399-402
    • /
    • 1998
  • 본 논문에서는 환자의 음성을 정상, 양성종양, 악성종양으로 분류하는 실험을 켑스트럼 파라미터를 통한 음원분리와 신경회로망을 이용하여 수행하고 그 결과를 보고한다. 기존의 장애음성 데이터베이스에는 정상음성과 양성종양의 경우만 수록되어 있었고 외국의 환자들을 대상으로 한 경우만 있었기 때문에 국내의 환자들에게 직접 적용할 경우 어떠한 결과가 나올지 예측하기가 어려웠다. 최근 부산대학교 이비인후과팀에서 수집한 국내의 정상, 양성, 악성종양의 경우에 대한 데이터베이스를 분석하고 신경회로망에 의해 분류함으로써 사람의 음성신호만에 의한 후두질환이 식별이 가능하였다. 본 실험에서는 식별 파라미터로 음성신호의 선형예측오차신호에 관한 켑스트럼으로부터 음원비인 HNRR을 구하여 Jitter, Shimmer와 함께 사용하였다. 신경회로망은 입, 출력 층과 한 개의 은닉층을 갖는 다층신경망을 이용하였으며, 식별은 두단계로 나누어 정상과 비정상을 분류한 후 다시 비정상을 양성과 악성으로 분류하였다[1].

  • PDF

On a Study of the Improvement of Speaker Recognition with Perceptual Weighting Filter (인지 가중 필터를 이용한 화자 인식의 성능 향상에 관한 연구)

  • 배재옥
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.428-431
    • /
    • 1998
  • 화자 인식의 방법에서 사용되고 있는 특징 파라미터들은 음성 인식에서 사용되고 있는 특징 파라미터를 그대로 사용하고 있다. 따라서, 이를 화자 인식에 적용할 때 화자의 특성을 효과적으로 반영할 수 있어야 한다. 일반적인 화자의 특징이 고주파수 위주로 분포되어 있기 때문에 전체 스펙트럼의 고주파 영역을 강조시킬 수 있고, 또한 인간의 청각특성이 공진 주파수에 기반하여 이루어진다는 사실에 기반을 두어서 공진 주파수 위주로 강조시키는 인지 가중 필터를 인식단의 전처리로 사용하는 방법에 관한 것이다. 본 논문을 실험한 결과 전체 인식율에서는 기존의 방법보다 3.89%까지 인식율의 향상을 얻을 수 있었다. 또한 사칭자 수리율은 2.5%의 저하를 얻을 수 있었다.

  • PDF

A Human Face Recognition System : Incorporation of Complementary Utilization of Front and Profile Human Images (정면과 측면영상을 취합한 얼굴인식 시스템의 구현)

  • Choi, Dong-Sun;Lee, Ju-Shin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.15 no.6
    • /
    • pp.73-80
    • /
    • 1996
  • Success of a face recognition system depends on which parameters are used. Generally the parameters are affected by environment of facial images such as illumination. To reduce the influence of the evcironment, since side images are insensitive to variance of brightness, it might be an appropriate approach to make the defect of front face images complete with the features extracted from side images. This paper proposes a method which collects and completes the information of front and side images. It is intended to prove the usefulness of the method that it is compared with other methods.

  • PDF

Phoneme-Model Word Recognizer on RASTA-PLP (RASTA-PLP의 음소 모델 단어 인식기 적용)

  • 허창원
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1997.06a
    • /
    • pp.9-12
    • /
    • 1997
  • 대부분의 음성 파?너 추정 기법은 통신 채널의 주파수 응답에 의해 쉽게 영향을 받는다. 이 논문에서 우리는 음성에서 그러한 안정상태의 스펙트럼 계수에 있어서 좀더 강인한 기법인 RASTA-PLP 방법을 적용하여 파라미터를 추출하고 그 파라미터를 연속 HMM 인식기의 입력으로 사용하여 문맥독립 음소 모델을 훈련하는 과정에서 최적의 모델을 찾게 된다. 여기서는 ETRI 445 DB에 RASTA-PLP를 적용하였을 때 가장 좋은 성능을 나타내는 재추정 횟수와 mixutre 수를 찾는 데 목표를둔다. 문맥독립음소모델은 한국어의 발성학적 근거를 토대로 하고 여기에 묵음(silence)을 추가하여 총 40개로 정의하였다. 문맥독립 음소모델은 3개의 상태를 가지는 전형적인 left-to right CHMM(Continuous Hidden Markov Model)을 이용하여 훈련한다. 그리고 훈련시간을 줄이기 위해 Viterbi beam 탐색법을 적용한다.

  • PDF

A Simulator for Estimating Room Acoustic Parameters (실내음향 파라미터 추정 시뮬레이터)

  • Yu, JaeHeon;Yeum, TaeSun;Kim, RinChul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.5-6
    • /
    • 2015
  • 본 논문에서는 Matlab 공개 toolbox 인 k-wave 를 사용하여 실내 음향 파라미터를 측정하는 방법을 제시한다. 첫째, 본 논문에서 제시한 k-wave 를 이용한 방법의 유효성을 검증하기 위해, k-wave 로 얻은 실험값과 [1]에서 제시한 실제 실내에서 마이크를 통하여 측정된 값을 비교하였다. 그 결과 k-wave 를 사용하였을 때 잔향 시간은 [1]과 매우 유사하게 측정이 되었고 $D_{50}$ 값의 오차는 평균 5.2%로 측정되었다. 따라서 k-wave 를 이용하면 실제 측정값을 대체할 수 있는 양호한 결과를 얻을 수 있었다.

  • PDF