• 제목/요약/키워드: 유성음

검색결과 121건 처리시간 0.024초

선별적인 관측열 추출을 통한 DHMM 음성인식의 성능 개선 (Speech Recognition Imptovement Using Extraction Selective Observation in DHMM)

  • 김우창;조선호;고수정;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.374-376
    • /
    • 2000
  • 음성인식 시스템에 사용하는 알고리즘 중에 하나인 DHMM은 코드북을 이용하여 음성의 프레임들에 대한 특징을 관측열로 추출하여 음성의 패턴에 대한 훈련과 인식을 수행하게 된다. 그러나 음성은 유성음과 무성음의 특징 차이가 많이 나게 되므로 하나의 코드북을 이용하게 되면 코드북 오차에 의하여 성질이 전혀 다른 코드북 인덱스를 DHMM의 관측열로 사용하게 된다. 본 논문에서는 음성의 유성음과 무성음에 대한 선별적인 작업을 통해 서로 다른 코드북을 만들어 관측열을 추출하고 선행 관측과 현 관측과의 거리 비교 연산을 통하여 관측의 시간축을 정규화한 관측열을 음성인식에 사용하였다. 본 논문에서 제시하는 인식 방법을 사용하여 실험한 결과, 기존의 인식 방법보다 5.33% 향상된 결과를 얻었다.

  • PDF

주파수대역별 TDNN을 이용한 음성신호의 잡음억제 (Noise Suppression of Speech Signal using TDNN for each Frequency Band)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.341-344
    • /
    • 2009
  • 본 논문에서는 신경회로망(Neural network)에 시간구조를 도입한 시간지연 신경회로망(Time-delay Neural Network: TDNN)을 사용하여 잡음을 포함한 음성신호로부터 잡음을 제거함으로써 음성을 강조하는 것을 목적으로 한다. 본 논문에서는 먼저 각 프레임의 FFT 진폭성분들을 유성음 구간과 무성음 구간으로 검출한 후, 무성음 구간에 대해서는 각 프레임에서 이동평균을 취하여 음성을 강조한다. 유성음 구간에 대해서는 각 프레임의 FFT 진폭성분들을 저역, 중역 및 고역으로 각각 분리한 후에 각 대역의 FFT 진폭성분들을 저역용 TDNN, 중역용 TDNN, 그리고 고역용 TDNN의 입력으로 하여 각 TDNN에 학습시킴으로써 최종 FFT 진폭성분들을 구한다. 본 실험에서는 Aurora2 데이터베이스를 사용하여 FFT의 진폭성분을 복원하는 잡음제거의 알고리즘을 사용하여 여러 잡음에 대해서 본 알고리즘의 유효성을 실험적으로 확인한다.

  • PDF

혼합 다중대역 여기모델에 기반한 저 전송률 음성 부호화기의 설계 (Design of a Low Bit-rate Speech Coder Based on Mixed Multi-band Excitation Model)

  • 한우진;오영환
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.510-521
    • /
    • 2002
  • 다중대역 여기부호화 (MBE: multi-band excitation) 음성 부호화기는 고조파 대역별로 유/무성음 판단을 수행함으로써 한 프레임 내에서 유성음과 무성음이 혼합되는 경우를 잘 모델링할 수 있다. 하지만 같은 주파수 대역에서는 유성음 성분과 무성음 성분이 공존할 수 없다. 또한 유/무성음 판단 과정에서 경험에 의한 임계치와의 비교 과정이 필요하므로 원음 스펙트럼과 합성음 스펙트럼간의 오류가 큰 경우가 발생하는 단점이 있다. 본 논문에서는 모든 주파수 영역에서 유성음 성분과 무성음 성분이 혼합되는 것을 허용하는 혼합다중대역 여기 부호화 (MMBE: mixed multi-band excitation) 음성 모델을 제안하고, 모델 파라미터인 주파수 영역 혼합함수를 임계치와의 비교없이 효과적으로 추정할 수 있는 방법을 제시한다. 제안한 음성 모델을 적용한 2.6 kbps 음성 부호화기를 구현해 본 결과, 2.9 kbps의 전송률을 갖는 MBE음성 부호화기에 비해서 낮은 전송률에서도 더 우수한 합성음 음질을 가지는 것으로 나타났다.

개량형 다중대역 여기 (IMBE: Improved Multi-band Excitation) 음성 부호기의 피치 예측 개선 (An Efficient Pitch Estimation for IMBE (Improved Multi-band Excitation) Speech Coder)

  • 나훈;정대권
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.34-41
    • /
    • 2001
  • 기존의 IMBE (개량형 다중대역 여기 : Improved Multi-band Excitation) 음성 부호기의 초기 피치 추정 과정은 전체 부호기 연산 시간의 대부분을 차지하며 또한 미래의 음성 프레임들이 초기 피치 추정시 사용되므로 시간 지연이 유발되어 실시간 구현에 장애 요소로 작용되었다. 또한 무성음에 해당되는 프레임에 대해서도 유성음과 동일한 피치 추정을 수행하므로 알고리즘의 효율성을 떨어뜨린다 본 논문에서는 초기 피치 추정 전에 다이애딕 웨이브렛 변환 (Dyadic Wavelet Transform)을 이용하여 이를 바탕으로 유/무성음을 판별한 후 유성음으로 결정된 프레임에 대해서만 피치 추정을 행하고 무성음으로 결정된 프레임은 랜덤 잡음을 주어서 부호화시의 처리 시간을 단축하였다. 또한, 초기 피치 추정 전에 판별된 유/무성음을 판별하여 유성음과 무성음에 각기 다른 초기 피치 추정 알고리즘을 사용하고 미래의 두 프레임을 사용하지 않음으로써 송, 수신단에 유발되는 시간 지연을 제거하였다. 그 결과 초기 피치 추정 과정의 상대적인 복잡도가 23% 감소되었고 프레임당 처리 시간이 1/10∼ 1/11로 감소되었고 기존의 부호기와 거의 같은 음질을 얻을 수 있었다.

  • PDF

효율적인 하모닉-CELP 구조를 갖는 저 전송률 음성 부호화기 (Efficient Harmonic-CELP Based Low Bit Rate Speech Coder)

  • 최용수;김경민;윤대희
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.35-47
    • /
    • 2001
  • 본 논문에서는 하모닉 부호화기와 CELP(Code Excited Linear Prediction) 부호화기의 장점을 고려한 효율적인 저 전송률 하모닉-CELP 음성 부호화기를 제안한다. 제안된 하모닉-CELP 부호화기에서는 프레임 단위 유/무성음 판별에 따라 무성음 구간에서는 고속 CELP방식으로 부호화하고 유성음 구간에서는 개선된 하모닉 부호화를 수행한다. 제안된 부호화기는 무성음 부호화를 위한 RP-VSELP(Regular Pulse Vector Sum Excited Linear Prediction), 유성음 부호화를 위한 간단한 정수 피치 검색, 정수 단위 피치에서의 고속 하모닉 추정, 가변 차원 하모닉 벡터 양자화, 주파수 해상도를 반영한 인지 가중치, 고속 하모닉 합성, 대역별 유성음 정도에 따른 자연성 제어, 다중 모드 등을 주요한 특징으로 하며, 이러한 특징들로 인해 기존의 HVXC(Harmonic Vector eXeited Coder) 부호화기에 비해서 매우 낮은 복잡도를 갖는다. 주관적인 음질 평가 결과, 제안된 2.4 kbps 하모닉-CELP 부호화기는 낮은 지연과 적은 계산량으로 양호한 음질을 얻을 수 있음을 확인하였다.

  • PDF

유/무성음 구분 및 이종적 특징 파라미터 결합을 이용한 화자인식 성능 개선 (Speaker Recognition Performance Improvement by Voiced/Unvoiced Classification and Heterogeneous Feature Combination)

  • 강지훈;정상배
    • 한국정보통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1294-1301
    • /
    • 2014
  • 본 논문에서는 화자 인식의 성능을 개선하기 위해서 유성음 및 무성음에 대한 별도의 확률분포 모델링을 사용하였다. 또한, 종래의 멜-주파수 캡스트럼 계수 이외에 유성음 구간에서 추가적으로 왜도, 첨도, 하모닉 대 잡음비 등을 추출하여 활용하였다. 화자 인식을 위한 스코어는 유성음 및 무성음 확률분포 모델에서 각각 구해지는데 전수 조사방식에 의해서 최적의 스코어 결합 가중치가 결정되었다. 제안된 방식의 화자인식기의 성능은 종래의 멜-주파수 캡스트럼 계수 및 화자당 하나의 혼합 가우시안 기반 확률분포 모델링을 사용한 방식과 비교되었으며 실험 결과 제안된 방식이 가우시안 혼합의 수가 낮아질수록 더 큰 성능 향상을 얻음을 알 수 있었다.

연속음성신호의 SNR 추정기법에 관한 연구 (A Study on SNR Estimation of Continuous Speech Signal)

  • 송영환;박형우;배명진
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.383-391
    • /
    • 2009
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.

LSP 파라미터의 분포특성을 이용한 EVRC의 음질개선에 관한 연구 (A Study on the Improvements of the Speech Quality by using Distribution Characteristics of LSP parameters in the EVRC(Enhanced Variable Rate Codec))

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제12권12호
    • /
    • pp.5843-5848
    • /
    • 2011
  • EVRC에서는 채널 스펙트럼의 효율을 높이고 시스템의 소비 전력을 줄이기 위하여, 통화시간 중에서 사용자가 말을 할 때만 음성신호를 압축하여 전달하고, 말을 하지 않을 때는 음성신호를 전달하지 않는다. 또한, EVRC에서는 음성 프레임을 1, 1/2, 1/8의 세 가지 전송률로 구분하여 다르게 처리 하고 있으며, 예를 들어, 1/8 전송률은 입력 신호가 묵음구간인 것을 의미한다. 본 연구에서는 LSP 파라미터의 분포특성을 이용한 유성음 구간, 무성음 구간, 묵음 구간을 구분하는 방법을 사용하여, 유성음인 경우에 대해 1 rate으로 부호화하고, 무성음 구간의 경우는 1/2 rate, 묵음의 경우에는 1/8 rate으로 전송하는 방법에 대하여 제안하였다. 즉, EVRC에서 full rate으로 보내는 부분에 대해서는 기존의 방식을 그대로 적용하며, half rate은 유성음, 무성음을 구분하여 유성음일 경우 full rate으로 바꾸어 전송하였고, 묵음에 대해서는 EVRC 기본 rate을 적용하였다. 실험과정에서는, SNR, ASDM, 전송률을 측정하였으며, 제안한 알고리즘을 사용하는 경우 EVRC에 비해 음성품질이 향상됨을 증명하였다.