• 제목/요약/키워드: Speech signal processing

검색결과 331건 처리시간 0.024초

Adaptive Compressed Sensing과 Dictionary Learning을 이용한 프레임 기반 음성신호의 복원에 대한 연구 (A Study on the Reconstruction of a Frame Based Speech Signal through Dictionary Learning and Adaptive Compressed Sensing)

  • 정성문;임동민
    • 한국통신학회논문지
    • /
    • 제37A권12호
    • /
    • pp.1122-1132
    • /
    • 2012
  • 압축센싱은 이미지, 음성신호, 레이더 등 많은 분야에 적용되고 있다. 압축센싱은 주로 통계적 특성이 시불변인 신호에 적용되고 있으며, 측정 데이터를 줄여 압축률을 높일수록 복원에러가 증가한다. 이와 같은 문제점들을 해결하기 위해 음성신호를 프레임 단위로 나누어 병렬로 처리하였으며, dictionary learning을 이용하여 프레임들을 sparse하게 만들고, sparse 계수 벡터와 그 복원값의 차를 이용하여 압축센싱 복원행렬을 적응적으로 만든 적응압축센싱을 적용하였다. 이를 통해 통계적 특성이 시변인 신호도 압축센싱을 이용하여 빠르고 정확한 복원이 가능함을 확인할 수 있었다.

UMP 테스트에 근거한 새로운 통계적 음성검출기 (A New Statistical Voice Activity Detector Based on UMP Test)

  • 장근원;장준혁;김동국
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 2007
  • 음성검출기는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성검출방식은 통계적인 모델을 기반으로 하여 likelihood ratio test (LRT)를 하게 된다. 그리고 이 값을 임계값과 비교하여 음성인지 아닌지 판단하게 된다. 본 논문에서는 가우시안 (Gaussian) 분포를 기반으로 하고 uniformly most powerful (UMP) 테스트를 이용하여 새로운 음성검출기법을 제안한다. 새로운 음성검출기법의 결정규칙은 기존 LRT에 기반하여 UMP 테스트를 통해 식을 유도하였다. UMP 테스트를 이용하면, 입력음성에 대한 절대값의 확률 분포를 Rayleigh 분포 형태로 얻을 수 있으며, 이 분포에 따라 최종적으로 음성검출을 하게 된다. 이 새로운 방식의 음성검출기는 기존의 방식에서 필요한 a priori signal-to-noise ratio (SNR) 값을 구하지 않고도 음성 유무를 판단할 수 있다는 장점이 있다. 실제로 다양한 음성검출에 대한 성능 평가결과, 제안된 기법이 기존 방식에 비해 우수한 성능을 나타내었다.

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 (UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS)

  • 이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.91-98
    • /
    • 2010
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

QMF에 의한 음성스펙트럼의 평탄화 알고리즘 (The Flattening Algorithm of Speech Spectrum by Quadrature Mirror Filter)

  • 민소연
    • 한국산학기술학회논문지
    • /
    • 제7권5호
    • /
    • pp.907-912
    • /
    • 2006
  • 음성신호의 프리-엠퍼시스 과정은 고주파 영역의 약화된 성분을 보상하기 위해 사용되어진다. 프리-엠퍼시스 필터의 일반적인 형태는 y(n)=s(n)-A${\cdot}$s(n-1)이고, A 값은 유성음의 경우$0.9{\sim}1.0$ 사이의 값이다. 그리고, A 값은 프리-엠퍼시스의 기울기 값을 반영하고 기존의 방법에서는 R(1)/R(0)를 사용한다. 본 논문에서는 성문특성으로 인해 고주파 특성이 약화되는 것을 보상하기 위하여 새로운 평탄화 기법을 제안한다. 우선 신호 왜곡의 최소화를 위하여 QMF를 사용하였다. QMF를 사용한 후, 각 프레임별 자기상관계수를 사용하여 평탄화 과정을 수행하였다. 실험결과에서는 제안한 방법이 자기상관 방법보다 약화된 고주파 성분을 효과적으로 보상하는 평탄화 특성이 우수한 것으로 나타났다. 그러므로 평탄화 알고리즘은 음성 인식, 음성 분석 및 합성 등과 같은 음성 신호 처리 분야에 광범위하게 적용되어질 수 있다.

  • PDF

A Novel Approach for Blind Estimation of Reverberation Time using Gamma Distribution Model

  • Hamza, Amad;Jan, Tariqullah;Jehangir, Asiya;Shah, Waqar;Zafar, Haseeb;Asif, M.
    • Journal of Electrical Engineering and Technology
    • /
    • 제11권2호
    • /
    • pp.529-536
    • /
    • 2016
  • In this paper we proposed an unsupervised algorithm to estimate the reverberation time (RT) directly from the reverberant speech signal. For estimation process we use maximum likelihood estimation (MLE) which is a very well-known and state of the art method for estimation in the field of signal processing. All existing RT estimation methods are based on the decay rate distribution. The decay rate can be obtained either from the energy envelop decay curve analysis of noise source when it is switch off or from decay curve of impulse response of an enclosure. The analysis of a pre-existing method of reverberation time estimation is the foundation of the proposed method. In one of the state of the art method, the reverberation decay is modeled as a Laplacian distribution. In this paper, the proposed method models the reverberation decay as a Gamma distribution along with the unification of an effective technique for spotting free decay in reverberant speech. Maximum likelihood estimation technique is then used to estimate the RT from the free decays. The method was motivated by our observation that the RT of a reverberant signal when falls in specific range, then the decay rate of the signal follows Gamma distribution. Experiments are carried out on different reverberant speech signal to measure the accuracy of the suggested method. The experimental results reveal that the proposed method performs better and the accuracy is high in comparison to the state of the art method.

프리엠퍼시스 FIR 필터링의 음성 검출 및 음소 분할에의 응용 (Application of Preemphasis FIR Filtering To Speech Detection and Phoneme Segmentation)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.665-670
    • /
    • 2013
  • 이 논문에서 우리는 음성 검출 및 음소 분할에 대한 새로운 방법을 제안한다. 배경 잡음으로부터 신호를 구분하기 위해 에너지를 활용하게 되는데, 그 이전에 프리엠퍼시스 FIR 필터링을 적용하는 효과에 대해 조사한다. 이 방법에 의해, 에너지 프로필에서 진폭과 주파수의 곱이 동시에 작은 부분이 두드러지게 나타나게 된다. 이 처방에 의해, 묵음/음성 경계가 종전의 방법에 비해 더 선명해짐을 실험적으로 확인하였다. 또한 이 방법을 적용함으로써, 음소 분할 또한 더 수월해짐을 밝혔다.

2차원 이진 마스크를 이용한 적응형 음성향상 잡음 제거기 (Adaptive Noise Canceller for Speech Enhancement Using 2-D Binary Mask)

  • 이기현;이정현;조진호;김명남
    • 한국멀티미디어학회논문지
    • /
    • 제19권7호
    • /
    • pp.1127-1136
    • /
    • 2016
  • Speech enhancement algorithm plays an important role in numerous speech signal processing applications. Over the last few decades, many algorithms have been studied for speech enhancement. The algorithms are based on spectral subtraction, Wiener filter, and subspace method etc. They have good performance of speech enhancement, but the performance can be deteriorated in specific noises or low SNR environment. In this paper, a new speech enhancement algorithms are proposed based on adaptive noise canceller. And the proposed algorithm improved performance of adaptive noise cancelling using 2-D binary mask. From objective experimental index, it is confirmed that the proposed algorithm is useful and has better performance than recently proposed speech enhancement algorithms.

베트남인 한국어 학습자와 한국인의 한국어 겹받침 발음 비교 연구 (A Comparative Study on the Pronunciations of Korean and Vietnamese on Korean Syllable Final Double Consonants)

  • 장경남;유광복
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.637-646
    • /
    • 2022
  • 본 논문은 한국어의 겹받침 발음에 대하여 베트남인 한국어 학습자와 한국인을 비교 연구하였다. 언어학적인 연구를 통하여 조사하고 분석한 겹받침 발음에 관한 여러 오류와 제시한 교육 방법에 대하여 공학적 특히 음성 신호처리의 분석 방법을 활용하여서 이런 연구 결과를 확인하였고 이에 우리는 본 논문에서 새로운 교육 방법을 제시하였다. 인공지능의 기계 학습에 많이 활용되고 있는 서포팅 벡터 머신 (supporting vector machine, SVM)을 사용하여서 베트남인 학습자의 발음과 한국인의 발음을 비교하였다. SVM의 초결정 평면을 구할 수 있다는 것은 베트남인 학습자의 겹받침 발음이 한국인의 발음과 차이를 보인다는 것이고, 그 반대라면 발음을 잘하고 있다는 것이다. 본 논문에서 우리가 제시한 새로운 교육 방법은 쓰기와 듣기로만 구성하는 것이 아닌 음성 신호의 시간 영역에서 파형과 그것에 대응하는 신호의 에너지 등과 같은 피교육자에게 보일 수 있는 것들을 포함하는 효율적인 발음 교육 방법이다.

ACHARF ANC를 채용한 화자인증시스템의 성능분석 (Performance analysis of speaker verification system adopting the ACHARF ANC)

  • 이현승;최홍섭;신윤기
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.179-182
    • /
    • 2002
  • The development of noise robust speech processing systems is becoming increasingly important as speech technology is currently widely applied in real world applications. Recently, to resolve such a noise problem, adaptive noise canceller(ANC) is frequently used, which is based upon adaptive filters. The adaptive recursive filters perform better than adaptive non-recursive filters due to the added poles, but the stability may be severely threatened. But these problems of adaptive recursive filters was solved by ACHARF algorithm. This paper presents a method which combines speaker verification system with ANC(Adaptive Noise Canceller) using the ACHARF algorithm. In the front-end stage, ANC is adopted to suppress the additive noise imposed on the speech signal. The results show that the performance of speaker verification system becomes better than before.

  • PDF

독립성분분석을 이용한 강인한 음성인식 (Robust Speech Recognition Using Independent Component Analysis)

  • 임형규;이창기
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권2호
    • /
    • pp.269-274
    • /
    • 2004
  • 기존 음성 인식의 실세계 적용에서 큰 문제점은 잡음이다. 본 논문에서는 잡음이 섞인 음성 신호로부터 잡음 성분을 분리해 내는 방법을 제안한다. 이 방법은 잡음이 섞인 음성 신호에 독립성분분석(ICA:Independent Component Analysis)을 사용한 암묵신호 분리(blind source separation)를 적용하여 잡음 성분을 제거하게 된다. 잡음이 혼합된 음성 신호에 독립성분분석을 전처리(preprocessing) 과정에 이용함으로써 인식성능을 향상시킬 수 있다. 깨끗한 음성 신호에 음악과 거리잡음을 섞었을 경우 인식률이 잡음 없는 음성의 인식률보다 각각 최대 14.98%, 13.78%까지 저하되었다. 그러나 독립성분분석으로 복원된 음성의 경우 잡음 없는 음성의 인식률 수준(각각 97.39%, 96.49%)으로 나타났으며, 독립성분분석을 이용한 음성의 잡음 제거가 인식률 향상에 좋은 결과를 가져옴을 확인 할 수 있다.

  • PDF