• 제목/요약/키워드: cepstral distance

검색결과 41건 처리시간 0.018초

켑스트럼 거리 기반의 음성/음악 판별 성능 향상 (Performance Improvement of Speech/Music Discrimination Based on Cepstral Distance)

  • 박슬한;최무열;김형순
    • 대한음성학회지:말소리
    • /
    • 제56호
    • /
    • pp.195-206
    • /
    • 2005
  • Discrimination between speech and music is important in many multimedia applications. In this paper, focusing on the spectral change characteristics of speech and music, we propose a new method of speech/music discrimination based on cepstral distance. Instead of using cepstral distance between the frames with fixed interval, the minimum of cepstral distances among neighbor frames is employed to increase discriminability between fast changing music and speech. And, to prevent misclassification of speech segments including short pause into music, short pause segments are excluded from computing cepstral distance. The experimental results show that proposed method yields the error rate reduction of$68\%$, in comparison with the conventional approach using cepstral distance.

  • PDF

음성 인식을 위한 최적 가중 켑스트랄 거리 측정 방법 (Optimally Weighted Cepstral Distance Measure for Speech Recognition)

  • 김원구
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.133-137
    • /
    • 1994
  • In this paper, a method for designing an optimal weight function for the weighted cepstral distance measure is proposed. A conventional weight function or cepstral lifter is obtained eperimentally depending on the spectral components to be emphasized. The proposed method minimizes the error between word reference patterns and the traning data. To compare the proposed optimal weight function with conventional function, speech recognition systems based on Dpynamic Time Warping and Hidden Markov Models were constructed to conduct speaker independent isolated word necogination eperiment. Results show that the proposed method gives better performance than conventional weight functions.

  • PDF

LPC Cepstral 벡터 양자화에 의한 저 전송율 CELP 음성부호기의 스펙트럼 표기 (Spectrum Representation Based on LPC Cepstral VQ for Low Bit Rate CELP Coder)

  • 정재호
    • 한국통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.761-771
    • /
    • 1994
  • 본 논문에서는, 매우 낮은 전송율이 요구되는 음성통신의 환경하에서 CELP 음성 부호기를 사용할 경우, 스펙트럼에 대한 정보를 어떻게 효과적으로 나타낼 것인가에 대하여 고찰하였다. 구체적으로, 스펙트럼에 대한 정보를 나타내는 LPC 파라메타를 cepstrum으로 변형시키고, 변형된 LPC cepstrum계수들을 효과적으로 벡터 양자화하는 방법을 제시하였다. 벡터 양자화에 사용되는 코드-북의 설계를 위하여, 주파수 대역에서 서로 다른 의미를 갖는 세계의 cepstral distance measure들을 시도하였으며, 각각에 대한 성능이 분석되어졌다. 시뮬레이션을 통하여, 본 논문에서 제시한 LPC cepstral 벡터 양자화 방식이 스펙트럼에 대한 정보를 매우 효과적으로 나타낼 수 있음을 보였다.

  • PDF

Filtering of Filter-Bank Energies for Robust Speech Recognition

  • Jung, Ho-Young
    • ETRI Journal
    • /
    • 제26권3호
    • /
    • pp.273-276
    • /
    • 2004
  • We propose a novel feature processing technique which can provide a cepstral liftering effect in the log-spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance-based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log-spectral domain corresponding to the cepstral liftering. The proposed method performs a high-pass filtering based on the decorrelation of filter-bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature.

  • PDF

강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화 (Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition)

  • 신광호;정현열
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.278-285
    • /
    • 2010
  • 훈련 환경과 인식 환경의 차이가 음성인식 성능저하의 주요요인이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음특징 정규화 방법이 제안되고 있다. 기존의 묵음특징 정규화 방법은 낮은 SNR (Signal-to-Noise Ratio)에서 묵음구간의 에너지 레벨이 증가하여 음성/묵음 분류의 정확도가 떨어짐으로 인해 인식성능이 저하되는 문제점이 있었다. 본 논문에서는 로그 에너지와 음성/묵음(또는잡음)의 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언(Euclidean) 거리를 결합하여 음성/묵음을 분류하는 묵음특징 정규화 방법 (Cepstral distance and Log-energy based Silence Feature Normalization)을 제안하였다. 제안한 방법은 높은 SNR에서는 로그 에너지 특징이 잡음의 영향을 적게 받는 특성을 반영하여 기존의 묵음 특징 정규화 (Silence Feature Normalization)방법의 우수성을 그대로 유지하는 반면, 낮은 SNR에서는 로그 에너지 대신 음성/묵음 분류의 분별력이 우수한 켑스트럼 거리 정보를 이용함으로써 인식성능을 향상시킬 수 있다. 인식실험결과 기존의 SFN-I/II, CSFN 방법에 비해 전반적으로 향상된 인식성능을 얻을 수 있어 그 유효성을 확인할 수 있었다.

필터 뱅크 에너지 차감을 이용한 묵음 특징 정규화 방법의 성능 향상 (Performance Improvements for Silence Feature Normalization Method by Using Filter Bank Energy Subtraction)

  • 신광호;최숙남;정현열
    • 한국통신학회논문지
    • /
    • 제35권7C호
    • /
    • pp.604-610
    • /
    • 2010
  • 본 논문에서는 기존의 CLSFN (Cepstral distance and Log-energy based Silence Feature Normalization) 방법의 인식성능을 향상시키기 위하여, 필터 뱅크 서브 밴드 영역에서 잡음을 차감하는 방법과 CLSFN을 결합하는 방법, 즉 FSFN (Filter bank sub-band energy subtraction based CLSFN)을 제안하였다. 이 방법은 음성으로부터 특징 파라미터를 추출할 때 필터 뱅크 서브 밴드 영역에서 잡음을 제거하여 켑스트럼 특징을 향상시키고, 이에 대한 켑스트럼 거리를 이용하여 음성/묵음 분류의 정확도를 개선함으로써 기존 CLSFN 방법에 비해 향상된 인식성능을 얻을 수 있다. Aurora 2.0 DB를 이용한 실험결과, 제안하는 FSFN 방법은 CLSFN 방법에 비해 평균 단어 정확도 (word accuracy)가 약 2% 향상되었으며, CMVN (Cepstral Mean and Variance Normalization)과의 결합에서도 기존 모든 방법에 비해 가장 우수한 인식성능을 나타내어 제안 방법의 유효성을 확인할 수 있었다.

잡음 환경에서 음성 인식을 위한 신호처리 (Signal Processing for Speech Recognition in Noisy Environment)

  • 김원구;임용훈;차일환;윤대희
    • 한국음향학회지
    • /
    • 제11권2호
    • /
    • pp.73-84
    • /
    • 1992
  • 본 논문에서는 잡음 환경에서 음성 인식 시스템의 성능을 개선할 수 있는 잡음제거 방식과 거리 측정 방법을 연구하고 백색 및 유색 잡음 환경에서 거리 측정 방법에 따른 음성 인식 시스템의 성능을 평가하였다. 잡음 제거 방법으로는 음성 인식 시스템의 전처리 과정으로서 사용될 수 있는 스펙트럼 차감법, 자기 상관 차감법, 적응 잡음 제거, 적응 빔 형성기가 있으며 거리 측정 방법으로는 Log Likelihood Ration($d_{LLR}$), 켑스트럼에 의한 거리 측정 ($d_{CEP}$), 가중 켑스트럼 거리 측정 ($d_{WCEP}$), 스펙트럼 기울기에 의한 거리 측정 ($d_{RPS}$), 켑스트럼 투영 거리 측정방법 ($d_{CP},\;d_{BCP},\;d_{WCP},\;d_{BWCP}$)들이 있다. 백색 및 자동차 잡음 환경에서의 화자 종속 단독음 인식 실험 결과, 켑스트럼 계수의 높은 차수에 큰 가중을 두는 거리 측정 방법인 $d_{RPS},\;d_{WCEP}$가 잡음에 강한 특성을 나타내었으며, 잡음이 존재할 때는 pre-emphasis를 하지 않은 경우가 높은 인식율을 얻을 수 있었다.

  • PDF

LPC 켑스트럼 계수를 이용한 특정인의 코골이 인식 (Snorer-Dependent Snore Recognition Using LPC Cepstral Coefficients)

  • 최호선;장원규;이경중
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제52권9호
    • /
    • pp.554-559
    • /
    • 2003
  • In this paper the possibility of snorer-dependent snore recognition using cepstral coefficients was suggested. We assumed that snore and speech sounds have some similarities and we used cepstral coefficients which are widely used for speech recognition. Snoring data were acquired from 18 persons including 5 patients diagnosed as snore patient. To evaluate the performance of proposed method, the distance ratio based on LPC cepstral coefficients was selected as an index for snorer-dependent snore recognition. As a result, distance ratio of 3 was selected as optimal value showing the most efficient snorer-dependent snore recognition, which is high accuracy of 95.05% on average. In conclusion, the proposed method showed the possibilities to be applied in clinical applications for snorer-dependent snore recognition.

켑스트럼 정규화와 켑스트럼 거리기반 묵음특징정규화 방법을 이용한 잡음음성 인식 (Cepstral Normalization Combined with CSFN for Noisy Speech Recognition)

  • 최숙남;신광호;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1221-1228
    • /
    • 2011
  • 일반적인 음성인식 시스템은 보통 실내 환경에서는 잘 동작하지만 잡음이 존재하는 실제 환경에서는 여러 가지 잡음의 영향으로 그 성능이 급격히 떨어진다. 본 논문에서는 잡음환경에 강인한 음성인식을 위하여 훈련 환경과 실제 환경의 불일치를 줄이기 위한 방법으로 켑스트럼 거리기반 묵음특징 정규화(CSFN: Cepstral distance based SFN) 방법에 켑스트럼 정규화 방법(CMVN:cepstral mean and variance normalization)을 결합한 CSFN-CMVN 방법을 제안하였다. 이 방법은 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언 거리를 결합하여 음성/묵음 분류에 사용하여 묵음특징을 정규화하는 CSFN 방법에 켑스트럼 정규화 방법을 결합하는 방법이다. Aurora 2.0 DB를 이용한 실험결과, 제안한 CSFN-CMVN은 기존의 대표적인 묵음특징 정규화 방법인 SFN-I 과 비교했을 때 모든 테스트 세트에 대한 평균 단어인식 정확도에서 약 7%의 인식률 향상을 가져옴을 확인하였다. 또한, 기존의 SFN-II, CSFN에 비해서도 약 6%, 5% 향상되었음을 확인 할 수 있어 제안한 방법의 유효성을 확인할 수 있었다.

심리 음향 켑스트럼 평균 차감법을 이용한 이동 전화망에서의 음질 평가 (Speech Quality Measure in a Mobile Communication System Using PLP Cepstral Distance with CMS)

  • 윤종진;박상욱;박영철;윤대희;차일환
    • 음성과학
    • /
    • 제6권
    • /
    • pp.163-179
    • /
    • 1999
  • For the set up, management and repair of a mobile communication system, continuous estimation of speech quality is required. Speech quality measurement can be conducted by listener's judgement in a subjective test such as MOS (Mean Opinion Score) test. However, this method is laborious, expensive and time-consuming, it is advisable to predict subjective speech quality via objective measures. This paper presents a robust objective speech quality measure, PLP-CMS (Perceptual Linear Predictive-Cepstral Mean Subtraction), which can predict subjective speech quality in mobile communication systems. PLP-CMS has a high correlation with subjective quality owing to PLP (Perceptual Linear Predictive) analysis and shows a robust performance not being influenced by PSTN (Public Switched Telephone Network) channel effects due to CMS (Cepstral Mean Subtraction). To prove the performance of our proposed algorithm, we carried out subjective and objective quality estimation on speech samples which are variously distorted in a real mobile communication system. As a result, we demonstrated that PLP-CMS has a higher correlation with subjective quality than PSQM (Perceptual Speech Quality Measure) and PLP-CD (Perceptual Linear Predictive-Cepstral Distance).

  • PDF