• 제목/요약/키워드: PLP-CMS

검색결과 7건 처리시간 0.028초

심리 음향 켑스트럼 평균 차감법을 이용한 이동 전화망에서의 음질 평가 (Speech Quality Measure in a Mobile Communication System Using PLP Cepstral Distance with CMS)

  • 윤종진;박상욱;박영철;윤대희;차일환
    • 음성과학
    • /
    • 제6권
    • /
    • pp.163-179
    • /
    • 1999
  • For the set up, management and repair of a mobile communication system, continuous estimation of speech quality is required. Speech quality measurement can be conducted by listener's judgement in a subjective test such as MOS (Mean Opinion Score) test. However, this method is laborious, expensive and time-consuming, it is advisable to predict subjective speech quality via objective measures. This paper presents a robust objective speech quality measure, PLP-CMS (Perceptual Linear Predictive-Cepstral Mean Subtraction), which can predict subjective speech quality in mobile communication systems. PLP-CMS has a high correlation with subjective quality owing to PLP (Perceptual Linear Predictive) analysis and shows a robust performance not being influenced by PSTN (Public Switched Telephone Network) channel effects due to CMS (Cepstral Mean Subtraction). To prove the performance of our proposed algorithm, we carried out subjective and objective quality estimation on speech samples which are variously distorted in a real mobile communication system. As a result, we demonstrated that PLP-CMS has a higher correlation with subjective quality than PSQM (Perceptual Speech Quality Measure) and PLP-CD (Perceptual Linear Predictive-Cepstral Distance).

  • PDF

심리 음향 겝스트럼 평균 차감법을 이용한 이동 전화망에서의 음질 평가 (Speech Quality Measure in a Mobile Communication System using PLP Cepstral Distance with CMS)

  • 윤종진;박상욱;박영철;안동순;윤대희
    • 한국통신학회논문지
    • /
    • 제25권12B호
    • /
    • pp.2046-2051
    • /
    • 2000
  • 본 논문에서는 기존의 음질 평가 방법들보다 우수할 뿐 아니라 다양한 채널 경로의 음성 신호에 대해서도 일관된 성능을 갖는 새로운 음질 평가 방법 PLP-CMS(Perceptual Linear Predictive-Cepstral Mean Subtraction)를 제안한다. CDMA PCS 이동 전화 환경에서 음성 신호의 주관적 음질을 효과적으로 예측할 수 있는 PLP-CMS는 심리 음향 선형 예측 분석(PLP Analysis: Perceptual Linear Predictive Analysis)을 이용하여 주관적 음질과의 상관 관계를 높였으며, 겝스트럼 평균 차감(CMS: Cepstral Mean Subtraction) 과정을 통하여 PSTN 경로에 무관하게 일관된 성능을 갖음을 확인하였다.

  • PDF

감정 음성 인식을 위한 강인한 음성 파라메터 (Robust Speech Parameters for the Emotional Speech Recognition)

  • 이규현;김원구
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.681-686
    • /
    • 2012
  • 본 논문에서는 강인한 감정 음성 인식 시스템을 개발하기 위하여 감정의 영향을 적게 받는 음성 파라메터에 대한 연구를 수행하였다. 이러한 목적을 위하여 다양한 감정이 포함된 데이터를 사용하여 감정이 음성 인식 시스템과 음성 파라메터에 미치는 영향을 분석하였다. 본 연구에서는 멜 켑스트럼, 델타 멜 켑스트럼, RASTA 멜 켑스트럼, 루트 켑스트럼, PLP 계수와 성도 길이 정규화 방법에서 주파수 와핑된 멜 켑스트럼 계수를 사용하였다. 또한 신호 편의 제거 방법으로 CMS 방법과 SBR 방법이 사용되었다. 실험결과에서 성도정규화 방법을 사용한 RASTA 멜 켑스트럼, 델타 멜 켑스트럼 및 CMS 방법을 사용한 경우가 HMM 기반의 화자독립 단독음 인식 실험 결과에서 가장 우수한 결과를 나타내었다.

전화망에서의 음성인식을 위한 전처리 연구 (Front-End Processing for Speech Recognition in the Telephone Network)

  • 전원석;신원호;양태영;김원구;윤대희
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.57-63
    • /
    • 1997
  • 본 논문에서는 다양한 전화선 채널에서 수집된 한국통신(KT)의 데이터베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 특징벡터 및 전처리방법을 연구하였다. 먼저 잡음 및 주변 환경 변화에 강인한 갓으로 알려져 있는 특징벡터들을 이용한 인식 성능을 비교하고, 가중 켑스트랄 거리측정 방법을 이용하여 인식시스템의 성능 향상을 검증하였다. 실험 결과, KT의 인식 시스템에서 이용하는 LPC 켑스트럼의 경우에 비하여 PLP(Perceptual Linear Prediction)과 MFCC)Mel Frequency Cepstral Coefficient)등에 대하여 인식률이 향상되었다. 켑스트럼간의 거리측정에 있어서는 RPS(Root Power Sums)와 BPL(Band Pass Lifter)과 같은 가중 켑스트랄 거리측정 함수들이 인식성능 향상에 도움을 주었다. 스펙트럼 차감법(Spectral Subtraction)의 적용은 왜곡에 의한 효과가 커서 인식률이 저하되었지만, RASTA(RelAtive SpecTrAl) 처리방법, CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)의 적용시에는 인식 성능 향상을 보였다. 특히, CMS 방법은 간편하면서도 높은 인식 성능 향상을 보였다. 마지막으로, CMS의 실시간 구현을 위한 방법들의 인식 성능을 비교하고, 인식 성능 저하를 막기 위한 개선책을 제시하였다.

  • PDF

감정 변화에 강인한 음성 인식 파라메터 (Robust Speech Recognition Parameters for Emotional Variation)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제15권6호
    • /
    • pp.655-660
    • /
    • 2005
  • 본 논문에서는 인간의 감정 변화에 강인한 음성 인식 기술 개발을 목표로 하여 감정 변화의 영향을 적게 받는 음성 인식시스템의 특징 파라메터에 관한 연구를 수행하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템의 특징 파라메터에 관한 연구를 수행하였다. 본 연구에서는 LPC 켑스트럼 계수, 멜 켑스트럼 계수, 루트 켑스트럼 계수, PLP 계수와 RASTA 처리를 한 멜 켑스트럼 계수와 음성의 에너지를 사용하였다 또한 음성에 포함된 편의(bias)를 제거하는 방법으로 CMS와 SBR 방법을 사용하여 그 성능을 비교하였다. 실험 결과에서 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신초편의 제거 방법으로 CMS를 사용한 경우에 HMM 기반의 화자독립 단어 인식기의 오차가 $7.05\%$로 가장 우수한 성능을 나타내었다. 이러한 것은 멜 켑스트럼을 사용한 기준시스템과 비교하여 $59\%$정도 오차가 감소된 것이다.

감정 변화에 강인한 음성 인식 (Robust Speech Recognition for Emotional Variation)

  • 김원구
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.431-434
    • /
    • 2007
  • 본 논문에서는 인간의 감정 변화의 영향을 적게 받는 음성 인식 시스템의 특정 파라메터에 관한 연구를 수행하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향과 감정 변화의 영향을 적게 받는 특정 파라메터에 관한 연구를 수행하였다. 본 연구에서는 LPC 켑스트럼 계수, 멜 켑스트럼 계수, 루트 켑스트럼 계수, PLP 계수와 RASTA 처리를 한 멜 켑스트럼 계수와 음성의 에너지를 사용하였다. 또한 음성에 포함된 편의(bias)를 제거하는 방법으로 CMS 와 SBR 방법을 사용하여 그 성능을 비교하였다. HMM 기반의 화자독립 단어 인식기를 사용한 실험 결과에서 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 경우에 가장 우수한 성능을 나타내었다. 이러한 것은 멜 켑스트럼을 사용한 기준 시스템과 비교하여 59%정도 오차가 감소된 것이다.

  • PDF

전화선 채널이 화자확인 시스템의 성능에 미치는 영향 (The Effect of the Telephone Channel to the Performance of the Speaker Verification System)

  • 조태현;김유진;이재영;정재호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.12-20
    • /
    • 1999
  • 본 논문에서는 깨끗한 환경에서 녹음된 음성데이터와 채널환경에서 수집된 음성데이터의 화자확인 성능을 비교하였다. 채널데이터의 화자확인 성능을 향상시키기 위하여 채널환경에 강인한 특징 파라메타 및 전처리에 대해 연구하였다. 실험을 위한 음성 DB는 어구지시(text-prompted) 시스템을 고려하여 두 자리의 한국어 숫자음으로 구성하였다. 적용한 음성 특징은 LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair)이며, 채널 잡음을 제거하기 위한 전처리 과정으로는 음성신호에 대한 필터링을 적용하였다. 추출된 특징으로부터 채널의 영향을 제거 또는 보상하기 위해 cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl)를 적용하였다. 또한 각각의 특징 및 처리 방법에 대한 음성인식 성능을 제시함으로써 화자확인에서의 성능과 음성인식에서의 성능을 비교하였다. 적용한 음성 특징 및 처리 방법들에 대한 성능 평가를 위해 HTK(HMM Tool Kit) 2.0을 이용하였다. 남자, 여자 화자별로 임계값을 다르게 주는 방법으로 깨끗한 음성데이터와 채널 데이터에 대한 EER(Equal Error Rate)을 구하여 비교하였다. 실험결과 전처리 과정에서 대역통과 필터(150~3800Hz)를 적용하여 저대역 및 고대역의 채널 잡음을 제거하고, 이 신호로부터 MFCC를 추출하였을 때 EER 측면에서의 화자확인 성능이 가장 좋게 나타났다.

  • PDF