• 제목/요약/키워드: RASTA

검색결과 29건 처리시간 0.022초

전화망을 통한 핵심어 검출 시스템에서의 채널왜곡 보상벙법의 성능비교 (Performance Comparision of Channel distortion Compensation Techniques in Keyword Spotting System over the Telephone Network)

  • 이교혁
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1996년도 영남지부 학술발표회 논문집 Acoustic Society of Korean Youngnam Chapter Symposium Proceedings
    • /
    • pp.56-60
    • /
    • 1996
  • 본 논문에서 핵심어 검출(Keyword spotting ) 시스템에서의 채널 왜곡에 대한 보상방법등의 성능을 비교하였다. 훈련을 음성과 인식실험용 음성은 서로 다른 환경에서 수집되었으며, 특별히 인식실험용 음성으로는 전화망을 통한 음성 데이터를 이용하였다. 전화망을 통한 음성인식에서는 채널왜곡과 부가잡음에 의해서 음성신호에 왜곡이 생기므로 이들에 대한 적적한 보상이 필요하다. 본 논문에서는 채널 왜곡보상을 위한 처리방법으로 널리 사용되고 있는 global cepstral mean substraction (GCMS), local cepstral mean subtraction(LCMS) 그리고 RASTA processing을 적용하였다. 그리고 인식성능의 개선을 위해 이들 방법을 likelihood ration scorning 에 의한 후처리 과정을 적용하였다. 인식실험결과 이들 방법 모두 채널왜곡 보상을 하지 않았을 경우와 비교하여 더 좋은 인식성능을 얻을 수 있었으며, 그 중 후처리를 적용한 LCMS 방법이 가장 우수한 성능을 나타내었다.

  • PDF

음성 인식 정보를 사용한 감정 인식 (Emotion Recognition using Speech Recognition Information)

  • 김원구
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.425-428
    • /
    • 2008
  • 본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문장에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종 감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결합된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다.

  • PDF

한국어 숫자음 전화음성의 채널왜곡에 따른 특징파라미터의 변이 분석 (Variation Analysis of Feature Parameters According to the Channel Distortion of Korean Telephone Digit Speech)

  • 정성윤;손종목;김민성;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.191-194
    • /
    • 2002
  • The final purpose of this paper is the enhancement of speech recognition rate under the matched telephone environment between training data and test data. To analyze the effect by the distortion of the changing telephone channel on every call, MFCC is used as the feature parameter and CMN, RTCN, and RASTA are used as channel compensation techniques. For each case, the variation of feature parameters of all phones is analyzed. And, we find recognition rates according to each compensation method using the continuous HMM recognizer, and examine the relationship between variation and recognition rate.

  • PDF

연속 숫자음 전화음성의 인식 성능 향상에 관한 연구 (A Study on the Performance Improvement of Connected Digit Telephone Speech Recognition)

  • 김민성;정성윤;손종목;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.143-146
    • /
    • 2002
  • 전화음성의 경우 전화 회선의 채널 대역폭 제한과 통화로 형성시 달라지는 채널의 특성으로 인하여 마이크 음성에 비하여 인식 성능이 많이 저하된다. 본 연구에서는 연속 숫자음 전화음성의 인식율 향상을 위해 채널 왜곡 보상 기법들을 적용하고, HTK 기반의 인식 실험을 통해 보상 기법에 따른 인식 성능을 비교하였다. 채널 왜곡 보상 기법으로 CMN, RASTA, RTCN 등을 적용하고, 각 보상 기법에 따라 HMM의 state 수, mixture 수를 바꾸어 가며 인식 실험한 결과를 제시한다.

  • PDF

Speech Feature Selection of Normal and Autistic children using Filter and Wrapper Approach

  • Akhtar, Muhammed Ali;Ali, Syed Abbas;Siddiqui, Maria Andleeb
    • International Journal of Computer Science & Network Security
    • /
    • 제21권5호
    • /
    • pp.129-132
    • /
    • 2021
  • Two feature selection approaches are analyzed in this study. First Approach used in this paper is Filter Approach which comprises of correlation technique. It provides two reduced feature sets using positive and negative correlation. Secondly Approach used in this paper is the wrapper approach which comprises of Sequential Forward Selection technique. The reduced feature set obtained by positive correlation results comprises of Rate of Acceleration, Intensity and Formant. The reduced feature set obtained by positive correlation results comprises of Rasta PLP, Log energy, Log power and Zero Crossing Rate. Pitch, Rate of Acceleration, Log Power, MFCC, LPCC is the reduced feature set yield as a result of Sequential Forwarding Selection.

전화망에서의 음성인식을 위한 전처리 연구 (Front-End Processing for Speech Recognition in the Telephone Network)

  • 전원석;신원호;양태영;김원구;윤대희
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.57-63
    • /
    • 1997
  • 본 논문에서는 다양한 전화선 채널에서 수집된 한국통신(KT)의 데이터베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 특징벡터 및 전처리방법을 연구하였다. 먼저 잡음 및 주변 환경 변화에 강인한 갓으로 알려져 있는 특징벡터들을 이용한 인식 성능을 비교하고, 가중 켑스트랄 거리측정 방법을 이용하여 인식시스템의 성능 향상을 검증하였다. 실험 결과, KT의 인식 시스템에서 이용하는 LPC 켑스트럼의 경우에 비하여 PLP(Perceptual Linear Prediction)과 MFCC)Mel Frequency Cepstral Coefficient)등에 대하여 인식률이 향상되었다. 켑스트럼간의 거리측정에 있어서는 RPS(Root Power Sums)와 BPL(Band Pass Lifter)과 같은 가중 켑스트랄 거리측정 함수들이 인식성능 향상에 도움을 주었다. 스펙트럼 차감법(Spectral Subtraction)의 적용은 왜곡에 의한 효과가 커서 인식률이 저하되었지만, RASTA(RelAtive SpecTrAl) 처리방법, CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)의 적용시에는 인식 성능 향상을 보였다. 특히, CMS 방법은 간편하면서도 높은 인식 성능 향상을 보였다. 마지막으로, CMS의 실시간 구현을 위한 방법들의 인식 성능을 비교하고, 인식 성능 저하를 막기 위한 개선책을 제시하였다.

  • PDF

전화선 채널이 화자확인 시스템의 성능에 미치는 영향 (The Effect of the Telephone Channel to the Performance of the Speaker Verification System)

  • 조태현;김유진;이재영;정재호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.12-20
    • /
    • 1999
  • 본 논문에서는 깨끗한 환경에서 녹음된 음성데이터와 채널환경에서 수집된 음성데이터의 화자확인 성능을 비교하였다. 채널데이터의 화자확인 성능을 향상시키기 위하여 채널환경에 강인한 특징 파라메타 및 전처리에 대해 연구하였다. 실험을 위한 음성 DB는 어구지시(text-prompted) 시스템을 고려하여 두 자리의 한국어 숫자음으로 구성하였다. 적용한 음성 특징은 LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair)이며, 채널 잡음을 제거하기 위한 전처리 과정으로는 음성신호에 대한 필터링을 적용하였다. 추출된 특징으로부터 채널의 영향을 제거 또는 보상하기 위해 cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl)를 적용하였다. 또한 각각의 특징 및 처리 방법에 대한 음성인식 성능을 제시함으로써 화자확인에서의 성능과 음성인식에서의 성능을 비교하였다. 적용한 음성 특징 및 처리 방법들에 대한 성능 평가를 위해 HTK(HMM Tool Kit) 2.0을 이용하였다. 남자, 여자 화자별로 임계값을 다르게 주는 방법으로 깨끗한 음성데이터와 채널 데이터에 대한 EER(Equal Error Rate)을 구하여 비교하였다. 실험결과 전처리 과정에서 대역통과 필터(150~3800Hz)를 적용하여 저대역 및 고대역의 채널 잡음을 제거하고, 이 신호로부터 MFCC를 추출하였을 때 EER 측면에서의 화자확인 성능이 가장 좋게 나타났다.

  • PDF

잡음에 강한 특징 벡터 및 스펙트럼 차감법을 이용한 음성 인식 (Speech Recognition Using Noise Robust Features and Spectral Subtraction)

  • 신원호;양태영;김원구;윤대희;서영주
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.38-43
    • /
    • 1996
  • 본 논문에서는 잡음 및 주변 환경에 강인한 것으로 알려져 있는 특징 벡터들을 이용한 인식 성능을 비교하였다. 아울러 스펙트럼 차감법을 적용하여 높은 인식 성능을 얻도록 하였다. 본 논문에서는 환경 변화에 강인한 인식 성능을 얻기 위하여 SMC(Short time Modified Coherence) 분석, 루트(root) 켑스트럼 분석, LDA(Linear Discriminant Analysis), PLP(Perceptual Linear Prediction), RASTA(RelAtive SpecTrAl) 처리 등을 이용하여 인식 실험을 수행하였다. 실험을 위하여 반연속 HMM을 이용한 단독음 인식 시스템을 구현하였고 전시장 및 컴퓨터실의 잡음을 첨가하여 0, 10 및 20dB의 SNR에 대한 인식 실험을 수행하였다. 실험 결과, LPCC(Linear Prediction Cepstral Coefficient)를 이용한 경우에 비하여 SMC나 루트처리를 이용한 멜 켑스트럼(루트_멜 켑스트럼)을 이용한 경우 10dB의 SNR에서 각각 9.86%, 12.68% 향상된 가장 좋은 인식률을 얻었다. 또한 멜 켑스트럼과 루트_멜 켑스트럼을 스펙트럼 차감법과 결합하여 잡음을 제거한 경우 10dB에서 각각 16.7%, 8.4% 향상된 94.91%, 94.28%의 인식률을 얻을 수 있었다.

  • PDF

성대신호 기반의 명령어인식기를 위한 특징벡터 연구 (Effective Feature Vector for Isolated-Word Recognizer using Vocal Cord Signal)

  • 정영규;한문성;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권3호
    • /
    • pp.226-234
    • /
    • 2007
  • 본 논문은 환경 노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 성대마이크는 환경 노이즈의 효과를 최소화하는 장점이 있다. 그러나 고주파의 부재와 부분적인 포먼트 정보 손실 때문에, 성대마이크를 이용해서 개발된 ASR시스템은 표준마이크를 이용한 시스템에 비해 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로부터 입력되는 정보 보안하는데 주로 사용된다. 본 논문은 한국어의 음운적 특정과 신호 분석을 통해 성대마이크만을 사용한 높은 성능의 ASR 시스템을 개발 할 수 있음을 보인다. 주파수 대역내 에너지 합을 이용하는 MFCC 알고리즘이 갖는 성대신호 분석의 문제점을 제시하고, 성대신호를 대상으로 보다 높은 성능을 갖는 특정추출 알고리즘의 조건을 제시한다. 이러한 조건은 (1) 민감한 band-pass filter와 (2) 유/무성음 분리를 위해 사용하는 특정벡터의 사용이다 실험 결과 제안된 조건을 만족하는 ZCPA 알고리즘을 적용한 경우가 MFCC를 적용한 경우보다 약 16%정도의 높은 성능을 보인다. 그러고 CMS와 RASTA와 같은 channel normalization 알고리즘을 적용한 경우 약 2%의 성능 향상이 있다.