• 제목/요약/키워드: cepstral mean

검색결과 59건 처리시간 0.022초

음성 인식을 위한 전화망에서의 잡음처리 (Noise Processing for Speech Recognition in the Telephone Line)

  • 전원석;신원호;양태영;김원구;윤대희
    • 한국음향학회지
    • /
    • 제17권1호
    • /
    • pp.4-8
    • /
    • 1998
  • 본 논문에서는 다양한 전화선 채널을 통하여 수집된 음성 데이터에 포함된 잡음 및 채널 왜곡을 제거하여 음성인식 시스템의 성능을 향상시키는 방법에 관하여 연구하였다. 전 화선을 통과한 음성에 포함된 채널 잡음 및 왜곡을 제거하는 방법으로는 음성신호를 보상하 는 방법으로 CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)과 SM(Stochastic Matching)의 성능을 비교 평가하였다. 잡음제거 방식의 성능을 평가를 위하 여 음소 단위의 반연속 HMM을 이용한 화자독립 단독음 인식을 수행하였다. 인식 실험 결 과, 멜 켑스트럼을 사용한 경우에 CMS가 가장 우수한 성능을 내었고 다음으로 SM과 SBR 순으로 나타났다. 또한 특징벡터를 주변 잡음에 강인하게 하는 가중함수(RPS, BPL)를 사용 한 켑스트럼 계수와 잡음제거 방식을 함께 사용한 경우에 인식 성능이 더욱 향상되었다.

  • PDF

화자식별을 위한 파라미터의 잡음환경에서의 성능비교 (Parameters Comparison in the speaker Identification under the Noisy Environments)

  • 최홍섭
    • 음성과학
    • /
    • 제7권3호
    • /
    • pp.185-195
    • /
    • 2000
  • This paper seeks to compare the feature parameters used in speaker identification systems under noisy environments. The feature parameters compared are LP cepstrum (LPCC), Cepstral mean subtraction(CMS), Pole-filtered CMS(PFCMS), Adaptive component weighted cepstrum(ACW) and Postfilter cepstrum(PF). The GMM-based text independent speaker identification system is designed for this target. Some series of experiments show that the LPCC parameter is adequate for modelling the speaker in the matched environments between train and test stages. But in the mismatched training and testing conditions, modified parameters are preferable the LPCC. Especially CMS and PFCMS parameters are more effective for the microphone mismatching conditions while the ACW and PF parameters are good for more noisy mismatches.

  • PDF

전화음성에 강인한 문장종속 화자인식에 관한 연구 (On a robust text-dependent speaker identification over telephone channels)

  • 정의상;최홍섭
    • 음성과학
    • /
    • 제2권
    • /
    • pp.57-66
    • /
    • 1997
  • This paper studies the effects of the method, CMS(Cepstral Mean Subtraction), (which compensates for some of the speech distortion. caused by telephone channels), on the performance of the text-dependent speaker identification system. This system is based on the VQ(Vector Quantization) and HMM(Hidden Markov Model) method and chooses the LPC-Cepstrum and Mel-Cepstrum as the feature vectors extracted from the speech data transmitted through telephone channels. Accordingly, we can compare the correct recognition rates of the speaker identification system between the use of LPC-Cepstrum and Mel-Cepstrum. Finally, from the experiment results table, it is found that the Mel-Cepstrum parameter is proven to be superior to the LPC-Cepstrum and that recognition performance improves by about 10% when compensating for telephone channel using the CMS.

  • PDF

프레임레벨유사도정규화를 적용한 문맥독립화자식별시스템의 구현 (Realization a Text Independent Speaker Identification System with Frame Level Likelihood Normalization)

  • 김민정;석수영;김광수;정현열
    • 융합신호처리학회논문지
    • /
    • 제3권1호
    • /
    • pp.8-14
    • /
    • 2002
  • 본 논문에서는 Gaussian mixture model을 이용한 실시간 문맥독립화자식별시스템을 구현하여 인식실험을 수행하였으며, 인식시스템의 성능을 향상시키기 위하여 화자검증시스템에서 좋은 결과를 보인 유사도 정규화(Likelihood normalization)방법을 적용하여 인식실험을 하였다. 시스템은 크게 전처리단과 화자모델생성단, 화자식별단으로 나누어진다. 전처리단에서는 화자의 발성변화를 고려하여 CMN(Cepstral mean normalization)과 Silence removal 방법을 적용하였다. 화자모델생성단에서는, 화자발성의 음향학적 특징을 잘 표현할 수 있는 GMM(Gaussian mixture model)을 이용하여 화자모델을 작성하였으며, GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법을 사용하였다. 화자식별단에서는 학습된 데이터와 테스트용 데이터로부터 ML(Maximum likelihood)을 이용하여 유사도를 계산하였으며, 이 과정에서 유사도 정규화를 적용한 경우에는 프레임단위로 유사도를 계산하게 된다. 계산된 유사도는 스코어(S$_{C}$)로 표현하였고, 가장 높은 스코어를 가지는 화자가 인식화자로 결정된다. 화자인식에서 발성의 종류로는 문맥독립 문장을 사용하였다. 인식실험을 위해서는 ETRI445 DB와 KLE452 DB를 사용하였으며, 특징파라미터로서는 켑스트럼계수 및 회귀계수값만을 사용하였다. 인식실험에서는 등록화자의 수를 달리하여 일반적인 화자식별방법과 프레임단위유사도정규화방법으로 각각 인식실험을 하였다. 인식실험결과, 프레임단위유사도정규화방법이 인식화자수가 많아지는 경우에 일반적인 방법보다 향상된 인식률을 얻을 수 있었다.

  • PDF

GMM 기반의 문맥독립 화자 검증 시스템의 성능 향상 (Performance Improvement in GMM-based Text-Independent Speaker Verification System)

  • 함성준;신광호;김민정;김주곤;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.131-134
    • /
    • 2004
  • 본 논문에서는 GMM(Gaussian Mixture Model)을 이용한 문맥독립 화자 검증 시스템을 구현한 후, arctan 함수를 이용한 정규화 방법을 사용하여 화자검증실험을 수행하였다. 특징파라미터로서는 선형예측방법을 이용한 켑스트럼 계수와 회귀계수를 사용하고 화자의 발성 변이를 고려하여 CMN(Cepstral Mean Normalization)을 적용하였다. 화자모델 생성을 위한 학습단에서는 화자발성의 음향학적 특징을 잘 표현할 수 있는 GMM(Gaussian Mixture Model)을 이용하였고 화자 검증단에서는 ML(Maximum Likelihood)을 이용하여 유사도를 계산하고 기존의 정규화 방법과 arctan 함수를 이용한 방법에 의해 정규화된 점수(score)와 미리 정해진 문턱값과 비교하여 검증하였다. 화자 검증 실험결과, arctan 함수를 부가한 방법이 기존의 방법보다 항상 향상된 EER을 나타냄을 확인할 수 있었다.

  • PDF

근긴장성 발성장애의 후두마사지 효과: 체계적 고찰 및 메타분석 (Effects of Laryngeal Massage on Muscle Tension Dysphonia: A Systematic Review and Meta-Analysis)

  • 김재옥
    • 대한후두음성언어의학회지
    • /
    • 제32권2호
    • /
    • pp.64-74
    • /
    • 2021
  • Background and Objectives This study was to investigate the voice quality and articulation effects of laryngeal massage on muscle tension dysphonia (MTD). Materials and Method A systematic review of articles published between January 2000 and December 2020 in Cochrane, PubMed, ScienceDirect, SpingerLink, ERIC, and Naver Academic was conducted. From the total of 2094 articles identified, 10 peer-reviewed articles were included in a meta-analysis. Mean effect sizes of the variables related to voice quality (jitter, shimmer, harmonic to noise ratio or noise to harmonic ratio, high-F0, low-I, cepstral peak prominence) and articulation (F1, F2, F1 slope, F2 slope) were calculated by Hedges'g. Results Meta-analysis of the selected articles showed that laryngeal massage had medium to large effects on all variables of voice quality and articulation except F0-high and F1 slope in the MTD patients. Conclusion This study provided comprehensive clinical evidence that it is highly desirable to apply laryngeal massage to MTD patients.

다양한 잡음 환경하에서 환경 군집화를 통한 화자 및 환경 동시 적응 (Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments)

  • 김영국;송화전;김형순
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.566-571
    • /
    • 2009
  • 본 논문에서는 eigenvoice 방식에 기반하여 다양한 잡음 환경에 강인한 고속 화자 적응 방법을 제안하였다. 제안된 방법은 잡음 제거 기술과 환경 군집화 방법을 기반으로 한다. 그러나, 잡음 제거 기술을 통해 잡음을 제거한 후에도 여전히 잔여 잡음이 존재하므로 비음성 구간의 켑스트럼 평균을 사용하여 잡음 환경별로 화자 적응 데이터를 분류한 후 각각의 환경별로 환경 모델을 구성한다. 이러한 환경 군집화를 적응데이터에 대해 구성한 후 테스트 음성이 입력되면 군집화된 모델 중에서 인식 데이터와 가장 유사한 복수의 환경별 군집화된 화자 적응 모델을 구한 후 이들의 가중함을 통해 화자 적응을 수행하는 방법이다. 제안된 방법은 적응 및 평가를 통해 화자 독립 모델을 사용한 경우에 비해 $40{\sim}59%$ 인식 오류 감소율을 얻었다.

잡음환경에서의 음성인식을 위한 모델 파라미터 변환 방식에 관한 연구 (A Study on a Model Parameter Compensation Method for Noise-Robust Speech Recognition)

  • 장육현;정용주;박성현;은종관
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.112-121
    • /
    • 1997
  • 본 논문에서는 잡음에 강한 음성 인식기를 위한 모델 파라미터 변환 방식에 관하여 살펴보았다. 모델 파라미터 변환에 있어서 잡음에 대한 어떠한 통계 모델도 사용하지 않고 각 단어 단위로 수행되어 실시간 음성 인식이 가능하도록 하였다. Parallel model combination(PCM)은 본 논문에서 제안한 방법과의 성능 비교를 위하여 cepstrum 영역에서 구현되었다. 본 논문에서 제안한 PCM 방법은 modified PCM(MPMC)라 하며, 이 방법은 각 hidden Markov mode(HMM)의 state별로 평균적인 가우시안 믹스처(Gaussian mixture)의 변화률과 개별적인 변화률간에 결합지수를 이용하여 평균을 재조정한다. 또한, vector Taylor series 근사화를 이용한 모델 파라미터 변환을 위하여 cepstrum 영역에서의 환경모델 예측을 위한 expectation-maximization(EM) 해를 유도하여 구현하였다. 본 논문에서 구현된 알고리즘들의 성능 위해 HMM 인식기를 이용한 화자독립 고립단어 인식을 수행하였다. 시용된 잡음은 가우시안 백색 잡음과 주행중에 녹음된 자동차 잡음이며, 각 잡음울 signal-to-noise ratio(SNR)별로 사용하였다. 잡음의 모델은 1 state HMM으로 단어시작 3 프레임(frame)을 이용하여 만들어졌다. 인식 결과는 VTS 접근방식을 이용하였을 경우 매우 우수한 인식률을 나타내었으며, MPMC의 경우도 기존의 PMC보다 인식률이 향상되었다. 특히, 영차 VTS의 경우는 단순히 평균만을 조정하였음에도 불구하고 PMC와 MPMC보다 인식률이 우수하게 나타났다.

  • PDF

발성장애 환자에서 주관적 음성검사와 객관적 음성검사의 연관성 연구 (Study for Correlation between Objective and Subjective Voice Parameters in Patients with Dysphonia)

  • 박정우;김보람;오재환;강태규;김동영;우주현
    • 대한후두음성언어의학회지
    • /
    • 제30권2호
    • /
    • pp.118-123
    • /
    • 2019
  • Background and Objectives Voice evaluation is classified into subjective tests such as auditory perception and self-measurement, and objective tests such as acoustic and aerodynamic analysis. When evaluating dysphonia, subjective and objective test results do not always match. The purpose of this study was to analyze the relationship between subjective and objective evaluation in patients with dysphonia and to identify meaningful parameters by disease. Materials and Method The total of 322 patients who visited voice clinic from May 2017 to May 2018 were included in this study. Laryngeal lesions were identified using stroboscopy. Pearson correlation test was performed to analyse correlation between subjective tests including GRBAS scale and voice handicap index, and objective tests including jitter, shimmer, noise to harmonic ratio (NHR), cepstral peak prominence (CPP), maximal phonation time (MPT), mean flow rate, and subglottic pressure. Results In vocal nodule and sulcus vocalis, among GRBAS system, grade and breathiness showed good correlation with CPP, and roughness showed good correlation with jitter or shimmer. In unilateral vocal cord paralysis (UVCP), grade and breathiness showed a very good correlation with CPP, and also good correlation with jitter, shimmer, NHR, and MPT. Also asthenia showed good correlation with CPP and MPT. Vocal polyp has a limited association with other diseases. Conclusion In patients with dysphonia, grade and breathiness showed good correlation with CPP, jitter, and shimmer, and reflect the state of voice change well especially in UVCP, CPP, and MPT.