• 제목/요약/키워드: 묵음 정규화

검색결과 7건 처리시간 0.02초

켑스트럼 정규화와 켑스트럼 거리기반 묵음특징정규화 방법을 이용한 잡음음성 인식 (Cepstral Normalization Combined with CSFN for Noisy Speech Recognition)

  • 최숙남;신광호;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1221-1228
    • /
    • 2011
  • 일반적인 음성인식 시스템은 보통 실내 환경에서는 잘 동작하지만 잡음이 존재하는 실제 환경에서는 여러 가지 잡음의 영향으로 그 성능이 급격히 떨어진다. 본 논문에서는 잡음환경에 강인한 음성인식을 위하여 훈련 환경과 실제 환경의 불일치를 줄이기 위한 방법으로 켑스트럼 거리기반 묵음특징 정규화(CSFN: Cepstral distance based SFN) 방법에 켑스트럼 정규화 방법(CMVN:cepstral mean and variance normalization)을 결합한 CSFN-CMVN 방법을 제안하였다. 이 방법은 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언 거리를 결합하여 음성/묵음 분류에 사용하여 묵음특징을 정규화하는 CSFN 방법에 켑스트럼 정규화 방법을 결합하는 방법이다. Aurora 2.0 DB를 이용한 실험결과, 제안한 CSFN-CMVN은 기존의 대표적인 묵음특징 정규화 방법인 SFN-I 과 비교했을 때 모든 테스트 세트에 대한 평균 단어인식 정확도에서 약 7%의 인식률 향상을 가져옴을 확인하였다. 또한, 기존의 SFN-II, CSFN에 비해서도 약 6%, 5% 향상되었음을 확인 할 수 있어 제안한 방법의 유효성을 확인할 수 있었다.

강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화 (Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition)

  • 신광호;정현열
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.278-285
    • /
    • 2010
  • 훈련 환경과 인식 환경의 차이가 음성인식 성능저하의 주요요인이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음특징 정규화 방법이 제안되고 있다. 기존의 묵음특징 정규화 방법은 낮은 SNR (Signal-to-Noise Ratio)에서 묵음구간의 에너지 레벨이 증가하여 음성/묵음 분류의 정확도가 떨어짐으로 인해 인식성능이 저하되는 문제점이 있었다. 본 논문에서는 로그 에너지와 음성/묵음(또는잡음)의 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언(Euclidean) 거리를 결합하여 음성/묵음을 분류하는 묵음특징 정규화 방법 (Cepstral distance and Log-energy based Silence Feature Normalization)을 제안하였다. 제안한 방법은 높은 SNR에서는 로그 에너지 특징이 잡음의 영향을 적게 받는 특성을 반영하여 기존의 묵음 특징 정규화 (Silence Feature Normalization)방법의 우수성을 그대로 유지하는 반면, 낮은 SNR에서는 로그 에너지 대신 음성/묵음 분류의 분별력이 우수한 켑스트럼 거리 정보를 이용함으로써 인식성능을 향상시킬 수 있다. 인식실험결과 기존의 SFN-I/II, CSFN 방법에 비해 전반적으로 향상된 인식성능을 얻을 수 있어 그 유효성을 확인할 수 있었다.

음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 (Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.169-174
    • /
    • 2013
  • 음성 인식 성능 저하의 문제는 모델 훈련 환경과 인식 환경의 차이이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음 특징 정규화 방법을 사용하고 있다. 기존의 묵음 특징 정규화 방법은 낮은 신호 대 잡음비에서 묵음 구간의 에너지 레벨이 증가하여 음성과 비음성에 대한 분류의 정확도가 떨어짐으로 인해 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 방법을 제안하였다. 제안한 방법은 높은 신호 대 잡음비에서는 음성 에너지를 최대화시켜 특징이 잡음의 영향을 적게 받는 특성을 이용하였고 낮은 신호 대 잡음비에서는 음성/비음성의 켑스트럼 특징 분포 특성을 이용하여 인식 성능을 향상시켰다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었다.

음성 신호 특징과 셉스트럽 특징 분포에서 묵음 특징 정규화를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using the Convergence of Voice signal Feature and Silence Feature Normalization in Cepstrum Feature Distribution)

  • 황재천
    • 한국융합학회논문지
    • /
    • 제8권5호
    • /
    • pp.13-17
    • /
    • 2017
  • 음성 인식에서 기존의 음성 특징 추출 방법은 명확하지 않은 스레숄드 값으로 인해 부정확한 음성 인식률을 가진다. 본 연구에서는 음성과 비음성에 대한 특징 추출을 묵음 특징 정규화를 융합한 음성 인식 성능 향상을 위한 방법을 모델링 한다. 제안한 방법에서는 잡음의 영향을 최소화하여 모델을 구성하였고, 각 음성 프레임에 대해 음성 신호 특징을 추출하여 음성 인식 모델을 구성하였고, 이를 묵음 특징 정규화를 융합하여 에너지 스펙트럼을 엔트로피와 유사하게 표현하여 원래의 음성 신호를 생성하고 음성의 특징이 잡음을 적게 받도록 하였다. 셉스트럼에서 음성과 비음성 분류의 기준 값을 정하여 신호 대 잡음 비율이 낮은 신호에서 묵음 특징 정규화로 성능을 향상하였다. 논문에서 제시하는 방법의 성능 분석은 HMM과 CHMM을 비교하여 결과를 보였으며, 기존의 HMM과 CHMM을 비교한 결과 음성 종속 단계에서는 2.1%p의 인식률 향상이 있었으며, 음성 독립 단계에서는 0.7%p 만큼의 인식률 향상이 있었다.

유, 무성음 및 묵음 식별에 관한 연구 (A study on the Voiced, Unvoiced and Silence Classification)

  • 김명환;김순협
    • 한국음향학회지
    • /
    • 제3권2호
    • /
    • pp.46-58
    • /
    • 1984
  • 본 논문은 한국어 음성 인식을 위한 유성음, 무성음, 묵음 식별에 관한 연구이다. 주어진 음성 구간을 3가지 음성 신호 부류로 식별하기 위하여 패턴 인식 방법을 사용하였다. 여기에 사용한 분석 파 라메타는 음성 신호의 영교차율, 대수 에너지, 정규화 된 첫 번째 자동 상관 계수, 선형 예측 분석에서 얻은 첫 번째 예측 계수, 그리고 예측 오차의 에너지이다. 한편 측정된 파라메타들이 다차원 가우스 확 률 밀도 함수에 따라 분산되었다는 가정하에서 어어진 최소 거리 법칙에 기본을 두고 음성 구간을 결정 하였다. 측정된 파라메타들을 여러 가지 방법으로 조합하여 식별한 결과 영교차율, 첫 번째 예측계수, 예측 오차의 에너지를 측정 파라메타로 사용했을 때 1%보다 적은 식별 오차율을 얻었다.

  • PDF

변형된 이득함수를 이용한 잡음 환경에서의 음성인식 (Speech Recognition in Noisy Environments Using Modified Gain Function)

  • 진호성;이상호;홍재근
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.119-123
    • /
    • 2010
  • 본 논문에서는 2단계 잡음제거 방법의 이득함수를 이용한 고조파 복원 잡음제거 방법의 이득함수를 조정하여 기존의 방법보다 음성개선을 향상시켰고, 제안한 방법으로 개선된 음성을 음성인식 기술에 적용하였다. 본 논문에서는 기존 방법으로 음성개선 결과 묵음구간에서 음성구간으로 변화는 구간에서 이전 프레임의 추정된 음성신호로 스펙트럼의 이득함수가 구해져서 음성이 발생하는 구간에서 왜곡이 발생한다. 따라서 본 논문에서는 이러한 현상을 개선시키기 위해 2단계 잡음제거 방법의 이득함수를 추정된 a priori SNR과 비교하여 이득함수를 조정하고, 2단계 잡음제거 방법의 이득함수를 고조파 복원 방법의 이득함수와 비교하여 이득함수를 조정하여 음성을 개선하는 방법을 제안하였다. 그리고 음성인식을 위한 특징벡터 추출을 위해 제안한 방법으로 개선된 음성의 대수 에너지를 정규화 하는 대수 에너지 정규화 방법(Log Energy Normalization)을 음성인식 방법에 적용하였다.

  • PDF

필터 뱅크 에너지 차감을 이용한 묵음 특징 정규화 방법의 성능 향상 (Performance Improvements for Silence Feature Normalization Method by Using Filter Bank Energy Subtraction)

  • 신광호;최숙남;정현열
    • 한국통신학회논문지
    • /
    • 제35권7C호
    • /
    • pp.604-610
    • /
    • 2010
  • 본 논문에서는 기존의 CLSFN (Cepstral distance and Log-energy based Silence Feature Normalization) 방법의 인식성능을 향상시키기 위하여, 필터 뱅크 서브 밴드 영역에서 잡음을 차감하는 방법과 CLSFN을 결합하는 방법, 즉 FSFN (Filter bank sub-band energy subtraction based CLSFN)을 제안하였다. 이 방법은 음성으로부터 특징 파라미터를 추출할 때 필터 뱅크 서브 밴드 영역에서 잡음을 제거하여 켑스트럼 특징을 향상시키고, 이에 대한 켑스트럼 거리를 이용하여 음성/묵음 분류의 정확도를 개선함으로써 기존 CLSFN 방법에 비해 향상된 인식성능을 얻을 수 있다. Aurora 2.0 DB를 이용한 실험결과, 제안하는 FSFN 방법은 CLSFN 방법에 비해 평균 단어 정확도 (word accuracy)가 약 2% 향상되었으며, CMVN (Cepstral Mean and Variance Normalization)과의 결합에서도 기존 모든 방법에 비해 가장 우수한 인식성능을 나타내어 제안 방법의 유효성을 확인할 수 있었다.