• 제목/요약/키워드: Binary mask estimation

검색결과 6건 처리시간 0.023초

Eigenvoice를 이용한 이진 마스크 분류 모델 적응 방법 (Eigenvoice Adaptation of Classification Model for Binary Mask Estimation)

  • 김기백
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.164-170
    • /
    • 2015
  • 본 논문에서는 잡음 환경에서 취득된 음성 신호에서 잡음을 제거하기 위한 방법으로 사용되는 이진 마스크 분류 모델의 적응과정에 대해 다루고자 한다. 기존 연구결과에 의하면, 잡음 환경 데이터에 이진 마스크 기법을 적용하면 음성 명료도를 향상시킬 수 있다고 알려져 있다. 하지만 이진 마스크 분류 모델 학습 시 테스트 환경 데이터가 포함되어야 한다는 단점을 안고 있다. 본 논문에서는 새로운 잡음 환경에서 이진 마스크 분류 모델을 적응하기 위해, 음성 인식에서 널리 사용되는 화자 적응 기법인 eigenvoice 방법을 적용하고자 한다. 실험결과에서는 모델 적응에 사용되는 데이터량에 따른 성능을 정검출율과 오검출율 관점에서 평가하였고, 그 결과 새로운 잡음 환경에서 데이터량을 증가시켜 모델을 적응함으로써 향상된 성능을 나타냄을 확인할 수 있었다.

음성 명료도 향상을 위한 학습 기반의 신호 대 잡음 비 추정을 이용한 이산 마스크 추정 방법 (Binary Mask Estimation using Training-based SNR Estimation for Improving Speech Intelligibility)

  • 김기백
    • 방송공학회논문지
    • /
    • 제17권6호
    • /
    • pp.1061-1068
    • /
    • 2012
  • 본 논문에서는 시간-주파수 영역에서의 이산 마스킹을 이용하여 잡음환경 음성의 음성 명료도를 높이는 방법에 대해 다루고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역의 신호를 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이러한 이산 마스크를 추정하기 위해서는 각 시간-주파수 영역에서 신호 대 잡음 비를 추정하여 문턱값과 비교해야 하는데, 본 논문에서는 학습 기반의 신호 대 잡음 비 추정방법을 사용하여 문턱값과 비교하여 이산 마스크를 추정한다. 신호 대 잡음 비와 비교하기 위한 문턱값은 모든 주파수 대역에 대해 동일한 값을 이용하는 고정 문턱값 외에도 주파수 대역에 따라 학습 데이터의 분포로부터 최적의 값을 사용하는 최적 문턱값을 제안한다. 제안된 이산 마스크 추정 방법은 잡음 환경 데이터에 적용한 후, 피험자에게 들려주어 음성 명료도를 측정한다.

잡음환경 음성명료도 향상을 위한 이진 마스크 추정 후처리 알고리즘 (A Post-processing for Binary Mask Estimation Toward Improving Speech Intelligibility in Noise)

  • 김기백
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.311-318
    • /
    • 2013
  • 시간-주파수 영역에서의 이진 마스킹을 이용하여 잡음환경에서 잡음을 제거하여 음질을 향상하는 방법에 대해 논하고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역 (시간-주파수 유닛의 신호 대 잡음 비 (Signal-to-Noise Ratio: SNR)가 낮은 영역)의 신호에 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이전의 연구에서는 가우시안 혼합 모델을 이용하여 마스크 "0"과 마스크 "1"을 분류하는 방법을 사용하였다. 각 주파수 밴드별로 수집된 데이터를 이용하여 가우시안 혼합 모델을 학습하고 테스트 데이터가 들어오면 현재의 시간-주파수 마스크가 "0"인지 "1"인지 판별하게 된다. 본 논문에서는 이러한 알고리즘에 주파수 영역에서의 종속성을 고려하여 추정된 마스크에 대해 후처리를 수행하는 알고리즘을 제안한다. 주파수 영역에서의 종속성에 관한 후처리는 비터비 (Viterbi) 알고리즘을 이용하며, 제안된 후처리 알고리즘을 적용하여 이진 마스크 추정 오차를 줄여 음성 명료도 향상을 기대할 수 있다.

Neighborhood 관계를 이용한 DUET Generalization (Generalization of DUET using neighborhood relationship)

  • 우성민;정홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.1017-1018
    • /
    • 2008
  • In this paper, we propose a method that makes use of neighborhood relationship in 2D spectrogram of separated sources toward the generalization of the binary mask in Degenerate Unmixing Estimation Technique (DUET). A new generalized mask can be consist of five to ten mask. According to the new mask, the original power of the spectrogram in each frequency-time point is assigned. The result showed a smooth and tender wave-form, indicating a high speech separation performance compared to the original method.

  • PDF

잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법 (Method for Spectral Enhancement by Binary Mask for Speech Recognition Enhancement Under Noise Environment)

  • 최갑근;김순협
    • 한국음향학회지
    • /
    • 제29권7호
    • /
    • pp.468-474
    • /
    • 2010
  • 음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널잡음에 의한 왜곡이다. 일반적으로 배경잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 받게 한다. DSR (Distributed Speech Recognition) 기반의 음성인식 역시 이와 같은 문제로 성능 향상에 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 다양한 잡음제거 알고리듬이 사용되고 있으나 낮은 SNR환경에서 부정확한 잡음추정으로 발생하는 스펙트럼 손상과 잔존 잡음은 음성인식기의 인식환경과 학습 환경의 불일치를 만들게 되어 인식률을 저하시키는 원인이 된다. 본 논문에서는 이와 같은 문제를 해결하기 위해 잡음제거 알고리듬으로 MMSE-STSA 방법을 사용하였고 손상된 스펙트럼을 보상하기 위해 Ideal Binary Mask를 이용하였다. 잡음환경 (SNR 15 ~ 0 dB)에 따른 실험결과 제안된 방법을 사용했을 때 향상된 스펙트럼을 얻을 수 있었고 향상된 인식성능을 확인했다.

시간-주파수 영역에서의 스테레오 사운드 분리기법 (Stereo Sound Demixing Method in Time-Frequency Domain)

  • 이재은;김영문;임찬;강현수
    • 한국콘텐츠학회논문지
    • /
    • 제7권8호
    • /
    • pp.1-12
    • /
    • 2007
  • 본 논문은 스테레오 사운드에서 합쳐지기 이전의 개별적인 사운드를 분리해내는 기법을 제안한다. 기존의 Degenerate Unmixing Estimation Technique (DUET) 알고리즘의 W-Disjoint Orthogonal 가정에 기반을 두고 있으며, Windowed-Fourier 변환을 사용하여 시간-주파수 영역에서 주요 프로세스를 수행한다. 제안된 방식은 패닝 인덱스의 거리차이에 따라 가중치를 준 마스크를 사용하는 기법과 양쪽 채널의 성분을 비교하여 바이너리 기반의 마스크를 사용하는 방식이다. 전자는 부드러운 분리 특성을 보여주며, 후자는 높은 분리 특성을 보여주었다. 마지막에 실험을 통해 기존의 방식과 제안된 방식을 비교함으로써, 제안된 방식이 기존 방식 보다 좋은 성능을 가지고 있음을 알아볼 것이다.