DOI QR코드

DOI QR Code

위상 모델 기반의 소프트 마스크를 이용한 단일 채널 음성분리

Single-Channel Speech Separation Using Phase Model-Based Soft Mask

  • 이윤경 (충북대학교 제어로봇공학과) ;
  • 권오욱 (충북대학교 제어로봇공학과)
  • 발행 : 2010.02.28

초록

본 논문은 혼합 음성 신호로부터 크기와 위상 정보를 모두 고려하여 목표 음성 신호를 추출하고 향상하는 음성 분리 알고리듬을 제안한다.기존 연구에서는 혼합된 음성 신호의 로그 전력 스펙트럼 값이 시간-주파수 영역에서 서로 독립이라고 가정한 통계적 모델을 적용하기 때문에 음성 분리 결과 파형에 불연속을 야기한다. 본 논문에서는 이러한 불연속을 감소시키기 위하여 시간-주파수 영역에서의 스무딩 필터를 적용한다. 음성 분리 성능을 더욱 향상시키기 위하여 음성 신호의 크기와 함께 위상 정보를 고려하는 통계적 모델을 제안한다. 실혐 결과, 제안된 알고리즘이 기존의 크기 정보만을 사용한 알고리즘에 비하여 1.5 dB의 화자대간섭비 (SIR)를 개선하는 것으로 나타난다.

In this paper, we propose a new speech separation algorithm to extract and enhance the target speech signals from mixed speech signals by utilizing both magnitude and phase information. Since the previous statistical modeling algorithms assume that the log power spectrum values of the mixed speech signals are independent in the temporal and frequency domain, discontinuities occur in the resultant separated speech signals. To reduce the discontinuities, we apply a smoothing filter in the time-frequency domain. To further improve speech separation performance, we propose a statistical model based on both magnitude and phase information of speech signals. Experimental results show that the proposed algorithm improve signal-to-interference ratio (SIR) by 1.5 dB compared with the previous magnitude-only algorithms.

키워드

참고문헌

  1. 이윤경, 권오욱, "시간-주파수 스무딩이 적용된 소프트 마스크 필터를 이용한 단일 채널 음성 분리," 말소리, 제67호, 195-216쪽, 2008.
  2. Y.-K. Lee and O.-W. Kwon, "Application of shape analysis techniques for improved CASA-based speech separation," IEEE Trans. Consumer Electronics. vol. 55, no. 1, pp. 146-149, 2009. https://doi.org/10.1109/TCE.2009.4814427
  3. G. J. Brown and M. Cooke, "Computational auditory scene analysis," Computer Speech and Language, vol. 8, no. 4, pp. 297-326, 1994. https://doi.org/10.1006/csla.1994.1016
  4. H. Runqiang, Z. Pei, G. Qin, Q. Zhiping, W. Hao, and W. Xihong, "CASA based speech separation for robust speech recognition," in Proc. Interspeech, pp. 2068-2071, 2006.
  5. K. K. Paliwal, "Usefulness of phase in speech processing," in Proc. IPSJ Spoken Language Processing Workshop, Gifu, Japan, pp. 1-6, 2003.
  6. F. Faubel, J. McDonough, and D. Klakow, "A phase-averaged model for the relationship between noisy speech, clean speech and noise in the log-Mel domain," in Proc. Interspeech, pp. 553-556, 2008.
  7. A. M. Reddy and B. Raj, "Soft mask methods for singlechannel speaker separation," IEEE Transactions on Audio,Speech, and Language Processing, vol. 15, no. 6, pp. 1766-1776, 2007. https://doi.org/10.1109/TASL.2007.901310
  8. M. Cooke and T.-W. Lee. Speech Separation and Recognition Competition, http://www.dcs.shef.ac.uk/~martin/SpeechSeparationChallen ge.htm, 2006.