• 제목/요약/키워드: PESQ

검색결과 84건 처리시간 0.034초

환경잡음분류 기반의 향상된 음성부재확률 추정 (An Improved Speech Absence Probability Estimation based on Environmental Noise Classification)

  • 손영호;박윤식;안홍섭;이상민
    • 한국음향학회지
    • /
    • 제30권7호
    • /
    • pp.383-389
    • /
    • 2011
  • 본 논문에서는 음성향상을 위하여 환경잡음분류를 적용한 향상된 음성부재확률 추정방법을 제안한다. 기존의 음성부재확률 추정방법에서는 마이크로폰 입력신호와 추정된 잡음신호 기반의 a posteriori SNR값에 문턱값을 적용하여 음성부재확률을 구하는데 필요한 음성부재의 a priori 확률을 도출하였다. 본 논문에서 제안된 알고리즘은 보다 효과적인 음성부재확률 추정을 위하여 고정된 문턱값과 스무딩 (smoothing)파라미터를 사용하는 기존의 방법과는 달리 잡음분류 알고리즘인 가우시안 혼합 모델 (Gaussian mixture model)을 사용하여 잡음마다 최적화된 파라미터를 적용한다. 제안된 음성 향상 기법은 ITU-T P.862 PESQ (perceptual evaluation of speech quality)와 composite measure를 이용하여 다양한 환경에서 평가하였으며, 제안된 알고리즘이 기존의 음성부재확률 추정방법보다 향상된 결과를 보였다.

디지털 보청기를 위한 다중 마이크로폰을 이용한 잡음제거 성능 연구 (A Study on the Performance of Noise Reduction using Multi-Microphones for Digital Hearing Aids)

  • 강현덕;송영록;이상민
    • 전기전자학회논문지
    • /
    • 제14권1호
    • /
    • pp.47-54
    • /
    • 2010
  • 본 연구에서는 잡음환경에서 디지털 보청기의 잡음제거를 위해 2,3,4,5개의 마이크로폰을 이용해 잡음제거를 하고 비교 분석 하였다. 실제 디지털 보청기에서 사용할 수 있게 하기 위해 귀걸이형 (behind-the-ear type, BTE) 보청기의 형태와 유사하게 마이크로폰을 배열한 실험 세트를 구성하여 각각의 조건에 따라 신호녹음을 하였고, 녹음된 각각의 신호들을 멀티 마이크로폰을 이용한 잡음제거 알고리즘으로 잡음 제거하였다. 평가 방법에 따라 잡음제거 전과 후의 SNR (Signal to Noise Ratio)과 PESQ (Perceptual Evaluation of Speech ) 측정 분석 결과 마이크로폰 3개와 4개를 사용하였을 때 가장 높은 성능 향상을 보였으며 대부분의 경우에서 마이크로폰의 개수가 늘어남에 따라 성능이 향상된 것을 확인하였다.

KEMAR 마네킹을 이용한 단이 보청기용 FDSI 빔포밍 알고리즘의 정량적 평가 (Quantitative Evaluation of the Performance of Monaural FDSI Beamforming Algorithm using a KEMAR Mannequin)

  • 조경원;남경원;한종희;이상민;김동욱;홍성화;장동표;김인영
    • 대한의용생체공학회:의공학회지
    • /
    • 제34권1호
    • /
    • pp.24-33
    • /
    • 2013
  • To enhance the speech perception of hearing aid users in noisy environment, most hearing aid devices adopt various beamforming algorithms such as the first-order differential microphone (DM1) and the two-stage directional microphone (DM2) algorithms that maintain sounds from the direction of the interlocutor and reduce the ambient sounds from the other directions. However, these conventional algorithms represent poor directionality ability in low frequency area. Therefore, to enhance the speech perception of hearing aid uses in low frequency range, our group had suggested a fractional delay subtraction and integration (FDSI) algorithm and estimated its theoretical performance using computer simulation in previous article. In this study, we performed a KEMAR test in non-reverberant room that compares the performance of DM1, DM2, broadband beamforming (BBF), and proposed FDSI algorithms using several objective indices such as a signal-to-noise ratio (SNR) improvement, a segmental SNR (seg-SNR) improvement, a perceptual evaluation of speech quality (PESQ), and an Itakura-Saito measure (IS). Experimental results showed that the performance of the FDSI algorithm was -3.26-7.16 dB in SNR improvement, -1.94-5.41 dB in segSNR improvement, 1.49-2.79 in PESQ, and 0.79-3.59 in IS, which demonstrated that the FDSI algorithm showed the highest improvement of SNR and segSNR, and the lowest IS. We believe that the proposed FDSI algorithm has a potential as a beamformer for digital hearing aid devices.

이동형 단말기를 위한 다채널 입력 기반 비정상성 잡음 제거기 (Multi-channel input-based non-stationary noise cenceller for mobile devices)

  • 정상배;이성독
    • 한국지능시스템학회논문지
    • /
    • 제17권7호
    • /
    • pp.945-951
    • /
    • 2007
  • 잡음의 제거는 음성을 인터페이스로 하는 기기들에 필수적이라고 할 수 있다. 실질적으로 통화 품질이나 음성 인식률은 음성 입력부의 주변에서 들어오는 원치 않는 가산성 잡음에 의해서 크게 열화된다. 본 논문에서는 기본적으로 두 개의 마이크로폰을 이용한 잡음제거 방법을 제안한다. 마이크를 여러 개 사용했을 때의 장점은 방향 정보를 이용할 수 있다는 것인데 이는 사람 목소리, 음악 소리 등의 비정상성 잡음을 제거하는 데에 유용하다. 제안된 잡음제거 알고리즘은 위너필터에 기반 한다고 볼 수 있다. 위너필터에 의한 잡음제거를 위해서는 검출하고자 하는 음성과 제거하고자 하는 잡음의 주파수 응답이 동시에 추정 가능해야 한다. 이를 위해서 주파수 영역에서 스펙트럼 분류를 시행하여 위너필터 기반의 잡음제거에 필요한 정보를 얻는다. 제안된 알고리즘을 이용한 성능은 잘 알려진 프로스트 (Frost) 알고리즘 및 적응 모드 컨트롤러를 갖는 generalized sidelobe canceller (GSC)와 비교하였다. 성능의 지표로는 객관적 음질 평가의 방법 중에서 널리 쓰이고 있는 perceptual evaluation of speech quality (PESQ) 및 음성 인식률이 사용되었다.

최소 통계법과 Short-Term 예측계수 코드북을 이용한 Non-Stationary/Mixed 배경잡음 추정 기법 (Non-Stationary/Mixed Noise Estimation Algorithm Based on Minimum Statistics and Codebook Driven Short-Term Predictor Parameter Estimation)

  • 이명석;노명훈;박성주;이석필;김무영
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.200-208
    • /
    • 2010
  • 본 논문에서는 배경잡음에 강인한 잡음제거 알고리즘 설계를 위해서 minimum statistics (MS) 기법을 codebook driven short-term predictor parameter estimation (CDSTP) 기법에 접목하는 방법을 제안한다. MS는 stationary 배경잡음에는 강인하지만, non-stationary 배경잡음에는 상대적으로 취약하다. CDSTP는 non-stationary 배경잡음에 강인한 특성을 보이지만, 코드북에 없는 배경잡음 환경에는 취약하다. 따라서 non-stationary 배경잡음에 강인한 CDSTP 방법과 별도의 코드북 학습 과정이 필요 없는 MS를 결합해서 다양한 배경잡음에 강인한 알고리즘을 제안한다. 제안방법은 MS나 CDSTP 방법에 비해서 전체적으로 향상된 perceptual evaluation of speech quality (PESQ) 성능을 나타냈으며, 특히 stationary 배경잡음과 non-stationary 배경잡음이 섞여 있는 mixed 배경잡음 환경에서 강인한 특성을 보였다.

신호 대 잡음비 추정 방법을 이용한 다중 주파수 밴드 잡음 억제 시스템 (Multi frequency band noise suppression system using signal-to-noise ratio estimation)

  • 오인규;이인성
    • 한국음향학회지
    • /
    • 제35권2호
    • /
    • pp.102-109
    • /
    • 2016
  • 본 논문은 밀접한 간격의 두 개의 마이크 배열 환경에서 SNR(Signal-to-Noise Ratio) 추정을 통한 잡음 억제 방법을 제안한다. 기존의 방법은 전 밴드에서 간섭 함수 기반의 SNR 추정을 통해 이득 함수를 얻는 잡음 억제 방법을 사용한다. 그러나 이 방법은 잡음으로 인한 손상이 모든 특징 벡터 성분에 영향을 미쳐 성능을 저하시키는 문제점을 가지고 있다. 따라서 주파수 영역의 신호를 N개의 다중 주파수 밴드로 구분하고 각 밴드별로 간섭 함수 기반의 SNR 추정을 통한 이득 함수를 얻는 잡음 억제 방법을 제안한다. 제안하는 방법의 성능평가는 ITU-T(International Telecommunications Union Telecommunication)에서 제공되는 객관적인 품질 평가 방법인 PESQ(Perceptual Evaluation of Speech Quality)로 비교하여 나타내었다.

스펙트럼 변이 기반의 향상된 음성 존재 불확실성 추적 기법을 이용한 Global Soft Decision (Global Soft Decision Based on Improved Speech Presence Uncertainty Tracking Method Incorporating Spectral Gradient)

  • 김종웅;장준혁
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.279-285
    • /
    • 2013
  • 본 논문에서는 기존의 global soft decision 기법에서 음성 부재 확률을 구할 때의 음성 부재와 존재에 대한 a priori 확률값의 비(q)에 스펙트럼 변이 기법을 적용한 음성 향상 기법을 제안한다. 기존의 global soft decision 방법은 음성 부재 확률을 구하기 위해 가정한 가설에 따라 고정된 q 값을 사용하였지만, 본 논문에서 제안한 알고리즘은 기존의 고정된 값에 직전 2 프레임에서의 음성 존재 여부와 스펙트럼 변이 값의 상태 조건에 따라 적응적으로 q 값이 가변되도록 하여 음성 부재 확률을 향상시키는 기법이다. 제안된 방법의 성능 평가를 위해 ITU-T P.862 PESQ(Perceptual Evaluation of Speech Quality)를 이용하여 평가하였고, 그 결과 제안된 스펙트럼 변이 기법을 적용한 방법이 기존의 global soft decision 방법보다 향상된 결과를 보여주었다.

Convolutive 암묵신호분리방법에 기반한 음향반향 제거 (Acoustic Echo Cancellation Based on Convolutive Blind Signal Separation Method)

  • 이행우
    • 한국전자통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.979-986
    • /
    • 2018
  • 본 논문은 암묵신호분리방법을 이용한 음향반향 제거에 관한 것이다. 이 방법은 동시통화 중에도 반향제거 성능이 저하되지 않는다. 폐쇄된 반향환경에서 음향신호의 혼합모델은 다채널이기 때문에 convolutive 암묵신호분리방법을 적용하며 신호분리를 위해 분리계수를 직접 계산하지 않고 역방향 모델을 이용하여 혼합계수를 산출하는 방식으로 이루어진다. 계수 갱신은 2차 통계적 성질을 기반으로 반복적인 계산에 의해 수행됨으로서 근단화자 신호를 추정해낸다. 제안한 암묵신호분리의 성능을 검증하기 위해 많은 시뮬레이션을 수행하였다. 시뮬레이션 결과, 이 방법을 사용한 음향반향제거기는 동시통화의 유무에 상관없이 안전하게 동작하고, 일반적인 적응 FIR 필터구조에 비해 PESQ가 0.6점 향상되는 것으로 나타났다.

MAV 환경에서의 CNN 기반 듀얼 채널 음향 향상 기법 (CNN based dual-channel sound enhancement in the MAV environment)

  • 김영진;김은경
    • 한국정보통신학회논문지
    • /
    • 제23권12호
    • /
    • pp.1506-1513
    • /
    • 2019
  • 최근 드론과 같은 멀티로터 UAV(Unmanned Aerial Vehicle, 무인항공기)의 산업 범위가 크게 확대됨에 따라, UAV를 활용한 데이터의 수집 및 처리, 분석에 대한 요구도 함께 증가하고 있다. 그러나 UAV를 이용해서 수집된 음향 데이터는 UAV의 모터 소음과 바람 소리 등으로 크게 손상되어, 음향 데이터의 처리 및 분석이 어렵다는 단점이 있다. 따라서 본 논문에서는 UAV에 연결된 마이크를 통해 수신된 음향 신호로부터 목표 음향 신호의 품질을 향상시킬 수 있는 방법에 대해 연구하였다. 본 논문에서는 기존의 단일 채널 음향 향상 기술 중 하나인 densely connected dilated convolutional network를 음향 신호의 채널 간 특성을 반영할 수 있도록 확장하였으며, 그 결과 SDR, PESQ, STOI과 같은 평가 지표에서 기존 연구 대비 좋은 성능을 보였다.

주파수 영역 심층 신경망 기반 음성 향상을 위한 실수 네트워크와 복소 네트워크 성능 비교 평가 (Performance comparison evaluation of real and complex networks for deep neural network-based speech enhancement in the frequency domain)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.30-37
    • /
    • 2022
  • 본 논문은 주파수 영역에서 심층 신경망 기반 음성 향상 모델 학습을 위하여 학습 대상과 네트워크 구조에 따라 두 가지 관점에서 성능을 비교 평가한다. 이때, 학습 대상으로는 스펙트럼 매핑과 Time-Frequency(T-F) 마스킹 기법을 사용하였고 네트워크 구조는 실수 네트워크와 복소 네트워크를 사용하였다. 음성 향상 모델의 성능은 데이터 셋 규모에 따라 Perceptual Evaluation of Speech Quality(PESQ)와 Short-Time Objective Intelligibility(STOI) 두 가지 객관적 평가지표를 통해 평가하였다. 실험 결과, 네트워크의 종류와 데이터 셋 종류에 따라 적정한 훈련 데이터의 크기가 다르다는 것을 확인하였다. 또한, 데이터의 크기와 학습 대상에 따라 복소 네트워크보다 실수 네트워크가 비교적 높은 성능을 보이기 때문에 총 파라미터의 수를 고려한다면 경우에 따라 실수 네트워크를 사용하는 것이 보다 현실적인 해결책일 수 있다는 것을 확인하였다.