• Title/Summary/Keyword: Speech quality

Search Result 805, Processing Time 0.023 seconds

조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성향상 (Speech Enhancement Based on Minima Controlled Recursive Averaging Technique Incorporating Conditional MAP)

  • 금종모;박윤식;장준혁
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.256-261
    • /
    • 2008
  • 본 논문에서는 기존의 최소값 제어 재귀 평균기법(minima controlled recursive averaging, MCRA) 알고리즘에 조건 사후 최대 확률 (maximun a posteriori, MAP)을 적용한 음성향상을 제안한다. 기존의 MCRA는 파워스펙트럼에 평균을 취하고 각 서브밴드에서 음성 신호 존재 확률로 조절하는 스무딩 매개변수를 사용한다. 본 논문에서 제안된 알고리즘은 현재 프레임에 들어온 신호가 이전 프레임에서의 음성의 존재와 부재에 대한 조건을 부여해 주어 음성 신호 존재확률을 수정하여 음성향상에 적용한다. 제안된 음성 향상은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)와 주관적 음질평가를 이용하여 평가하였고 기존의 MCRA 방법보다 향상된 결과를 나타내었다.

16 비트 고정 소수점 DSP를 이용한 GSM-EFR 음성 부호화기의 실시간 구현 (Real-time Implementation of a GSM-EFR Speech Coder on a 16 Bit Fixed-point DSP)

  • 최민석;변경진;김경수
    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.42-47
    • /
    • 2000
  • 본 논문에서는 DSP Group사의 16비트 고정 소수점 DSP(Digital Signal Processor)인 OakDSP Core를 사용하여 유럽의 이동통신에서 표준으로 사용되고 있는 음성 부호화기 알고리즘인 GSM-EFR (Global System for Mobile communications-Enhanced Full Rate)을 실시간으로 구현하였다. 실시간 구현된 GSM-EFR 음성 부호화기의 계산량은 약 24MIPS가 소요 되며, 7.06K 워드의 코드 메모리와 12.19K 워드의 데이터 메모리를 사용하였다. 구현된 음성 부호화기는 ETSI에서 제공하는 시험 벡터 샘플을 모두 통과하였으며, 객관적 평가툴을 이용하여 지각 평가를 수행한 결과, 32kbps ADPCM과 비슷한 음질을 보였다. 본 논문에서 실시간으로 구현된 GSM-EFR 음성 부호화기는 IMT2000 비동기 방식의 음성 부호화기 표준인 GSM-AMR의 최상위 전송률 모드로서, 앞으로 IMT-2000 비동기식 단말기용 모뎀 ASIC에 탑재할 GSM-AMR 음성 부호화기의 구현을 위한 기본 구조로 이용될 예정이다.

  • PDF

환경잡음분류 기반의 향상된 음성부재확률 추정 (An Improved Speech Absence Probability Estimation based on Environmental Noise Classification)

  • 손영호;박윤식;안홍섭;이상민
    • 한국음향학회지
    • /
    • 제30권7호
    • /
    • pp.383-389
    • /
    • 2011
  • 본 논문에서는 음성향상을 위하여 환경잡음분류를 적용한 향상된 음성부재확률 추정방법을 제안한다. 기존의 음성부재확률 추정방법에서는 마이크로폰 입력신호와 추정된 잡음신호 기반의 a posteriori SNR값에 문턱값을 적용하여 음성부재확률을 구하는데 필요한 음성부재의 a priori 확률을 도출하였다. 본 논문에서 제안된 알고리즘은 보다 효과적인 음성부재확률 추정을 위하여 고정된 문턱값과 스무딩 (smoothing)파라미터를 사용하는 기존의 방법과는 달리 잡음분류 알고리즘인 가우시안 혼합 모델 (Gaussian mixture model)을 사용하여 잡음마다 최적화된 파라미터를 적용한다. 제안된 음성 향상 기법은 ITU-T P.862 PESQ (perceptual evaluation of speech quality)와 composite measure를 이용하여 다양한 환경에서 평가하였으며, 제안된 알고리즘이 기존의 음성부재확률 추정방법보다 향상된 결과를 보였다.

Effect of Digital Noise Reduction of Hearing Aids on Music and Speech Perception

  • Kim, Hyo Jeong;Lee, Jae Hee;Shim, Hyun Joon
    • Journal of Audiology & Otology
    • /
    • 제24권4호
    • /
    • pp.180-190
    • /
    • 2020
  • Background and Objectives: Although many studies have evaluated the effect of the digital noise reduction (DNR) algorithm of hearing aids (HAs) on speech recognition, there are few studies on the effect of DNR on music perception. Therefore, we aimed to evaluate the effect of DNR on music, in addition to speech perception, using objective and subjective measurements. Subjects and Methods: Sixteen HA users participated in this study (58.00±10.44 years; 3 males and 13 females). The objective assessment of speech and music perception was based on the Korean version of the Clinical Assessment of Music Perception test and word and sentence recognition scores. Meanwhile, for the subjective assessment, the quality rating of speech and music as well as self-reported HA benefits were evaluated. Results: There was no improvement conferred with DNR of HAs on the objective assessment tests of speech and music perception. The pitch discrimination at 262 Hz in the DNR-off condition was better than that in the unaided condition (p=0.024); however, the unaided condition and the DNR-on conditions did not differ. In the Korean music background questionnaire, responses regarding ease of communication were better in the DNR-on condition than in the DNR-off condition (p=0.029). Conclusions: Speech and music perception or sound quality did not improve with the activation of DNR. However, DNR positively influenced the listener's subjective listening comfort. The DNR-off condition in HAs may be beneficial for pitch discrimination at some frequencies.

Effect of Digital Noise Reduction of Hearing Aids on Music and Speech Perception

  • Kim, Hyo Jeong;Lee, Jae Hee;Shim, Hyun Joon
    • 대한청각학회지
    • /
    • 제24권4호
    • /
    • pp.180-190
    • /
    • 2020
  • Background and Objectives: Although many studies have evaluated the effect of the digital noise reduction (DNR) algorithm of hearing aids (HAs) on speech recognition, there are few studies on the effect of DNR on music perception. Therefore, we aimed to evaluate the effect of DNR on music, in addition to speech perception, using objective and subjective measurements. Subjects and Methods: Sixteen HA users participated in this study (58.00±10.44 years; 3 males and 13 females). The objective assessment of speech and music perception was based on the Korean version of the Clinical Assessment of Music Perception test and word and sentence recognition scores. Meanwhile, for the subjective assessment, the quality rating of speech and music as well as self-reported HA benefits were evaluated. Results: There was no improvement conferred with DNR of HAs on the objective assessment tests of speech and music perception. The pitch discrimination at 262 Hz in the DNR-off condition was better than that in the unaided condition (p=0.024); however, the unaided condition and the DNR-on conditions did not differ. In the Korean music background questionnaire, responses regarding ease of communication were better in the DNR-on condition than in the DNR-off condition (p=0.029). Conclusions: Speech and music perception or sound quality did not improve with the activation of DNR. However, DNR positively influenced the listener's subjective listening comfort. The DNR-off condition in HAs may be beneficial for pitch discrimination at some frequencies.

이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델 (Complex nested U-Net-based speech enhancement model using a dual-branch decoder)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.253-259
    • /
    • 2024
  • 본 논문에서는 이중 분기 디코더를 갖는 복소 중첩 U-Net 기반의 새로운 음성 향상 모델을 제안하였다. 제안된 모델은 음성 신호의 크기와 위상 성분을 동시에 추정할 수 있도록 복소 중첩 U-Net으로 구성되며, 디코더는 스펙트럼 사상과 시간 주파수 마스킹을 각각의 분기에서 수행하는 이중 분기 디코더 구조를 갖는다. 이때, 이중 분기 디코더 구조는 단일 디코더 구조에 비하여, 음성 정보의 손실을 최소화하면서 잡음을 효과적으로 제거할 수 있도록 한다. 실험은 음성 향상 모델 학습을 위해 보편적으로 사용되는 VoiceBank + DEMAND 데이터베이스 상에서 이루어졌으며, 다양한 객관적 평가 지표를 통해 평가되었다. 실험 결과, 이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델은 기존의 베이스라인과 비교하여 Perceptual Evaluation of Speech Quality(PESQ) 점수가 0.13가량 증가하였으며, 최근 제안된 음성 향상 모델들보다도 높은 객관적 평가 점수를 보였다.

서브밴드 백색화 필터를 이용한 부공간 잡음 제거 (Subspace Speech Enhancement Using Subband Whitening Filter)

  • 김종욱;유창동
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.169-174
    • /
    • 2003
  • 본 논문에서는 서브밴드 백색화 필터를 이용한 새로운 부공간 잡음제거 방법을 제안하였다. 기존의 부공간 접근방법에서는 백색 잡음을 가정하거나, 유색 잡음에 대한 전처리로서 백색화 필터를 사용하였다. 백색화 필터를 서브밴드로 나누어 처리함으로써, 제안된 방법은 잔여잡음을 줄이면서 신호 왜곡의 상한값을 최소화하도록 설계하였다. 또한 서브밴드 백색화 필터를 도입함으로써 부공간 잡음제거 방법에서 약점으로 지적되는 것 중의 하나인 Karhunen-Loeve(KL) 영역에서의 주파수 해상도를 높일 수 있었다. 실험결과에 의하면 제안된 방법은 Ephraim에 의해 제안된 방법 부공간 잡음 제거 방법이나, Boll에 의해 제안된 주파수 차감법에 비해 구분 신호대 잡음 비 (SNRseg: segmental signal-to-noise ratio), 음성의 인지적 성능 평가 (PESQ: perceptual evaluation of speech quality)를 고려하였을 때 향상된 성능을 보였다.

스펙트럼 기반 여기신호 추출을 통한 HMM기반 음성합성기의 음질 개선 방법 (Spectrum Based Excitation Extraction for HMM Based Speech Synthesis System)

  • 이봉진;김성우;백순호;김종진;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.82-90
    • /
    • 2010
  • 본 논문에서는 HMM기반 음성합성시스템에서 합성음의 음질 개선을 위한 방법으로 스펙트럼 정보에 기반한 여기신호 추출방법을 제안한다. 제안된 방법은 스펙트럼 정보와 여기신호를 함께 통계적 모델로 만든 후에 합성 과정에서 스펙트럼 정보를 기반으로 여기신호를 추출해 냄으로써 스펙트럼 파라메터에 가장 적합한 여기신호를 사용할 수 있다. 제안된 방법으로 합성음의 음질을 MUSHRA 테스트 및 WB-FESQ점수를 통해 확인해 본 결과, 비슷한 조건에서 기존에 사용되는 STRAIGHT 방법을 이용한 합성음보다 좋은 음질을 얻을 수 있었다.

저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상 (Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding)

  • 이창헌;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.62-68
    • /
    • 2010
  • 본 논문에서는 기존 마스킹 임계값 적응 방식을 개선하여 저전송률 오디오 부호화에서 음성 신호에 대한 성능을 향상시킨다. 포먼트 영역 검색 이후, 각 포먼트 영역의 평균 에너지와 해당 서브밴드의 에너지 비율을 이용하여 마스킹 임계값을 변화시킨다. 상대적으로 에너지가 큰 밴드에 대해서는 더 많은 양자화 노이즈가 허용되는 반면, 청각적으로 민감한 스펙트럴 밸리에서는 비트 할당을 높여 양자화 에러를 좀 더 줄인다. 이는 음성 부호화에서 널리 사용되는 지각 가중(perceptual weighting) 개념을 반영한 것이다. 객관적 음질 평가 결과, 제안한 알고리즘이 기존 방식에 비해 음성 신호에 대한 성능을 향상시킨다는 것을 확인하였다.

통화품질 객관평가 모델링에 관한 연구 (A Study on the Objective Evaluation Model of Telephone Transmission Quality)

  • 조재철;박순영;방만원
    • 한국통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.509-516
    • /
    • 1991
  • In this paper, we propose on objective evaluation model of telephone transmission qulity in order to estimate a satisfaction score regarding speech quality in a relephone network. As the degradantion factors of telephone transmission quality, this model takes into account transmission loss, noise, distortion, talker echo and sidetone. A performance index[PI] is introduced for five psychological factors affecting telephone speech qualty, and a Mean Opinion Score(MOS) is estimated from the sum of all Pis. The simulation results indicate theat the MOS obtained from the objective evaluation model is in good agreement with that of subjective evaluation.

  • PDF