• 제목/요약/키워드: speech distortion

검색결과 227건 처리시간 0.026초

저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상 (Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding)

  • 이창헌;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.62-68
    • /
    • 2010
  • 본 논문에서는 기존 마스킹 임계값 적응 방식을 개선하여 저전송률 오디오 부호화에서 음성 신호에 대한 성능을 향상시킨다. 포먼트 영역 검색 이후, 각 포먼트 영역의 평균 에너지와 해당 서브밴드의 에너지 비율을 이용하여 마스킹 임계값을 변화시킨다. 상대적으로 에너지가 큰 밴드에 대해서는 더 많은 양자화 노이즈가 허용되는 반면, 청각적으로 민감한 스펙트럴 밸리에서는 비트 할당을 높여 양자화 에러를 좀 더 줄인다. 이는 음성 부호화에서 널리 사용되는 지각 가중(perceptual weighting) 개념을 반영한 것이다. 객관적 음질 평가 결과, 제안한 알고리즘이 기존 방식에 비해 음성 신호에 대한 성능을 향상시킨다는 것을 확인하였다.

마이크로폰 어레이 신호의 잡음 제거를 위한 강인한 다채널 위너 필터 (Robust Multi-channel Wiener Filter for Suppressing Noise in Microphone Array Signal)

  • 정준영;김기백
    • 방송공학회논문지
    • /
    • 제23권4호
    • /
    • pp.519-525
    • /
    • 2018
  • 본 논문에서는 다채널 위너 필터를 이용하여 마이크로폰 어레이에서 취득된 신호의 잡음을 제거하는 방법을 다룬다. 다채널 위너 필터는 음성 신호의 방향에 대한 정보를 필요로 하지 않는 필터로서 단일 음성 음원의 경우, 음성 왜곡을 발생시키지 않는 MVDR (Minimum Variance Distortionless Response) 공간 필터와 단일 채널 스펙트럼 필터로 분리될 수 있다. MVDR의 방향벡터에 해당하는 단일 음성 음원과 마이크로폰 어레이 간의 음향 전달 함수는 다채널 위너 필터의 부공간 분해 (subspace decomposition)를 이용하여 추정할 수 있다. 이 때 상관 행렬 추정 과정에서 발생하는 오차로 인해 추정되는 음향 전달 함수에도 오차가 발생하게 되며 이에 따라 다채널 위너 필터를 구성하는 MVDR은 음성 왜곡을 발생시키게 된다. 이러한 음성 왜곡을 완화시키기 위해 diagonal loading을 적용하고 실험을 통해 그 효과를 검증한다. 실험에서는 7개의 선형 마이크로폰으로 수집된 데이터를 이용하였으며 잡음을 섞기 전 신호와 잡음을 섞은 후 필터를 통과시킨 신호 간의 MFCC 오차를 측정한다. 실험 결과, diagonal loading을 통해 MFCC 오차를 줄일 수 있음을 확인하였다.

광대역 음성 부호화기용 선 스펙트럼 주파수 계수 양자화기 설계 (Design of the LSF Parameter Quantizer for the Wideband Speech Codec)

  • 지상현;강상원;윤병식
    • 한국음향학회지
    • /
    • 제20권4호
    • /
    • pp.29-34
    • /
    • 2001
  • 본 논문에서는 고품질 음성 서비스를 가능하게 하는 광대역 음성 부호화기의 선 스펙트럼 주파수 (line spectral frequency: ISF) 계수 양자화기를 설계하였다. 광대역 음성 부호화기를 위한 효율적인 LSF 계수 양자화기를 설계하기 위하여, 인접 프레임간의 상관도를 이용하였으며, 각 해당 프레임의 ISF 계수에 대한 양자화를 인접 프레임간 상관도가 높은 프레임과 상관도가 낮은 프레임으로 나누어 독립적으로 수행하였다. 인접 프레임간 상관도가 높은 프레임의 LSF계수 양자화를 위하여 예측 피라미드형 벡터 양자화기 (predictive pyramid vector quantizer: PPVQ)를 사용하여 양자화하였고, 상관도가 낮은 프레임의 LSF 계수는 피라미드형 벡터 양자화기 (PVQ)를 사용하여 양자화 하였다. PPVQ에서 예측기로 1차 AR 예측기를 사용하였다. 광대역 음성 부호화기를 위해 본 논문에서 설계된 UF 계수양자화기를 평균스펙트럼 왜곡(spectral distortion: SD) 성능 관점에서 실험한 결과, LSF계수 양자화에 할당된 비트가 프레임당 40비트일 때, 평균 SD값이 1 dB 내외이고, 2 dB 이상 및 4 dB 이상 outlier가 각각 3.87%및 0.01%인 transparent한 성능을 얻을 수 있었다.

  • PDF

구개열 환자 발음 판별을 위한 특징 추출 방법 분석 (Analysis of Feature Extraction Methods for Distinguishing the Speech of Cleft Palate Patients)

  • 김성민;김우일;권택균;성명훈;성미영
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1372-1379
    • /
    • 2015
  • 본 논문에서는 구개열 환자의 장애 발음과 정상인의 발음을 자동으로 구분하여 판별하는데 사용될 수 있는 특징 추출 방법들의 성능을 분석하는 실험에 대하여 소개한다. 이 연구는 발성 장애인의 복지 향상을 추구하며 수행하고 있는 장애 음성 자동 인식 및 복원 소프트웨어 시스템 개발의 기초과정이다. 실험에 사용된 음성 데이터는 정상인의 발음, 구개열 환자의 발음, 그리고 모의 환자의 발음의 세 그룹으로부터 수집된 한국어 단음절로서 14개의 기본 자음과 5개의 복합 자음, 7개 모음이다. 발음의 특징 추출은 LPCC, MFCC, PLP의 세 가지 방법으로 각각 수행하였고, GMM 음향 모델로 인식 훈련을 한 후, 수집된 단음절 데이터를 대상으로 하여 인식 실험을 실시하였다. 실험 결과, 정상인과 구개열 환자의 장애 발음을 구별하기 위하여 특징을 추출함에 있어서 MFCC 방법이 전반적으로 가장 우수하였다. 본 연구의 결과는 구개열 환자의 부정확한 발음을 자동으로 인식하고 복원하는 연구와 구개열 장애 발음의 정도를 측정할 수 있는 도구에 대한 연구에 도움이 될 것으로 기대된다.

말지각 능력이 우수한 인공와우 착용 아동들의 조음 특성 : 정밀전사 분석 방법을 중심으로 (Consonant Inventories of the Better Cochlear Implant Children in Korea)

  • 장선아;김수진;신지영
    • 대한음성학회지:말소리
    • /
    • 제62호
    • /
    • pp.33-49
    • /
    • 2007
  • The purpose of this study is 1) to investigate the phoneme inventories and phonological processes of cochlear implant(CI) children and 2) to describe their utterances using narrow phonetic transcription method. All ten subjects had more than 2 year-experience with CI and showed more than 85 % open-set sentence perception abilities. Average consonant accuracy was 81.36 % and it was improved up to 87.41% when distortion errors were not counted. They showed similar phonological processing patterns to HA or normal hearing children in some way as well as different phonological processing patterns from HA or normal hearing children. The prominent distortion error pattern was weakening of consonants. Every subject had his/her idiosyncratic error pattern that demanded his/her own individualized therapy program.

  • PDF

음성파형 부호화기의 실시간 성능측정 시스템 (A Real-time Performance Evaluation System for Speech Waveform Coders)

  • 김용철;은종관
    • 한국음향학회지
    • /
    • 제3권1호
    • /
    • pp.43-54
    • /
    • 1984
  • 본 논문에서는 음성파형 부호화기의 성능을 실시간 측정하기 위한 시스템의 구현에 관하여 연구 하였다. 본 장비는 "bit slice" 마이크로프로세서로 설계되었다. 개발된 시스템으로 세 개의 codec의 성능 을 측정하였으며 이 결과를 distortion analyzer로 측정한 결과와 비교하였다. 개발된 장비는 음성 부호 화기의 성능시험을 위한 주관적 청취시험 과정을 피할 수 있게 되었다.

  • PDF

음성인식을 위한 잡음하의 음성왜곡제거 (The suppression of noise-induced speech distortions for speech recognition)

  • 지상문;오영환
    • 전자공학회논문지S
    • /
    • 제35S권12호
    • /
    • pp.93-102
    • /
    • 1998
  • 본 논문에서는 잡음에 의해 기인된 음성의 왜곡을 제거하여 음성인식기의 성능을 향상시키는 방법을 기술한다. 잡음 환경에서는 음성의 발성 방식이 변이하고(롬바드효과), 잡음이 음성신호에 첨가되므로 음성인식기의 성능을 저하시킨다. 롬바드 효과는 주변 잡음의 크기나 종류, 화자의 특성과 음소 등에 종속적인 비선형적인 변환이므로 측정방법이 알려져 있지 않았다. 본 연구에서는 롬바드 효과의 크기를 측정하는 방법을 제시하고, 롬바드 효과의 크기에 따른 롬바드 효과의 보정방법을 제안한다. 잡음에 의한 음성의 왜곡은 다음의 과정을 통해서 제거한다. 우선, 스펙트럼 차감법을 사용하여 음성에 포함된 잡잡음을 제거하고, 음성의 동적인 특성을 강조하기 위해 대역 통과 필터링을 한다. 두 번째로 에너지 정규화 과정을 통해서 롬바드 효과에 의한 음성의 발성 강도의 변이를 제거한다. 마지막으로 제안한 롬바드 효과의 크기 척도는 롬바드 음성의 켑스트럼에 존재하는 왜곡을 제거하는 변환에 이용한다. 제안한 방법을 음성인식에 적용한 결과, SNR(signal-to-noise ratio) 0, 10, 20 dB에서 46.3%, 75.5%, 87.4%의 인식률을 82.6%, 95.7%, 97.6%로 향상시켰다.

  • PDF

Statistical Model-Based Noise Reduction Approach for Car Interior Applications to Speech Recognition

  • Lee, Sung-Joo;Kang, Byung-Ok;Jung, Ho-Young;Lee, Yun-Keun;Kim, Hyung-Soon
    • ETRI Journal
    • /
    • 제32권5호
    • /
    • pp.801-809
    • /
    • 2010
  • This paper presents a statistical model-based noise suppression approach for voice recognition in a car environment. In order to alleviate the spectral whitening and signal distortion problem in the traditional decision-directed Wiener filter, we combine a decision-directed method with an original spectrum reconstruction method and develop a new two-stage noise reduction filter estimation scheme. When a tradeoff between the performance and computational efficiency under resource-constrained automotive devices is considered, ETSI standard advance distributed speech recognition font-end (ETSI-AFE) can be an effective solution, and ETSI-AFE is also based on the decision-directed Wiener filter. Thus, a series of voice recognition and computational complexity tests are conducted by comparing the proposed approach with ETSI-AFE. The experimental results show that the proposed approach is superior to the conventional method in terms of speech recognition accuracy, while the computational cost and frame latency are significantly reduced.

Single-Channel Non-Causal Speech Enhancement to Suppress Reverberation and Background Noise

  • Song, Myung-Suk;Kang, Hong-Goo
    • 한국음향학회지
    • /
    • 제31권8호
    • /
    • pp.487-506
    • /
    • 2012
  • This paper proposes a speech enhancement algorithm to improve the speech intelligibility by suppressing both reverberation and background noise. The algorithm adopts a non-causal single-channel minimum variance distortionless response (MVDR) filter to exploit an additional information that is included in the noisy-reverberant signals in subsequent frames. The noisy-reverberant signals are decomposed into the parts of the desired signal and the interference that is not correlated to the desired signal. Then, the filter equation is derived based on the MVDR criterion to minimize the residual interference without bringing speech distortion. The estimation of the correlation parameter, which plays an important role to determine the overall performance of the system, is mathematically derived based on the general statistical reverberation model. Furthermore, the practical implementation methods to estimate sub-parameters required to estimate the correlation parameter are developed. The efficiency of the proposed enhancement algorithm is verified by performance evaluation. From the results, the proposed algorithm achieves significant performance improvement in all studied conditions and shows the superiority especially for the severely noisy and strongly reverberant environment.

신경회로망을 이용한 DFT 성분 복원에 의한 음성강조 (Noisy Speech Enhancement by Restoration of DFT Components Using Neural Network)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제14권5호
    • /
    • pp.1078-1084
    • /
    • 2010
  • 본 논문에서는 오차역전파알고리즘에 의한 신경회로망을 사용하여 이산푸리에변환에 의한 진폭성분과 위상 성분을 복원하는 음성강조 시스템을 제안한다. 먼저, 신경회로망이 잡음이 부가된 음성신호의 이산푸리에변환의 진폭성분과 위상성분을 사용하여 학습된 후, 제안한 시스템은 백색잡음에 의하여 열화된 잡음이 부가된 음성 신호를 강조한다. 백색잡음에 의하여 열화된 음성신호는 이산푸리에변환에 의한 진폭성분과 위상성분을 입력으로 하는 신경회로망을 사용하여 제안된 시스템에 의하여 강조되는 것을 실험결과로 증명한다. 제안한 시스템은 스펙트럼 왜곡율의 평가법을 사용하여 백색잡음에 의하여 열화된 음성신호에 대하여 효과적인 것을 실험으로 확인한다.