• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.031초

직접데이터 기반의 모델적응 방식을 이용한 잡음음성인식에 관한 연구 (A Study on the Noisy Speech Recognition Based on the Data-Driven Model Parameter Compensation)

  • 정용주
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.247-257
    • /
    • 2004
  • There has been many research efforts to overcome the problems of speech recognition in the noisy conditions. Among them, the model-based compensation methods such as the parallel model combination (PMC) and vector Taylor series (VTS) have been found to perform efficiently compared with the previous speech enhancement methods or the feature-based approaches. In this paper, a data-driven model compensation approach that adapts the HMM(hidden Markv model) parameters for the noisy speech recognition is proposed. Instead of assuming some statistical approximations as in the conventional model-based methods such as the PMC, the statistics necessary for the HMM parameter adaptation is directly estimated by using the Baum-Welch algorithm. The proposed method has shown improved results compared with the PMC for the noisy speech recognition.

  • PDF

클리핑 감지기를 이용한 음성 신호 클리핑 제거의 성능 향상 (Performance Enhancement of Speech Declipping using Clipping Detector)

  • 서은미;유정찬;임유진;박호종
    • 방송공학회논문지
    • /
    • 제28권1호
    • /
    • pp.132-140
    • /
    • 2023
  • 본 논문에서는 클리핑 감지기를 이용하여 음성 신호의 클리핑 제거 성능을 향상시키는 방법을 제안한다. 클리핑은 입력 음성 신호의 크기가 마이크의 동적 범위를 넘을 때 발생하며, 음성 품질을 저하시키는 요인이 된다. 최근 머신러닝을 이용한 많은 클리핑 제거 기술이 개발되었고 우수한 성능을 제공하고 있다. 그러나 머신러닝 기반의 클리핑 제거 방법은 신호 복원 과정의 왜곡으로 인해 클리핑이 심하지 않을 때 출력 신호의 품질이 저하되는 문제를 가진다. 이를 해결하기 위해 클리핑 제거기를 클리핑 감지기와 연동시켜 클리핑 수준에 따라 클리핑 제거 동작을 선택적으로 적용하는 방법을 제안하고, 이를 통해 모든 클리핑 수준에서 우수한 품질의 신호를출력하도록 한다. 다양한 평가 지표로 클리핑 제거 성능을 측정하였고, 제안 방법이 기존 방법에 비해 모든 클리핑 수준에 대한 평균성능을 향상시키고, 특히 클리핑 왜곡이 작을 때 성능을 크게 향상시키는 것을 확인하였다.

잡음 환경에서 압신을 이용한 인공 와우 환자의 언어 인지 향상 시뮬레이션 연구 (A simulation study of speech perception enhancement for cochlear implant patients using companding in noisy environment)

  • 이영우;지윤상;이종실;김인영;김선일;홍성화;이상민
    • 대한전자공학회논문지SP
    • /
    • 제43권5호
    • /
    • pp.79-87
    • /
    • 2006
  • 본 연구에서 인공 와우 환자의 잡음 상황에서 음성 신호 강조와 잡음 제거를 위한 전 처리로서 companding strategy를 적용하고 이를 평가하였다. Companding은 인간의 청각 특성인 two tone suppression에 기반하며 이는 음성 스펙트럼 피크를 강화하고 배경 잡음을 감소시킨다. 하지만 companding은 잡음 제거와 스펙트럼 피크의 강화에 효과적인 반면, 제한된 채널의 수와 비선형 블록으로 인한 음성 정보 손실의 교환 특성을 가진다. 따라서 본 연구에서는 잡음 제거와 음성 정보 손실의 정도가 상대적인 두 companding 구조를 설계하여 개인마다 잡음 상황에서 언어 인지 특성차이에 따른 적절한 필터 뱅크를 도출하였으며, 낮은 신호 대 잡음 비 환경에서 인공 와우 환자의 언어 인지 향상을 위한 방법을 제시하였다. 제안된 알고리즘은 잡음 밴드 시뮬레이션을 이용하여 정상인 5명에게 평가되었다. 모든 피실험자에게서 효과적인 언어 인지의 향상이 관측되었고, 각 피실험자가 선호하는 필터 뱅크는 다르게 나타났다.

Raw Speech Based Digital Watermarking Using Zerotrees of DWT

  • Schwindt, Sataporn;Amornraksa, Thumrongrat
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.478-481
    • /
    • 2002
  • In this paper, the zerotrees of DWT is proposed to be used in a speech based digital watermarking for digital images. Since in this research work the raw speech and its content are used as a watermark signal, in the watermarking scheme, the PCM coded speech signal is embedded into a sequence of images. The performance of the scheme is evaluated by the PSNR obtained from the watermarked images and the strength of attacks the embedded speech signal can survive. Moreover, since in this research work the contents contained in the speech is used to identify the specific information hidden in the embedded signal. The speech signal after being extracted from the watermarked images is played back to the listeners to determine whether its content is intelligible or not. The experimental results show impressive performance of the scheme implementing our proposed technique, judged by the higher robustness obtained form the embedded signal against various types of attack, including brightness/contrast enhancement, Twirling, highpass filtering and JPEG compression standard.

  • PDF

On Effective Dual-Channel Noise Reduction for Speech Recognition in Car Environment

  • Ahn, Sung-Joo;Kang, Sun-Mee;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권1호
    • /
    • pp.43-52
    • /
    • 2004
  • This paper concerns an effective dual-channel noise reduction method to increase the performance of speech recognition in a car environment. While various single channel methods have already been developed and dual-channel methods have been studied somewhat, their effectiveness in real environments, such as in cars, has not yet been formally proven in terms of achieving acceptable performance level. Our aim is to remedy the low performance of the single and dual-channel noise reduction methods. This paper proposes an effective dual-channel noise reduction method based on a high-pass filter and front-end processing of the eigendecomposition method. We experimented with a real multi-channel car database and compared the results with respect to the microphones arrangements. From the analysis and results, we show that the enhanced eigendecomposition method combined with high-pass filter indeed significantly improve the speech recognition performance under a dual-channel environment.

  • PDF

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 (Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments)

  • 홍정표;박상준;정상배;한민수
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.11-16
    • /
    • 2013
  • This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VAD to drastically decline because the fluctuation of features in the noise intervals results in increased false alarm rates. In this paper, in order to improve the VAD performance, harmonic-weighted energy is proposed. This feature extraction method focuses on voiced speech intervals and weighted harmonic-to-noise ratios to determine the amount of the harmonicity to frame energy. For performance evaluation, the receiver operating characteristic curves and equal error rate are measured.

발성장애아동을 위한 발성훈련시스템 설계 및 구현 (Design and Implementation of Speech-Training System for Voice Disorders)

  • 정은순;김봉완;양옥렬;이용주
    • 인터넷정보학회논문지
    • /
    • 제2권1호
    • /
    • pp.97-106
    • /
    • 2001
  • 본 논문에서는 발성장애아의 음성적 특징을 중심으로 컴퓨터 기반 발성훈련시스템을 설계 및 구현하였다. 본 발성훈련시스템은 선행훈련, 발성인지훈련, 발성강화훈련 단계로 구성되어 있으며, 발성장애 아동의 발성의 상황과 레벨을 분석하고 반복학습 및 개별학습이 가능하도록 하였다. 컴퓨터를 기반으로 발성장애아의 음성을 디지털 신호처리하기 위해 음성적 파라미터 즉, 음성의 강도, 음성의 고저, 유 무성음을 추출하였다. 추출된 음성적 파라미터는 이동체의 움직임 벡터 값으로 변환하여 이미지, 애니메이션, 게임적 요소와 같이 시각적으로 피드백 할 수 있도록 하였다.

  • PDF

적응신호처리를 이용한 음질 개선 (Enhancement of Speech Using the Adaptive Signal Processing)

  • 신윤기
    • 음성과학
    • /
    • 제9권4호
    • /
    • pp.275-287
    • /
    • 2002
  • In man-machine communication by speech under the noisy environment, the quality of speech may be degraded severely for the machine to recognize correctly. Especially when the corrupting noise occupies the same band as the speech, the conventional fixed filters cannot filter out the noise effectively. In recent, to resolve such a problem adaptive noise canceller (ANC) is frequently used, which is based upon adaptive filters. The Adaptive recursive filters perform better than adaptive nonrecursive filters due to the added poles, but the stability may be severely threatened. In this paper an ANC system employing the adaptive recursive filter is proposed to enhance the speech corrupted by noise. And the stability of the adaptive recursive filter is guaranteed by employing the adaptive compensator.

  • PDF

AI-based language tutoring systems with end-to-end automatic speech recognition and proficiency evaluation

  • Byung Ok Kang;Hyung-Bae Jeon;Yun Kyung Lee
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.48-58
    • /
    • 2024
  • This paper presents the development of language tutoring systems for nonnative speakers by leveraging advanced end-to-end automatic speech recognition (ASR) and proficiency evaluation. Given the frequent errors in non-native speech, high-performance spontaneous speech recognition must be applied. Our systems accurately evaluate pronunciation and speaking fluency and provide feedback on errors by relying on precise transcriptions. End-to-end ASR is implemented and enhanced by using diverse non-native speaker speech data for model training. For performance enhancement, we combine semisupervised and transfer learning techniques using labeled and unlabeled speech data. Automatic proficiency evaluation is performed by a model trained to maximize the statistical correlation between the fluency score manually determined by a human expert and a calculated fluency score. We developed an English tutoring system for Korean elementary students called EBS AI Peng-Talk and a Korean tutoring system for foreigners called KSI Korean AI Tutor. Both systems were deployed by South Korean government agencies.

음성강화를 위한 이동 평균 예측량 기반의 검출방법 최적화 (Optimization of Detection Method Using a Moving Average Estimator for Speech Enhancement)

  • 이수정;신계현;김순협
    • 대한전자공학회논문지SP
    • /
    • 제44권3호
    • /
    • pp.97-104
    • /
    • 2007
  • 적응 반향제거기는 휴대전화나 음성 인식 시스템과 같은 음성 통신 시스템에서 중요한 부분의 하나로 자리잡았다. 이러한 응용에서 반향경로는 긴 임펄스 응답을 가지게 된다. 본 논문에서는 음향반향제거를 위해 Moving-Average Least Mean Square(MVLMS) 알고리즘을 제안하였다. 유색 입력 모델을 이용한 실험 결과는 MVLMS 검출 알고리즘이 Least Mean Square 검출 알고리즘에 비해 수렴 성능이 우위에 있음을 입증하였다. MVLMS 알고리즘은 약간의 계산 복잡도 향상이 있지만, 표준 LMS 검출 알고리즘에 비해 월등한 안정성 향상을 가져온다.