• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.025초

이동형 단말기를 위한 다채널 입력 기반 비정상성 잡음 제거기 (Multi-channel input-based non-stationary noise cenceller for mobile devices)

  • 정상배;이성독
    • 한국지능시스템학회논문지
    • /
    • 제17권7호
    • /
    • pp.945-951
    • /
    • 2007
  • 잡음의 제거는 음성을 인터페이스로 하는 기기들에 필수적이라고 할 수 있다. 실질적으로 통화 품질이나 음성 인식률은 음성 입력부의 주변에서 들어오는 원치 않는 가산성 잡음에 의해서 크게 열화된다. 본 논문에서는 기본적으로 두 개의 마이크로폰을 이용한 잡음제거 방법을 제안한다. 마이크를 여러 개 사용했을 때의 장점은 방향 정보를 이용할 수 있다는 것인데 이는 사람 목소리, 음악 소리 등의 비정상성 잡음을 제거하는 데에 유용하다. 제안된 잡음제거 알고리즘은 위너필터에 기반 한다고 볼 수 있다. 위너필터에 의한 잡음제거를 위해서는 검출하고자 하는 음성과 제거하고자 하는 잡음의 주파수 응답이 동시에 추정 가능해야 한다. 이를 위해서 주파수 영역에서 스펙트럼 분류를 시행하여 위너필터 기반의 잡음제거에 필요한 정보를 얻는다. 제안된 알고리즘을 이용한 성능은 잘 알려진 프로스트 (Frost) 알고리즘 및 적응 모드 컨트롤러를 갖는 generalized sidelobe canceller (GSC)와 비교하였다. 성능의 지표로는 객관적 음질 평가의 방법 중에서 널리 쓰이고 있는 perceptual evaluation of speech quality (PESQ) 및 음성 인식률이 사용되었다.

DSP 프로세서를 이용한 실시간 ANC 시스템 구현에 관한 연구 (Implementation of Real-Time Adaptive Noise Cancellation System Using DSP Processor)

  • 이영일;최홍섭
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.121-132
    • /
    • 2004
  • This paper is aiming at real-time implementation of adaptive noise cancellation system using DSP processor. ACHARF algorithm, which guarantees stability and fast convergence by adaptive compensator, is used on this DSP system. For the experiments, TLV320AIC23 stereo CODEC of TI Inc. is used with TMS320C6413 DSP processor. Signals of primary input and reference input are obtained by two microphones. The primary input is the voice plus noise signal and the reference input is white noise or real noise. The experimental results show that ANC system using DSP processor with ACHARF is verified to be an effective speech enhancement method for various speech processing units.

  • PDF

G.718 초광대역 코덱의 음질 향상을 위한 개선된 Generic Mode Coding 방법 (Modified Generic Mode Coding Scheme for Enhanced Sound Quality of G.718 SWB)

  • 조근석;정상배
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.119-125
    • /
    • 2012
  • This paper describes a new algorithm for encoding spectral shape and envelope in the generic mode of G.718 super-wide band (SWB). In the G.718 SWB coder, generic mode coding and sinusoidal enhancement are used for the quantization of modified discrete cosine transform (MDCT)-based parameters in the high frequency band. In the generic mode, the high frequency band is divided into sub-bands and for every sub-band the most similar match with the selected similarity criteria is searched from the coded and envelope normalized wideband content. In order to improve the quantization scheme in high frequency region of speech/audio signals, the modified generic mode by the improvement of the generic mode in G.718 SWB is proposed. In the proposed generic mode, perceptual vector quantization of spectral envelopes and the resolution increase for spectral copy are used. The performance of the proposed algorithm is evaluated in terms of objective quality. Experimental results show that the proposed algorithm increases the quality of sounds significantly.

한국어 스타일 생성 패턴에 의한 영한 번역 품질 개선 (Enhancement of English-to-Korean Translation Quality by Korean Style Generation Patterns)

  • 최승권;홍문표;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-240
    • /
    • 2003
  • 본 논문에서는 영한 자동번역 시스템에 한국어 스타일 생성 패턴을 적용함으로써 영한 번역 품질을 향상하고자 하는 것이 목표이다. 이러한 목표는 기존의 원문에 대한 번역문의 정보 전달 정확성을 측정하는 1차원적인 번역률 평가 방법에서 벗어나 번역문의 정보 정확성뿐만 아니라 자연스러움도 평가할 수 있는 2차원적인 번역률 평가방법으로써 정확성과 스타일을 동시에 평가하는 방법을 제안한다. 2차원적인 번역률 평가 방법에 따라 스타일 생성 패턴이 적용되기 전과 적용된 후의 평가 결과는 100문자의 샘플문을 대상으로 하였을 때, 스타일 생성 패턴에 의해서만 0.5%의 번역률이 향상되는 것을 관찰하였다. 본 논문에서의 스타일 생성 패턴은 단순히 언어간 스타일 차이만 적용한 것이며 향후에는 신문, 일기예보, 기술 매뉴얼과 같은 특정 그룹을 위한 스타일 생성 패턴을 적용할 계획이다.

  • PDF

부대역 웨이팅 및 비트할당 알고리즘을 수정한 DSBC 음성 부호화기의 성능 개선 (Performance Improvement of DSBC Speech Coder by Subband Weighting and a Modified Bit Allocation Algorithm)

  • 김선영;김재공
    • 한국통신학회논문지
    • /
    • 제15권11호
    • /
    • pp.937-944
    • /
    • 1990
  • DSBC 음성 부호화기의 성능 개선에 관한 두 방법을 제안하였다. 첫째는 계산량이 많은 종래의 비트할당을 수정함으로써 계산량을 줄일 수 있는 방법이고 둘째는 비전송 대역 재생시 백색잡음 주입으로 인한 허상 문제를 제거하기 위한 부대역 웨이팅 방법이다. 시뮬레이션 겨로가 검토된 방법은 음성 출력의 성능 향상에 응용할 수 있음을 나타내었다.

  • PDF

A Fast Harmonic Estimation Method for Low Bit Rate Harmonic Speech Coders

  • Park, Yong-Soo;Youn, Dae-Hee;Kang, Tae-lk
    • The Journal of the Acoustical Society of Korea
    • /
    • 제20권4E호
    • /
    • pp.24-30
    • /
    • 2001
  • This paper describes a fast harmonic estimation, referred to as Delta Adjustment (DA), using a low resolution pitch. The presented DA method is based on modification of the Generalized Dual Excitation (GDE) technique[1] which was proposed to improve speech enhancement performance. We introduce the GDE technique and modify it to be suitable for low bit rate harmonic coding that uses only an integer pitch estimate. Unlike the GDE, the DA matches a frequency-warped version of the original spectrum that conforms to a fixed pitch at all harmonic bands. In addition, complexity and performance of the presented method are described in comparison with those of the conventional Fractional Pitch (FP) based harmonic estimation. Experimental results showed that the DA algorithm significantly reduces the complexity of the FP method while maintaining the performance.

  • PDF

잡음하에서 이득 적응을 가지는 비정상상태 자기회귀 은닉 마코프 모델에 의한 오염된 음성을 위한 인식 (Recognition for Noisy Speech by a Nonstationary AR HMM with Gain Adaptation Under Unknown Noise)

  • 이기용;서창우;이주헌
    • 한국음향학회지
    • /
    • 제21권1호
    • /
    • pp.11-18
    • /
    • 2002
  • 본 논문에서는 부가 잡음에 오염된 음성신호에 이득 적응을 가지는 음성인식을 시간 영역에서 다루었다. 잡음은 유색잡음이라고 가정한다. 전화망에서 마찰음 (fricative), 운음 (glides), 유음 (liquds), 그리고 천이영역(transition region)과 같은 음성 신호의 뚜렷한 비정상상태를 극복하기 위해서 NAR-HMM (nonstationary autoregressive HMM)7을 제안하였다. 비정상상태 AR 처리는 M개의 알고 있는 기저 함수 (basis function)의 선형 결합으로 이루어진 다항 함수 (polynomial function)로 나타낼 수 있다. 오염된 신호만을 이용할 수 있을 때, 잡음의 추정 (estimation)문제는 필연적으로 발생한다. 다중 Kalman 필터를 사용함으로써, 잡음모델의 추정과 음성의 이득곡선 (gain contour)을 수행하였다. 제안한방법의 잡음 추정은 오염된 신호로부터 효과적으로 잡음을 제거하여 깨끗한 음성신호를 얻을 수 있었다. 또한 잡음 추정을 하는 일반적인 ARHMM보다 제안한 NAR-HMM이 약 2-3%의 인식성능을 향상시켰다.

음성인식 성능 개선을 위한 다중작업 오토인코더와 와설스타인식 생성적 적대 신경망의 결합 (Combining multi-task autoencoder with Wasserstein generative adversarial networks for improving speech recognition performance)

  • 고조원;고한석
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.670-677
    • /
    • 2019
  • 음성 또는 음향 이벤트 신호에서 발생하는 배경 잡음은 인식기의 성능을 저하시키는 원인이 되며, 잡음에 강인한 특징을 찾는데 많은 노력을 필요로 한다. 본 논문에서는 딥러닝을 기반으로 다중작업 오토인코더(Multi-Task AutoEncoder, MTAE) 와 와설스타인식 생성적 적대 신경망(Wasserstein GAN, WGAN)의 장점을 결합하여, 잡음이 섞인 음향신호에서 잡음과 음성신호를 추정하는 네트워크를 제안한다. 본 논문에서 제안하는 MTAE-WGAN는 구조는 구배 페널티(Gradient Penalty) 및 누설 Leaky Rectified Linear Unit (LReLU) 모수 Parametric ReLU (PReLU)를 활용한 변수 초기화 작업을 통해 음성과 잡음 성분을 추정한다. 직교 구배 페널티와 파라미터 초기화 방법이 적용된 MTAE-WGAN 구조를 통해 잡음에 강인한 음성특징 생성 및 기존 방법 대비 음소 오인식률(Phoneme Error Rate, PER)이 크게 감소하는 성능을 보여준다.

개선된 선형예측 잔여를 이용한 음성의 잔향음 제거 (Speech Dereverberation using Improved Linear Prediction Residual)

  • 박찬섭;김기만;강석엽
    • 한국정보통신학회논문지
    • /
    • 제11권10호
    • /
    • pp.1845-1851
    • /
    • 2007
  • 배경 잡음과 실내 잔향음은 음성 인식 시스템 성능 저하의 주요 이유이다. 많은 알고리즘이 음성의 잔향음 제거를 위해 개발되었다. 이 논문에서는 실내 환경에서 수정된 선형 예측 잔여(Linear Prediction Residual)를 이용하여 음질 개선을 위한 잔향음 제거 방법을 제안한다. 제안된 잔향음 제거 방법은 음성에서 성문 경계의 순간에 발생한 성도(聲道)시스템의 중요한 여기에 기반한다. 본 논문에서 제안한 방법은 3개의 센서로부터 수집한 반향신호로 각 센서에서의 시간지연 정보를 사용한다. 새로운 선형 예측 잔여신호는 선형 예측 잔여의 가중치와 힐버트 변환으로 얻은, 개선된 선형 예측 잔여 조합을 사용한다. 코히런트하게 더해진 힐버트 포락선의 특징은 잡음과 반사로 인한 큰 진폭 피크를 가지는 것이다. 깨끗한 음성의 잔여는 개선된 음성을 얻는 시변전극 필터를 일으키는데 사용된다. 본 논문에서는 반향 환경에서 성능 분석을 위해 제안된 알고리즘의 시뮬레이션을 수행하였다. 제안된 알고리즘은 실내 잔향환경에서 기존의 알고리즘에 비해 반사된 음성의 품질 향상의 결과를 보였다.

음성부호화기에서의 잡음제거 방식 비교 (Comparison of Noise Suppression Methods in Voice CODEC)

  • 이진걸;기훈재
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1203-1206
    • /
    • 1998
  • Considerable research in the last three decades has examined the problem of enhancement of speech degraded by additive background noise. We compare traditional methods such as spectral subtraction and Wiener filter, recently proposed psychoacoustic model based methods such as perceptual filter and noise suppression in EVRC in terms of performance and complexity.

  • PDF