통합 검색 | Korea Science

스펙트럼 변이를 이용한 Soft Decision 기반의 음성향상 기법 (Robust Speech Enhancement Based on Soft Decision Employing Spectral Deviation)

최재훈;장준혁;김남수
- 대한전자공학회논문지SP
- /
- 제47권5호
- /
- pp.222-228
- /
- 2010
본 논문에서는 비정상적인 배경 잡음 환경에서 음성향상을 위한 신호의 스펙트럼 변이 (Spectral Deviation)을 적용한 Soft Decision 기반의 잡음전력 수정 기법을 제안한다. 기존의 Soft Decision 기반의 잡음전력 추정에 있어서 잡음신호의 정상성(Stationarity)을 가정한 스무딩 파라미터를 사용하여 잡음전력을 추정하고 갱신하였지만, 잡음신호의 주파수적인 특성이 상대적으로 빠르게 변하는 비정상적인 환경에서는 강인하지 못한 단점을 가지게 된다. 본 논문에서는 신호의 스펙트럼 변이를 추정하여 정상적인 잡음 환경과 비정상적인 잡음 환경에 따라 적응적으로 잡음전력을 추정하고 갱신하여 잡음신호에 의해 오염된 음성신호를 향상시킨다. 제안된 알고리즘은 다양한 배경 잡음 환경에서 객관적인 음질측정 방법인 ITU-T P.862 perceptual evaluation of speech quality (PESQ)에 의해서 평가되었으며, 기존의 Soft Decision 기반의 음성 향상 기법과 비교하여 보다 향상된 성능을 보여주었다.
PDF KSCI

적응 지각 필터를 이용한 오디오 음질 개선 알고리즘 (Audio Enhancement Algorithm Using Adaptive Perceptual Filter)

엄혜영;한헌수;홍민철;차형태
- 한국음향학회지
- /
- 제22권8호
- /
- pp.687-693
- /
- 2003
본 논문에서는 적응적인 방식으로 필터의 성능을 향상시킴으로써 잡음에 의해 열화된 오디오 신호의 음질을 개선하는 알고리즘을 제안한다. 주파수 영역으로 변환된 잡음에 의해 열화된 신호를 바크 대역으로 분할하여 청각 자극 에너지를 계산하고, 필터를 적응적으로 적용하여 잡음 에너지를 제거함으로써 본래의 신호를 획득하는 방식을 사용하였다. 기존의 방식에서는 묵음 구간에서 획득한 잡음 에너지를 사용하여 필터를 구성하여 사용하며, 이때 잡음의 에너지가 급격하게 변화한다면 음질의 개선률이 급격하게 감소함을 알 수 있다. 그러나 제안하는 방식에서는 잡음 에너지가 급격하게 변화하여도 음질 개선률에는 변화가 적음을 알 수 있었다. 기존 방식과의 비교를 위하여 신호대 잡음비와 잡음대 마스킹비를 비교하였고 청각 테스트를 수행하여 그 결과로부터 향상된 음질 개선을 확인할 수 있었다.
PDF KSCI

가변 임계값을 이용한 지각 필터의 적응적인 음질 개선 알고리즘 (Adaptive Enhancement Algorithm of Perceptual Filter Using Variable Threshold)

차형태
- 한국음향학회지
- /
- 제23권6호
- /
- pp.446-453
- /
- 2004
본 논문에서는 잡음에 의해 열화된 오디오 신호를 가변 임계값을 이용한 적응 지각 필터를 사용하여 음질을 개선하는 알고리즘을 제안한다. 제안된 적응 지각 필터는 신호 구간마다 달라지는 신호의 세기와 잡음의 영향 정도를 고려하여 임계값을 가변적으로 조정함으로써 잔여 잡음을 효과적으로 제어하는 방식으로 지각적으로 개선된 음질의 신호를 얻을 수 있다 제안한 방식은 잡음에 의해 열화된 오디오 신호를 주파수 영역으로 변환한 후 임계 대역 기반의 임계 대역 에너지 (Critical intensity energy)와 마스킹 영향이 고려된 청각 자극 에너지 (Excitation energy)를 계산한 다음, 지각 필터를 기반으로 한 적응 지각 필터 알고리즘으로 각 단계별 지각 필터 응답을 임계값으로 이용하여 가변 임계값이 재조정되는 단계를 결정하게 된다. 신호의 구간별 에너지 크기에 의한 잡음에 의해 열화된 정도의 차이를 가변 임계값을 이용하여 고려함으로써 잔여 잡음의 효과적인 제어가 가능하게 된다. 제안한 방법은 다양한 신호대 잡음비에서 열화된 오디오 신호를 입력으로 사용하였다. 입력 신호대 잡음비가 15dB, 20dB, 25dB와 30dB의 각각의 경우에 대하여 잡음대 마스킹비 (Noise-to-mask ratio, NMR)와 청감 테스트 (Mean opinion score, MOS Test)를 시행하였다. 그 결과, 잡음대 마스킹비의 개선 측면에서 각각의 경우에 대해 17.4dB, 15.3dB, 12.8dB, 9.8dB의 개선을 확인할 수 있었고, 청감 테스트의 개선 측면에서는 각각 2.9, 2.5, 2.3, 1.7의 개선된 음질을 확인할 수 있었다.
PDF KSCI

RLS (Recursive Least Squares)와 RTLS (Recursive Total Least Squares)의 결합을 이용한 새로운 FIR 시스템 인식 방법 (FIR System Identification Method Using Collaboration Between RLS (Recursive Least Squares) and RTLS (Recursive Total Least Squares))

임준석;편용국
- 한국음향학회지
- /
- 제29권6호
- /
- pp.374-380
- /
- 2010
잡음이 섞인 입출력 신호를 갖는 시스템 인식 문제는 완전 최소 자승법 (Total Least Squares (TLS))으로 알려져 있다. 완전 최소 자승법의 성능은 입력 신호 부가 잡음 파워와 출력 신호 부가 잡음간의 분산비에 매우 민감하다. 본 논문에서는 TLS의 성능 향상을 위해서 LS (Least Squares)와의 결합을 제안한다. 그 한 형태로 재차적인 TLS (Recursive TLS)와 재차적인 LS (Recursive Least Squares)간의 결합 알고리즘을 제안한다. 이 결합은 잡음간 분산비에 강인한 결과를 낳았다. 모의실험을 통해 얻은 결과로부터 입력 신호에 신호대 잡음비가 5dB를 유지히는 잡음을 부가할 경우 입력 잡음과출력 잡음의 비 $\gamma$가 약 20 정도까지로 적용 범위가 확대되는 결과를 얻었다. 따라서 제안된 결합 방법이 기존의 TLS의 적용 범위를 넓힐 수 있음을 알 수 있다.
https://doi.org/10.7776/ASK.2010.29.6.374 인용 PDF KSCI

First-Order Gauss-Markov 신호에 대한 Delta 변조방식의 신호대 잡음비에 관한 연구 (A Study on Signal-to-Noise Ratio of Delta Modulation for a First-Order Gauss-Markov Signal)

문상재;손현
- 대한전자공학회논문지
- /
- 제17권3호
- /
- pp.52-56
- /
- 1980
First-order Gauss-Marker신호가 delta변조기에 즉가되어 granular잡음이 발생될 경우에 신호대잡음화의 표시식을 구하고, 또한 근사식에 관하여 고찰하였다. 입력신호의 adjacent correlation값과 local decoder의 prediction coefficient값간의 차에 비하여 adjacent correlation값이 클 경우에는, 입력신호와 오차신호간의 cross covariance값이 징소하므로 간단한 근사식으로 나타내었다. 이 경우에 임의의 adjacent correlation값에 대하여 적용될 수 있는 근사식을 나타내었다.
PDF

시간/주파수 전이신호를 위한 향상된 2.4 kbps 하모닉 스토케스틱 여기 음성 부호화 방법 (Enhaced 2.4 kbps Harmonic Stochastic Excitation Coding for Time/Frequency Transitional Speech)

김종학;이인성
- 한국음향학회지
- /
- 제19권7호
- /
- pp.53-58
- /
- 2000
본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4 kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR (Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4 kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.
PDF

Discrete Wavelet Transform을 이용한 시간 지연 측정 알고리즘 (Time Delay Estimation Algorithm using Discrete Wavelet Transform)

백수진;박규식;김기만
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
- /
- pp.217-220
- /
- 2002
본 연구는 폐쇄된 임의의 공간상에서 2개의 마이크로폰 어레이를 이용하여 마이크로폰에 수신된 신호들의 도착 시간차를 추정하는 새로운 알고리즘을 제안한다. 제안된 알고리즘은 입력 음성신호를 Discrete wavelet transform을 이용하여 인간의 청각 특성과 가장 유사한 주파수 해상도를 갖도록 대역 분할한 후 각 주파수 대역에서 신호 대 잡음비를 구하여 신호 대 잡음비가 가장 높은 대역만 선택적으로 취하고 해당 대역에서만 최종적인 시간 지연 값을 추정하게 된다. 최종 시간 지연 측정에 사용된 알고리즘은 기존의 CPSP에 해당 대역의 주파수 SNR을 가중치로 주어 구하게된다. 이러한 대역 분할 가중방식은 다양한 형태의 동적인 잡음 환경 하에서 안정적인 성능을 가질 수 있다. 제안된 알고리즘은 저주파와 고주파 각각의 모의 잡음환경 하에서 컴퓨터 실험을 통해 성능을 입증하도록 한다.
PDF

음성 명료도 향상을 위한 학습 기반의 신호 대 잡음 비 추정을 이용한 이산 마스크 추정 방법 (Binary Mask Estimation using Training-based SNR Estimation for Improving Speech Intelligibility)

김기백
- 방송공학회논문지
- /
- 제17권6호
- /
- pp.1061-1068
- /
- 2012
본 논문에서는 시간-주파수 영역에서의 이산 마스킹을 이용하여 잡음환경 음성의 음성 명료도를 높이는 방법에 대해 다루고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역의 신호를 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이러한 이산 마스크를 추정하기 위해서는 각 시간-주파수 영역에서 신호 대 잡음 비를 추정하여 문턱값과 비교해야 하는데, 본 논문에서는 학습 기반의 신호 대 잡음 비 추정방법을 사용하여 문턱값과 비교하여 이산 마스크를 추정한다. 신호 대 잡음 비와 비교하기 위한 문턱값은 모든 주파수 대역에 대해 동일한 값을 이용하는 고정 문턱값 외에도 주파수 대역에 따라 학습 데이터의 분포로부터 최적의 값을 사용하는 최적 문턱값을 제안한다. 제안된 이산 마스크 추정 방법은 잡음 환경 데이터에 적용한 후, 피험자에게 들려주어 음성 명료도를 측정한다.
https://doi.org/10.5909/JBE.2012.17.6.1061 인용 PDF KSCI

강화학습 기반의 음성향상기법 (Speech enhancement based on reinforcement learning)

박태준;장준혁
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2018년도 춘계학술발표대회
- /
- pp.335-337
- /
- 2018
음성향상기법은 음성에 포함된 잡음이나 잔향을 제거하는 기술로써 마이크로폰으로 입력된 음성신호는 잡음이나 잔향에 의해 왜곡되어지므로 음성인식, 음성통신 등의 음성신호처리 기술의 핵심 기술이다. 이전에는 음성신호와 잡음신호 사이의 통계적 정보를 이용하는 통계모델 기반의 음성향상기법이 주로 사용되었으나 통계 모델 기반의 음성향상기술은 정상 잡음 환경과는 달리 비정상 잡음 환경에서 성능이 크게 저하되는 문제점을 가지고 있었다. 최근 머신러닝 기법인 심화신경망 (DNN, deep neural network)이 도입되어 음성 향상 기법에서 우수한 성능을 내고 있다. 심화신경망을 이용한 음성 향상 기법은 다수의 은닉 층과 은닉 노드들을 통하여 잡음이 존재하는 음성 신호와 잡음이 존재하지 않는 깨끗한 음성 신호 사이의 비선형적인 관계를 잘 모델링하였다. 이러한 심화신경망 기반의 음성향상기법을 향상 시킬 수 있는 방법 중 하나인 강화학습을 적용하여 기존 심화신경망 대비 성능을 향상시켰다. 강화학습이란 대표적으로 구글의 알파고에 적용된 기술로써 특정 state에서 최고의 reward를 받기 위해 어떠한 policy를 통한 action을 취해서 다음 state로 나아갈지를 매우 많은 경우에 대해 학습을 통해 최적의 action을 선택할 수 있도록 학습하는 방법을 말한다. 본 논문에서는 composite measure를 기반으로 reward를 설계하여 기존 PESQ (Perceptual Evaluation of Speech Quality) 기반의 reward를 설계한 기술 대비 음성인식 성능을 높였다.
https://doi.org/10.3745/PKIPS.y2018m05a.335 인용 PDF

상관도가 있는 나까가미 채널에서 2D-RAKE 수신기의 성능 분석 (Performance Analysis of 2D-RAKE Receiver over Correlated Nakagami Fading Channel)

문철;강창훈;박한규
- 한국통신학회논문지
- /
- 제25권4B호
- /
- pp.635-639
- /
- 2000
상관도가 있는 주파수 선택적 나까가미 페이딩 채널에서의 2D-RAKE 수신기의 평균 비트 에러율을 구하여 성능을 분석하였다. 동일한 RAKE 핑거의 배열 안테나에 수신되는 신호들은 동일한 페이ELD 파라메터를 가지지만 서로 다른 평균 신호 대 잡음비를 갖는 것으로 가정하였다. 또한 서로 다른 RAKE 핑거에 수신되는 신호들은 서로 독립적이지만 서로 다른 평균 신호 대 잡음비를 가지고 서로 다른 페이딩 파라메터를 갖는다고 가정하였다. 위의 분석을 통하여 결합되는 다이버시티 브랜치 간의 상관 특성, 지연 확산 특성, 평균 신호 대 잡음비 분포 그리고 페이딩 파라메터들이 2D-RAKE 수신기의 성능에 밀접한 영향을 줌을 확인하였다.
PDF

검색결과 1,927건 처리시간 0.029초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)