통합 검색 | Korea Science

정준 상관 분석을 이용한 잡음 섞인 음성 신호의 분리 (Segaration of Corrupted Speech Signals using Canonical Correlation Analysis)

김선일
- 한국정보통신학회:학술대회논문집
- /
- 한국정보통신학회 2012년도 춘계학술대회
- /
- pp.164-167
- /
- 2012
음성 신호와 함께 섞인 자동차 배기 소음을 서로 분리해 내는 기술은 점점 음성을 중심으로 발전해가는 인터페이스를 현실화하는데 실질적으로 필요한 기술이다. 따라서 자동차 배기음이 섞인 음성신호를 두 신호간의 독립성이 보장되지 않고 두 신호에 대한 사전 정보가 없는 상태에서 분리해 내기 위해 정준 상관 분석을 사용하여 두 신호를 분리해 내는 연구를 진행하였다. 정준 상관 분석을 이용하여 음성을 분리해 내기 위해서는 분석에 쓰이는 신호의 구성이 중요하다. 정준 상관 분석에 대해 알아보고 음성과 자동차 배기 소음이 섞인 두 개의 신호를 받아서 이를 재구성하여 정준 상관분석을 이용하여 자동차 소음과 음성을 분리해 내었다. Blind Source Separation에 쓰이는 다른 방법과 비교했을 때 독립성이 보장되지 않는 신호에 대해서도 분리가 가능하므로 응용 대상이 상대적으로 넓어 실용적 응용이 가능하다고 할 수 있다.
PDF

위상 모델 기반의 소프트 마스크를 이용한 단일 채널 음성분리 (Single-Channel Speech Separation Using Phase Model-Based Soft Mask)

이윤경;권오욱
- 한국음향학회지
- /
- 제29권2호
- /
- pp.141-147
- /
- 2010
본 논문은 혼합 음성 신호로부터 크기와 위상 정보를 모두 고려하여 목표 음성 신호를 추출하고 향상하는 음성 분리 알고리듬을 제안한다.기존 연구에서는 혼합된 음성 신호의 로그 전력 스펙트럼 값이 시간-주파수 영역에서 서로 독립이라고 가정한 통계적 모델을 적용하기 때문에 음성 분리 결과 파형에 불연속을 야기한다. 본 논문에서는 이러한 불연속을 감소시키기 위하여 시간-주파수 영역에서의 스무딩 필터를 적용한다. 음성 분리 성능을 더욱 향상시키기 위하여 음성 신호의 크기와 함께 위상 정보를 고려하는 통계적 모델을 제안한다. 실혐 결과, 제안된 알고리즘이 기존의 크기 정보만을 사용한 알고리즘에 비하여 1.5 dB의 화자대간섭비 (SIR)를 개선하는 것으로 나타난다.
https://doi.org/10.7776/ASK.2010.29.2.141 인용 PDF KSCI

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습 (Deep Learning-based Speech Voice Separation Training To Enhance STT Performance)

김보경;양영준;황용해;김규헌
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2022년도 하계학술대회
- /
- pp.851-853
- /
- 2022
인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.
PDF

프랙탈 차원을 이용한 단음절 음성의 자$\cdot$모음 분리 (Consonant/Vowel Segmentation in Monosyllabic Speech Data Using the Fractal Dimension)

최철영;김형순;김재호;손경식
- 한국음향학회지
- /
- 제13권3호
- /
- pp.51-62
- /
- 1994
본 논문에서는 음성신호의 프랙탈 차원을 이용하여 한국어 CV(Consonant-Vowel) 단음절에서 자음과 모음을 분리하는 실험을 하였다. 프랙탈 차원은 Minkowski-Bouligand 차원을 사용하였으며, 형태학적 커버링 (morphological covering) 방법을 이용하여 구하였다. 프랙탈 차원의 음성분리에 있어서의 유용성을 조사하기 위하여 프랙탈 차원과 단구간 에너지 각각을 이용한 음성분리 실험과 에너지와 프랙탈 차원을 같이 이용한 음성분리 실험을 하여 그 결과들을 비교하였다. 실험 결과 에너지의 기울기를 사용한 경우는 $88.0\%$의 바른 분리 결과를 보였고, 프랙탈 차원의 기울기를 사용한 경우는 그보다 더 나은 $93.6\%$의 바른 분리 결과를 보였으며, 에너지의 기울기와 프랙탈 차원의 기울기의 곱을 사용한 경우는 $96.1\%$로 가장 높은 바른 분리결과를 나타냈다. 이를 통해 프랙탈 차원이 음성신호의 분리에 있어서 하나의 유용한 파라메타가 될 수 있음을 확인하였다.
PDF

ICA로 분리한 신호의 분류 (Classification of Signals Segregated using ICA)

김선일
- 전자공학회논문지 IE
- /
- 제47권4호
- /
- pp.10-17
- /
- 2010
ICA(Independent Component Analysis)를 이용하여 신호를 분리했을 때 그 중 어느 것이 원하는 신호인지 알아낼 수 있는 일반적인 방법이 없다. 본 논문에서는 자동차 배기음에 오염된 음성 신호를 가정하고 이를 ICA를 이용해 분리했을 때 분리된 신호에서 어느 것이 배기음이고 음성 신호인지 구별할 수 있는 방법을 제시하였다. 음성 신호는 음성 선호와의 상관계수가 가장 크게 나타날 것으로 예상되므로 오염된 음성 선호와 같은 동일인의 단모음 '아', '오', '우' 신호와 타인의 단모음 선호를 이용하여 분리된 각 신호와의 상관계수를 구하되 일괄 방식, 최대값 방식, 평균값 방식 등 세가지 방식으로 구하고 각 방식마다 '아', '오', '우'와의 상관 계수로 구분하고 이외에 투표 방법, 합산 방법을 추가한 다섯 가지 방법을 시도하여 가정 좋은 분류율을 나타내는 방식 및 방법을 제시하였다.
PDF KSCI

향상된 2.4kbps 하모닉 스토케스틱 여기 음성 부호화 방법 (Enhanced 2.4kbps Harmonic Stochastic Excitation Coding)

김종학;신경진;이인성
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
- /
- pp.831-834
- /
- 2000
본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR(Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.
PDF

시간/주파수 전이신호를 위한 향상된 2.4 kbps 하모닉 스토케스틱 여기 음성 부호화 방법 (Enhaced 2.4 kbps Harmonic Stochastic Excitation Coding for Time/Frequency Transitional Speech)

김종학;이인성
- 한국음향학회지
- /
- 제19권7호
- /
- pp.53-58
- /
- 2000
본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4 kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR (Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4 kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.
PDF

배경 잡음을 제거하는 음성 신호 잡음 제거기의 구현 (Implementation of Environmental Noise Remover for Speech Signals)

김선일;양성룡
- 전자공학회논문지 IE
- /
- 제49권2호
- /
- pp.24-29
- /
- 2012
자동차 배기음은 음성과 무관한 거의 독립적인 음원이라고 볼 수 있다. 따라서 자동차 배기음과 섞인 음성 신호의 경우에 두 음원에 대한 사전 정보가 없는 상황이므로 Blind Source Separation 의 한 방법인 Independent Component Analysis를 이용하여 분리해 내었다. 스테레오 마이크를 통해 섞여 들어 온 두 음원을 분리해 내기 위해 Maximum Likelyhood Estimation을 이용하여 각 신호들 사이의 독립성을 최대화 하는 방향으로 분리하였다. 분리된 신호는 어느 쪽이 음성 신호인지 알 수 없으므로 주파수 영역에서 자기 공분산을 구한 후 이 공분산 값들의 기울기를 이용하여 음성 신호와 자동차 배기음 신호을 구분하였으며 이 두 알고리즘을 결합하여 음성 신호 잡음 제거기를 구현하였다.
PDF KSCI

독립성분분석을 이용한 강인한 음성인식 (Robust Speech Recognition Using Independent Component Analysis)

임형규;이창기
- 한국컴퓨터산업학회논문지
- /
- 제5권2호
- /
- pp.269-274
- /
- 2004
기존 음성 인식의 실세계 적용에서 큰 문제점은 잡음이다. 본 논문에서는 잡음이 섞인 음성 신호로부터 잡음 성분을 분리해 내는 방법을 제안한다. 이 방법은 잡음이 섞인 음성 신호에 독립성분분석(ICA:Independent Component Analysis)을 사용한 암묵신호 분리(blind source separation)를 적용하여 잡음 성분을 제거하게 된다. 잡음이 혼합된 음성 신호에 독립성분분석을 전처리(preprocessing) 과정에 이용함으로써 인식성능을 향상시킬 수 있다. 깨끗한 음성 신호에 음악과 거리잡음을 섞었을 경우 인식률이 잡음 없는 음성의 인식률보다 각각 최대 14.98%, 13.78%까지 저하되었다. 그러나 독립성분분석으로 복원된 음성의 경우 잡음 없는 음성의 인식률 수준(각각 97.39%, 96.49%)으로 나타났으며, 독립성분분석을 이용한 음성의 잡음 제거가 인식률 향상에 좋은 결과를 가져옴을 확인 할 수 있다.
PDF

EM 알고리즘을 이용할 재귀적인 음소분리 (Recursive Segmentation of Speech Signals using Expectation-Minimization)

강병옥;정홍
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
- /
- pp.103-106
- /
- 2002
본 논문에서는 입력음성신호로부터 음소간의 경계를 찾는 문제를 풀기위해 재귀적인 방식으로 EM 알고리즘을 적용한다. 즉, 예상되는 두 끝점 사이의 부분을 현재의 프레임 n 이라고 하면, 그 전 프레임 n-1 에서 구해진 끝점이 주는 정보와 그 끝점으로부터 이어지는 음성샘플로부터 현재 프레임의 끝점을 구한다. 또한 현재의 프레임 n 에서 끝점을 추정해 내면, 그 추정한 끝점과 그 점 이후에 이어지는 음성샘플값으로부터 다음 프레임 n+1 의 끝점을 구한다. 이러한 방식을 재귀적인 음소분리 방식이라고 한다. 그리고, 각 프레임에서 끝점을 구하기 위해서는 끝점의 좌표를 추정해야 할 파라메터로 하고, 그 주변의 음성샘플 값을 관찰 값으로 하여 EM(Expectation and Maximization) 알고리즘을 이용한다. 이 EM 알고리즘을 이용한 재귀적인 음소분리 방식을 실제 음성 DB 로부터 음소쌍을 추출하여 테스트 했을 때 약 5 회의 EM 반복 후에 경계간으로 수렴함을 볼 수 있었다.
PDF

검색결과 664건 처리시간 0.025초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)