• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.028초

주파수 변이를 이용한 Parallel Model Combination 모델 적응에 기반한 잡음에 강한 음성인식 (Noise Robust Speech Recognition Based on Parallel Model Combination Adaptation Using Frequency-Variant)

  • 최숙남;정현열
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.252-261
    • /
    • 2013
  • 일반적인 음성인식 시스템은 조용한 인식 환경에서는 높은 인식성능을 나타내지만 잡음이 존재하는 실제 환경에서는 그 성능이 급격히 저하한다. 본 논문에서는 다양한 잡음환경에서도 강인한 음성인식기를 구현하기 위하여, 주파수의 변이도를 이용하여 음성인식을 위한 환경 정보를 얻고 이를 음성 인식을 위한 모델 개선에 적용하여 성능향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (Parallel Model Combination adaptation using frequency-variant based on environment - awareness : FV-PMC) 방법을 제안한다. 이 방법은 미리 분류된 각 잡음 군간의 평균 주파수 변이도를 미리 계산하여 임계치로 설정하고 미지의 잡음이 포함된 음성이 입력되면 각 잡음 군과의 주파수 변이도를 다시 계산하여 해당 잡음군의 임계치 보다 높을 경우 그 잡음 군의 잡음이 포함된 음성으로 간주하여 이 잡음 군이 포함된 음성을 이용하여 생성된 인식모델을 이용하여 음성인식을 수행한다. 제안한 FV-PMC 방법을 이용하여 잡음을 분류 하였을 경우 평균 분류 정확도는 56%를 보였고 이를 이용해 음성인식 실험을 실시한 결과 Set A의 평균인식률은 79.05%, Set B의 평균인식률은 79.43%, Set C의 평균인식률은 83.37%로 나타났다. 전체 평균인식률 80.62%로 기존의 깨끗한 모델을 이용한 PMC 인식률 74.93% 보다 5.69% 향상된 결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.

강인 음성 인식을 위한 가중화된 음원 분산 및 잡음 의존성을 활용한 보조함수 독립 벡터 분석 기반 음성 추출 (Speech extraction based on AuxIVA with weighted source variance and noise dependence for robust speech recognition)

  • 신의협;박형민
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.326-334
    • /
    • 2022
  • 이 논문에서는 배경 잡음이 포함되는 환경에서 강인한 음성 인식을 하기 위한 전처리 단계로서 쓰이는 목표 음성 향상 방법을 제안한다. 보조 함수 기반의 독립 벡터 분석(Auxiliary-function-based Independent Vector Analysis, AuxIVA) 기법을 기반으로 가중 공분산 행렬에서 시간에 따라 변하는 분산에 의해서 가중치가 결정된다. 목표 음성에 대한 시간-주파수별 기여도를 나타내는 마스크를 통해 분산의 크기를 조절한다. 이러한 마스크는 음성 향상을 위해서 학습된 신경망 혹은 목표 화자로부터의 직선 성분의 기여도를 찾기 위한 확산성으로부터 추정할 수 있다. 이에 더하여 둘러싼 잡음에 대한 출력들은 서로 다차원 독립 성분 분석을 도입하여 의존성을 주어 안정적으로 노이즈 성분을 추출할 수 있다. 이 AuxIVA 기반의 목표 음성 추출 알고리즘은 또한 노이즈에 대해서 비음수 행렬 분해(Non-negative Matrix Factorization, NMF)를 비음수 텐서 분해(Non-negative Tensor Factorization, NTF)로 확장하여 독립 단순 행렬 분석(Independent Low-Rank Matrix Analysis, ILRMA)의 틀에서도 수행될 수 있다. 이러한 확장을 통해서 여전히 잡음 출력 채널에서의 채널간 의존성을 유지할 수 있다. CHiME-4데이터셋에 대한 실험 결과는 소개된 알고리즘에 대한 효과를 보여준다.

지능형 TV의 음성인식을 위한 참조 잡음 기반 음성개선 (Reference Channel Input-Based Speech Enhancement for Noise-Robust Recognition in Intelligent TV Applications)

  • 정상배
    • 한국정보통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.280-286
    • /
    • 2013
  • 본 논문에서는 지능형 TV의 음성인터페이스를 위한 잡음제거 시스템에 대해서 제안한다. 음성인식 성능 저하에 매우 나쁜 영향을 주는 TV 소리를 제거하기 위해서 TV 소리 자체를 참조 잡음으로 하는 잡음제거 알고리즘이 구현된다. 제안된 알고리즘에서 TV 스피커와 다채널 장비간의 전달함수를 추정한다. 그 후, 위너 필터를 동작시키기 위해서 잡음의 전력 스펙트럼이 추정된다. 추가적으로 후처리 과정이 적용되어 잔존 잡음을 제거한다. 실험의 의해서 제안된 알고리즘이 5 dB 입력 SNR에서 88 %의 음성인식률을 나타내었다.

시변가산유색잡음하의 음성 향상을 위한 효율적인 Mixture IMM 알고리즘 (Efficient Mixture IMM Algorithm for Speech Enhancement under Nonstationary Additive Colored Noise)

  • 이기용;임재열
    • 한국음향학회지
    • /
    • 제18권8호
    • /
    • pp.42-47
    • /
    • 1999
  • 본 논문에서는 시변가산유색잡음에 오염된 음성신호의 향상을 위한 MIMM(mixture interacting multiple model) 알고리즘을 제안 한다. 제안된 방법에서 음성신호는 혼합 은닉필터모델(hidden filter model: HFM)로 모델링되며, 잡음신호는 하나의 은닉필터로 모델링 된다. MIMM 알고리즘은 혼합 은닉필터모델에 의한 다중 Kalman 필터링에 기초한 회귀계산이기 때문에 계산량이 많아, Kalman 필터링 식의 구조적 측면에서 효율적인 계산이 가능하도록 알고리즘을 구현했다. 시뮬레이션 결과, 제안된 방법이 기존의 결과 [4,5]에 비하여 성능향상이 이루어 졌음을 보여 준다.

  • PDF

잡음 환경에서 음성 인식률 향상에 필요한 MEMS 장치 개발에 관한 연구 (The research on the MEMS device improvement which is necessary for the noise environment in the speech recognition rate improvement)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1659-1666
    • /
    • 2018
  • 입력된 소리가 음성과 음향이 혼재된 경우 잡음의 영향으로 음성 인식률이 저하됨을 알 수 있으며 S/W적 처리 한계를 극복코자 H/W 장치인 MEMS 장치를 개발하여 음성 인식률을 향상시켰다. MEMS 마이크로폰 장치는 음성을 입력하는 장치로서 다양한 모양으로 구현되어 사용된다. 기존 MEMS 마이크로폰은 일반적으로 우수한 성능을 발휘하나 잡음 과 같은 특수 환경에선 음성과 음향이 혼재되어 처리 성능이 저하되는 문제점이 발생됨을 알 수 있었다. 이러한 문제점을 개선코자 초기 입력장치에 음성 특성을 구분하여 검출할 수 있는 신규 고안된 MEMS 장치를 사용하여 향상시켰다.

음성향상을 위한 가중치 갱신제어방식의 적응소음제거기 (Adaptive Noise Canceller by Weight Updating Control Method for Speech Enhancement)

  • 김규동;이윤정;김필운;장용민;조진호;김명남
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.1004-1016
    • /
    • 2007
  • 본 논문에서는 기준신호를 획득하기 어려운 환경에서 환경소음이 정상적인 특성을 가질 경우 음성을 향상시킬 수 있는 가중치 갱신제어 적응소음제거기를 제안하였다. 일반적인 적응소음제거기의 경우 소음만의 기준신호를 획득하여야 한다. 그러나 다수의 기기에 의한 복합적인 소음과 작업자에 의한 음성이 혼합되는 공장 환경에서는 소음발생원들로 부터 순수한 소음신호를 획득하기가 어렵다. 따라서 기준신호를 이용할 수 없기 때문에 이러한 환경에서는 기존의 적응잡음제거기를 사용하기가 어렵다. 제안한 방법에서는 입력신호를 임의의 상수로 하고 기준신호에 마이크로폰의 신호를 입력한다. 그런 다음 음성이 없는 구간에서 적응필터의 가중치를 갱신하여 소음을 제거하고 음성이 발생한 구간에서는 가중치를 고정하여 소음이 제거된 변형 음성신호를 획득한다. 그리고 변형 음성신호를 복원 필터링하여 음성신호를 출력한다. 이것은 다수의 공장소음이 정상적이고 짧은 대화구간에서 소음이 변하지 않는 점을 고려하였다. 실험의 결과 제안한 소음제거기가 공장소음을 효과적으로 제거할 수 있었고 신호 대 잡음비 면에서도 우수함을 확인하였다.

  • PDF

주파수가중 스펙트럼성형필터와 위너필터를 결합한 음성 스펙트럼 강조 (Speech Spectrum Enhancement Combined with Frequency-weighted Spectrum Shaping Filter and Wiener Filter)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제20권10호
    • /
    • pp.1867-1872
    • /
    • 2016
  • 디지털신호처리 분야에서 다양한 환경에서 존재하는 배경잡음을 제거하여 음성신호의 품질을 개선시키는 것은 반드시 필요한 문제이다. 음향학적으로 배경잡음을 제거할 때 고려해야 할 중요한 점은 인간의 청각기전이 주로 음성의 진폭 스펙트럼의 정보에 의존하여 문제 해결을 하고 있다는 사실이다. 본 논문에서는 음성의 진폭 스펙트럼의 추출을 주요 목적으로 하는 주파수가중 스펙트럼성형필터의 특성을 도입한다. 따라서 본 논문에서는 배경잡음으로 중첩된 음성신호 성분 중에 이 진폭 스펙트럼 정보를 추출하여, 위너 필터법과 음향학적인 모델에 의한 주파수가중 스펙트럼성형필터를 사용한 알고리즘을 제안한다. 본 실험에서는 스펙트럼 왜곡률(SD)에 의하여 제안한 알고리즘의 출력 SD가 기존의 다른 방법과 비교하여 약 5.28 dB 이상 개선되었다.

가변 잡음 레벨을 이용한 음성신호에 대한 SBR 성능 항상 기술 (Enhancement of SBR for Speech Signal Using Adaptive Noise Floor Level)

  • 이세원;오승준;안창범;이태진;강경옥;박호종
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.148-154
    • /
    • 2009
  • 오디오 부호화 기술에서 SBR은 고대역의 시판-주파수 정보를 저대역으로부터 구하고 보정 파라미터를 이용하여 고대역 정보를 보정하여 고대역 신호를 합성하는 기술이다. SBR은 고대역 정보의 부호화를 위하여 보정 파라미터만 전달하므로 매우 적은 비트로 오디오 신호를 압축할 수 있도록 하며, MPEG-4 HE-AAC의 핵심 모듈로 사용되고 있다. SBR은 원래 오디오 신호를 기반으로 개발되었기 때문에 음성 입력에 대하여 성능이 저하되는 문제점을 가지며, 성능 저하의 대표적인 이유는 톤 성질이 부정확하게 계산되어 잡음 레벨이 높게 설정되고 복원된 고대역 정좌에 과도한 잡음이 포함되기 때문이다. 본 논문에서는 음성 신호에 대한 SBR 성능 저하 문제를 해결하기 위하여 잡음 레벨을 입력 음성 신호의 특성에 맞게 가변적으로 적용하는 기술을 제안한다. 제안하는 SBR은 기존의 SBR과 호환성을 유지하며, 주관적 평가를 통하여 기존 SBR에 비하여 남성 음성에 대한 성능이 향상된 것을 확인하였다.

인지 모델과 웨이블릿 패킷 변환을 이용한 잡음 제거기 설계 (Design of the Noise Suppressor Using the Perceptual Model and Wavelet Packet Transform)

  • 김미선;박서영;김영주;이인성
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.325-332
    • /
    • 2006
  • 본 논문은 인지 모델과 웨이블릿 패킷 변환을 이용하여 단일 채널에서 유색잡음 또는 비정지적 성격의 잡음을 제거하는데 목적을 두고 있다. 이러한 잡음은 부대역을 나누어 접근해야하며, 잔여잡음과 음성의 왜곡으로 인한 문제를 해결하기 위해 웨이블릿 패킷 변환 후 웨이블릿 계수 문턱값을 적절히 개선해야 한다. 본 논문에서 부대역은 웨이블릿 패킷변환 후에 스케일과 임계대역을 매칭하여 설계하였으며, 웨이블릿 계수 문턱값은 세그멘탈 신호대잡음비 (seg_SNR)와 노이즈마스킹 임계값 (Noise Masking Threshold W)을 이용하여 적응적으로 계산했다. 결과적으로 TTA 표준인 EVRC 잡음 제거기와 유사한 성능을 가졌으며, 웨이블릿 변환 후 웨이블릿 계수에 Universal 문턱값을 적용하는 것보다 PESQ-MOS 값이 0.29 높았다. 인코딩과 디코딩 후 PESQ-MOS 값은 EVRC 잡음 제거기보다 0.23 정도 우수한 성능을 가졌다.

효율적 한국어 음성 인식을 위한 PTM 음절 모델 (Phonetic Tied-Mixture Syllable Model for Efficient Decoding in Korean ASR)

  • 김봉완;이용주
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.139-150
    • /
    • 2004
  • A Phonetic Tied-Mixture (PTM) model has been proposed as a way of efficient decoding in large vocabulary continuous speech recognition systems (LVCSR). It has been reported that PTM model shows better performance in decoding than triphones by sharing a set of mixture components among states of the same topological location[5]. In this paper we propose a Phonetic Tied-Mixture Syllable (PTMS) model which extends PTM technique up to syllables. The proposed PTMS model shows 13% enhancement in decoding speed than PTM. In spite of difference in context dependent modeling (PTM : cross-word context dependent modeling, PTMS : word-internal left-phone dependent modeling), the proposed model shows just less than 1% degradation in word accuracy than PTM with the same beam width. With a different beam width, it shows better word accuracy than in PTM at the same or higher speed.

  • PDF