• 제목/요약/키워드: Voice Activity Detection

검색결과 103건 처리시간 0.018초

원거리 음성명령어 인식시스템 설계 (Performance Evaluation of an Automatic Distance Speech Recognition System)

  • 오유리;윤재삼;박지훈;김민아;김홍국;공동건;명현;방석원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.303-304
    • /
    • 2007
  • In this paper, we implement an automatic distance speech recognition system for voiced-enabled services. We first construct a baseline automatic speech recognition (ASR) system, where acoustic models are trained from speech utterances spoken by using a cross-talking microphone. In order to improve the performance of the baseline ASR using distance speech, the acoustic models are adapted to adjust the spectral characteristics of speech according to different microphones and the environmental mismatches between cross-talking and distance speech. Next we develop a voice activity detection algorithm for distance speech. We compare the performance of the base-line system and the developed ASR system on a task of PBW (Phonetically Balanced Word) 452. As a result it is shown that the developed ASR system provides the average word error rate (WER) reduction of 30.6 % compared to the baseline ASR system.

  • PDF

협동 센서 융합 기반 화자 성별 분류를 위한 무선 센서네트워크 개발 (A Development of Wireless Sensor Networks for Collaborative Sensor Fusion Based Speaker Gender Classification)

  • 권호민
    • 융합신호처리학회논문지
    • /
    • 제12권2호
    • /
    • pp.113-118
    • /
    • 2011
  • 본 논문에서는 무선센서네트워크에서 이루어지는 협동적 센서융합을 이용한 화자성별분류를 제안하였다. 센서노드들은 BER(Band Energy Ratio) 기반 음성활동검출을 수행함으로써 불필요한 입력 데이터는 제거하고 관련성이 높은 데이터만을 처리 및 경판정한다. 개별적 센서노드에서 생성된 경판정 값들은 융합센터로 송신되고 전역적 결정 융합을 구축하기 때문에 전력 소모를 줄이고 네크워크 자원을 절약한다. 화자성별분류를 위한 센서융합기법으로써 베이시안(Bayesian) 센서융합 및 전역적 가중결정융합가법들이 제안되었다. 베이시안 센서융합의 경우, 배치되는 센서노드 수 변화에 따른 ROC(Receiver Operating Characteristic) 커브의 동작점을 통해 개별 센서노드 레벨에서 얻어진 경판정 값들을 처리하고 최적의 분류 융합을 결정한다. 전역적 결정을 위한 가중치로써 BER 및 MCL(Mutual Confidence Level)을 채택하여 개별적 지역 경판정 값들을 효율적으로 결합 및 융합시킨다. 센서 노드의 수가 증가함에 따라 분류화 성능이 개선되어졌으며 특히 낮은 SNH(Signal to Noise Ratio) 환경에서 성능 개선폭이 더 높게 나타남을 실험적으로 확인하였다.

서브밴드 가중치를 적용한 스펙트럼 최소값 추적을 이용하는 수정된 IMCRA 기반의 음성 향상 기법 (Speech Enhancement Based on Modified IMCRA Using Spectral Minima Tracking with Weighted Subband Selection)

  • 박윤식;박규석;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.89-97
    • /
    • 2012
  • 본 논문에서는 잡음환경에서 음성 향상 (speech enhancement)을 위한 새로운 잡음전력 추정 방법을 제안한다. 음성 향상 알고리즘에 널리 적용되고 있는 IMCRA (improved minima controlled recursive averaging) 기법은 오염된 음성신호로부터 추정된 최소 전력 스펙트럼에 기반하여 잡음전력을 추정하는 기존의 방법을 개선하기 위해 간단한 음성 검출 알고리즘을 이용하여 대략적으로 음성 성분이 제거된 전력 스펙트럼에서 최소값을 추정함으로써 음성구간에서 발생할 수 있는 음성왜곡 문제점을 개선하였다. 하지만 비정상 잡음이나 신호 대 잡음 비 (SNR signal-to-noise ratio)가 낮은 환경에서는 음성 검출 성능이 저하되어 음성구간에서 음성왜곡이 발생되는 기존의 문제점이 여전히 발생된다. 따라서 제안된 방법에서는 향상된 잡음전력 추정을 위하여 기존의 IMCRA에서 추정된 최소 전력 스펙트럼에 대하여 스펙트럼 최소값 추적 (SMT, spectral minima tracking) 기법을 적용하고 IMCRA에 의한 최소값과 SMT에 의해 추정된 최소값을 서브밴드 (subband)에 따라 가중치를 적용하여 결합한다. 제안된 알고리즘은 기존의 방법과 주관적 및 객관적 음질평가 테스트를 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.