• 제목/요약/키워드: harmonic-weighted energy

검색결과 2건 처리시간 0.015초

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 (Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments)

  • 홍정표;박상준;정상배;한민수
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.11-16
    • /
    • 2013
  • This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VAD to drastically decline because the fluctuation of features in the noise intervals results in increased false alarm rates. In this paper, in order to improve the VAD performance, harmonic-weighted energy is proposed. This feature extraction method focuses on voiced speech intervals and weighted harmonic-to-noise ratios to determine the amount of the harmonicity to frame energy. For performance evaluation, the receiver operating characteristic curves and equal error rate are measured.

청각 주파수 응답에 기반한 자동 모음 개시 지점 탐지 (Automatic Vowel Onset Point Detection Based on Auditory Frequency Response)

  • 장한;김학태;정길도
    • 한국산학기술학회논문지
    • /
    • 제13권1호
    • /
    • pp.333-342
    • /
    • 2012
  • 이 논문에서는 인간 청각 시스템에 기반한 모음 개시 지점 (VOP) 탐지 방법을 제시하였다. 이 방법을 통해 '지각의' 주파수 범위, 즉 선형 음향 주파수에서의 Mel Scale을 보여준 후 일련의 삼각 Mel-weighted Filter Bank를 만들어 인간의 청각 시스템에서 대역 필터링 기능을 시뮬레이션하였다. 이러한 비선형 임계 대역 Filter Bank는 데이터 차원수를 크게 감소시키고 비선형적으로 간격을 둔 Mel 스펙트럼에서 더욱 효과적으로 포먼트를 생성하기 위해 조파들의 영향을 제거해준다. Mel 스펙트럼의 첨두 에너지 합은 각 프레임의 특징으로 추출하고 에너지 진폭이 급격히 상승하기 시작할 때의 특성은 Gabor 윈도우를 사용하여 VOP로 탐지한다. 실험 결과를 통해서 다른 종류의 자음들과 연결된 12개의 모음들을 포함하는 한 단어 데이터베이스에 대한 제안된 방법의 평균 정확도는 단시간 에너지와 zero-crossing 비율에 기반을 둔 다른 모음 탐지 방법들보다 높은 72.73% 이상임을 확인하였다.