• Title/Summary/Keyword: 필터뱅크 에너지 변화량

Search Result 3, Processing Time 0.02 seconds

Music retrieval system implementation based on multi-level quantization scheme (다중 레벨 양자화 기법 기반의 음악 검색기 구현)

  • Song, Won-Sik;Park, Man-Soo;Kim, Hoi-Rin
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1182-1187
    • /
    • 2006
  • 본 논문은 필립스의 오디오 핑거프린트 추출 방식을 기반으로 기존의 방식이 주파수 영역을 너무 조밀하게 분석하는 특징을 지적하고 개선 방안으로 양자화를 통해 필터 뱅크의 에너지 변화율을 오디오 핑거프린트 추출시 반영하는 방법을 제안하였다. 또한 제안된 알고리즘을 사용하여 PDA 로 실제 어플리케이션을 구현하는 것을 목적으로 하고 있다. 제안된 방식은 필립스 방식과 동일한 메모리 크기를 유지하기 위하여 필터 뱅크의 개수를 33 개에서 17 개로 줄이고 필터 뱅크의 변화량을 2 비트로 할당하는 방식을 사용하였다. 변화량을 비트에 할당하기 위하여 음악 데이터 베이스로부터 추출된 각 밴드의 pmf를 통해 음악의 고유성을 최대로 증진 시킬 수 있는 임계치를 찾아내고 이것을 바탕으로 필터 뱅크의 변화량을 2 비트로 할당하였다. 이 같이 추출된 오디오 핑거프린트를 기반으로 PDA 와 음악 검색기 서버와의 통신을 이용하여 사용자가 요청한 쿼리 음악에 관련된 정보를 제공하는 시스템을 구현했다. 제안된 방식은 다양한 주변 잡음 환경에서 평가되어 기존의 필립스 방식 보다 성능 향상 물론 검색 속도 또한 개선되는 특징을 확인할 수 있었다.

  • PDF

Audio Fingerprint Extraction Method Using Multi-Level Quantization Scheme (다중 레벨 양자화 기법을 적용한 오디오 핑거프린트 추출 방법)

  • Song Won-Sik;Park Man-Soo;Kim Hoi-Rin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.25 no.4
    • /
    • pp.151-158
    • /
    • 2006
  • In this paper, we proposed a new audio fingerprint extraction method, based on Philips' music retrieval algorithm, which uses the energy difference of neighboring filter-bank and probabilistic characteristics of music. Since Philips method uses too many filter-banks in limited frequency band, it may cause audio fingerprints to be highly sensitive to additive noises and to have too high correlation between neighboring bands. The proposed method improves robustness to noises by reducing the number of filter-banks while it maintains the discriminative power by representing the energy difference of bands with 2 bits where the quantization levels are determined by probabilistic characteristics. The correlation which exists among 4 different levels in 2 bits is not only utilized in similarity measurement. but also in efficient reduction of searching area. Experiments show that the proposed method is not only more robust to various environmental noises (street, department, car, office, and restaurant), but also takes less time for database search than Philips in the case where music is highly degraded.

Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments (잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법)

  • Choi, Gab-Keun;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.5
    • /
    • pp.447-453
    • /
    • 2009
  • This paper introduces the method for detect voices and exact end point at low SNR by maximizing voice energy. Conventional VAD (Voice Activity Detection) algorithm estimates noise level so it tends to detect the end point inaccurately. Moreover, because it uses relatively long analysis range for reflecting temporal change of noise, computing load too high for application. In this paper, the SEM-VAD (Speech Energy Maximization-Voice Activity Detection) method which uses psycho-acoustical bark scale filter banks to maximize voice energy within frames is introduced. Stable threshold values are obtained at various noise environments (SNR 15 dB, 10 dB, 5 dB, 0 dB). At the test for voice detection in car noisy environment, PHR (Pause Hit Rate) was 100%accurate at every noise environment, and FAR (False Alarm Rate) shows 0% at SNR15 dB and 10 dB, 5.6% at SNR5 dB and 9.5% at SNR0 dB.