• 제목/요약/키워드: 필터뱅크 에너지 변화량

검색결과 3건 처리시간 0.017초

다중 레벨 양자화 기법 기반의 음악 검색기 구현 (Music retrieval system implementation based on multi-level quantization scheme)

  • 송원식;박만수;김회린
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1182-1187
    • /
    • 2006
  • 본 논문은 필립스의 오디오 핑거프린트 추출 방식을 기반으로 기존의 방식이 주파수 영역을 너무 조밀하게 분석하는 특징을 지적하고 개선 방안으로 양자화를 통해 필터 뱅크의 에너지 변화율을 오디오 핑거프린트 추출시 반영하는 방법을 제안하였다. 또한 제안된 알고리즘을 사용하여 PDA 로 실제 어플리케이션을 구현하는 것을 목적으로 하고 있다. 제안된 방식은 필립스 방식과 동일한 메모리 크기를 유지하기 위하여 필터 뱅크의 개수를 33 개에서 17 개로 줄이고 필터 뱅크의 변화량을 2 비트로 할당하는 방식을 사용하였다. 변화량을 비트에 할당하기 위하여 음악 데이터 베이스로부터 추출된 각 밴드의 pmf를 통해 음악의 고유성을 최대로 증진 시킬 수 있는 임계치를 찾아내고 이것을 바탕으로 필터 뱅크의 변화량을 2 비트로 할당하였다. 이 같이 추출된 오디오 핑거프린트를 기반으로 PDA 와 음악 검색기 서버와의 통신을 이용하여 사용자가 요청한 쿼리 음악에 관련된 정보를 제공하는 시스템을 구현했다. 제안된 방식은 다양한 주변 잡음 환경에서 평가되어 기존의 필립스 방식 보다 성능 향상 물론 검색 속도 또한 개선되는 특징을 확인할 수 있었다.

  • PDF

다중 레벨 양자화 기법을 적용한 오디오 핑거프린트 추출 방법 (Audio Fingerprint Extraction Method Using Multi-Level Quantization Scheme)

  • 송원식;박만수;김회린
    • 한국음향학회지
    • /
    • 제25권4호
    • /
    • pp.151-158
    • /
    • 2006
  • 본 논문은 필립스의 음악 검색 기법을 기반으로 필터 뱅크 에너지 변화량과 음악의 통계적인 특성을 이용한 오디오 핑거프린트 추출 방법을 제안하였다. 기존의 필립스 방식은 제한된 주파수 영역을 너무 많은 필터 뱅크로 분할하여 분석함으로써 밴드들 사이에 연계성 및 왜곡에 대한 민감도가 증가하는 특징을 보일 수 있다. 제안된 방법은 필터 뱅크의 밴드 수를 줄여 왜곡에 대한 강인성을 증진시키고, 필터 뱅크 에너지의 변화량의 부호와 크기 정보를 통계적 특성을 고려한 양자화 기법을 이용해 2비트로 할당함으로써 오디오 핑거프린트의 고유성을 확보하였다. 추출된 2비트는 4개의 레벨로 정보를 표현함으로 각 레벨 사이에 연계성이 존재하게 된다. 이 같은 레벨 사이의 연계성은 유사도 측정 시 이용될 뿐만 아니라 오디오 핑거프린트를 기준으로 검색 영역을 확장하는 제안된 방식에서는 효율적인 검색 영역을 선택할 수 있는 정보로 활용 되었다. 제안된 방식은 다양한 주변 잡음환경 (거리, 백화점, 자동차, 사무실, 식당)에서의 실험을 통하여 주변 잡음에 강인한 특성을 보일 뿐만 아니라 검색 속도 또한 향상되는 특징을 보였다.

잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법 (Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments)

  • 최갑근;김순협
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.447-453
    • /
    • 2009
  • 이 논문은 음성 에너지를 최대화 하여 낮은 SNR환경에서 음성 존재 여부를 판단하고 정확한 끝점을 검출하는 방법에 대한 것이다. 전통적인 VAD (Voice Activity Detection) 알고리듬은 잡음의 추정치를 이용해 음성과 비음성 구간을 선택하여 낮은 SNR환경이나 비안정 잡음환경에서는 정확하지 못한 문턱값으로 인해 부정확한 끝점검출을 하였다. 또한 잡음의 시간적 변화를 반영하기 위해 비교적 큰 분석 구간을 두어 계산량이 증가함에 따라 실제 응용에 적합하지 않은 단점이 있다. 이 논문은 잡음환경에서 정확한 음성 구간의 검출을 위해 심리음향 모델에 기반 한 바크 스케일 필터 뱅크를 이용하여 주어진 프레임에서 음성 에너지를 최대화 시키고 잡음을 억제하는 SEM-VAD (Speech Energy Maximization-Voice Activity Detection) 방법을 제안하였다. 다양한 잡음환경, SNR 15 dB, 10 dB 5 dB 0 dB 상황에서 실험한 결과 SNR의 변화에 안정적인 문턱값을 얻었고, 음성 검출을 위한 실험에서 자동차 잡음 환경에 대한 PHR (Pause Hit Rate)은 모든 잡음 환경에서 100%의 정확도를 보였고, FAR (False Alarm Rate)는 SNR 15 dB와 10 dB에서는 0%, SNR 5 dB에서 5.6% SNR 0 dB에서 9.5%의 성능을 보였다.