• 제목/요약/키워드: 환경음 분류

검색결과 76건 처리시간 0.022초

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

Minimum Classification Error 방법 도입을 통한 Gaussian Mixture Model 환경음 인식성능 향상 (Gaussian Mixture Model using Minimum Classification Error for Environmental Sounds Recognition Performance Improvement)

  • 한다정;박아론;박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.497-503
    • /
    • 2011
  • 본 연구에서는 환경음 인식 성능의 향상을 위하여 GMM의 훈련 방식에 MCE 도입을 제안하였다. 이는 환경음 데이터 모델링에 사용할 분류오류함수를 정의할 때 해당 클래스의 로그우도 뿐 아니라 다른 클래스의 로그우도도 같이 고려함으로써 변별력 있는 분류가 이뤄질 수 있게 한다. 모델의 파라미터는 전체 클래스를 고려한 손실함수를 정의하고, GPD(generalized probabilistic descent)알고리즘을 이용하여 추정하였다. 제안된 방법의 인식 성능 비교를 위해 모두 9가지 환경음을 전처리 과정과 MFCC(mel-frequency cepstral coefficients)를 이용하여 12차 특징을 추출하고, 이를 혼합 성분의 수에 따라 GMM 분류 실험을 행하였다. 실험 결과에 따르면 혼합 성분을 19개 사용한 경우에서 MCE 훈련 방식이 평균 87.06%의 인식률로 가장 좋은 성능을 보였다. 이 결과로 제안한 MCE 훈련 방식이 환경음 인식에서 GMM의 훈련 방식으로 효과적으로 사용될 수 있음을 확인하였다.

합성곱 신경망 기반 환경잡음에 강인한 교통 소음 분류 모델 (Convolutional neural network based traffic sound classification robust to environmental noise)

  • 이재준;김완수;이교구
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.469-474
    • /
    • 2018
  • 도시 유동인구가 증가함에 따라 도시 환경 소음에 관한 연구의 중요성이 증가하고 있다. 본 연구에서는 교통상황에서 발생하는 이상 소음을 최근 환경 소음 분류 연구에서 높은 성능을 보이는 딥러닝 알고리즘을 이용하여 분류한다. 구체적으로는 타이어 제동 마찰음, 자동차 충돌음, 자동차 경적음, 정상 소음 네 개의 클래스에 대하여 합성곱 신경망을 이용하여 분류한다. 또한, 실제 교통 상황에서의 환경잡음에 강인한 분류 성능을 갖기 위해 빗소리, 바람 소리, 군중 소리의 세 가지 환경잡음을 설정하였고 이를 활용하여 분류 모델을 설계하였으며 3 dB SNR(Signal to Noise Ratio) 조건에서 88 % 이상의 분류 성능을 가진다. 제시한 교통 소음에 대하여 기존 선행연구 대비 높은 분류 성능을 보이고, 빗소리, 바람 소리, 군중 소리의 세 가지 환경잡음에 강인한 교통 소음 분류 모델을 제안한다.

후처리를 이용한 환경음 인식 성능 개선 (Improvement of Environmental Sounds Recognition by Post Processing)

  • 박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제10권7호
    • /
    • pp.31-39
    • /
    • 2010
  • 본 연구에 사용된 환경음은 9 가지 상황으로 구분하였으며 생활 속에서 인간의 이동에 따라 변화하는 실제 환경음과 동일한 테스트 데이터 셋을 이용하였다. 실제 환경에서 녹음된 데이터는 Pre-emphasis, Hamming window를 이용하여 전처리하고 MFCC (Mel-Frequency Cepstral Coefficients) 방식으로 특징을 추출한 후 GMM (Gaussian Mixture Model)을 이용하여 분류 실험을 행했다. 후처리가 없는 GMM은 프레임 별로 판정하므로 분류 결과를 보면 상황이 갑자기 변화하는 이상 결과가 나타난다. 이에 본 연구에서는 인접한 프레임 별 확률 값 혹은 분류 순위를 이용해서 갑작스런 상황 변화가 발생하지 않도록 하는 후처리 방식을 제안하였다. 실험 결과에 따르면 GMM 분류방식에 인접 프레임들의 사후확률 값을 이용하는 후처리방법을 적용한 경우 후처리를 적용하지 않은 경우에 비해 10% 이상 평균 인식률이 개선되는 것을 확인할 수 있었다.

3GPP2 SMV의 실시간 유/무성음 분류 성능 향상을 위한 Gaussian Mixture Model 기반 연구 (Enhancement Voiced/Unvoiced Sounds Classification for 3GPP2 SMV Employing GMM)

  • 송지현;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제45권5호
    • /
    • pp.111-117
    • /
    • 2008
  • 본 논문에서는 패턴 인식에서 우수한 성능을 보이는 가우시안 혼합모델 (Gaussian mixture model, GMM)을 이용하여 비정상적인 잡음환경에서 3GPP2 selectable mode vocoder (SMV)의 유/무성음 분류 알고리즘 성능 향상을 위한 방법을 제안한다. 기존의 SMV에 대해서 분석하고, 이론 기반으로 유/무성음 분류 알고리즘에서 우수한 성능을 보여주는 특징 벡터를 선택하여 GMM의 입력벡터로 효과적으로 이용한다 다양한 잡음환경에서 시스템의 성능을 평가한 결과 GMM을 이용한 제안된 방법이 기존의 SMV의 방법보다 우수한 유/무성음 분류 성능을 보였다.

음향심리실험에 의한 음의 유형화에 관한 연구 (A Study on the Classfiction of Sounds by Psycho-acoustic Experiment)

  • 김선우;장길수;이태강;한명호
    • 한국음향학회지
    • /
    • 제12권6호
    • /
    • pp.36-44
    • /
    • 1993
  • 효과적인 음향대책을 수립하기 위해서는 어떠한 음과 언어로써 표현하여 그 주관적인 가치기준을 설정할 것인가가 중요하다. 이를 위해서는 음의 물리적 특성과 인간의 청각간의 상호관계를 규명하는 심리 연구가 필요하며, 이를 통해서 음의 효율적 평가체계를 확립할 수 있다. 따라서, 본 연구에서는 음에 대한 주관적 감각표현으로써 음원기술선택법을 이용한 음향심리실험에 의해서 음에 대한 감각적 인상으로부터 음을 유형화하였다. 실험에 참여한 피험자는 221명이고, 41개의 음원과 음을 수식하는 48개의 형용사를 이용하여 그 유사도의 차이를 군집분석을 하였다. 그 결과, 생활환경음은 "금속성이고 시끄러운 음", "날카롭고 긴장되는 음", " 울려퍼지고 강한 음 ", " 밝고 활기찬 음 ", " 적막하고 여린 음", "조화롭고 부드러운 음", "안정되고 적당한 음"의 그룹으로 분류된다.

  • PDF

환경음 인식을 위한 GMM의 혼합모델 개수 추정 (Estimation of Optimal Mixture Number of GMM for Environmental Sounds Recognition)

  • 한다정;박아론;백성준
    • 한국산학기술학회논문지
    • /
    • 제13권2호
    • /
    • pp.817-821
    • /
    • 2012
  • 본 논문에서는 환경음 인식에 GMM(Gaussain mixture model)을 이용할 때 MDL(minimum description length)와 BIC(Bayesian information criterion) 모델선택 기준을 이용하여 최적의 혼합모델 개수를 결정하는 방법에 대해 다루었다. 실험은 모두 9가지 종류의 환경음으로부터 12차 MFCC(mel-frequency cepstral coefficients) 특징 27747개를 추출하고 이를 GMM으로 분류하였다. 각 환경음 클래스의 최적 혼합모델 개수를 추정 하기위해 MDL과 BIC를 적용하고 그 결과를 고정 개수의 혼합모델을 사용한 경우와 비교하였다. 실험 결과에 따르면 혼합모델 선택 방법을 적용한 경우가 그렇지 않은 경우에 비해 거의 유사한 인식성능을 유지하면서 계산복잡도는 BIC와 MDL를 통해 각각 17.8%와 31.7%가 감소하는 것을 확인하였다. 이는 GMM을 이용한 환경음 인식에서 BIC와 MDL 적용을 통해 계산복잡도를 효과적으로 감소시킬 수 있음을 보여준다.

산란계의 열환경별 특이음에 대한 음성학적 분석 (Acoustic Analysis for Thermal Environment-related Vocalizations in Laying Hens)

  • 전중환;연성찬;하정기;이승주;장홍희
    • Journal of Animal Science and Technology
    • /
    • 제47권4호
    • /
    • pp.697-702
    • /
    • 2005
  • 본 연구는 산란계가 적정 환경, 더운 환경 그리고 추운 환경에서 특이하게 내는 특이음을 분류한 후 이들을 음성학적으로 판별할 수 있는지를 규명하고자 수행되었다. 일반 발성음은 총 5가지 형태, 더위stress 특이음은 1가지 형태, 그리고 추위stress 특이음은 총 3가지 형태로 각각 나타났다. 기본주파수, 음의 강도, 음의 길이 및 포먼트에 대하여 열환경별 발성음간 유의차를 분석한 결과 모든 parameter에서 유의차가 인정되었으나, Discriminant 분석을 실시하였을 때 음의 길이, 제 1포먼트, 제 3포먼트 및 제 4포먼트가 다른 parameter들 보다 유용한 parameter로 나타났다. 이상의 결과들을 종합해 볼 때, 산란계는 열환경 변화에 따라 특이음을 내었으며, 이들 특이음은 기본주파수, 음의 강도, 음의 길이 및 포먼트 등과 같은 parameter들에 의하여 음성학적으로 판별될 수 있었다.

멀티 신호를 이용한 환경 인식 성능 개선 (Improvement of Environment Recognition using Multimodal Signal)

  • 박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.27-33
    • /
    • 2010
  • 본 연구에서는 9가지 환경에서 마이크로폰과 자이로센서, 가속도센서를 이용하여 얻은 데이터를 특징 추출한 후 각 특징들을 조합하여 GMM (Gaussian Mixture Model)을 이용한 분류실험을 수행하였다. 기존의 환경 인식에 관한 연구들에서는 주로 마이크로폰을 이용한 환경음 데이터를 통해 인식주체의 환경 상황을 인식하고자 하였으나, 여러 노이즈들이 결합한 형태로 좋은 특징을 얻기 어려운 환경음의 구조적 특성으로 인해 그 인식 성능에 한계가 있었다. 이에 본 연구에서는 환경상황을 인식하기 위한 또 다른 방법으로 인식주체의 움직임 특성을 반영하기 위해 자이로센서와 가속도센서의 데이터를 특징에 추가 적용하는 방식을 제안하였다. 실험결과 따르면 마이크로폰을 통해 얻은 환경음의 특징만을 이용하는 기존의 방식들에 비해 가속도센서를 통해 얻은 데이터를 기존의 환경음 특징벡터와 조합한 경우에서 5% 이상 평균 인식률이 개선되는 것을 확인할 수 있었다.

Real-time Laying Hens Sound Analysis System using MFCC Feature Vectors

  • Jeon, Heung Seok;Na, Deayoung
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.127-135
    • /
    • 2021
  • 산란계사와 같이 매우 좁은 환경에서 많은 개체를 사육하는 경우 작은 환경 변화에도 큰 피해를 받을 수 있다. 이와 같은 문제를 해결하기 위해 본 연구에서는 끊임없이 소리를 발생하는 산란계의 특성을 이용하여 산란계 발성음 분석 시스템을 제안한다. 기존의 산란계 발성음 시스템은 산란계사의 제한된 상황만을 고려하거나 실제 산란계사에 적용하기에는 어려움을 가지고 있다. 이러한 문제를 극복하기 위하여 본 논문에서는 MFCC 특징 벡터를 이용한 9가지의 산란계 소리 분석을 통해 실제 산란계사 환경에서 발생하는 수 있는 7가지의 상황을 실시간으로 감지할 수 있는 새로운 산란계 발성음 분석 모델을 제안한다. 본 논문에서 제안한 분석 모델을 실제 산란계사에서 성능 평가를 진행한 결과, 평균 AUC 0.93의 분류 성능을 나타내어 기존의 주파수 기반의 특징 분석 방법에 비해 약 43% 향상된 결과를 보여주었다.