• 제목/요약/키워드: environmental sounds recognition

검색결과 12건 처리시간 0.024초

환경음 인식을 위한 GMM의 혼합모델 개수 추정 (Estimation of Optimal Mixture Number of GMM for Environmental Sounds Recognition)

  • 한다정;박아론;백성준
    • 한국산학기술학회논문지
    • /
    • 제13권2호
    • /
    • pp.817-821
    • /
    • 2012
  • 본 논문에서는 환경음 인식에 GMM(Gaussain mixture model)을 이용할 때 MDL(minimum description length)와 BIC(Bayesian information criterion) 모델선택 기준을 이용하여 최적의 혼합모델 개수를 결정하는 방법에 대해 다루었다. 실험은 모두 9가지 종류의 환경음으로부터 12차 MFCC(mel-frequency cepstral coefficients) 특징 27747개를 추출하고 이를 GMM으로 분류하였다. 각 환경음 클래스의 최적 혼합모델 개수를 추정 하기위해 MDL과 BIC를 적용하고 그 결과를 고정 개수의 혼합모델을 사용한 경우와 비교하였다. 실험 결과에 따르면 혼합모델 선택 방법을 적용한 경우가 그렇지 않은 경우에 비해 거의 유사한 인식성능을 유지하면서 계산복잡도는 BIC와 MDL를 통해 각각 17.8%와 31.7%가 감소하는 것을 확인하였다. 이는 GMM을 이용한 환경음 인식에서 BIC와 MDL 적용을 통해 계산복잡도를 효과적으로 감소시킬 수 있음을 보여준다.

Minimum Classification Error 방법 도입을 통한 Gaussian Mixture Model 환경음 인식성능 향상 (Gaussian Mixture Model using Minimum Classification Error for Environmental Sounds Recognition Performance Improvement)

  • 한다정;박아론;박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.497-503
    • /
    • 2011
  • 본 연구에서는 환경음 인식 성능의 향상을 위하여 GMM의 훈련 방식에 MCE 도입을 제안하였다. 이는 환경음 데이터 모델링에 사용할 분류오류함수를 정의할 때 해당 클래스의 로그우도 뿐 아니라 다른 클래스의 로그우도도 같이 고려함으로써 변별력 있는 분류가 이뤄질 수 있게 한다. 모델의 파라미터는 전체 클래스를 고려한 손실함수를 정의하고, GPD(generalized probabilistic descent)알고리즘을 이용하여 추정하였다. 제안된 방법의 인식 성능 비교를 위해 모두 9가지 환경음을 전처리 과정과 MFCC(mel-frequency cepstral coefficients)를 이용하여 12차 특징을 추출하고, 이를 혼합 성분의 수에 따라 GMM 분류 실험을 행하였다. 실험 결과에 따르면 혼합 성분을 19개 사용한 경우에서 MCE 훈련 방식이 평균 87.06%의 인식률로 가장 좋은 성능을 보였다. 이 결과로 제안한 MCE 훈련 방식이 환경음 인식에서 GMM의 훈련 방식으로 효과적으로 사용될 수 있음을 확인하였다.

피보호자 모니터링 시스템을 위한 환경음 기반 상황 인식 (Context Recognition Using Environmental Sound for Client Monitoring System)

  • 지승은;조준영;이충근;오시원;김우일
    • 한국정보통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.343-350
    • /
    • 2015
  • 본 논문에서는 모바일 기반의 피보호자 모니터링 시스템 적용을 위한 환경음 기반의 상황 인식 기술을 소개한다. 상황 인식 실험을 위해 총 7가지의 음향 환경으로 나누어 환경음을 취득한다. 환경음 인식 성능 비교를 위해 MFCC와 LPCC 특징 추출 기법을 이용한다. 통계적 기반의 패턴인식 기법을 적용하기 위해 GMM 및 HMM 음향 모델을 기반으로 인식기를 설계한다. 인식 실험 결과에서는 LPCC 특징 추출 기법이 MFCC 기법 보다 우수하고, 음향 모델은 HMM이 GMM에 비해 높은 인식 성능을 나타낸다. LPCC 특징을 사용하고 HMM 모델을 채용함으로써 최고 96.03%의 인식률을 나타낸다. 이와 같은 결과는 음성에 비하여 다양한 주파수 성분이 존재하는 환경음을 표현하는데 MFCC 보다는 LPCC가 효과적임을 나타내며, 시간에 따라 변하는 특성을 갖는 환경음은 GMM 보다 HMM이 효과적임을 입증한다.

주변 배경음에 강인한 구간 검출을 통한 음원 인식 및 위치 추적 시스템 설계 (Sound recognition and tracking system design using robust sound extraction section)

  • 김우준;김영섭;이광석
    • 한국전자통신학회논문지
    • /
    • 제11권8호
    • /
    • pp.759-766
    • /
    • 2016
  • 본 논문은 비정상 상황 시 발생하는 음원에 대해 주변 환경 음에 강인한 음원 구간을 검출하여, 구간내의 신호를 이용한 음원 인식 과 위치 추적 시스템 설계에 관한 연구이다. 강인한 음원 구간 검출은 수신되는 오디오 신호로부터 단 구간 가중 평균 델타 에너지를 계산하여, 저역 통과 필터에 입력 후, 출력되는 결과 값들의 비교를 통해 배경음에 강인한 구간을 정의 하며, 음원 인식은 검출된 구간 내 데이터로부터 종래의 인식 방법인 HMM(: Hidden Markov Model)을 이용해, 음원 인식 정보를 생성하여 학습 및 인식을 한다. 이는 주변 배경음이 포함된 음원 신호에 대해 기존 신호의 에너지를 이용해 구간을 검출 후, HMM을 통한 인식에 비해 3.94% 상향된 인식률을 보인다. 또한 인식 결과를 바탕으로 구간내의 신호간의 TDOA(: Time Delay of Arrival)를 이용한 위치 파악은 실제 발생 위치와의 각도와 97.44%일치함을 보인다.

후처리를 이용한 환경음 인식 성능 개선 (Improvement of Environmental Sounds Recognition by Post Processing)

  • 박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제10권7호
    • /
    • pp.31-39
    • /
    • 2010
  • 본 연구에 사용된 환경음은 9 가지 상황으로 구분하였으며 생활 속에서 인간의 이동에 따라 변화하는 실제 환경음과 동일한 테스트 데이터 셋을 이용하였다. 실제 환경에서 녹음된 데이터는 Pre-emphasis, Hamming window를 이용하여 전처리하고 MFCC (Mel-Frequency Cepstral Coefficients) 방식으로 특징을 추출한 후 GMM (Gaussian Mixture Model)을 이용하여 분류 실험을 행했다. 후처리가 없는 GMM은 프레임 별로 판정하므로 분류 결과를 보면 상황이 갑자기 변화하는 이상 결과가 나타난다. 이에 본 연구에서는 인접한 프레임 별 확률 값 혹은 분류 순위를 이용해서 갑작스런 상황 변화가 발생하지 않도록 하는 후처리 방식을 제안하였다. 실험 결과에 따르면 GMM 분류방식에 인접 프레임들의 사후확률 값을 이용하는 후처리방법을 적용한 경우 후처리를 적용하지 않은 경우에 비해 10% 이상 평균 인식률이 개선되는 것을 확인할 수 있었다.

사운드스케이프 적용을 위한 옥외 P.A. 시스템의 적정 인지레벨에 관한 실험적 연구 (An Experimental Study on the Optimistic Recognition Level of Public Address System as a Soundscape Application Facility)

  • 송민정;장길수
    • 한국소음진동공학회논문집
    • /
    • 제17권11호
    • /
    • pp.1050-1055
    • /
    • 2007
  • P.A.(public address) system is considered as an useful active soundscape appliance which can gives a place identity and vitality by introducing conventional musics, environmental musics, bird singing sounds etc. In this study, the main aim is to know the optimistic distance from the speaker and sound pressure level range of introducing sound. So, the sound pressure level of P.A. system due to distances were measured and subjects' responses with level variations were checked. The main results are as follows. Level range from 64 dB to 71 dB is comfortable for subjects. And the optimal level of introducing sound is related with sound source characteristics. The results of this study could be used for street furniture location design and P.A. system output level.

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

PNCC와 robust Mel-log filter bank 특징을 결합한 조류 울음소리 분류 (Bird sounds classification by combining PNCC and robust Mel-log filter bank features)

  • 알자흐라 바디;고경득;고한석
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.39-46
    • /
    • 2019
  • 본 논문에서는 합성곱 신경망(Convolutional Neural Network, CNN) 구조를 이용하여 잡음 환경에서 음향신호를 분류할 때, 인식률을 높이는 결합 특징을 제안한다. 반면, Wiener filter를 이용한 강인한 log Mel-filter bank와 PNCCs(Power Normalized Cepstral Coefficients)는 CNN 구조의 입력으로 사용되는 2차원 특징을 형성하기 위해 추출됐다. 자연환경에서 43종의 조류 울음소리를 포함한 ebird 데이터베이스는 분류 실험을 위해 사용됐다. 잡음 환경에서 결합 특징의 성능을 평가하기 위해 ebird 데이터베이스를 3종류의 잡음을 이용하여 4개의 다른 SNR (Signal to Noise Ratio)(20 dB, 10 dB, 5 dB, 0 dB)로 합성했다. 결합 특징은 Wiener filter를 적용한 log-Mel filter bank, 적용하지 않은 log-Mel filter bank, 그리고 PNCC와 성능을 비교했다. 결합 특징은 잡음이 없는 환경에서 1.34 % 인식률 향상으로 다른 특징에 비해 높은 성능을 보였다. 추가적으로, 4단계 SNR의 잡음 환경에서 인식률은 shop 잡음 환경과 schoolyard 잡음 환경에서 각각 1.06 %, 0.65 % 향상했다.

양서류 울음 소리 식별을 위한 특징 벡터 및 인식 알고리즘 성능 분석 (Performance assessments of feature vectors and classification algorithms for amphibian sound classification)

  • 박상욱;고경득;고한석
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.401-406
    • /
    • 2017
  • 본 논문에서는 양서류 울음소리를 통한 종 인식 시스템 개발을 위해, 음향 신호 분석에서 활용되는 주요 알고리즘의 인식 성능을 평가했다. 먼저, 멸종위기 종을 포함하여 총 9 종의 양서류를 선정하여, 각 종별 울음소리를 야생에서 녹음하여 실험 데이터를 구축했다. 성능평가를 위해, MFCC(Mel Frequency Cepstral Coefficient), RCGCC(Robust Compressive Gammachirp filterbank Cepstral Coefficient), SPCC(Subspace Projection Cepstral Coefficient)의 세 특징벡터와 GMM(Gaussian Mixture Model), SVM(Support Vector Machine), DBN-DNN(Deep Belief Network - Deep Neural Network)의 세 인식기가 고려됐다. 추가적으로, 화자 인식에 널리 사용되는 i-vector를 이용한 인식 실험도 수행했다. 인식 실험 결과, SPCC-SVM의 경우 98.81 %로 가장 높은 인식률을 확인 할 수 있었으며, 다른 알고리즘에서도 90 %에 가까운 인식률을 확인했다.

공분산과 모듈로그램을 이용한 콘볼루션 신경망 기반 양서류 울음소리 구별 (Convolutional neural network based amphibian sound classification using covariance and modulogram)

  • 고경득;박상욱;고한석
    • 한국음향학회지
    • /
    • 제37권1호
    • /
    • pp.60-65
    • /
    • 2018
  • 본 논문에서는 양서류 울음소리 구별을 CNN(Convolutional Neural Network)에 적용하기 위한 방법으로 공분산 행렬과 모듈로그램(modulogram)을 제안한다. 먼저, 멸종 위기 종을 포함한 양서류 9종의 울음소리를 자연 환경에서 추출하여 데이터베이스를 구축했다. 구축된 데이터를 CNN에 적용하기 위해서는 길이가 다른 음향신호를 정형화하는 과정이 필요하다. 음향신호를 정형화하기 위해서 분포에 대한 정보를 나타내는 공분산 행렬과 시간에 대한 변화를 내포하는 모듈로그램을 추출하여, CNN의 입력으로 사용했다. CNN은 convolutional layer와 fully-connected layer의 수를 변경해 가며 실험하였다. 추가적으로, CNN의 성능을 비교하기 위해 기존에 음향 신호 분석에서 쓰이는 알고리즘과 비교해보았다. 그 결과, convolutional layer가 fully-connected layer보다 성능에 큰 영향을 끼치는 것을 확인했다. 또한 CNN을 사용하였을 때 99.07 % 인식률로, 기존에 음향분석에 쓰이는 알고리즘 보다 높은 성능을 보인 것을 확인했다.