• 제목/요약/키워드: Sound Event Detection

검색결과 25건 처리시간 0.022초

깊은 신경망을 이용한 오디오 이벤트 검출 (Audio Event Detection Using Deep Neural Networks)

  • 임민규;이동현;박호성;김지환
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권1호
    • /
    • pp.183-190
    • /
    • 2017
  • 본 논문에서는 깊은 신경망을 이용한 오디오 이벤트 검출 방법을 제안한다. 오디오 입력의 매 프레임에 대한 오디오 이벤트 확률을 feed-forward 신경망을 적용하여 생성한다. 매 프레임에 대하여 멜 스케일 필터 뱅크 특징을 추출한 후, 해당 프레임의 전후 프레임으로부터의 특징벡터들을 하나의 특징벡터로 결합하고 이를 feed-forward 신경망의 입력으로 사용한다. 깊은 신경망의 출력층은 입력 프레임 특징값에 대한 오디오 이벤트 확률값을 나타낸다. 연속된 5개 이상의 프레임에서의 이벤트 확률값이 임계값을 넘을 경우 해당 구간이 오디오 이벤트로 검출된다. 검출된 오디오 이벤트는 1초 이내에 동일 이벤트로 검출되는 동안 하나의 오디오 이벤트로 유지된다. 제안된 방법으로 구현된 오디오 이벤트 검출기는 UrbanSound8K와 BBC Sound FX자료에서의 20개 오디오 이벤트에 대하여 71.8%의 검출 정확도를 보였다.

딥 뉴럴네트워크 기반의 소리 이벤트 검출 (Sound Event Detection based on Deep Neural Networks)

  • 정석환;정용주
    • 한국전자통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.389-396
    • /
    • 2019
  • 본 논문에서는 다양한 구조의 딥 뉴럴 네트워크를 소리 이벤트 검출을 위하여 적용하였으며 공통의 오디오 데이터베이스를 이용하여 그들 간의 성능을 비교하였다. FNN, CNN, RNN 그리고 CRNN이 주어진 오디오데이터베이스 및 딥 뉴럴 네트워크의 구조에 최적화된 하이퍼파라미터 값을 이용하여 구현되었다. 구현된 방식 중에서 CRNN이 모든 테스트 환경에서 가장 좋은 성능을 보였으며 그 다음으로 CNN의 성능이 우수함을 알 수 있었다. RNN은 오디오 신호에서의 시간 상관관계를 잘 추적하는 장점에도 불구하고 CNN 과 CRNN에 비해서 저조한 성능을 보임을 확인할 수 있었다.

Random Forest를 결정로직으로 활용한 로봇의 실시간 음향인식 시스템 개발 (A Real-Time Sound Recognition System with a Decision Logic of Random Forest for Robots)

  • 송주만;김창민;김민욱;박용진;이서영;손정관
    • 로봇학회논문지
    • /
    • 제17권3호
    • /
    • pp.273-281
    • /
    • 2022
  • In this paper, we propose a robot sound recognition system that detects various sound events. The proposed system is designed to detect various sound events in real-time by using a microphone on a robot. To get real-time performance, we use a VGG11 model which includes several convolutional neural networks with real-time normalization scheme. The VGG11 model is trained on augmented DB through 24 kinds of various environments (12 reverberation times and 2 signal to noise ratios). Additionally, based on random forest algorithm, a decision logic is also designed to generate event signals for robot applications. This logic can be used for specific classes of acoustic events with better performance than just using outputs of network model. With some experimental results, the performance of proposed sound recognition system is shown on real-time device for robots.

음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색 (Retrieval of Player Event in Golf Videos Using Spoken Content Analysis)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.674-679
    • /
    • 2009
  • 본 논문은 골프 동영상에 포함된 오디오 정보로부터 검출된 이벤트 사운드 구간과 골프 선수이름이 포함된 음성구간을 결합하여 선수별 이벤트 구간을 검색하는 방식을 제안한다. 전체적인 시스템은 동영상으로부터 분할된 오디오 스트림으로부터 잡음제거, 오디오 구간분할, 음성 인식 등의 과정을 통한 자동색인 모듈과 사용자가 텍스트로 입력한 선수 이름을 발음열로 변환하고, 색인된 데이터베이스에서 질의된 선수 이름과 상응하는 음성구간과 연결되는 이벤트 구간을 찾아주는 검색 모듈로 구성된다. 선수이름 검색을 위해서 본 논문에서는 음소 기반, 단어 기반, 단어와 음소를 결합한 하이브리드 방식을 적용한 선수별 이벤트 구간 검색결과를 비교하였다.

심층신경망을 이용한 시간 영역 음향 이벤트 검출 알고리즘 (Time-domain Sound Event Detection Algorithm Using Deep Neural Network)

  • 김범준;문현기;박성욱;정영호;박영철
    • 방송공학회논문지
    • /
    • 제24권3호
    • /
    • pp.472-484
    • /
    • 2019
  • 본 논문에서는 심층신경망을 이용한 시간 영역 음향 이벤트 검출 알고리즘을 제시한다. 본 시스템에서는 주파수 영역으로 변환되지 않은 시간 영역의 음향 데이터를 심층신경망의 입력으로 사용한다. 전반적인 구조는 CRNN 구조를 사용하였으며, GLU, ResNet, Squeeze-and-excitation 블럭을 적용하였다. 그리고 여러 계층에서 추출된 특징을 함께 고려하는 구조를 제안하였다. 또한 본 연구에서는 강한 라벨이 있는 훈련 데이터를 확보하는 것이 현실적으로 어렵다는 전제 아래에서 약한 라벨이 있는 훈련 데이터 약간 그리고 다수의 라벨이 없는 훈련 데이터를 활용하여 훈련을 수행하였다. 적은 수의 훈련 데이터를 효과적으로 사용하기 위해 타임 스트레칭, 피치 변화, 동적 영역 압축, 블럭 혼합 등의 데이터 증강 방법을 적용하였다. 라벨이 없는 데이터에는 의사 라벨을 붙여 부족한 훈련 데이터를 보완하였다. 본 논문에서 제안한 신경망과 데이터 증강 방법을 사용하는 경우, 종래의 방식으로 CRNN 구조의 신경망을 훈련하여 사용하는 경우보다, 음향 이벤트 검출 성능이 약 6 % (f-score 기준)가 개선되었다.

평균-교사 합성곱 순환 신경망 모델을 이용한 약지도 음향 이벤트 검출 시스템의 성능 분석 (Performance analysis of weakly-supervised sound event detection system based on the mean-teacher convolutional recurrent neural network model)

  • 이석진
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.139-147
    • /
    • 2021
  • 본 논문은 데이터의 일부만 레이블링이 되어있는 약지도 학습을 기반으로 하는 음향 이벤트 검출 시스템을 소개 및 구현하고, 시뮬레이션을 통해 각 파라미터가 성능에 미치는 영향을 분석하였다. 음향 이벤트 검출 시스템은 음향 신호 내에 존재하는 이벤트의 종류, 시작/종료 시점을 추정하는 시스템으로, 이를 학습시키기 위해서는 음향 이벤트 신호와 그 종류, 시작/종료 시점에 대한 모든 정보가 제공되어야 한다. 하지만 이를 모두 표기하여 학습데이터를 만드는 것은 매우 큰 비용이 들어가며, 특히 시작/종료 시점을 정확히 표기하는 것은 매우 어렵다. 따라서 본 논문에서 다루는 약지도 학습 문제에서는 이벤트의 종류와 시작/종료 시점이 모두 표기된 "강하게 표기된 데이터"와, 이벤트의 종류만 표기된 "약하게 표기된 데이터", 그리고 아무런 표기가 되어 있지 않은 "미표기 데이터"를 이용하여 음향 이벤트 검출 시스템을 학습시킨다. 최근 이러한 문제에서는 평균-교사 모델을 이용한 음향 이벤트 검출 시스템의 성능이 우수하며, 따라서 널리 사용되고 있다. 다만, 평균-교사 모델은 많은 파라미터를 가지고 있고, 이는 성능에 영향을 다소 미칠 수 있으므로 신중하게 선택되어야 한다. 본 논문에서는 DCASE 2020 Task 4의 데이터를 이용하여 특징 값의 종류, 이동 평균 파라미터, 일관성 비용함수의 가중치, 램프-업 길이, 그리고 최대 학습율 등 5가지의 값에 대해 성능 분석을 진행하였으며, 각 파라미터에 대한 영향 및 최적 값에 대해 고찰하였다.

약한 레이블을 이용한 확장 합성곱 신경망과 게이트 선형 유닛 기반 음향 이벤트 검출 및 태깅 알고리즘 (Dilated convolution and gated linear unit based sound event detection and tagging algorithm using weak label)

  • 박충호;김동현;고한석
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.414-423
    • /
    • 2020
  • 본 논문은 약한 레이블 기반 음향 이벤트 검출을 위한 시간-주파수 영역분할 맵 추출 모델에서 발생하는 희소성 및 수용영역 부족에 관한 문제를 완화 시키기 위해, 확장 게이트 선형 유닛(Dilated Convolution Gated Linear Unit, DCGLU)을 제안한다. 딥러닝 분야에서 음향 이벤트 검출을 위한 영역분할 맵 추출 기반 방법은 잡음 환경에서 좋은 성능을 보여준다. 하지만, 이 방법은 영역분할 맵을 추출하기 위해 특징 맵의 크기를 유지해야 하므로 풀링 연산 없이 모델을 구성하게 된다. 이로 인해 이 방법은 희소성과 수용영역의 부족으로 성능 저하를 보이게 된다. 이런 문제를 완화하기 위해, 본 논문에서는 정보의 흐름을 제어할 수 있는 게이트 선형 유닛과 추가의 파라미터 없이 수용영역을 넓혀 줄 수 있는 확장 합성곱 신경망을 적용하였다. 실험을 위해 사용된 데이터는 URBAN-SED와 자체 제작한 조류 울음소리 데이터이며, 제안하는 DCGLU 모델이 기존 베이스라인 논문들보다 더 좋을 성능을 보였다. 특히, DCGLU 모델이 자연 소리가 섞인 환경인 세 개의 Signal to Noise Ratio(SNR)(20 dB, 10 dB, 0 dB)에서 강인하다는 것을 확인하였다.

K-means 알고리듬을 이용한 비정상 사운드 검출 (Irregular Sound Detection using the K-means Algorithm)

  • 이재열;조상진;정의필
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.341-344
    • /
    • 2004
  • 발전소에서 운전 중인 발전 설비의 장비 및 기계의 동작, 감시, 진단은 매우 중요한 일이다. 발전소의 이상 감지를 위해 상태 모니터링이 사용되며, 이상이 발생되었을 때 고장의 원인을 분석하고 적절한 조치를 계획하기 위한 이상 진단 과정을 따르게 된다. 본 논문에서는 산업 현장에서 기기들의 운전시에 발생하는 기기 발생 음을 획득하여 정상/비정상을 판정하기 위한 알고리듬에 대하여 연구하였다. 사운드 감시(Sound Monitoring) 기술은 관측된 신호를 acoustic event로 분류하는 것과 분류된 이벤트를 정상 또는 비정상으로 구분하는 두 가지 과정으로 진행할 수 있다. 기존의 기술들은 주파수 분석과 패턴 인식의 방법으로 간단하게 적용되어 왔으며, 본 논문에서는 K-means clustering 알고리듬을 이용하여 사운드를 acoustic event로 분류하고 분류된 사운드를 정상 또는 비정상으로 구분하는 알고리듬을 개발하였다.

  • PDF

잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 (Sound event detection model using self-training based on noisy student model)

  • 김남균;박창수;김홍국;허진욱;임정은
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.479-487
    • /
    • 2021
  • 본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다. 첫 번째 단계에서는 잔차 합성곱 순환 신경망(Residual Convolutional Recurrent Neural Network, RCRNN)을 훈련하여 레이블이 지정되지 않은 비표기 데이터셋의 레이블 예측에 활용한다. 두 번째 단계에서는 세 가지 잡음 종류를 적용한 잡음 학생 모델을 자가학습 기법으로 반복하여 학습한다. 여기서 잡음 학생 모델은 SpecAugment, Mixup, 시간-주파수 이동을 활용한 특징 잡음, 드롭아웃을 활용한 모델 잡음, 그리고 semi-supervised loss function을 적용한 레이블 잡음을 활용하여 학습된다. 제안된 음향 사건 검지 모델의 성능은 Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge Task 4의 validation set으로 평가하였다. DCASE 2020 챌린지 데이터셋의 baseline 및 최상위 랭크된 모델과 이벤트 단위 F1 점수 성능을 비교한 결과, 제안된 음향 사건 검지 모델이 단일 모델과 앙상블 모델에서 최상위 모델 대비 F1 점수를 각각 4.6 %와 3.4 % 향상시켰다.

무인가공을 위한 PC 카메라 기반의 모니터링 (PC-Camera based Monitoring for Unattended NC Machining)

  • 송시용;고기훈;최병규
    • 산업공학
    • /
    • 제19권1호
    • /
    • pp.43-52
    • /
    • 2006
  • In order to make best use of NC machine tools with minimal labor costs, they need to be in operation 24 hours a day without being attended by human operators except for setup and tool changes. Thus, unattended machining is becoming a dream of every modern machine shop. However, without a proper mechanism for real-time monitoring of the machining processes, unattended machine could lead to a disaster. Investigated in this paper are ways to using PC camera as a real-time monitoring system for unattended NC milling operations. This study defined five machining states READY, NORMAL MACHINING, ABNORMAL MACHINING, COLLISION and END-OF-MACHINING and modeled them with DEVS (discrete event system) formalism. An image change detection algorithm has been developed to detect the table movements and a flame and smoke detection algorithm to detect unstable cutting process. Spindle on/off and cutting status could be successfully detected from the sound signals. Initial experimentation shows that the PC camera could be used as a reliable monitoring system for unattended NC machining.