• 제목/요약/키워드: acoustic scene classification

검색결과 5건 처리시간 0.026초

재발량 분석을 이용한 음향 상황 인지 (Acoustic scene classification using recurrence quantification analysis)

  • 박상욱;최우현;고한석
    • 한국음향학회지
    • /
    • 제35권1호
    • /
    • pp.42-48
    • /
    • 2016
  • 동일한 장소에서도 매우 다양한 음향이 발생하고, 서로 다른 장소에서도 유사한 음향이 발생하기 때문에 훈련 데이터가 적거나, 훈련 단계에서 일부 음향만 고려된 경우 음향 상황 인지 성능을 보장할 수 없다. 이러한 문제점을 해결하기 위한 방법으로 Bag of Words (BOW) 기반 히스토그램 특징이 소개되었다. 하지만 BOW 기반 히스토그램 특징은 일정 시간동안 발생한 음향의 분포를 이용하기 때문에 음향이 발생한 순차적인 정보는 고려할 수 없다. 음향 상황 인지에서 일정 시간 동안 발생한 음향의 주기성과 지속성은 상황을 인지하는데 중요한 정보가 될 수 있다. 따라서 본 논문에서는 재발량 분석을 이용하여 주기성과 지속성에 대한 특징을 추출하였다. 인식 실험에서 재발량 분석을 통해 추출된 특징을 함께 사용한 경우 기존 방법들 보다 향상된 성능을 확인했다.

음향 장면 분류를 위한 경량화 모형 연구 (Light weight architecture for acoustic scene classification)

  • 임소영;곽일엽
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.979-993
    • /
    • 2021
  • 음향 장면 분류는 오디오 파일이 녹음된 환경이 어디인지 분류하는 문제이다. 이는 음향 장면 분류와 관련한 대회인 DCASE 대회에서 꾸준하게 연구되었던 분야이다. 실제 응용 분야에 음향 장면 분류 문제를 적용할 때, 모델의 복잡도를 고려하여야 한다. 특히 경량 기기에 적용하기 위해서는 경량 딥러닝 모델이 필요하다. 우리는 경량 기술이 적용된 여러 모델을 비교하였다. 먼저 log mel-spectrogram, deltas, delta-deltas 피쳐를 사용한 합성곱 신경망(CNN) 기반의 기본 모델을 제안하였다. 그리고 원래의 합성곱 층을 depthwise separable convolution block, linear bottleneck inverted residual block과 같은 효율적인 합성곱 블록으로 대체하고, 각 모델에 대하여 Quantization를 적용하여 경량 모델을 제안하였다. 경량화 기술을 고려한 모델은 기본 모델에 대비하여 성능이 비슷하거나 조금 낮은 성능을 보였지만, 모델 사이즈는 503KB에서 42.76KB로 작아진 것을 확인하였다.

음향 장면 분류에서 히트맵 청취 분석 (Listenable Explanation for Heatmap in Acoustic Scene Classification)

  • 서상원;박수영;정영호;이태진
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.727-731
    • /
    • 2020
  • 인공신경망의 예측 결과에 대한 원인을 분석하는 것은 모델을 신뢰하기 위해 필요한 작업이다. 이에 컴퓨터 비전 분야에서는 돌출맵 또는 히트맵의 형태로 모델이 어떤 내용을 근거로 예측했는지 시각화 하는 모델 해석 방법들이 제안되었다. 하지만 오디오 분야에서는 스펙트로그램 상의 시각적 해석이 직관적이지 않으며, 실제 어떤 소리를 근거로 판단했는지 이해하기 어렵다. 따라서 본 연구에서는 히트맵의 청취 분석 시스템을 제안하고, 이를 활용한 음향 장면 분류 모델의 히트맵 청취 분석 실험을 진행하여 인공신경망의 예측 결과에 대해 사람이 이해할 수 있는 설명을 제공할 수 있는지 확인한다.

  • PDF

실생활 음향 데이터 기반 이중 CNN 구조를 특징으로 하는 음향 이벤트 인식 알고리즘 (Dual CNN Structured Sound Event Detection Algorithm Based on Real Life Acoustic Dataset)

  • 서상원;임우택;정영호;이태진;김휘용
    • 방송공학회논문지
    • /
    • 제23권6호
    • /
    • pp.855-865
    • /
    • 2018
  • 음향 이벤트 인식은 다수의 음향 이벤트가 발생하는 환경에서 이를 인식하고 각각의 발생과 소멸 시점을 판단하는 기술로써 인간의 청각적 인지 특성을 모델화하는 연구다. 음향 장면 및 이벤트 인식 연구 그룹인 DCASE는 연구자들의 참여 유도와 더불어 음향 인식 연구의 활성화를 위해 챌린지를 진행하고 있다. 그러나 DCASE 챌린지에서 제공하는 데이터 세트는 이미지 인식 분야의 대표적인 데이터 세트인 이미지넷에 비해 상대적으로 작은 규모이며, 이 외에 공개된 음향 데이터 세트는 많지 않아 알고리즘 개발에 어려움이 있다. 본 연구에서는 음향 이벤트 인식 기술 개발을 위해 실내외에서 발생할 수 있는 이벤트를 정의하고 수집을 진행하였으며, 보다 큰 규모의 데이터 세트를 확보하였다. 또한, 인식 성능 개선을 위해 음향 이벤트 존재 여부를 판단하는 보조 신경망을 추가한 이중 CNN 구조의 알고리즘을 개발하였고, 2016년과 2017년의 DCASE 챌린지 기준 시스템과 성능 비교 실험을 진행하였다.

2000년을 전후로 하여 중국 애니메이션에 나타난 유머요인 분석 (Analysis to the Essential Factors of Humor Emerging in Chinese Cartoon Around Year of 2000)

  • 동붕;오진희
    • 만화애니메이션 연구
    • /
    • 통권36호
    • /
    • pp.189-215
    • /
    • 2014
  • 1963년 <피리 부는 목동(牧童短笛)>이 발표된 이래 1980년대까지 중국에서는 우수한 애니메이션들이 대거 제작되었다. 이 시기를 대표하는 수묵 애니메이션은 중국의 전통회화 기법을 적용하여 완성도 높은 표현과 중국 고유의 독창적 내용으로 국제적 명성을 얻었다. 수십 년이 지난 현재 중국에서는 정부의 지원 아래 매해 수십 편씩 애니메이션이 제작되고 있다. 그런데 비약적으로 급증하고 있는 애니메이션 작품 수에 비하여 작품의 성취와 국제적 영향력 면에서는 이전 시기를 넘어서지 못하고 있는 것으로 평가된다. 최근 중국에서 제작된 애니메이션 대부분은 흥행에 성공한 외국의 사례를 외형적으로 답습하는 경우가 많다. 이 작품들은 중국 내 흥행 면에서는 어느 정도 성과를 내고 있으나 국제적 공감을 얻고 있지는 못하며, 또한 중국 고유의 특성을 드러내지 못한 것으로 보인다. 애니메이션의 제작에서 미적, 산업적 성취를 위해서는 성공사례의 외형적 모방보다는 성공요인에 대한 면밀한 검토가 선행되어야 할 것이다. 본 논문에서는 애니메이션의 성취를 위한 요소 중 중요한 하나로 유머를 제기한다. 논의에 앞서 먼저 앙리 베르그송의 희극성 개념을 통해 유머요인의 일반적 정의를 서술하고, 이를 토대로 애니메이션의 유머요인을 정리하였다. 이렇게 도출된 분류체계를 중국 애니메이션에 대입하여 유머요인 분석의 틀로 사용하였다. 앙리 베르그송에 의하면 유머는 상황, 언어, 성격의 요인으로 구분된다. 본 연구에서는 이에 기반 하면서도 애니메이션 매체의 특수성을 고려하여 시각, 상황, 청각적 요인으로 분류하였다. 이는 언어표현이 중시되는 이전 매체에 비하여 다양한 청각적 요소에 의해 이루어지며 무엇보다 시각적 요소가 강조되는 애니메이션의 매체특성에 따른 것이다. 이 연구에서는 중국 애니메이션이 2000년을 전후하여 표현방식에 차이가 나는 것에 주목하고 대표작으로 <대뇨천궁>과 <세 명의 승려>, <시양양과 후이타이랑의 비마국 대모험>과 <곰출몰의 보물 빼앗기>를 선정하여 분석하였다. 2000년대를 전후로 한 중국 애니메이션의 유머요인 특성비교는 이후 중국 애니메이션의 표현에 대한 발전적 논의로 이어질 수 있을 것이다.