• Title/Summary/Keyword: 소리 분류

Search Result 172, Processing Time 0.028 seconds

Search of an Optimal Sound Augmentation Policy for Environmental Sound Classification with Deep Neural Networks (심층 신경망을 통한 자연 소리 분류를 위한 최적의 데이터 증대 방법 탐색)

  • Park, Jinbae;Kumar, Teerath;Bae, Sung-Ho
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.18-21
    • /
    • 2020
  • 심층 신경망은 영상 분류, 음성 인식, 그리고 문자 번역 등 다양한 분야에서 효과적인 성능을 보여주고 있다. 신경망의 구조 변화, 신경망 간의 정보 전달, 그리고 학습에 사용되는 데이터 증대 등의 확장된 연구를 통해 성능은 더욱 발전하고 있다. 그 중에서도 데이터 증대는 기존에 수집한 데이터의 변형을 통해 심층 신경망에 더 다양한 데이터를 제공함으로써 더욱 일반화된 신경망을 학습시기키는 것을 목표로 한다. 하지만 기존의 음향 관련 신경망 연구에서는 모델의 학습에 사용되는 데이터 증대 방법의 연구가 영상 처리 분야만큼 다양하게 이루어지지 않았다. 최근 영상 처리 분야의 데이터 증대 연구는 학습에 사용되는 데이터와 모델에 따라 최적의 데이터 증대 방법이 다르다는 것을 실험적으로 보여주었다. 이에 영감을 받아 본 논문은 자연에서 발생하는 음향을 분류하는데 있어서 최적의 데이터 증대 방법을 실험적으로 찾으며, 그 과정을 소개한다. 음향에 잡음 추가, 피치 변경 혹은 스펙트로그램의 일부 제한 등의 데이터 증대 방법을 다양하게 조합하는 실험을 통해 경험적으로 어떤 증대 방법이 효과적인지 탐색했다. 결과적으로 ESC-50 자연 음향 데이터 셋에 최적화된 데이터 증대 방법을 적용함으로써 분류 정확도를 89%로 향상시킬 수 있었다.

  • PDF

Song Themes and Variation of Yellow-throated Bunting (Emberiza elegans) (노랑턱멧새(Emberiza elegans)의 테마송과 변이)

  • Lee, Won-Ho;Kwon, Ki-Chung
    • Journal of Ecology and Environment
    • /
    • v.29 no.3
    • /
    • pp.219-225
    • /
    • 2006
  • To study song themes and variation of Yellow-throated Bunting, we obtained and analyzed recordings from 45 males breeding in 16 deciduous forests of 6 provinces. We classified the 3,245 songs into a total of 164 song themes and 1,024 song variants according to the identification on the base of difference(lexicon) in 640 syllable compositions. Males had one to six song themes and averaged 3.5 themes. No males shared an identical song theme. Males had $5{\sim}14$ syllables (ave. 9.4) in one song theme and males increased effectively their repertoire size by changing syllable composition (i.e. adding, deleting, or substituting one or more syllables) in a single song theme. The number of variants averaged 5.1 (range 1 to 31) per song theme. Individual variability was highest in the terminal elements of the song. In PCA, the 16 populations are clearly separated on Co. I based on shared syllable and on Co. II based on unique syllable. Similarity of songs based on shared syllables by distance coefficients, showed a pattern of concordance with geography. Pairwise similarity declined with increasing distance among recording sites. 16 different geographical regions by the syllable were divided in UPGMA tree.

Isolation of Daucosterol and Naphthalene glucoside from Seeds of Cassia mimosoides var. nomame Makino (차풀 종자로부터 Daucosterol과 Naphthalene glucoside의 분리)

  • Park, Jun-Hong;Kwon, Sun-Jin
    • Korean Journal of Plant Resources
    • /
    • v.22 no.1
    • /
    • pp.26-30
    • /
    • 2009
  • Daucosterol and naphthalene glycoside were isolated from the seeds of Cassia mimosoides var. nomame Makino. The isolated compounds were identified by spectral means including 1D, 2D-NMR and FAB-MS experiments. Daucosterol was characterized as ${\beta}$-sitosterol-3-O-${\beta}$-D-glucoside and naphthalene glucoside was done as 2-acetyl-3-methyl-6-methoxynaphthalene-1,8-diol 8-O-glucosyl-(1${\rightarrow}$6)-glucoside. These compounds were isolated for the first time from Cassia mimosoides var. nomame Makino.

A Study on the Gender and Age Classification of Speech Data Using CNN (CNN을 이용한 음성 데이터 성별 및 연령 분류 기술 연구)

  • Park, Dae-Seo;Bang, Joon-Il;Kim, Hwa-Jong;Ko, Young-Jun
    • The Journal of Korean Institute of Information Technology
    • /
    • v.16 no.11
    • /
    • pp.11-21
    • /
    • 2018
  • Research is carried out to categorize voices using Deep Learning technology. The study examines neural network-based sound classification studies and suggests improved neural networks for voice classification. Related studies studied urban data classification. However, related studies showed poor performance in shallow neural network. Therefore, in this paper the first preprocess voice data and extract feature value. Next, Categorize the voice by entering the feature value into previous sound classification network and proposed neural network. Finally, compare and evaluate classification performance of the two neural networks. The neural network of this paper is organized deeper and wider so that learning is better done. Performance results showed that 84.8 percent of related studies neural networks and 91.4 percent of the proposed neural networks. The proposed neural network was about 6 percent high.

Detection and Classification for Low-altitude Micro Drone with MFCC and CNN (MFCC와 CNN을 이용한 저고도 초소형 무인기 탐지 및 분류에 대한 연구)

  • Shin, Kyeongsik;Yoo, Sinwoo;Oh, Hyukjun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.3
    • /
    • pp.364-370
    • /
    • 2020
  • This paper is related to detection and classification for micro-sized aircraft that flies at low-altitude. The deep-learning based method using sounds coming from the micro-sized aircraft is proposed to detect and identify them efficiently. We use MFCC as sound features and CNN as a detector and classifier. We've proved that each micro-drones have their own distinguishable MFCC feature and confirmed that we can apply CNN as a detector and classifier even though drone sound has time-related sequence. Typically many papers deal with RNN for time-related features, but we prove that if the number of frame in the MFCC features are enough to contain the time-related information, we can classify those features with CNN. With this approach, we've achieved high detection and classification ratio with low-computation power at the same time using the data set which consists of four different drone sounds. So, this paper presents the simple and effecive method of detection and classification method for micro-sized aircraft.

Taxonomic Studies on Cercospora and Allied Genera in Korea (III) (한국산 Cercospora 및 관련 속의 분류학적 연구 (III))

  • Kim, Jeong-Dong;Shin, Hyeon-Dong
    • The Korean Journal of Mycology
    • /
    • v.26 no.4 s.87
    • /
    • pp.424-436
    • /
    • 1998
  • This paper is a third contribution towards taxonomic studies on Cercospora and allied genera, and contains ten species of Korean cercosporoid fungi; viz. Cercospora achyranthis, C. canescens, C. fukushiana, C. polygonacea, Cercosporella virgaureae, Pseudocercospora fukuokaensis, P. puerariicola, Ramularia cynarae, R. inaequalis, and R. rubella. Morphological characteristics of taxonomic value are described and drawn for these species to contribute towards a mycological monograph of Korean cercosporoid fungi.

  • PDF

Music Starting-point Detection Method using MinWaveShape (최소파형모형을 이용한 음악 시작점 검출 방법)

  • Kim, Bung-Soo;Sung, Bo-Kyung;Koo, Kwang-Hyo;Ko, Il-Ju
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2008.06a
    • /
    • pp.137-141
    • /
    • 2008
  • 객관화된 메타정보를 이용하는 검색방법과는 다르게 내용기반 검색에서는 전처리된 데이터가 동일하지 않을 수 있다는 문제점이 있다. 특히 디지털 음악데이터의 경우 인코딩과정을 거칠 때마다 미세하지만 파형의 변화가 생긴다. 이러한 변형은 타임코드를 쉬프트 시켜 동일한 데이터 검색에 어려움을 발생시킨다. 본 논문에서는 이러한 문제를 해결하고자 음악의 시작점을 검출 할 수 있는 방법을 제안하였다. 사람이 소리를 인지하는 원리는 공기가 진동하여 청각기관을 자극하기 때문이며 공기의 진동은 파동을 형성한다. 파동을 구성하는 최소파형모형의 존재 여부를 검사하여 음악의 시작점을 검출하였다. 녹음환경 및 디지털 압축 과정으로 음을 구성하는 파형에 노이즈가 포함될 경우 음악의 시작점 검출에 방해 요인이 된다. 노이즈의 영향을 받지 않고 음악의 시작점을 검출하기 위해 노이즈가 포함된 파형의 특징을 분류하고, 이 분류를 예외 조건을 두어 해결하였다. 제안한 방법의 성능을 측정하기 위해 600개의 음원을 실험 하였으며 86%의 일치율을 보였다.

  • PDF

Development of Sound Event Detection for Home with Limited Computation Power (제한된 계산량으로 가정내 음향 상황을 검출하는 사운드 이벤트 검출 시스템 개발)

  • Jang, Dalwon;Lee, Jaewon;Lee, JongSeol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.257-258
    • /
    • 2019
  • 이 논문에서는 가정내 음향 상황에 대한 사운드 이벤트 검출을 수행하는 시스템을 개발하는 내용을 담고 있다. 사운드 이벤트 검출 시스템은 마이크로폰 입력에 대해서 입력신호로부터 특징을 추출하고, 특징으로부터 이벤트가 있었는지 아닌지를 분류하는 형태를 가지고 있다. 본 연구에서는 독립형 디바이스가 가정내 위치한 상황을 가정하여 개발을 진행하였다. 가정내에서 일어날 수 있는 음향 상황을 가정하고 데이터셋 녹음을 진행하였다. 데이터셋을 기반으로 특징과 분류기를 개발하였으며, 적은 계산량으로 결과를 출력해야 하는 독립형 디바이스에 활용하기 위해서 특징셋을 간소화하는 과정을 거쳤다. 개발결과는 가정의 거실환경에서 녹음된 소리를 스피커로 출력하여 테스트하였으며, 다양한 음향 상황에 대한 개발이 추가적으로 필요하다.

  • PDF

Listenable Explanation for Heatmap in Acoustic Scene Classification (음향 장면 분류에서 히트맵 청취 분석)

  • Suh, Sangwon;Park, Sooyoung;Jeong, Youngho;Lee, Taejin
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.727-731
    • /
    • 2020
  • 인공신경망의 예측 결과에 대한 원인을 분석하는 것은 모델을 신뢰하기 위해 필요한 작업이다. 이에 컴퓨터 비전 분야에서는 돌출맵 또는 히트맵의 형태로 모델이 어떤 내용을 근거로 예측했는지 시각화 하는 모델 해석 방법들이 제안되었다. 하지만 오디오 분야에서는 스펙트로그램 상의 시각적 해석이 직관적이지 않으며, 실제 어떤 소리를 근거로 판단했는지 이해하기 어렵다. 따라서 본 연구에서는 히트맵의 청취 분석 시스템을 제안하고, 이를 활용한 음향 장면 분류 모델의 히트맵 청취 분석 실험을 진행하여 인공신경망의 예측 결과에 대해 사람이 이해할 수 있는 설명을 제공할 수 있는지 확인한다.

  • PDF

A New Thpe of Recurrent Neural Network for the Umprovement of Pattern Recobnition Ability (패턴 인식 성능을 향상시키는 새로운 형태의 순환신경망)

  • Jeong, Nak-U;Kim, Byeong-Gi
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.2
    • /
    • pp.401-408
    • /
    • 1997
  • Human gets almist all of his knoweledge from the recognition and the accumulation of input patterns,image or sound,the he gets theough his eyes and through his ears.Among these means,his chracter recognition,an ability that allows him to recognize characters and understand their meanings through visual information, is now applied to a pattern recognition system using neural network in computer. Recurrent neural network is one of those models that reuse the output value in neural network learning.Recently many studies try to apply this recurrent neural network to the classification of static patterns like off-line handwritten characters. But most of their efforts are not so drrdtive until now.This stusy suggests a new type of recurrent neural network for an deedctive classification of the static patterns such as off-line handwritten chracters.Using the new J-E(Jordan-Elman)neural network model that enlarges and combines Jordan Model and Elman Model,this new type is better than those of before in recobnizing the static patterms such as figures and handwritten-characters.

  • PDF