• 제목/요약/키워드: Spectrogram

검색결과 236건 처리시간 0.025초

음악성 평가 지표 설계를 위한 성도 모양의 변화 분석 (Variation Analysis of Spectrogram for Indicators Design of Musicality Evaluation)

  • 김봉현;조동욱
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.2110-2116
    • /
    • 2009
  • 문화 산업은 보건, 의료 산업과 함께 삶의 혜택을 누릴 수 있는 기회를 제공해 주는 분야라고 할 수 있을 정도로 현대 사회에서 많은 관심을 받고 있다. 특히, 대중적 지지 기반을 보유하고 있는 음악 산업은 대중성과 독창성이 함께 공존하여 감정을 표출하고 쉽게 접근할 수 있는 예술적 가치로 인정받고 있다. 본 논문에서는 이러한 음악산업에서 핵심적인 부분이라 할 수 있는 가수의 음악적 재능을 평가하는 지표를 설계하고자 한다. 이를 위해 동일한 음악에 대한 가수의 목소리와 일반인의 목소리에서 성도의 모양 변화에 대한 분석을 수행하기 위해 스펙트로그램 분석 요소를 적용하였으며 결과 파형의 패턴 분석을 실험하여 두 집단간의 비교, 분석을 수행하였다. 따라서 실험에 사용될 대중적 음악을 선정하고 동일 부분에 대한 가수와 일반인의 목소리를 수집하여 시간의 흐름에 따른 성도 모양의 변화를 패턴 분석하고 이를 비교, 분석하여 음악성을 평가할 수 있는 지표를 설계하였다.

생성적 적대 신경망(GAN)을 이용한 딥러닝 음악 장르 분류 시스템 모델 개선 (Deep Learning Music Genre Classification System Model Improvement Using Generative Adversarial Networks (GAN))

  • 배준
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.842-848
    • /
    • 2020
  • 아이튠즈, 스포티파이, 멜론 등 음악시장은 바야흐로 스트리밍의 시대로 접어들었고, 음악 소비자의 취향에 맞는 음악 선곡과 제안을 위해 음악장르 자동 구분 시스템에 대한 요구와 연구가 활발하다. 이전 논문에서 제안한 소프트 맥스를 이용한 딥러닝 음악장르 자동구분 투표 시스템을 더욱 발전시켜 생성적 적대 신경망(GAN)을 이용하여 이전 시스템의 미흡한 점이었던 장르 미분류 곡들에 대한 정확도를 높이는 방법을 제안한다. 이전 연구에서는 전체 곡을 작은 샘플 로 나누고 각각의 샘플을 CNN 분석하여 그 결과들의 총합으로 장르 구분을 하는 투표 시스템으로 곡 장르분류 정확도를 높일 수 있었다. 하지만 곡의 스펙트로그램이 곡의 장르를 파악하기에 모호한 곡의 경우에는 미분류 곡으로 남겨놓을 수밖에 없었다. 이 논문에서는 생성적 적대 신경망을 이용하여 미분류 곡의 스펙트로그램을 판독하기 쉬운 장르의 스펙트로그램으로 바꾸어 미분류 곡의 장르 구분 정확도를 높이는 시스템을 제안하고 그 실험결과 기존 방식에 비해 우수한 결과를 도출해낼 수 있었다.

산업현장에서의 선택적 소음 제거를 위한 환경 사운드 분류 기술 (Environmental Sound Classification for Selective Noise Cancellation in Industrial Sites)

  • 최현국;김상민;박호종
    • 방송공학회논문지
    • /
    • 제25권6호
    • /
    • pp.845-853
    • /
    • 2020
  • 본 논문에서는 산업현장에서의 선택적 소음 제거를 위한 환경 사운드 분류 기술을 제안한다. 산업현장에서의 소음은 작업자의 청력 손실의 주요 원인이 되며, 소음 문제를 해결하기 위한 소음 제거 기술이 널리 연구되고 있다. 그러나 기존 소음 제거 기술은 모든 소리를 구분 없이 차단하는 문제를 가지며, 모든 소음에 공통된 제거 방법을 적용하여 각 소음에 최적화된 소음 제거 성능을 보장할 수 없다. 이러한 문제를 해결하기 위해 사운드 종류에 따라 선택적 동작을 하는 소음 제거가 필요하고, 본 논문에서는 이를 위해 딥 러닝 기반의 환경 사운드 분류 기술을 제안한다. 제안 방법은 기존 오디오 특성인 멜-스펙트로그램의 한계를 극복하기 위해 새로운 특성으로서 멜-스펙트로그램 기반의 시간 변화 특성과 통계적 주파수 특성을 사용하며, 합성곱 신경망을 이용하여 특성을 모델링 한다. 제안하는 분류기를 사용하여 3가지 소음과 2가지 비소음으로 구성된 총 5가지 클래스로 사운드를 분류하였고, 제안하는 오디오 특성을 사용하여 기존 멜-스펙트로그램 특성을 사용할 때에 비하여 분류 정확도가 6.6% 포인트 향상되는 것을 확인하였다.

텍스트와 음성의 앙상블을 통한 다중 감정인식 모델 (Multi-Emotion Recognition Model with Text and Speech Ensemble)

  • 이명호;임명진;신주현
    • 스마트미디어저널
    • /
    • 제11권8호
    • /
    • pp.65-72
    • /
    • 2022
  • COVID-19로 인해 대면으로 이루어지던 상담 방식이 비대면으로 진행되면서 비대면 상담의 중요성이 높아지고 있다. 비대면 상담은 온라인으로 언제 어디서든 상담할 수 있고, COVID-19에 안전하다는 장점이 있다. 그러나 비언어적 표현의 소통이 어려워 내담자의 마음을 이해하기 어렵다. 이에 비대면 상담 시 내담자의 마음을 잘 알기 위해서는 텍스트와 음성을 정확하게 분석하여 감정을 인식하는 것이 중요하다. 따라서 본 논문에서는 텍스트 데이터는 자음을 분리한 후 FastText를 사용하여 벡터화하고, 음성 데이터는 Log Mel Spectrogram과 MFCC를 사용하여 각각 특징을 추출하여 벡터화한다. 벡터화된 데이터를 LSTM 모델을 활용하여 5가지 감정을 인식하는 다중 감정인식 모델을 제안한다. 다중 감정인식은 RMSE을 활용하여 계산한다. 실험 결과 텍스트와 음성 데이터를 각각 사용한 모델보다 제안한 모델의 RMSE가 0.2174로 가장 낮은 오차를 확인하였다.

환경 소음 제거를 통한 범용적인 드론 음향 탐지 구현 (A General Acoustic Drone Detection Using Noise Reduction Preprocessing)

  • 강해영;이경호
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.881-890
    • /
    • 2022
  • 다양한 장소에서 드론이 활발하게 이용되면서 비행금지구역 내 불법 침입, 정보 유출, 항공기 충돌 등의 위험이 증가하고 있다. 이러한 위험을 줄이기 위해 비행금지구역으로 침입하는 드론을 탐지할 수 있는 시스템 구축이 필요하다. 기존의 드론 음향 탐지 연구는 탐지 모델에 환경 소음에 노출된 드론 음향을 그대로 학습시켰기 때문에 환경 소음에 독립적인 성능을 얻지 못했다. 이에 본 논문에서는 다양한 공간에서 환경 소음에 노출된 드론 음향을 명확하게 탐지하기 위해 주변 환경 소음을 별도로 수집하고, 드론 음향 신호에서 환경 소음을 제거하여 시끄러운 환경 속에서도 견고한 성능을 나타내는 범용적인 드론 탐지 시스템을 제안한다. 제안하는 시스템은 수집한 드론 음향 신호에서 환경 소음을 제거한 후 Mel Spectrogram 특성추출과 CNN 딥러닝을 이용하여 드론 존재 여부를 예측하였다. 실험 결과, 환경 소음으로 인해 감소했던 드론 탐지 성능을 7% 이상 향상시킴을 확인하였다.

A Novel Approach to COVID-19 Diagnosis Based on Mel Spectrogram Features and Artificial Intelligence Techniques

  • Alfaidi, Aseel;Alshahrani, Abdullah;Aljohani, Maha
    • International Journal of Computer Science & Network Security
    • /
    • 제22권9호
    • /
    • pp.195-207
    • /
    • 2022
  • COVID-19 has remained one of the most serious health crises in recent history, resulting in the tragic loss of lives and significant economic impacts on the entire world. The difficulty of controlling COVID-19 poses a threat to the global health sector. Considering that Artificial Intelligence (AI) has contributed to improving research methods and solving problems facing diverse fields of study, AI algorithms have also proven effective in disease detection and early diagnosis. Specifically, acoustic features offer a promising prospect for the early detection of respiratory diseases. Motivated by these observations, this study conceptualized a speech-based diagnostic model to aid in COVID-19 diagnosis. The proposed methodology uses speech signals from confirmed positive and negative cases of COVID-19 to extract features through the pre-trained Visual Geometry Group (VGG-16) model based on Mel spectrogram images. This is used in addition to the K-means algorithm that determines effective features, followed by a Genetic Algorithm-Support Vector Machine (GA-SVM) classifier to classify cases. The experimental findings indicate the proposed methodology's capability to classify COVID-19 and NOT COVID-19 of varying ages and speaking different languages, as demonstrated in the simulations. The proposed methodology depends on deep features, followed by the dimension reduction technique for features to detect COVID-19. As a result, it produces better and more consistent performance than handcrafted features used in previous studies.

광역 스펙트로그램과 심층신경망에 기반한 중첩된 소리의 인식과 영향 분석 (Recognition of Overlapped Sound and Influence Analysis Based on Wideband Spectrogram and Deep Neural Networks)

  • 김영언;박구만
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.421-430
    • /
    • 2018
  • 많은 음성인식 시스템들은 MFCC와 HMM등의 분류 기법을 사용하여 사람의 음성을 인식한다. 그러나 이러한 음성인식 시스템은 단일 음성신호를 인식하는 것을 목적으로 설계되어, 인간과 기계사이의 일대일 음성 인식에는 적합하나, 애완동물 소리와 실내 소리같은 음성보다 다양하고 넓은 주파수의 소리 군으로 중첩된 음향 속에서 설정된 소리를 인식하기에는 제한이 있다. 중첩된 소리들의 주파수는 사람의 목소리보다 높은 최대 20 kHz까지 넓은 주파수 범위로 구성된다. 본 논문에서는 광역 사운드 스펙트로그램과 DNN에 기반한 케라스 시?셜 모델 기법을 활용하여 인지 주파수 범위를 넓게 확대하는 새로운 인식방법을 제안한다. 광역 사운드 스펙트로그램이 본 논문에서 설계된 특징 추출 및 분류 시스템과 같이 넓은 주파수 범위의 다양한 소리를 분석하고 실험하도록 채택되었다. 소리 인식률을 개선하기 위하여, 케라스 시?셜 모델이 사운드 스펙트로그램에 의하여 생성되어 추출된 특징을 사용하여 패턴인식을 수행하기 위한 방법으로 채용되었다. 제안된 특징 추출 및 분류 시스템이 광역 사운드 스펙트로그램과 케라스 시?셜 모델을 채용하여 애완동물 소리와 실내 소리같은 다양한 주파수들로 구성되어 중첩된 음향 속에서 설정된 소리를 우수하게 분류하는 것을 확인하였다. 그리고 중첩된 소리의 크기에 비례하여 인식에 미치는 특성과 영향을 단계별로 비교 분석하였다.

원주 KSRS 자료를 이용한 자연지진과 인공지진 구별에 관한 연구 (Study on Discrimination between Natural Earthquakes and Man-made Explosions using Wonju KSRS Data)

  • 강익범;김성배;서만철;전명순
    • 지구물리
    • /
    • 제3권1호
    • /
    • pp.25-36
    • /
    • 2000
  • 총 22개의 지진발생기록(event)을 이용하여 3-D Spectrogram을 분석한 결과 대체적으로 인공지진의 경우 자연지진과 비교해 볼 때 P파의 에너지가 우세하게 나타난다. 자유표면 효과 보정을 수행한 후 15개 주파수 대역을 사용하여 P (Pn, Pg)/Lg 스펙트럼 비의 상용대수를 계산한 결과 자연지진의 경우 대체로 스펙트림 비의 상용대수가 $-1.2{\sim}-0.9$의 값, 인공지진의 경우는 대체로 $-0.7{\sim}-0.1$의 값을 보여주고 있다. 이는 -0.6의 스펙트럼 비의 상용대수 값이 자연지진과 인공지진을 구별하기 위한 기준이 될 수 있다는 연구 결과(Kim Park, 1997)와도 잘 일치하고 있다. 자연지진과 인공지진으로 추정되는 2개의 지진발생기록에 대해 추가로 Complexity를 계산해 본 결과 인공지진의 Complexity 값이 자연지진의 Complexity 값과 비효해 볼 때 현저히 작은 값을 보여주고 있다. 이는 상대적으로 인공지진의 경우 P파의 발달이 우세하기 때문인 것으로 사료되며 앞에서 계산한 3-D Spectrogram 분석 견과와도 잘 일치하는 것이다.

  • PDF

Open and Short Circuit Switches Fault Detection of Voltage Source Inverter Using Spectrogram

  • Ahmad, N.S.;Abdullah, A.R.;Bahari, N.
    • Journal of international Conference on Electrical Machines and Systems
    • /
    • 제3권2호
    • /
    • pp.190-199
    • /
    • 2014
  • In the last years, fault problem in power electronics has been more and more investigated both from theoretical and practical point of view. The fault problem can cause equipment failure, data and economical losses. And the analyze system require to ensure fault problem and also rectify failures. The current errors on these faults are applied for identified type of faults. This paper presents technique to detection and identification faults in three-phase voltage source inverter (VSI) by using time-frequency distribution (TFD). TFD capable represent time frequency representation (TFR) in temporal and spectral information. Based on TFR, signal parameters are calculated such as instantaneous average current, instantaneous root mean square current, instantaneous fundamental root mean square current and, instantaneous total current waveform distortion. From on results, the detection of VSI faults could be determined based on characteristic of parameter estimation. And also concluded that the fault detection is capable of identifying the type of inverter fault and can reduce cost maintenance.

음성신호 분석 요소의 적용으로 헬륨가스 흡입이 음성 기관의 특성 변화에 미치는 영향 (The Effect of Helium Gas Intake on the Characteristics Change of the Acoustic Organs for Voice Signal Analysis Parameter Application)

  • 김봉현;조동욱
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.397-404
    • /
    • 2011
  • 본 논문에서는 헬륨가스 흡입에 따른 조음기관의 특성이 변화되는 것을 측정하기 위해 음성분석학적 요소의 적용을 통한 실험을 수행하였다. 헬륨가스는 기존에 잠수부가 사용하던 질소가스가 인체에 치명적인 공기 색전증을 유발하게 되면서 이를 극복하기 위한 대체 호흡용 가스로 사용되고 있다. 그러나, 헬륨가스는 명료도가 낮은 squeaky voice를 유발하기 때문에 잠수부들의 비정상적인 음성에 대한 해석에 어려움이 많다. 따라서, 헬륨가스가 음성기관에 미치는 영향을 음성분석학적 특성 변화로 측정하기 위해 헬륨가스 흡입 전과 후의 음성을 기반으로 피치 및 스펙트로그램 측정, 분석에 대한 실험을 수행하였다.