• 제목/요약/키워드: Mel-Spectrogram

검색결과 40건 처리시간 0.029초

Hierarchical Flow-Based Anomaly Detection Model for Motor Gearbox Defect Detection

  • Younghwa Lee;Il-Sik Chang;Suseong Oh;Youngjin Nam;Youngteuk Chae;Geonyoung Choi;Gooman Park
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권6호
    • /
    • pp.1516-1529
    • /
    • 2023
  • In this paper, a motor gearbox fault-detection system based on a hierarchical flow-based model is proposed. The proposed system is used for the anomaly detection of a motion sound-based actuator module. The proposed flow-based model, which is a generative model, learns by directly modeling a data distribution function. As the objective function is the maximum likelihood value of the input data, the training is stable and simple to use for anomaly detection. The operation sound of a car's side-view mirror motor is converted into a Mel-spectrogram image, consisting of a folding signal and an unfolding signal, and used as training data in this experiment. The proposed system is composed of an encoder and a decoder. The data extracted from the layer of the pretrained feature extractor are used as the decoder input data in the encoder. This information is used in the decoder by performing an interlayer cross-scale convolution operation. The experimental results indicate that the context information of various dimensions extracted from the interlayer hierarchical data improves the defect detection accuracy. This paper is notable because it uses acoustic data and a normalizing flow model to detect outliers based on the features of experimental data.

수중 표적 분류를 위한 합성곱 신경망의 전처리 성능 비교 (Preprocessing performance of convolutional neural networks according to characteristic of underwater targets )

  • 박경민;김두영
    • 한국음향학회지
    • /
    • 제41권6호
    • /
    • pp.629-636
    • /
    • 2022
  • 본 논문은 합성곱 신경망 기반 수중 표적 분류기의 성능 향상을 위한 최적의 전처리 기법을 제시한다. 실제 선박 수중신호를 수집한 데이터 세트의 주파수 분석을 통해 강한 저주파 신호로 인한 특성 표현의 문제점을 확인하였다. 이를 해결하기 위해 다양한 스펙트로그램 기법과 특성 스케일링 기법을 조합한 전처리 기법들을 구현하였다. 최적의 전처리 기법을 확인하기 위해 실제 데이터를 기반으로 합성곱 신경망을 훈련하는 실험을 수행하였다. 실험 결과, 로그 멜 스펙트로그램과 표준화 및 로버스트정규화 스케일링 기법의 조합이 높은 인식 성능과 빠른 학습 속도를 보임을 확인하였다.

딥 트랜스퍼 러닝 기반의 아기 울음소리 식별 (Infant cry recognition using a deep transfer learning method)

  • 박철;이종욱;오스만;박대희;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.971-974
    • /
    • 2020
  • Infants express their physical and emotional needs to the outside world mainly through crying. However, most of parents find it challenging to understand the reason behind their babies' cries. Failure to correctly understand the cause of a baby' cry and take appropriate actions can affect the cognitive and motor development of newborns undergoing rapid brain development. In this paper, we propose an infant cry recognition system based on deep transfer learning to help parents identify crying babies' needs the same way a specialist would. The proposed system works by transforming the waveform of the cry signal into log-mel spectrogram, then uses the VGGish model pre-trained on AudioSet to extract a 128-dimensional feature vector from the spectrogram. Finally, a softmax function is used to classify the extracted feature vector and recognize the corresponding type of cry. The experimental results show that our method achieves a good performance exceeding 0.96 in precision and recall, and f1-score.

3D 특징 벡터를 이용한 영아 울음소리 분류 (Classification of infant cries using 3D feature vectors)

  • 박정현;김민서;최혁순;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.597-599
    • /
    • 2022
  • 영아는 울음이라는 비언어적 의사 소통 방식을 사용하여 모든 욕구를 표현한다. 하지만 영아의 울음소리를 파악하는 것에는 어려움이 따른다. 영아의 울음소리를 해석하기 위해 많은 연구가 진행되었다. 이에 본 논문에서는 3D 특징 벡터를 이용한 영아의 울음소리 분류를 제안한다. Donate-a-corpus-cry 데이터 세트는 복통, 트림, 불편, 배고픔, 피곤으로 총 5 개의 클래스로 분류된 데이터를 사용한다. 데이터들은 원래 속도의 90%와 110%로 수정하는 방법인 템포조절을 통해 증강한다. Spectrogram, Mel-Spectrogram, MFCC 로 특징 벡터화를 시켜준 후, 각각의 2 차원 특징벡터를 묶어 3차원 특징벡터로 구성한다. 이후 3 차원 특징 벡터를 ResNet 과 EfficientNet 모델로 학습을 진행한다. 그 결과 2 차원 특징 벡터는 0.89(F1) 3 차원 특징 벡터의 경우 0.98(F1)으로 0.09 의 성능 향상을 보여주었다.

음성특징의 다양한 조합과 문장 정보를 이용한 감정인식 (Emotion Recognition using Various Combinations of Audio Features and Textual Information)

  • 서승현;이보원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.137-139
    • /
    • 2019
  • 본 논문은 다양한 음성 특징과 텍스트를 이용한 멀티 모드 순환신경망 네트워크를 사용하여 음성을 통한 범주형(categorical) 분류 방법과 Arousal-Valence(AV) 도메인에서의 분류방법을 통해 감정인식 결과를 제시한다. 본 연구에서는 음성 특징으로는 MFCC, Energy, Velocity, Acceleration, Prosody 및 Mel Spectrogram 등의 다양한 특징들의 조합을 이용하였고 이에 해당하는 텍스트 정보를 순환신경망 기반 네트워크를 통해 융합하여 범주형 분류 방법과 과 AV 도메인에서의 분류 방법을 이용해 감정을 이산적으로 분류하였다. 실험 결과, 음성 특징의 조합으로 MFCC Energy, Velocity, Acceleration 각 13 차원과 35 차원의 Prosody 의 조합을 사용하였을 때 범주형 분류 방법에서는 75%로 다른 특징 조합들 보다 높은 결과를 보였고 AV 도메인 에서도 같은 음성 특징의 조합이 Arousal 55.3%, Valence 53.1%로 각각 가장 높은 결과를 보였다.

  • PDF

각국 언어 특성에 독립적인 CELP 계열 보코더에서의 계산량 단축 알고리즘 (The Computation Reduction Algorithm Independent of the Language for CELP Vocoders)

  • 주상규
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.257-260
    • /
    • 2010
  • In this paper, we propose the computation reduction methods of LSP(Line spectrum pairs) transformation that is mainly used in CELP vocoders. In order to decrease the computational time in real root method the characteristic of four proposed algorithms is as the following. First, scheme to reduce the LSP transformation time uses mel scale. Developed the second scheme is the control of searching order by the distribution characteristic of LSP parameters. Third, scheme to reduce the LSP transformation time uses voice characteristics. Developed the fourth scheme is the control of searching interval and order by the distribution characteristic of LSP parameters. As a result of searching time, computational amount, transformed LSP parameters, SNR, MOS test, waveform of synthesized speech, spectrogram analysis, searching time is reduced about 37.5%, 46.21%, 46.3%, 51.29% in average, computational amount is reduced about 44.76%, 49.44%, 47.03%, 57.40%. But the transformed LSP parameters of the proposed methods were the same as those of real root method.

  • PDF

오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발 (Audio Contents Classification based on Deep learning for Automatic Loudness Control)

  • 이영한;조충상;김제우
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.320-321
    • /
    • 2018
  • 오디오 음량을 자동으로 제어하는데 있어 음성이 있는 구간에 대해서 음량이 급격히 줄어드는 것을 막기 위해 콘텐츠에 대한 분석이 필요하다. 본 논문에서는 방송 음량을 조절을 위한 세부 기술로 딥러닝 기반의 콘텐츠 분류 기술을 제안한다. 이를 위해 오디오를 무음, 음성, 음성/오디오 혼합, 오디오의 4개로 정의하고 이를 처리하기 위한 mel-spectrogram을 이용하여 2D CNN 기반의 분류기를 정의하였다. 또한 학습을 위해 방송 오디오 데이터를 활용하여 학습/검증 데이터 셋을 구축하였다. 제안한 방식의 성능을 확인하기 위해 검증 데이터셋을 활용하여 정확도를 측정하였으며 약 81.1%의 정확도를 가지는 것을 확인하였다.

  • PDF

시계열 데이터 분류를 통한 음성 감정 인식 (Speech emotion recognition through time series classification)

  • 김기덕;김미숙;이학만
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.11-13
    • /
    • 2021
  • 본 논문에서는 시계열 데이터 분류를 통한 음성 감정 인식을 제안한다. mel-spectrogram을 사용하여 음성파일에서 특징을 뽑아내 다변수 시계열 데이터로 변환한다. 이를 Conv1D, GRU, Transformer를 결합한 딥러닝 모델에 학습시킨다. 위의 딥러닝 모델에 음성 감정 인식 데이터 세트인 TESS, SAVEE, RAVDESS, EmoDB에 적용하여 각각의 데이터 세트에서 기존의 모델 보다 높은 정확도의 음성 감정 분류 결과를 얻을 수 있었다. 정확도는 99.60%, 99.32%, 97.28%, 99.86%를 얻었다.

  • PDF

CNN - LSTM 모델 기반 음성 감정인식 (Speech emotion recognition based on CNN - LSTM Model)

  • 윤상혁;전다윤;박능수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.939-941
    • /
    • 2021
  • 사람은 표정, 음성, 말 등을 통해 감정을 표출한다. 본 논문에서는 화자의 음성데이터만을 사용하여 감정을 분류하는 방법을 제안한다. 멜 스펙트로그램(Mel-Spectrogram)을 이용하여 음성데이터를 시간에 따른 주파수 영역으로 변화한다. 멜 스펙트로그램으로 변환된 데이터를 CNN을 이용하여 특징 벡터화한 후 Bi-Directional LSTM을 이용하여 화자의 발화 시간 동안 변화되는 감정을 분석한다. 마지막으로 완전 연결 네트워크를 통해 전체 감정을 분류한다. 감정은 Anger, Excitement, Fear, Happiness, Sadness, Neutral로, 총 6가지로 분류하였으며 데이터베이스로는 상명대 연구팀에서 구축한 한국어 음성 감정 데이터베이스를 사용하였다. 실험 결과 논문에서 제안한 CNN-LSTM 모델의 정확도는 88.89%로 측정되었다.

지진파 분류를 위한 주성분 기반 주파수-시간 특징 추출 (Principal component analysis based frequency-time feature extraction for seismic wave classification)

  • 민정기;김관태;구본화;이지민;안재광;고한석
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.687-696
    • /
    • 2019
  • 기존의 지진파 분류 특징은 강진에 초점이 맞추어져 있어서 미소지진과 같은 지진파는 다소 적합하지 않다. 본 연구에서는 강진과 더불어 미소지진, 인공지진, 잡음 분류에 적합한 특징 추출을 위해 주파수-시간 공간 내에서 히스토그램과 주성분 기반 특징 추출방법을 제안한다. 제안된 방법은 지진파의 주파수 관련 정보와 시간 관련 정보를 결합하는 방법을 적용한 히스토그램 기반 특징 추출방법과 주성분 기반 특징 추출방법을 이용하여 지진(강진, 미소지진, 인공지진)과 잡음, 미소지진과 잡음, 미소지진과 인공지진을 이진 분류한다. 2017년~2018년 최근 국내지진 자료와 분류 성능을 토대로 제안한 특징 추출방식의 효용성을 비교 평가한다.