• 제목/요약/키워드: Mel frequency cepstral coefficient

검색결과 65건 처리시간 0.026초

PDA 환경에서 자동화자 확인의 계산량 개선을 위한 연구 (A Study for Complexity Improvement of Automatic Speaker Verification in PDA Environment)

  • 서창우;임영환;전성채;장남영
    • 융합신호처리학회논문지
    • /
    • 제10권3호
    • /
    • pp.170-175
    • /
    • 2009
  • 본 논문은 PDA 디바이스에서 개인정보를 보호하기 위한 자동화자확인 시스템을 제안한다. 최근 M-커머스와 같은 모바일 환경을 위한 PDA의 용량이 확장되고 사용이 증가되고 있다. 그러나 너무 많은 계산량 때문에 PDA 디바이스에서 자동화자확인의 실질적인 응용은 여전히 많은 어려움이 존재한다. 본 논문에서는 이러한 문제점을 해결하기 위해서 음성발성 동안 스펙트럼 차감법과 음성 검출과 같은 전처리를 수행함으로써 계산량을 줄일 수 있는 방법을 적용하였다. 또한 빠른 처리 결과를 얻기 위한 은닉마코프모델의 최적 상태 정합과 시퀀스 확률비 테스트를 적용하였다. 전체적인 시스템은 PDA디바이스의 제한된 메모리와 낮은 CPU 속도에 적합하도록 간결하게 구현하였다.

  • PDF

머신러닝 기반 음성분석을 통한 체질량지수 분류 예측 - 한국 성인을 중심으로 (Application of Machine Learning on Voice Signals to Classify Body Mass Index - Based on Korean Adults in the Korean Medicine Data Center)

  • 김준호;박기현;김호석;이시우;김상혁
    • 사상체질의학회지
    • /
    • 제33권4호
    • /
    • pp.1-9
    • /
    • 2021
  • Objectives The purpose of this study was to check whether the classification of the individual's Body Mass Index (BMI) could be predicted by analyzing the voice data constructed at the Korean medicine data center (KDC) using machine learning. Methods In this study, we proposed a convolutional neural network (CNN)-based BMI classification model. The subjects of this study were Korean adults who had completed voice recording and BMI measurement in 2006-2015 among the data established at the Korean Medicine Data Center. Among them, 2,825 data were used for training to build the model, and 566 data were used to assess the performance of the model. As an input feature of CNN, Mel-frequency cepstral coefficient (MFCC) extracted from vowel utterances was used. A model was constructed to predict a total of four groups according to gender and BMI criteria: overweight male, normal male, overweight female, and normal female. Results & Conclusions Performance evaluation was conducted using F1-score and Accuracy. As a result of the prediction for four groups, The average accuracy was 0.6016, and the average F1-score was 0.5922. Although it showed good performance in gender discrimination, it is judged that performance improvement through follow-up studies is necessary for distinguishing BMI within gender. As research on deep learning is active, performance improvement is expected through future research.

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델 (RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC)

  • 임현택;김수형;이귀상;양형정
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.28-35
    • /
    • 2023
  • 본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도간 trade-off를 계산하는 지표를 제안하였다.

한국 전통음악 (국악)에 대한 자동 장르 분류 시스템 구현 (An Implementation of Automatic Genre Classification System for Korean Traditional Music)

  • 이강규;윤원중;박규식
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.29-37
    • /
    • 2005
  • 본 논문은 한국의 전통 음악, 즉 국악 장르를 자동으로 분류하는 시스템을 제안한다. 제안된 시스템은 입력 음악의 내용기반 분석을 통하여 궁중음악, 풍류방음악, 민속성악, 민속기악, 불교음악, 무속음악 등 6가지 장르중 하나로 자동분류하여 해당 음악의 장르 결과를 보여준다. 국악 장르 분류에 사용된 내용기반 알고리즘은 크게 음악의 특징 벡터 추출 그리고 장르 분류를 위한 패턴인식 과정 2가지로 구성된다. 음악의 특징 벡터 추출은 디지탈 신호 처리기술을 이용하여 해당 음악의 spectral centroid, rolloff, flux 등 STFT (Short Time Fourier Transform) 기반의 특징 계수들과 MFCC (Mel frequency cepstral coefficient), LPC (Linear predictive coding) 등의 계수들을 구한 후 SFS (Sequential Forward Selection) 최적 특징 벡터 열을 선별하여 사용하였으며 패틴 분류 알고리즘으로는 k-NN (k -Nearest Neighbor), Gaussian, GMM (Gaussian Mixture Model), SVM (Support Vector Machine) 분류기를 사용하였다. 특히 본 연구에서는 입력 질의의 패턴 (혹은 구간) 변화에 따른 시스템의 불확실성을 개선하기 위하여 MFC (Multi Feature Clustring) 방법을 이용하여 DB를 구축하였다. 모의실험 결과 k-NN 과 SVM 분류기 모두 $97{\%}$ 이상의 장르 분류 성공률을 보였으나, SVM 이 k-NN에 비해 약 3배 이상의 빠른 분류 성능을 가지고 있음을 확인하였다.

음성 분류 인공신경망을 활용한 자폐아 치료용 로봇의 지능화 동작 연구 (Motion Study of Treatment Robot for Autistic Children Using Speech Data Classification Based on Artificial Neural Network)

  • 이진규;이보희
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1440-1447
    • /
    • 2019
  • 현재 아이들의 자폐스펙트럼장애 유병률이 한층 더 높게 보고되고 있으며 다양한 형태의 장애 징후를 보이고 있다. 특히 이들은 사회적 의사소통 영역에서 의사소통장애로 인한 대화에 어려움을 겪고 있으며 이를 훈련을 통해 개선 시킬 필요가 대두된다. 이를 위해 본 연구에서는 사전 연구를 통해 설계된 로봇에 장착된 마이크를 통해 음성 정보를 취득하고 이러한 정보를 이용하여 지능적인 동작을 만드는 방식을 제안한다. 음성 정보를 로봇 동작으로 분류하기 위해 인공신경망을 이용하였으며 여러 신경망 기법중 합성곱 방식을 기본으로 한 순환신경망을 결합하여 정확도를 향상시키려고 하였다. 입력 음성 데이터의 전처리는 MFCC를 이용하여 분석하였으며 여러 데이터 정규화 및 인공신경망 최적화 기법을 활용하여 로봇의 동작을 추정하였다. 아울러 설계된 인공신경망은 기존에 사용한 구조 및 사람이 개입하여 분석하는 방법과의 정확도 비교 실험을 진행하여 분석 결과가 높은 정확도를 나타냈다. 향후 보다 높은 정확도를 가질 수 있는 로봇 동작을 설계하여 실제의 자폐아 치료 및 교육 환경에서 적용할 수 있기 위하여 다양한 형태의 데이터를 수집하고 효율적으로 전처리하는 방식에 대한 연구가 요구된다.