• 제목/요약/키워드: MFCC

검색결과 274건 처리시간 0.028초

MFCC를 이용한 수중소음원의 식별 (Identification of Underwater Ambient Noise Sources Using MFCC)

  • 황도진;김재수
    • 한국해양공학회:학술대회논문집
    • /
    • 한국해양공학회 2006년 창립20주년기념 정기학술대회 및 국제워크샵
    • /
    • pp.307-310
    • /
    • 2006
  • Underwater ambient noise originating from the geophysical, biological, and man-made acoustic sources contains much information on the sources and the ocean environment affecting the performance of the sonar equipments. In this paper, a set of feature vectors of the ambient noises using MFCC is proposed and extracted to form a data base for the purpose of identifying the noise sources. The developed algorithm for the pattern recognition is applied to the observed ocean data, and the initial results are presented and discussed.

  • PDF

음성인식을 위한 알고리즘에 관한 연구 (A study on the algorithm for speech recognition)

  • 김선철;이정우;조규옥;박재균;오용택
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 제39회 하계학술대회
    • /
    • pp.2255-2256
    • /
    • 2008
  • 음성인식 시스템을 설계함에 있어서는 대표적으로 사람의 성도 특성을 모방한 LPC(Linear Predict Cording)방식과 청각 특성을 고려한 MFCC(Mel-Frequency Cepstral Coefficients)방식이 있다. 본 논문에서는 MFCC를 통해 특징파라미터를 추출하고 해당 영역에서의 수행된 작업을 매틀랩 알고리즘을 이용하여 그래프로 시현하였다. MFCC 방식의 추출과정은 최초의 음성신호로부터 전처리과정을 통해 아날로그 신호를 디지털 신호로 변환하고, 잡음부분을 최소화하며, 음성 부분을 강조한다. 이 신호는 다시 Windowing을 통해 음성의 불연속을 제거해 주고, FFT를 통해 시간의 영역을 주파수의 영역으로 변환한다. 이 변환된 신호는 Filter Bank를 거쳐 다수의 복잡한 신호를 몇 개의 간단한 신호로 간소화 할 수 있으며, 마지막으로 Mel-cepstrum을 통해 최종적으로 특징 파라미터를 얻고자 하였다.

  • PDF

보안 시스템을 위한 비명 검출 엔진 설계 (A Design of a Scream Detecting Engine for Surveillance Systems)

  • 서지훈;이혜인;이석필
    • 전기학회논문지
    • /
    • 제63권11호
    • /
    • pp.1559-1563
    • /
    • 2014
  • Recently, the prevention of crime using CCTV draws special in accordance with the higher crime incidence rate. Therefore security systems like a CCTV with audio capability are developing for giving an instant alarm. This paper proposes a scream detecting engine from various ambient noises in real environment for surveillance systems. The proposed engine detects scream signals among the various ambient noises using the features extracted in time/frequency domain. The experimental result shows the performance of our engine is very promising in comparison with the traditional engines using the model based features like LPC, LPCC and MFCC. The proposed method has a low computational complexity by using FFT and cross correlation coefficients instead of extracting complex features like LPC, LPCC and MFCC. Therefore the proposed engine can be efficient for audio-based surveillance systems with low SNRs in real field.

신호의 주기성에 따라 변형되는 스펙트럼 차감을 이용한 CMSBS (CMSBS Extraction Using Periodicity-based Mel Sub-band Spectral Subtraction CMSBS Extraction)

  • 이우영;이상호;홍재근
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 춘계학술발표논문집
    • /
    • pp.768-771
    • /
    • 2009
  • 현재 음성인식에서 가장 많이 사용하고 있는 특징벡터는 MFCC(Mel-Frequency Cepstral Coefficients)이다. 그러나 MFCC도 잡음이 존재하는 환경에서는 인식 성능이 저하된다. 이러한 MFCC의 단점을 해결하기 위해 mel sub-band 스펙트럼 차감법과 신호대잡음비에 따른 에너지 압축을 이용하는 CMSBS(Compression and Mel Sub-Band Spectral subtraction) 방법을 사용한다. 본 논문에서는 CMSBS 방법 적용 시 음성이 발성되는 구간과 묵음 구간에서 mel sub-band 스펙트럼 차감법이 동일한 조건으로 이루어져 발생하는 중요한 음성정보의 손실을 보완하기 위하여 신호의 주기성을 이용하여 spectral flooring 파라미터를 변형하는 방법을 제안한다. 제안한 방법으로 실험을 한 결과 잡음이 거의 없는 음성신호에 대해서는 기존의 방법과 비슷한 인식률을 가지고, 잡음성분이 많을수록 변형된 mel sub-band 스펙트럼 차감법을 적용한 방법이 인식률에서 보다 높은 성능 향상을 가져왔다.

  • PDF

대용량 음성 D/B 구축을 위한 AUTO-SEGMENTATION에 관한 연구 (A study on Auto-Segmentation Improvement for a Large Speech DB)

  • 이병순;장성욱;양성일;권영헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.209-212
    • /
    • 2000
  • 본 논문은 음성인식에 필요한 대용량 음성 D/B 구축을 위한 auto-segmentation의 향상에 관한 논문이다. 50개의 우리말 음소(잡음, 묵음 포함)를 정하고 음성특징으로 MFCC(Mel Frequency Cepstral Coefficients), $\Delta$MFCC, $\Delta\Delta$MFCC, 39차를 추출한 다음 HMM 훈련과 CCS(Constrained Clustering Segmentation) 알고리즘(1)을 사용하여auto-segmentation을 수행하였다. 이 과정에서 대부분의 음소는 오류범위$(\pm25ms)$ 안에서 분절이 이루어지지만, 짧은 묵음, 모음+유성자음('ㅁ', 'ㄴ', 'ㄹ', 'o') 등에서 자주 오류범위를 넘어 분절이 발생하였다. 이러한 음운환경에 따른 경계의 오류를 구간별로 Wavelet 변환 신호의 MLR(Maximum Likelihood Ratio) 값을 이용, 기존 문제점을 보완하여 오류의 범위를 줄임으로서 auto-segmentation의 성능 향상을 얻을 수 있었다.

  • PDF

Speech Emotion Recognition Using 2D-CNN with Mel-Frequency Cepstrum Coefficients

  • Eom, Youngsik;Bang, Junseong
    • Journal of information and communication convergence engineering
    • /
    • 제19권3호
    • /
    • pp.148-154
    • /
    • 2021
  • With the advent of context-aware computing, many attempts were made to understand emotions. Among these various attempts, Speech Emotion Recognition (SER) is a method of recognizing the speaker's emotions through speech information. The SER is successful in selecting distinctive 'features' and 'classifying' them in an appropriate way. In this paper, the performances of SER using neural network models (e.g., fully connected network (FCN), convolutional neural network (CNN)) with Mel-Frequency Cepstral Coefficients (MFCC) are examined in terms of the accuracy and distribution of emotion recognition. For Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) dataset, by tuning model parameters, a two-dimensional Convolutional Neural Network (2D-CNN) model with MFCC showed the best performance with an average accuracy of 88.54% for 5 emotions, anger, happiness, calm, fear, and sadness, of men and women. In addition, by examining the distribution of emotion recognition accuracies for neural network models, the 2D-CNN with MFCC can expect an overall accuracy of 75% or more.

심층 신경망 기반 감정 인식을 위한 스파이크 특성 추출 기술 (Spike Feature Extraction for Emotion Recognition based on Deep Neural Network)

  • 안순호;김재원;한석현;신성현;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.158-159
    • /
    • 2019
  • 본 논문에서는 심층 신경망을 기반으로 하는 감정 인식을 위해 스파이크 특성을 추출하는 기술을 제안한다. 기존의 심층 신경망을 이용한 감정 인식 기술은 대부분 MFCC를 특성 백터를 사용한다. 그러나 프레임 단위의 연산인 MFCC는 높은 시간 해상도를 확보하기 어려워 시간적 특성의 영향을 받는 감정 인식에 한계가 있다. 이를 해결하기 위해 본 논문에서는 인간의 청각 필터를 모델링한 ERB에 따라 샘플 단위로 주파수의 특성을 나타내는 스파이크그램을 이용한 감정 인식 기술을 제안한다. 제안하는 방법이 감정 인식의 대표적 특성인 MFCC보다 높은 인식률을 제공하는 것을 확인하였다.

  • PDF

Speech Emotion Recognition with SVM, KNN and DSVM

  • Hadhami Aouani ;Yassine Ben Ayed
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.40-48
    • /
    • 2023
  • Speech Emotions recognition has become the active research theme in speech processing and in applications based on human-machine interaction. In this work, our system is a two-stage approach, namely feature extraction and classification engine. Firstly, two sets of feature are investigated which are: the first one is extracting only 13 Mel-frequency Cepstral Coefficient (MFCC) from emotional speech samples and the second one is applying features fusions between the three features: Zero Crossing Rate (ZCR), Teager Energy Operator (TEO), and Harmonic to Noise Rate (HNR) and MFCC features. Secondly, we use two types of classification techniques which are: the Support Vector Machines (SVM) and the k-Nearest Neighbor (k-NN) to show the performance between them. Besides that, we investigate the importance of the recent advances in machine learning including the deep kernel learning. A large set of experiments are conducted on Surrey Audio-Visual Expressed Emotion (SAVEE) dataset for seven emotions. The results of our experiments showed given good accuracy compared with the previous studies.

변별적 가중치 학습을 적용한 성별인식 알고리즘 (Discriminative Weight Training for Gender Identification)

  • 강상익;장준혁
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.252-255
    • /
    • 2008
  • 본 논문에서는 성별 인식 시스템의 성능향상을 위해 변별적 가중치 학습 (discriminative weight training) 기반의 최적화된 SVM (support vector machine)을 제안한다. MCE (minimum classification error)방법을 도입하여, 각각의 MFCC (mel-frequency cepstral coefficients) 특징벡터 차수별로 다른 가중치를 가지는 SVM을 제안한다. 제안된 알고리즘은 기존의 동일 가중치를 가지는 SVM 기반의 성별인식 시스템과 비교하였으며, 우수한 성능을 보인다.

Modified-MECC를 이용한 음성 특징 파라미터 추출 방법 (Method of Speech Feature Parameter Extraction Using Modified-MFCC)

  • 이상복;이철희;정성환;김종교
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.269-272
    • /
    • 2001
  • In speech recognition technology, the utterance of every talker have special resonant frequency according to shape of talker's lip and to the motion of tongue. And utterances are different according to each talker. Accordingly, we need the superior moth-od of speech feature parameter extraction which reflect talker's characteristic well. This paper suggests the modified-MfCC combined existing MFCC with gammatone filter. We experimented with speech data from telephone and then we obtained results of enhanced speech recognition rate which is higher than that of the other methods.

  • PDF