• 제목/요약/키워드: mel-frequency cepstral coefficient

검색결과 65건 처리시간 0.023초

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

음악추천을 위한 다중 옥타브 밴드 기반 장르 분류기 (Multiple octave-band based genre classification algorithm for music recommendation)

  • 임신철;장세진;이석필;김무영
    • 한국정보통신학회논문지
    • /
    • 제15권7호
    • /
    • pp.1487-1494
    • /
    • 2011
  • 본 논문은 음악 추천을 위한 새로운 장르 분류 알고리즘을 제안하였다. 특히, 장르 분류 알고리즘에 사용되는 특정 벡터 중 octave-based spectral contrast (OSC)의 성능 개선을 위해서 심리청각 모델과 악기별 사용 octave 범위에 근거하여 새로운 band-pass filter를 설계하였다. 10개 장르별 음악을 포함하고 있는 GTZAN database에 대해서 10-fold cross validation 실험 결과, 다중 옥타브 밴드 OSC에 대해서 기존 OSC에 비해 2.26% 향상된 인식율을 얻을 수 있었다. 또한, 기존의 mel-frequency cepstral coefficient (MFCC)와 복합 특징 벡터를 구성하여 실험한 결과, 향상된 인식율을 얻을 수 있었다.

전화선 채널이 화자확인 시스템의 성능에 미치는 영향 (The Effect of the Telephone Channel to the Performance of the Speaker Verification System)

  • 조태현;김유진;이재영;정재호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.12-20
    • /
    • 1999
  • 본 논문에서는 깨끗한 환경에서 녹음된 음성데이터와 채널환경에서 수집된 음성데이터의 화자확인 성능을 비교하였다. 채널데이터의 화자확인 성능을 향상시키기 위하여 채널환경에 강인한 특징 파라메타 및 전처리에 대해 연구하였다. 실험을 위한 음성 DB는 어구지시(text-prompted) 시스템을 고려하여 두 자리의 한국어 숫자음으로 구성하였다. 적용한 음성 특징은 LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair)이며, 채널 잡음을 제거하기 위한 전처리 과정으로는 음성신호에 대한 필터링을 적용하였다. 추출된 특징으로부터 채널의 영향을 제거 또는 보상하기 위해 cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl)를 적용하였다. 또한 각각의 특징 및 처리 방법에 대한 음성인식 성능을 제시함으로써 화자확인에서의 성능과 음성인식에서의 성능을 비교하였다. 적용한 음성 특징 및 처리 방법들에 대한 성능 평가를 위해 HTK(HMM Tool Kit) 2.0을 이용하였다. 남자, 여자 화자별로 임계값을 다르게 주는 방법으로 깨끗한 음성데이터와 채널 데이터에 대한 EER(Equal Error Rate)을 구하여 비교하였다. 실험결과 전처리 과정에서 대역통과 필터(150~3800Hz)를 적용하여 저대역 및 고대역의 채널 잡음을 제거하고, 이 신호로부터 MFCC를 추출하였을 때 EER 측면에서의 화자확인 성능이 가장 좋게 나타났다.

  • PDF

음성구간 검출기의 실시간 적응화를 위한 음성 특징벡터의 차원 축소 방법 (Dimension Reduction Method of Speech Feature Vector for Real-Time Adaptation of Voice Activity Detection)

  • 박진영;이광석;허강인
    • 융합신호처리학회논문지
    • /
    • 제7권3호
    • /
    • pp.116-121
    • /
    • 2006
  • 본 논문에서는 다양한 잡음환경에서의 실시간 적응화 기법을 적용하기 위한 선결 과제로 다차원 음성 특정 벡터를 저차원으로 축소하는 방법을 제안한다. 제안된 방법은 특징 벡터를 확률 우도 값으로 매핑시켜 비선형적으로 축소하는 방법으로 음성 / 비음성의 분류는 우도비 검증 (Likelihood Ratio Test; LRT) 을 이용하여 분류하였다. 실험 결과 고차원 특징 벡터를 이용하여 분류한 결과와 대등하게 분류됨을 확인할 수 있었다. 그리고, 제안된 방법에 의해 검출된 음성 데이터를 이용한 음성인식 실험에서도 10차 MFCC(Mel-Frequency Cepstral Coefficient)를 사용하여 분류한 경우와 대등한 인식률을 보여주었다.

  • PDF

Decorrelated Filter Bank를 이용한 음악 장르 분류 시스템 (Music Genre Classification System Using Decorrelated Filter Bank)

  • 임신철;장세진;이석필;김무영
    • 한국음향학회지
    • /
    • 제30권2호
    • /
    • pp.100-106
    • /
    • 2011
  • 음원의 디지털화가 진행되면서 음악 데이터베이스가 방대해지고 있다. 따라서, 음악 데이터를 보다 효과적으로 관리하기 위해 음악의 특성에 따라 장르별로 자동 분류해주는 시스템이 필요하다. 기존 장르 분류 시스템은 대부분 Mel-Frequency Cepstral Coefficient (MFCC)를 특징 벡터로 이용하고 있다. 본 논문에서는 Auditory Filter Bank를 이용한 Decorrelated Filter Bank (DFB)와 Octave-based Spectral Contrast (OSC)에 texture window를 적용하여 특징을 추출한 후, Support Vector Machine (SVM)을 이용하여 장르 분류를 시도하였다. 기존의 Marsyas 장르 분류 시스템과 비교한 결과 DFB와 OSC로 복합적인 특징 벡터를 구성하면 더 적은 차수의 특징벡터를 사용함에도 4.2 %의 향상된 분류 성공률을 얻을 수 있었다.

Gender Classification of Speakers Using SVM

  • Han, Sun-Hee;Cho, Kyu-Cheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권10호
    • /
    • pp.59-66
    • /
    • 2022
  • 본 논문에서는 음성 데이터에서 특징벡터를 추출한 후 이를 분석하여 화자의 성별을 분류하는 연구를 진행하였다. 본 연구는 고객이 전화 등 음성을 통해 서비스를 요청할 시 요청한 고객의 성별을 자동으로 인식함으로써 직접 듣고 분류하지 않아도 되는 편의성을 제공한다. 학습된 모델을 활용하여 성별을 분류한 후 성별마다 요청 빈도가 높은 서비스를 분석하여 고객 맞춤형 추천 서비스를 제공하는 데에 유용하게 활용할 수 있다. 본 연구는 공백을 제거한 남성 및 여성의 음성 데이터를 기반으로 각각의 데이터에서 MFCC를 통해 특징벡터를 추출한 후 SVM 모델을 활용하여 기계학습을 진행하였다. 학습한 모델을 활용하여 음성 데이터의 성별을 분류한 결과 94%의 성별인식률이 도출되었다.

Group Delay를 이용한 GMM기반의 성별 인식 알고리즘 (GMM-Based Gender Identification Employing Group Delay)

  • 이계환;임우형;김남수;장준혁
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.243-249
    • /
    • 2007
  • 본 논문은 Group Delay(GD)를 이용한 음성신호 기반의 효과적인 성별인식 시스템을 제안한다. 일반적인 음성 인식과 관련된 시스템에서 사용되는 특징들은 위상에 관한 정보를 제거한 크기만의 정보를 이용하여 구성한다. 본 연구에서는 위상에 관한 정보를 토대로 유도되어 지는 GD의 성별에 따른 특징을 알아보고, 보다 향상된 성별인식을 위해 MFCC(Mel-frequency cepstral coefficient), LPC(linear predictive coding) 계수, 반사계수(reflection coefficient) 그리고 포만트(formant)등과 같은 크기 정보와 GD를 이용한 결합 특징 벡터를 적용하였다. 실험을 통해 성별에 따른 GD의 특징을 확인할 수 있었고, 이를 이용한 제안된 특징 벡터를 사용했을 때 우수한 인식 성능을 얻을 수 있었다.

깊은 신경망 특징 기반 화자 검증 시스템의 성능 비교 (Performance Comparison of Deep Feature Based Speaker Verification Systems)

  • 김대현;성우경;김홍국
    • 말소리와 음성과학
    • /
    • 제7권4호
    • /
    • pp.9-16
    • /
    • 2015
  • In this paper, several experiments are performed according to deep neural network (DNN) based features for the performance comparison of speaker verification (SV) systems. To this end, input features for a DNN, such as mel-frequency cepstral coefficient (MFCC), linear-frequency cepstral coefficient (LFCC), and perceptual linear prediction (PLP), are first compared in a view of the SV performance. After that, the effect of a DNN training method and a structure of hidden layers of DNNs on the SV performance is investigated depending on the type of features. The performance of an SV system is then evaluated on the basis of I-vector or probabilistic linear discriminant analysis (PLDA) scoring method. It is shown from SV experiments that a tandem feature of DNN bottleneck feature and MFCC feature gives the best performance when DNNs are configured using a rectangular type of hidden layers and trained with a supervised training method.

잡음환경에서의 숫자음 인식을 위한 특징파라메타 (Features for Figure Speech Recognition in Noise Environment)

  • 이재기;고시영;이광석;허강인
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.473-476
    • /
    • 2005
  • 본 논문은 잡음에 강한 다양한 특징 파라메타를 제안한다. 기존의 음성인식에서 사용되는 특징 파라메타 MFCC(Mel Frequency Cepstral Coeeficient)는 좋은 성능을 보인다. 그러나 잡음에 보다 강인한 성능을 위해 기존에 사용되는 파라메타 MFCC의 특징공간을 변형시키는 알고리즘인 PCA(Principal Component Analysis)와 ICA(Independent Component Analysis)를 사용하여 특징 공간을 변형시킨 파라메타와 기존의 파라메타 MFCC의 성능을 비교하였다. 그 결과 ICA에 의해 변형된 특징 파라메타가 PCA로 변형된 파라메타와 MFCC보다 우수한 성능을 보였다.

  • PDF

A Method of Evaluating Korean Articulation Quality for Rehabilitation of Articulation Disorder in Children

  • Lee, Keonsoo;Nam, Yunyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3257-3269
    • /
    • 2020
  • Articulation disorders are characterized by an inability to achieve clear pronunciation due to misuse of the articulators. In this paper, a method of detecting such disorders by comparing to the standard pronunciations is proposed. This method defines the standard pronunciations from the speeches of normal children by clustering them with three features which are the Linear Predictive Cepstral Coefficient (LPCC), the Mel-Frequency Cepstral Coefficient (MFCC), and the Relative Spectral Analysis Perceptual Linear Prediction (RASTA-PLP). By calculating the distance between the centroid of the standard pronunciation and the inputted pronunciation, disordered speech whose features locates outside the cluster is detected. 89 children (58 of normal children and 31 of children with disorders) were recruited. 35 U-TAP test words were selected and each word's standard pronunciation is made from normal children and compared to each pronunciation of children with disorders. In the experiments, the pronunciations with disorders were successfully distinguished from the standard pronunciations.