• 제목/요약/키워드: Mel-spectrum

검색결과 45건 처리시간 0.024초

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

한국어 음성의 스펙트럼 변화에 관한 연구 (A Study on the Spectrum Variation of Korean Speech)

  • 이수길;송정영
    • 인터넷정보학회논문지
    • /
    • 제6권6호
    • /
    • pp.179-186
    • /
    • 2005
  • 음성학에서 음성이 가지고 있는 주파수 특성을 이용하여 스펙트럼을 추출할 수 있고 이를 이용하여 음성을 분석할 수 있다. 그러나 음성의 스펙트럼은 단모음의 경우 어느 정도 일정한 형태를 유지하지만 음절. 단어 등과 같이 자음과 모음이 서로 결합되었을 때는 상당한 변화가 발생된다. 이는 음소단위 음성인식에 있어서 가장 큰 장애가 되고 있다. 본 논문에서는 주파수 영역과 청각적 인상을 고려한 멜 대역 그리고 멜 켑스트럼을 이용하여 각 자음과 모음이 가지고 있는 스펙트럼을 분석하고, 청각적 특성을 반영한 음성의 변화를 체계화하여 음성을 음소단위로 분할할 수 있는 기반을 제공한다.

  • PDF

파워 스펙트럼 warping을 이용한 성도 정규화 (Vocal Tract Normalization Using The Power Spectrum Warping)

  • 유일수;김동주;노용완;홍광석
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 학술회의 논문집 정보 및 제어부문 A
    • /
    • pp.215-218
    • /
    • 2003
  • The method of vocal tract normalization has been known as a successful method for improving the accuracy of speech recognition. A frequency warping procedure based low complexity and maximum likelihood has been generally applied for vocal tract normalization. In this paper, we propose a new power spectrum warping procedure that can be improve on vocal tract normalization performance than a frequency warping procedure. A mechanism for implementing this method can be simply achieved by modifying the power spectrum of filter bank in Mel-frequency cepstrum feature(MFCC) analysis. Experimental study compared our Proposal method with the well-known frequency warping method. The results have shown that the power spectrum warping is better 50% about the recognition performance than the frequency warping.

  • PDF

중 에너지 이온산란 분광장치의 제작 및 성능 평가 (Construction and performance evaluation of a medium energy ion scattering spectroscopy system)

  • 김현경;문대원;김영필;이재철;강희재
    • 한국진공학회지
    • /
    • 제6권1호
    • /
    • pp.97-102
    • /
    • 1997
  • 이온-고체 표면 사이의 상호작용에 관한 연구를 수행하기 위하여 중 에너지 이온산 란 분광장치를 개발하였고 그 특성 평가를 수행하였다. 제작된 MEIS의 에너지 분해능은 $4\times 10^{-3}$으로 측정되었다. MEIS의 표면분석의 응용으로 60keVH+을 $Ta_2O_5$(300$\AA$)/Si에 적용하 여 에너지 손실인자와 깊이분해능을 얻은 결과는 42eV/$\AA$와 9.7$\AA$이었다. 또한, Si(100)표면 에 97.5KeV$H^+$이온을 random방향으로 입사시켜 이차원 스펙트럼을 얻었다.

  • PDF

Non-Negative Matrix Factorization을 이용한 음성 스펙트럼의 부분 특징 추출 (Parts-based Feature Extraction of Speech Spectrum Using Non-Negative Matrix Factorization)

  • 박정원;김창근;허강인
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.49-52
    • /
    • 2003
  • In this paper, we propose new speech feature parameter using NMf(Non-Negative Matrix Factorization). NMF can represent multi-dimensional data based on effective dimensional reduction through matrix factorization under the non-negativity constraint, and reduced data present parts-based features of input data. In this paper, we verify about usefulness of NMF algorithm for speech feature extraction applying feature parameter that is got using NMF in Mel-scaled filter bank output. According to recognition experiment result, we could confirm that proposal feature parameter is superior in recognition performance than MFCC(mel frequency cepstral coefficient) that is used generally.

  • PDF

잡음 환경에서의 유도 전동기 고장 검출 및 분류를 위한 강인한 특징 벡터 추출에 관한 연구 (A Study on Robust Feature Vector Extraction for Fault Detection and Classification of Induction Motor in Noise Circumstance)

  • 황철희;강명수;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.187-196
    • /
    • 2011
  • 유도 전동기는 항공 산업, 자동차 산업 등의 산업 현장에서 중요한 역할을 하고 있으며, 이러한 유도 전동기의 고장으로 인한 피해를 최소화하기 위해 유도 전동기의 고장 검출 및 분류 시스템의 개발이 중요한 문제로 대두되고 있다. 이에 본 논문에서는 정상 및 각종 비정상 상태의 유도 전동기 진동 신호에 대해 부분 자기 상관(partial autocorrelation, PARCOR) 계수, 로그 스펙트럼 파워(log spectrum powers, LSP), 캡스트럼 계수의 평균값(cepstrum coefficients mean, CCM), 멜 주파수 캡스트럼 계수(mel-frequency cepstrum coefficient, MFCC)의 네 가지 특징 벡터를 신경 회로망의 입력으로 사용하여 유도 전동기의 고장을 검출하고 분류하였다. 고장 분류를 위한 최적의 특징 벡터를 찾기 위해 추출하는 특징의 수를 2에서 20으로 바꾸어 가며 분류 성능을 평가한 결과 CCM을 제외한 나머지의 경우 5~6의 특징만으로 분류 정확도가 거의 100%에 가까운 결과를 보였다. 또한 본 논문에서는 실제 산업 현장에서 진동 신호 취득 시 포함될 수 있는 잡음을 고려하여 취득한 신호에 백색 잡음(white Gaussian noise)을 인위적으로 추가하여 실험한 결과 LSP, PARCOR, MFCC 순으로 잡음 환경에 강인한 특징 벡터임을 확인할 수 있었다.

다중 주파수 대역 convolutional neural network 기반 지진 신호 검출 기법 (Earthquake detection based on convolutional neural network using multi-band frequency signals)

  • 김승일;김동현;신현학;구본화;고한석
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.23-29
    • /
    • 2019
  • 본 논문에서는 국내에서 발생한 지진 신호를 검출 및 식별하기 위한 방법을 다루었다. 국내에서 발생한 지진 신호들을 분석해 본 결과 서로 다른 주파수 대역 신호의 특징들이 각각 분류를 위한 특징으로 적절함을 확인할 수 있었다. 이러한 분석 결과를 바탕으로 지진 신호에서 추출한 다중 주파수 대역 특징을 기반으로 하는 CNN(Convolutional Neural Network) 기법에 대해서 제안하였다. 제안하는 다중 주파수 대역 CNN 기법은 지진 신호에서 추출한 멜 스펙트럼에 대해서 각각 필터를 적용하여 서로 다른 주파수 대역(저/중/고 주파수)의 신호를 추출하였다. 추출된 신호들을 바탕으로 각각 CNN 기반 분류를 수행하였고, 수행된 결과를 융합하여 최종적으로 지진 이벤트에 대해 식별하였다. 2018년 동안 대한민국에서 발생한 실제 지진데이터를 기반으로 하는 실험을 통해 제안하는 기법에 대한 효용성을 검증하였다.

수증기 쪼임법에 의한 제올라이트형 보로실리케이트 제조방법 (Synthesis of Borosilicate Zeotypes by Steam-assisted Conversion Method)

  • Mansour, R.;Lafjah, M.;Djafri, F.;Bengueddach, A.
    • 대한화학회지
    • /
    • 제51권2호
    • /
    • pp.178-185
    • /
    • 2007
  • 펜타실 구조와 유사한 제올라이트형 결정성 보로실리케이드를 수증기 쪼임법으로 제조하였다. 실제 여러 종류의 서로 다른 붕소화합물 원료를 사용하여 만든 다양한 조성의 Na2O.SiO2.B2O3.TBA2O 겔을 건조시켜 얻은 무정형 분말을 수열합성 분위기에서 수증기를 쪼임으로써 펜타실 구조를 갖는 보로실리케이트 제올라이트를 합성하였다. 이때 MFI와 MEL 구조가 90:10의 비율을 혼합되어 있는 새로운 중간구조 물질이 얻어 졌다. 본 연구로부터, 젖어 있는 반응성 고체상 물질이 수증기와 높은 pH 분위기에서 결정화가 이루어짐을 확인하였다. X-선 회절법으로 분석한 결과 생성물은 우수한 결정성을 가질뿐만 아니라 독특한 촉매적 성질을 보일것으로 예상되는 구조를 갖는다. 또한 반전중심을 갖는 MFI 구조의 펜타실 층이 규칙적으로 쌓이는 모양을 보이지만 이는 MEL 구조의 거울상 층으로 이루어진 결함에 의해 방해된다. 생성물은 77 K 질소흡착법에 의하면 미세기공 부피가 0.160 cc/g 로서 순수한 MFI 구조 물질이 갖는 0.119 cc/g 보다 더 크며, 비교적 넓은 비표면적(~600 m2/g)을 보인다. 적외선 스펙트럼에서는 900.75 cm-1에서 흡수띠를 보이는데, 이는 붕소가 결정성 실리케이트의 사면체 구조내에 위치함을 뜻한다.

포만트 기반의 가우시안 분포를 가지는 필터뱅크를 이용한 멜-주파수 켑스트럴 계수 (Mel-Frequency Cepstral Coefficients Using Formants-Based Gaussian Distribution Filterbank)

  • 손영우;홍재근
    • 한국음향학회지
    • /
    • 제25권8호
    • /
    • pp.370-374
    • /
    • 2006
  • 음성인식의 특징벡터로서 멜-주파수 켑스트럴 계수 (MFCC, mel-frequency cepstral coefficients)가 가장 널리 사용되고 있다. FMCC 추출과정은 입력되는 음성신호를 푸리에 변환한 후, 주파수 대역별로 필터를 취하여 에너지 값을 구하고 이산 코사인 변환을 하여 그 계수 값을 구한다. 본 논문에서는 멜-스케일 된 주파수 대역필터를 취할 때 가중함수에 의해서 구해진 각 대역필터별 가중치를 적용하여 필터의 출력 에너지를 계산한다. 여기서 가중치를 구하기 위해 사용된 가중함수는 포만트가 존재하는 대역을 중심으로 인접한 대역들이 가우시안 분포를 가지는 함수이다. 제안한 방법으로 실험한 결과, 잡음이 거의 없는 음성신호에 대해서는 기존의 MFCC를 사용했을 때와 비슷한 인식률을 보이고 잡음성분이 많을수록 가중치가 적용된 방법이 인식률에서 보다 높은 성능 향상을 가져온다.

스펙트럼 분석과 신경망을 이용한 음성/음악 분류 (Speech/Music Discrimination Using Spectrum Analysis and Neural Network)

  • 금지수;임성길;이현수
    • 한국음향학회지
    • /
    • 제26권5호
    • /
    • pp.207-213
    • /
    • 2007
  • 본 연구에서는 스펙트럼 분석과 신경망을 이용한 효과적인 음성/음악 분류 방법을 제안한다. 제안하는 방법은 스펙트럼을 분석하여 스펙트럴 피크 트랙에서 지속성 특징 파라미터인 MSDF(Maximum Spectral Duration Feature)를 추출하고 기존의 특징 파라미터인 MFSC(Mel Frequency Spectral Coefficients)와 결합하여 음성/음악 분류기의 특징으로 사용한다. 그리고 신경망을 음성/음악 분류기로 사용하였으며, 제안하는 방법의 성능 평가를 위해 학습 패턴 선별과 양, 신경망 구성에 따른 다양한 성능 평가를 수행하였다. 음성/음악 분류 결과 기존의 방법에 비해 성능 향상과 학습 패턴의 선별과 모델 구성에 따른 안정성을 확인할 수 있었다. MSDF와 MFSC를 특징 파라미터로 사용하고 50초 이상의 학습 패턴을 사용할 때 음성에 대해서는 94.97%, 음악에 대해서는 92.38%의 분류율을 얻었으며, MFSC만 사용할 때보다 음성은 1.25%, 음악은 1.69%의 향상된 성능을 얻었다.