• 제목/요약/키워드: 멜 스펙트럼

검색결과 14건 처리시간 0.023초

한국어 음성의 스펙트럼 변화에 관한 연구 (A Study on the Spectrum Variation of Korean Speech)

  • 이수길;송정영
    • 인터넷정보학회논문지
    • /
    • 제6권6호
    • /
    • pp.179-186
    • /
    • 2005
  • 음성학에서 음성이 가지고 있는 주파수 특성을 이용하여 스펙트럼을 추출할 수 있고 이를 이용하여 음성을 분석할 수 있다. 그러나 음성의 스펙트럼은 단모음의 경우 어느 정도 일정한 형태를 유지하지만 음절. 단어 등과 같이 자음과 모음이 서로 결합되었을 때는 상당한 변화가 발생된다. 이는 음소단위 음성인식에 있어서 가장 큰 장애가 되고 있다. 본 논문에서는 주파수 영역과 청각적 인상을 고려한 멜 대역 그리고 멜 켑스트럼을 이용하여 각 자음과 모음이 가지고 있는 스펙트럼을 분석하고, 청각적 특성을 반영한 음성의 변화를 체계화하여 음성을 음소단위로 분할할 수 있는 기반을 제공한다.

  • PDF

잡음에 강한 특징 벡터 및 스펙트럼 차감법을 이용한 음성 인식 (Speech Recognition Using Noise Robust Features and Spectral Subtraction)

  • 신원호;양태영;김원구;윤대희;서영주
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.38-43
    • /
    • 1996
  • 본 논문에서는 잡음 및 주변 환경에 강인한 것으로 알려져 있는 특징 벡터들을 이용한 인식 성능을 비교하였다. 아울러 스펙트럼 차감법을 적용하여 높은 인식 성능을 얻도록 하였다. 본 논문에서는 환경 변화에 강인한 인식 성능을 얻기 위하여 SMC(Short time Modified Coherence) 분석, 루트(root) 켑스트럼 분석, LDA(Linear Discriminant Analysis), PLP(Perceptual Linear Prediction), RASTA(RelAtive SpecTrAl) 처리 등을 이용하여 인식 실험을 수행하였다. 실험을 위하여 반연속 HMM을 이용한 단독음 인식 시스템을 구현하였고 전시장 및 컴퓨터실의 잡음을 첨가하여 0, 10 및 20dB의 SNR에 대한 인식 실험을 수행하였다. 실험 결과, LPCC(Linear Prediction Cepstral Coefficient)를 이용한 경우에 비하여 SMC나 루트처리를 이용한 멜 켑스트럼(루트_멜 켑스트럼)을 이용한 경우 10dB의 SNR에서 각각 9.86%, 12.68% 향상된 가장 좋은 인식률을 얻었다. 또한 멜 켑스트럼과 루트_멜 켑스트럼을 스펙트럼 차감법과 결합하여 잡음을 제거한 경우 10dB에서 각각 16.7%, 8.4% 향상된 94.91%, 94.28%의 인식률을 얻을 수 있었다.

  • PDF

스펙트럼 대비 MFCC 특징의 음악 장르 분류 성능 분석 (Study on the Performance of Spectral Contrast MFCC for Musical Genre Classification)

  • 서진수
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.265-269
    • /
    • 2010
  • 본 논문에서는 새로운 형태의 스펙트럼 특징인 스펙트럼 대비 MFCC (SCMFCC)를 제안하고 음악 장르 분류 성능을 분석하였다. 음악 장르 분류를 위해서는 장르 간의 차이를 두드러지게 할 수 있는 특징을 사용해야 하므로, 음악의 화음 구조 및 강약을 잘 표현하는 스펙트럼 대비 특징들이 관심을 받아왔다. 본 논문에서 제안된 SCMFCC는 멜 켑스트럼 상에서 스펙트럼의 대비를 이용하여 기존의 MFCC를 음악 분류에 적합하도록 변형했다. 널리 사용되고 있는 음악 장르 데이터베이스에서 실험을 수행하여, 제안된 SCMFCC 특징의 음악 장르 분류 성능을 기존의 다른 특징들과 비교하였다.

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

시간 축 주의집중 기반 동물 울음소리 분류 (Temporal attention based animal sound classification)

  • 김정민;이영로;김동현;고한석
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.406-413
    • /
    • 2020
  • 본 논문에서는 조류와 양서류 울음소리의 구별 정확도를 높이기 위해 게이트 선형유닛과 자가주의 집중 모듈을 활용해서 데이터의 중요한 부분을 중심으로 특징 추출 및 데이터 프레임의 중요도를 판별해 구별 정확도를 높인다. 이를 위해 먼저 1차원의 음향 데이터를 로그 멜 스펙트럼으로 변환한다. 로그 멜 스펙트럼에서 배경잡음같이 중요하지 않은 정보는 게이트 선형유닛을 거쳐 제거한다. 그러고 난 뒤 시간 축에 자가주의집중기법을 적용해 구별 정확도를 높인다. 사용한 데이터는 자연환경에서 멸종위기종을 포함한 조류 6종의 울음소리와 양서류 8종의 울음소리로 구성했다. 그 결과, 게이트 선형유닛 알고리즘과 시간 축에서 자가주의집중을 적용한 구조의 평균 정확도는 조류를 구분했을 때 91 %, 양서류를 구분했을 때 93 %의 분류율을 보였다. 또한, 기존 알고리즘보다 약 6 % ~ 7 % 향상된 정확도를 보이는 것을 확인했다.

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.55-63
    • /
    • 2020
  • 음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.

다중 주파수 대역 convolutional neural network 기반 지진 신호 검출 기법 (Earthquake detection based on convolutional neural network using multi-band frequency signals)

  • 김승일;김동현;신현학;구본화;고한석
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.23-29
    • /
    • 2019
  • 본 논문에서는 국내에서 발생한 지진 신호를 검출 및 식별하기 위한 방법을 다루었다. 국내에서 발생한 지진 신호들을 분석해 본 결과 서로 다른 주파수 대역 신호의 특징들이 각각 분류를 위한 특징으로 적절함을 확인할 수 있었다. 이러한 분석 결과를 바탕으로 지진 신호에서 추출한 다중 주파수 대역 특징을 기반으로 하는 CNN(Convolutional Neural Network) 기법에 대해서 제안하였다. 제안하는 다중 주파수 대역 CNN 기법은 지진 신호에서 추출한 멜 스펙트럼에 대해서 각각 필터를 적용하여 서로 다른 주파수 대역(저/중/고 주파수)의 신호를 추출하였다. 추출된 신호들을 바탕으로 각각 CNN 기반 분류를 수행하였고, 수행된 결과를 융합하여 최종적으로 지진 이벤트에 대해 식별하였다. 2018년 동안 대한민국에서 발생한 실제 지진데이터를 기반으로 하는 실험을 통해 제안하는 기법에 대한 효용성을 검증하였다.

Matrix Factorization을 이용한 음성 특징 파라미터 추출 및 인식 (Feature Parameter Extraction and Speech Recognition Using Matrix Factorization)

  • 이광석;허강인
    • 한국정보통신학회논문지
    • /
    • 제10권7호
    • /
    • pp.1307-1311
    • /
    • 2006
  • 본 연구에서는 행렬 분해 (Matrix Factorization)를 이용하여 음성 스펙트럼의 부분적 특정을 나타낼 수 있는 새로운 음성 파라마터를 제안한다. 제안된 파라미터는 행렬내의 모든 원소가 음수가 아니라는 조건에서 행렬분해 과정을 거치게 되고 고차원의 데이터가 효과적으로 축소되어 나타남을 알 수 있다. 차원 축소된 데이터는 입력 데이터의 부분적인 특성을 표현한다. 음성 특징 추출 과정에서 일반적으로 사용되는 멜 필터뱅크 (Mel-Filter Bank)의 출력 을 Non-Negative 행렬 분해(NMF:Non-Negative Matrix Factorization) 알고리즘의 입 력으로 사용하고, 알고리즘을 통해 차원 축소된 데이터를 음성인식기의 입력으로 사용하여 멜 주파수 캡스트럼 계수 (MFCC: Mel Frequency Cepstral Coefficient)의 인식결과와 비교해 보았다. 인식결과를 통하여 일반적으로 음성인식기의 성능평가를 위해 사용되는 MFCC에 비하여 제안된 특정 파라미터가 인식 성능이 뛰어남을 알 수 있었다.

화자 정규화를 위한 새로운 파워 스펙트럼 Warping 방법 (A New Power Spectrum Warping Approach to Speaker Warping)

  • 유일수;김동주;노용완;홍광석
    • 대한전자공학회논문지SP
    • /
    • 제41권4호
    • /
    • pp.103-111
    • /
    • 2004
  • 화자 정규화 방법은 화자 독립 음성인식 시스템에서 음성 인식의 정확성을 높이기 위한 성공적인 방법으로 알려져 왔다. 널리 사용되는 화자 정규화 방법은 maximum likelihood 반의 주파수 warping 방법이다. 본 논문은 주파수 warping 보다 더 좋은 화자 정규화의 성능 개선을 위해 새로운 파워 스펙트럼 warping 방법을 제안한다. 파워 스펙트럼 warping은 멜 주파수 켑스트럼 분석(MFCC) 방법을 이용하며, MFCC 처리 단계에서 필터 뱅크의 파워 스펙트럼을 조절함으로써 화자 정규화를 수행하는 간단한 메커니즘으로 갖는다. 또한 본 논문은 파워 스펙트럼 warping과 주파수 warping 방법을 서로 결합한 hybrid VTN 방법을 제안한다. 본 논문의 실험은 baseline 시스템에 각 화자 정규화 방법을 적용하여 SKKU PBW DB에서 인식 성능을 비교 분석하였다. 실험 결과를 보면 baseline 시스템의 단어 인식 성능을 기준으로 주파수 warping은 2.06%, 파워 스펙트럼 warping은 3.05%, 그리고 hybrid VTN은 4.07%의 단어 에러 율의 감소를 보였다.

잡음 환경에서의 유도 전동기 고장 검출 및 분류를 위한 강인한 특징 벡터 추출에 관한 연구 (A Study on Robust Feature Vector Extraction for Fault Detection and Classification of Induction Motor in Noise Circumstance)

  • 황철희;강명수;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.187-196
    • /
    • 2011
  • 유도 전동기는 항공 산업, 자동차 산업 등의 산업 현장에서 중요한 역할을 하고 있으며, 이러한 유도 전동기의 고장으로 인한 피해를 최소화하기 위해 유도 전동기의 고장 검출 및 분류 시스템의 개발이 중요한 문제로 대두되고 있다. 이에 본 논문에서는 정상 및 각종 비정상 상태의 유도 전동기 진동 신호에 대해 부분 자기 상관(partial autocorrelation, PARCOR) 계수, 로그 스펙트럼 파워(log spectrum powers, LSP), 캡스트럼 계수의 평균값(cepstrum coefficients mean, CCM), 멜 주파수 캡스트럼 계수(mel-frequency cepstrum coefficient, MFCC)의 네 가지 특징 벡터를 신경 회로망의 입력으로 사용하여 유도 전동기의 고장을 검출하고 분류하였다. 고장 분류를 위한 최적의 특징 벡터를 찾기 위해 추출하는 특징의 수를 2에서 20으로 바꾸어 가며 분류 성능을 평가한 결과 CCM을 제외한 나머지의 경우 5~6의 특징만으로 분류 정확도가 거의 100%에 가까운 결과를 보였다. 또한 본 논문에서는 실제 산업 현장에서 진동 신호 취득 시 포함될 수 있는 잡음을 고려하여 취득한 신호에 백색 잡음(white Gaussian noise)을 인위적으로 추가하여 실험한 결과 LSP, PARCOR, MFCC 순으로 잡음 환경에 강인한 특징 벡터임을 확인할 수 있었다.