• 제목/요약/키워드: 멜 스케일

검색결과 11건 처리시간 0.02초

포만트 기반의 가우시안 분포를 가지는 필터뱅크를 이용한 멜-주파수 켑스트럴 계수 (Mel-Frequency Cepstral Coefficients Using Formants-Based Gaussian Distribution Filterbank)

  • 손영우;홍재근
    • 한국음향학회지
    • /
    • 제25권8호
    • /
    • pp.370-374
    • /
    • 2006
  • 음성인식의 특징벡터로서 멜-주파수 켑스트럴 계수 (MFCC, mel-frequency cepstral coefficients)가 가장 널리 사용되고 있다. FMCC 추출과정은 입력되는 음성신호를 푸리에 변환한 후, 주파수 대역별로 필터를 취하여 에너지 값을 구하고 이산 코사인 변환을 하여 그 계수 값을 구한다. 본 논문에서는 멜-스케일 된 주파수 대역필터를 취할 때 가중함수에 의해서 구해진 각 대역필터별 가중치를 적용하여 필터의 출력 에너지를 계산한다. 여기서 가중치를 구하기 위해 사용된 가중함수는 포만트가 존재하는 대역을 중심으로 인접한 대역들이 가우시안 분포를 가지는 함수이다. 제안한 방법으로 실험한 결과, 잡음이 거의 없는 음성신호에 대해서는 기존의 MFCC를 사용했을 때와 비슷한 인식률을 보이고 잡음성분이 많을수록 가중치가 적용된 방법이 인식률에서 보다 높은 성능 향상을 가져온다.

LSP 파라미터 분포특성을 이용한 주파수대역 조절법에 관한 연구 (A Study on the Frequency Scaling Methods Using LSP Parameters Distribution Characteristics)

  • 민소연;배명진
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.304-309
    • /
    • 2002
  • LSP (Line Spectrum Pairs) 파라미터는 음성코덱 (codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC (Linear Predictive Coding) 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP변환 방법 중 음성 부호화기에서 주로 사용하는 실근 (real root)방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 기존의 실근 방법과 비교 평가한 알고리즘은 첫 번째 검색 대역에 멜 스케일 (met scale)을 사용하였고, 두 번째는 LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검색구간의 순서와 검색간격을 달리 하였다. 실험결과, 기존의 실근 방식에 비하여 두 가지 방식 모두가 변환시간의 47% 이상이 감소되는데 반하여 동일한 근을 찾음을 알 수가 있었다.

차량 잡음 환경에서 엔트로피 기반의 음성 구간 검출 (Voice Activity Detection Based on Entropy in Noisy Car Environment)

  • 노용완;이규범;이우석;홍광석
    • 융합신호처리학회논문지
    • /
    • 제9권2호
    • /
    • pp.121-128
    • /
    • 2008
  • 정확한 음성 구간 검출은 음성 인식 및 음성 코딩 그리고 음성 통신 시스템 등과 같은 음성 어플리케이션의 성능에 큰 영향을 미친다. 본 논문에서는 실제 운전하고 있는 상태에서 다양한 차량 노이즈 환경의 음성 구간 검출 방법을 제안한다. 기존의 음성 구간 검출은 시간 에너지, 주파수 에너지, 영 교차율, spectral entropy 등 다양한 방법을 사용하였으며 잡음 환경에서 급격하게 성능이 저하되는 단점이 있었다. 본 논문에서는 기존의 spectral entropy를 기반으로 하여 MFB(Mel-frequency Filter Banks) spectral entropy, 기울기 FFT(Fast Fourier Transform) spectral entropy, 기울기 MFB spectral entropy를 이용한 음성 구간 검출 방법을 제안한다. MFB는 멜 스케일과 FFT를 곱한 것으로 멜 스케일은 인간이 소리를 인지할 때 주파수에 대해 비선형적인 스케일이며 음성의 특징을 잘 반영한다. 제안한 MFB spectral entropy 방법은 다양한 차량 잡음 환경에서 음성 및 비음성 분별 능력을 향상시킬 수 있으며 실험 결과 93.21%의 음성 구간 검출율을 나타내었다. 이는 기존의 spectral entropy 방법과 비교할 때 MFB를 이용한 음성 구간 검출 방법이 3.2%의 검출율이 향상되었다.

  • PDF

청각 장애인용 홈 모니터링 시스템을 위한 다채널 다중 스케일 신경망 기반의 사운드 이벤트 검출 (Sound event detection based on multi-channel multi-scale neural networks for home monitoring system used by the hard-of-hearing)

  • 이기용;김형국
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.600-605
    • /
    • 2020
  • 본 논문에서는 청각 장애인을 위한 소리 감지 홈 모니터링을 위해 다채널 다중 스케일 신경망을 사용한 사운드 이벤트 검출 방식을 제안한다. 제안하는 시스템에서는 홈 내의 여러 무선 마이크 센서들로부터 높은 신호 품질을 갖는 두 개의 채널을 선택하고, 그 신호들로부터 도착신호 지연시간, 피치 범위, 그리고 다중 스케일 합성 곱 신경망을 로그멜 스펙트로그램에 적용하여 추출한 특징들을 양방향 게이트 순환 신경망 기반의 분류기에 적용함으로써 사운드 이벤트 검출의 성능을 더욱 향상시킨다. 검출된 사운드 이벤트 결과는 선택된 채널의 센서 위치와 함께 텍스트로 변환되어 청각 장애인에게 제공된다. 실험결과는 제안한 시스템의 사운드 이벤트 검출 방식이 기존 방식보다 우수하며 청각 장애인에게 효과적으로 사운드 정보를 전달할 수 있음을 보인다.

변형된 Wavelet 변환을 이용한 한국어 숫자음 인식에 관한 연구 (Isolated Korean Digits Recognition Using Modified Wavelet Transform)

  • 지상문
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.113-116
    • /
    • 1993
  • 본 논문에서는 변형된 wavelet 변환을 통해 추출한 특징벡터를 이용하여 한국어 숫자음을 대상으로 한 음성인식기를 구현하였다. wavelet 변환은 시간 및 주파수 영역에 대해 다중해상도(multiresolution)를 가지는 신호분석법이다. 본 연구에서는 계산량의 감소와 넓은 주파수 대역을 분석하기 위해, mother wavelet의 형태를 분석 주파수 대역에 따라 변화시키는 방법을 제안하였다. 기존의 wavelet 변환으로 실험한 결과 86.5%의 인식율을 얻었고, 변형된 wavelet 변환의 경우 96%의 인식율을 얻었으며 계산량이 감소하였다. 이와 함께 음성인식에서 널리 사용되는 특징 파라미터인 멜켑스트럼과 FFT 멜스케일 필터 대역(mel scale filter bank)과 비교 실험한 결과 인식율의 향상을 보였다. 이는 제안한 방법이 고주파 대역의 세밀한 시간 해상도와 저주파 대역의 세밀한 주파수 해상도를 지니는데 기인하는 것으로 판단된다.

  • PDF

LSP 변환 알고리즘들의 비교 평가에 관한 연구 (A Study on the Parameter Extraction for Performance Comparison of LSP transformation Time)

  • 임지선
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.249-252
    • /
    • 2010
  • LPC 계수를 LSP 변환하는 방법에는 복소근, 실근, 비율 필터, 체비셰프 급수, 적응적 순차형 최소제곱 평균 방법(adaptive sequential LMS) 등이 있다. 이 방법들 중 음성 부호화기에서 주로 사용하는 실근 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서는 LPC에서 LSP로 변환하는 4가지 고속 알고리즘을 제안한다. 첫 번째 방식에서는 검색간격에 멜 스케일을 적용하였고, 두 번째는 홀수번째 LSP 파라미터의 분포도를 이용하여 검색순서를 조정한 방법이다. 세 번째 방식과 네 번째 방식에서는 각각, 모음 특성, LSP 분포특성과 해상도를 이용하여 계산시간을 단축하였다. LSP 변환시간은 4가지 방법 모두 35~50% 단축되었다. 또한 실험결과에서는 각 알고리즘의 고유한 특성에 대하여 분석한다.

  • PDF

음성인식 시스템에서의 음소분할기의 성능 (Performance of the Phoneme Segmenter in Speech Recognition System)

  • 이광석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.705-708
    • /
    • 2009
  • 본 연구는 자연음성의 인식을 위하여 신경회로망을 기초로 한 음소 분할기에 대하여 기술하였다. 자연음성의 인식을 위한 음소 분할기의 입력으로는 16차 멜 스케일의 FFT, 정규화된 프레임 에너지, 0~3[KHz] 주파수 대역 및 그 이상의 대역에서의 에너지 비를 사용하였다. 모든 특징들은 두개의 연속적인 10[msec] 프레임의 차이며, 본 연구에 사용한 음소분할기는 하나의 72입력을 가지는 은닉층 퍼셉트론, 20은닉노드 및 하나의 출력노드로 구성하여 사용하였다. 자연음성에 대한 음소분할의 정확도는 7.8%삽입을 가지는 78%를 얻을 수 있었다.

  • PDF

DHMM 음성 인식 시스템을 위한 양자화 기반의 화자 정규화 (Quantization Based Speaker Normalization for DHMM Speech Recognition System)

  • 신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.299-307
    • /
    • 2003
  • 화자독립 음성인식기에서 화자사이의 성도 길이의 영향을 최소화시켜 인식 성능을 개선하는 화자 정규화에 대한 많은 연구가 있어 왔다. 본 연구에서는 벡터양자화기를 이용하여 화자 검증이 가능하다는 사실에 착안하여 벡터 양자화기를 이용한 비교적 간단한 선형 워핑 화자정규화방법을 제안한다. 제안하는 방법에서는 먼저 정규화에 이용될 최적의 코드북을 생성한 다음, 이 코드 북을 이용하여 화자의 선형 워핑계수를 추출하고 추출된 워핑계수는 멜 켑스트럼 추출시에 사용되는 멜스케일 필터뱅크를 워핑하기 위해 이용된다. 본고에서 제안한 워핑계수 추출 및 적용 방법의 성능을 확인하기 위해 이산 HMM을 이용한 13가지의 단음절 한글 숫자음 인식기를 이용하여 인식실험을 수행하였으며, 실험 결과 약 29%의 오인식률 감소를 보여 제안하는 화자 정규화방법이 다른 라인서치 워핑계수추출 방법보다 간단한 동시에 효용가치가 있음을 확인하였다.

깊은 신경망을 이용한 오디오 이벤트 검출 (Audio Event Detection Using Deep Neural Networks)

  • 임민규;이동현;박호성;김지환
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권1호
    • /
    • pp.183-190
    • /
    • 2017
  • 본 논문에서는 깊은 신경망을 이용한 오디오 이벤트 검출 방법을 제안한다. 오디오 입력의 매 프레임에 대한 오디오 이벤트 확률을 feed-forward 신경망을 적용하여 생성한다. 매 프레임에 대하여 멜 스케일 필터 뱅크 특징을 추출한 후, 해당 프레임의 전후 프레임으로부터의 특징벡터들을 하나의 특징벡터로 결합하고 이를 feed-forward 신경망의 입력으로 사용한다. 깊은 신경망의 출력층은 입력 프레임 특징값에 대한 오디오 이벤트 확률값을 나타낸다. 연속된 5개 이상의 프레임에서의 이벤트 확률값이 임계값을 넘을 경우 해당 구간이 오디오 이벤트로 검출된다. 검출된 오디오 이벤트는 1초 이내에 동일 이벤트로 검출되는 동안 하나의 오디오 이벤트로 유지된다. 제안된 방법으로 구현된 오디오 이벤트 검출기는 UrbanSound8K와 BBC Sound FX자료에서의 20개 오디오 이벤트에 대하여 71.8%의 검출 정확도를 보였다.

이동통신용 음성부호화기에서의 LSP 계산시간 감소에 관한 연구 (A Study on the Reduction of LSP(Line Spectrum Pair) Transformation Time in Speech Coder for CDMA Digital Cellular System)

  • 민소연
    • 한국산학기술학회논문지
    • /
    • 제8권3호
    • /
    • pp.563-568
    • /
    • 2007
  • 본 논문에서는 EVRC 시스템에 사용되어지는 실근 방식의 계산량 감소 알고리즘을 치안한다. 실근 방법에서는 다항식에서의 근을 구하여 LSP로 변환하는 과정이 필요하다. 그러나, 근을 구하는 과정에서 주파수 대역을 순차적으로 검색하므로 계산시간이 많이 소요된다. LSP 파라미터의 중요한 특징은 대부분의 계수가 특정 주파수 대역에 주로 분포한다는 것이다. 그러므로, 본 논문에서는 실근 방식에서의 계산시간을 줄이기 위하여 1KHz 대역까지는 선형적이고 1KHz 대역 이상에서는 로그 스케일인 멜 스케일을 사용하였다. 실근 방식과 제안한 방법을 비교하기 위하여 두 가지를 측정하였다. 첫째, 제안한 방법에서의 LSP 파라미터의 값과 실근방식에서의 LSP 파라미터 값을 비교하였다. 둘째, 계산 시간 감소율을 측정하였다. 실험결과, LSP 파라미터의 값은 변화하지 않았으며 계산량은 약 48% 정도 감소하였다.

  • PDF