• 제목/요약/키워드: Mel scale

검색결과 32건 처리시간 0.028초

변형된 Wavelet 변환을 이용한 한국어 숫자음 인식에 관한 연구 (Isolated Korean Digits Recognition Using Modified Wavelet Transform)

  • 지상문
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.113-116
    • /
    • 1993
  • 본 논문에서는 변형된 wavelet 변환을 통해 추출한 특징벡터를 이용하여 한국어 숫자음을 대상으로 한 음성인식기를 구현하였다. wavelet 변환은 시간 및 주파수 영역에 대해 다중해상도(multiresolution)를 가지는 신호분석법이다. 본 연구에서는 계산량의 감소와 넓은 주파수 대역을 분석하기 위해, mother wavelet의 형태를 분석 주파수 대역에 따라 변화시키는 방법을 제안하였다. 기존의 wavelet 변환으로 실험한 결과 86.5%의 인식율을 얻었고, 변형된 wavelet 변환의 경우 96%의 인식율을 얻었으며 계산량이 감소하였다. 이와 함께 음성인식에서 널리 사용되는 특징 파라미터인 멜켑스트럼과 FFT 멜스케일 필터 대역(mel scale filter bank)과 비교 실험한 결과 인식율의 향상을 보였다. 이는 제안한 방법이 고주파 대역의 세밀한 시간 해상도와 저주파 대역의 세밀한 주파수 해상도를 지니는데 기인하는 것으로 판단된다.

  • PDF

Frequency Scaling을 통한 LSP 파라미터 Fitting에 관한 연구 (A Study on the Fitting of LSP(Line Spectrum Pairs) Parameter using Frequency Scaling)

  • 민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.801-804
    • /
    • 2001
  • LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성 신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다[1]. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 비교 평가한 알고리즘은 첫 번째, 기존의 real root 알고리즘, 두 번째는, LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검객구간의 순서와 검색간격을 달리한 경우, 세 번째는 검색 시 mel scale을 사용한 알고리즘이다. 실험결과, 기존의 real root 방식에 비하여 두 가지 방식 모두가 변환시간의 40% 이상이 감소되는데 반하여 통일한 관을 찾음을 알 수가 있었고, 특히 분포특성을 이용하여 검색순서와 간격조절을 한 경우에 있어서, 기존의 방식보다 40%이상이 감소되었다.

  • PDF

각국 언어 특성에 독립적인 CELP 계열 보코더에서의 계산량 단축 알고리즘 (The Computation Reduction Algorithm Independent of the Language for CELP Vocoders)

  • 주상규
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.257-260
    • /
    • 2010
  • In this paper, we propose the computation reduction methods of LSP(Line spectrum pairs) transformation that is mainly used in CELP vocoders. In order to decrease the computational time in real root method the characteristic of four proposed algorithms is as the following. First, scheme to reduce the LSP transformation time uses mel scale. Developed the second scheme is the control of searching order by the distribution characteristic of LSP parameters. Third, scheme to reduce the LSP transformation time uses voice characteristics. Developed the fourth scheme is the control of searching interval and order by the distribution characteristic of LSP parameters. As a result of searching time, computational amount, transformed LSP parameters, SNR, MOS test, waveform of synthesized speech, spectrogram analysis, searching time is reduced about 37.5%, 46.21%, 46.3%, 51.29% in average, computational amount is reduced about 44.76%, 49.44%, 47.03%, 57.40%. But the transformed LSP parameters of the proposed methods were the same as those of real root method.

  • PDF

청각 장애인용 홈 모니터링 시스템을 위한 다채널 다중 스케일 신경망 기반의 사운드 이벤트 검출 (Sound event detection based on multi-channel multi-scale neural networks for home monitoring system used by the hard-of-hearing)

  • 이기용;김형국
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.600-605
    • /
    • 2020
  • 본 논문에서는 청각 장애인을 위한 소리 감지 홈 모니터링을 위해 다채널 다중 스케일 신경망을 사용한 사운드 이벤트 검출 방식을 제안한다. 제안하는 시스템에서는 홈 내의 여러 무선 마이크 센서들로부터 높은 신호 품질을 갖는 두 개의 채널을 선택하고, 그 신호들로부터 도착신호 지연시간, 피치 범위, 그리고 다중 스케일 합성 곱 신경망을 로그멜 스펙트로그램에 적용하여 추출한 특징들을 양방향 게이트 순환 신경망 기반의 분류기에 적용함으로써 사운드 이벤트 검출의 성능을 더욱 향상시킨다. 검출된 사운드 이벤트 결과는 선택된 채널의 센서 위치와 함께 텍스트로 변환되어 청각 장애인에게 제공된다. 실험결과는 제안한 시스템의 사운드 이벤트 검출 방식이 기존 방식보다 우수하며 청각 장애인에게 효과적으로 사운드 정보를 전달할 수 있음을 보인다.

LSP 파라미터 분포특성을 이용한 주파수대역 조절법에 관한 연구 (A Study on the Frequency Scaling Methods Using LSP Parameters Distribution Characteristics)

  • 민소연;배명진
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.304-309
    • /
    • 2002
  • LSP (Line Spectrum Pairs) 파라미터는 음성코덱 (codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC (Linear Predictive Coding) 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP변환 방법 중 음성 부호화기에서 주로 사용하는 실근 (real root)방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 기존의 실근 방법과 비교 평가한 알고리즘은 첫 번째 검색 대역에 멜 스케일 (met scale)을 사용하였고, 두 번째는 LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검색구간의 순서와 검색간격을 달리 하였다. 실험결과, 기존의 실근 방식에 비하여 두 가지 방식 모두가 변환시간의 47% 이상이 감소되는데 반하여 동일한 근을 찾음을 알 수가 있었다.

Convolutional Neural Network based Audio Event Classification

  • Lim, Minkyu;Lee, Donghyun;Park, Hosung;Kang, Yoseb;Oh, Junseok;Park, Jeong-Sik;Jang, Gil-Jin;Kim, Ji-Hwan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권6호
    • /
    • pp.2748-2760
    • /
    • 2018
  • This paper proposes an audio event classification method based on convolutional neural networks (CNNs). CNN has great advantages of distinguishing complex shapes of image. Proposed system uses the features of audio sound as an input image of CNN. Mel scale filter bank features are extracted from each frame, then the features are concatenated over 40 consecutive frames and as a result, the concatenated frames are regarded as an input image. The output layer of CNN generates probabilities of audio event (e.g. dogs bark, siren, forest). The event probabilities for all images in an audio segment are accumulated, then the audio event having the highest accumulated probability is determined to be the classification result. This proposed method classified thirty audio events with the accuracy of 81.5% for the UrbanSound8K, BBC Sound FX, DCASE2016, and FREESOUND dataset.

A New Endpoint Detection Method Based on Chaotic System Features for Digital Isolated Word Recognition System

  • 장한;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.37-39
    • /
    • 2009
  • In the research of speech recognition, locating the beginning and end of a speech utterance in a background of noise is of great importance. Since the background noise presenting to record will introduce disturbance while we just want to get the stationary parameters to represent the corresponding speech section, in particular, a major source of error in automatic recognition system of isolated words is the inaccurate detection of beginning and ending boundaries of test and reference templates, thus we must find potent method to remove the unnecessary regions of a speech signal. The conventional methods for speech endpoint detection are based on two simple time-domain measurements - short-time energy, and short-time zero-crossing rate, which couldn't guarantee the precise results if in the low signal-to-noise ratio environments. This paper proposes a novel approach that finds the Lyapunov exponent of time-domain waveform. This proposed method has no use for obtaining the frequency-domain parameters for endpoint detection process, e.g. Mel-Scale Features, which have been introduced in other paper. Comparing with the conventional methods based on short-time energy and short-time zero-crossing rate, the novel approach based on time-domain Lyapunov Exponents(LEs) is low complexity and suitable for Digital Isolated Word Recognition System.

  • PDF

빔포밍 및 DOA 기반의 마스킹을 이용한 2채널 잡음제거 (Two-Channel Noise Reduction Using Beamforming and DOA-Based Masking)

  • 김영일;정상배
    • 한국정보통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.32-40
    • /
    • 2013
  • 본 논문에서는 빔포밍과 입사각분석 기반 마스킹을 이용한 다채널 음성개선 알고리즘이 제안된다. 제안된 알고리즘에서는 LCMV 빔포밍을 수행한 후에 입사각 분석을 이용한 멜-주파수 위너필터가 적용되어 잔존하는 잡음을 제거한다. 성능 향상을 위해서 빔포밍의 적응 필터 학습률과 목표 음성 스펙트럼 검출을 위한 입사각 임계치가 최적화된다. 성능 지수로서 PESQ와 출력 SNR이 측정되었으며 실험 결과 제안한 알고리즘이 종전의 최소분산 빔포밍 기법보다 PESQ 관점에서 0.09, 출력 SNR 관점에서 5.75 dB의 성능 향상시킴을 알 수 있었다.

이동통신용 음성부호화기에서의 LSP 계산시간 감소에 관한 연구 (A Study on the Reduction of LSP(Line Spectrum Pair) Transformation Time in Speech Coder for CDMA Digital Cellular System)

  • 민소연
    • 한국산학기술학회논문지
    • /
    • 제8권3호
    • /
    • pp.563-568
    • /
    • 2007
  • 본 논문에서는 EVRC 시스템에 사용되어지는 실근 방식의 계산량 감소 알고리즘을 치안한다. 실근 방법에서는 다항식에서의 근을 구하여 LSP로 변환하는 과정이 필요하다. 그러나, 근을 구하는 과정에서 주파수 대역을 순차적으로 검색하므로 계산시간이 많이 소요된다. LSP 파라미터의 중요한 특징은 대부분의 계수가 특정 주파수 대역에 주로 분포한다는 것이다. 그러므로, 본 논문에서는 실근 방식에서의 계산시간을 줄이기 위하여 1KHz 대역까지는 선형적이고 1KHz 대역 이상에서는 로그 스케일인 멜 스케일을 사용하였다. 실근 방식과 제안한 방법을 비교하기 위하여 두 가지를 측정하였다. 첫째, 제안한 방법에서의 LSP 파라미터의 값과 실근방식에서의 LSP 파라미터 값을 비교하였다. 둘째, 계산 시간 감소율을 측정하였다. 실험결과, LSP 파라미터의 값은 변화하지 않았으며 계산량은 약 48% 정도 감소하였다.

  • PDF

깊은 신경망을 이용한 오디오 이벤트 검출 (Audio Event Detection Using Deep Neural Networks)

  • 임민규;이동현;박호성;김지환
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권1호
    • /
    • pp.183-190
    • /
    • 2017
  • 본 논문에서는 깊은 신경망을 이용한 오디오 이벤트 검출 방법을 제안한다. 오디오 입력의 매 프레임에 대한 오디오 이벤트 확률을 feed-forward 신경망을 적용하여 생성한다. 매 프레임에 대하여 멜 스케일 필터 뱅크 특징을 추출한 후, 해당 프레임의 전후 프레임으로부터의 특징벡터들을 하나의 특징벡터로 결합하고 이를 feed-forward 신경망의 입력으로 사용한다. 깊은 신경망의 출력층은 입력 프레임 특징값에 대한 오디오 이벤트 확률값을 나타낸다. 연속된 5개 이상의 프레임에서의 이벤트 확률값이 임계값을 넘을 경우 해당 구간이 오디오 이벤트로 검출된다. 검출된 오디오 이벤트는 1초 이내에 동일 이벤트로 검출되는 동안 하나의 오디오 이벤트로 유지된다. 제안된 방법으로 구현된 오디오 이벤트 검출기는 UrbanSound8K와 BBC Sound FX자료에서의 20개 오디오 이벤트에 대하여 71.8%의 검출 정확도를 보였다.