• Title/Summary/Keyword: 음성신호처리

Search Result 474, Processing Time 0.027 seconds

Noise Elimination Using Improved MFCC and Gaussian Noise Deviation Estimation

  • Sang-Yeob, Oh
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.1
    • /
    • pp.87-92
    • /
    • 2023
  • With the continuous development of the speech recognition system, the recognition rate for speech has developed rapidly, but it has a disadvantage in that it cannot accurately recognize the voice due to the noise generated by mixing various voices with the noise in the use environment. In order to increase the vocabulary recognition rate when processing speech with environmental noise, noise must be removed. Even in the existing HMM, CHMM, GMM, and DNN applied with AI models, unexpected noise occurs or quantization noise is basically added to the digital signal. When this happens, the source signal is altered or corrupted, which lowers the recognition rate. To solve this problem, each voice In order to efficiently extract the features of the speech signal for the frame, the MFCC was improved and processed. To remove the noise from the speech signal, the noise removal method using the Gaussian model applied noise deviation estimation was improved and applied. The performance evaluation of the proposed model was processed using a cross-correlation coefficient to evaluate the accuracy of speech. As a result of evaluating the recognition rate of the proposed method, it was confirmed that the difference in the average value of the correlation coefficient was improved by 0.53 dB.

A Study On the Pitch Extraction by the Spectrum Flattening in an Adaptive Sub-band using LSP (LSP를 이용한 적응 밴드 스펙트럼 평탄화에 의한 피치 검색 방법에 관한 연구)

  • Seo JiHo;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.105-106
    • /
    • 2004
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 피치검출이나 포만트검출은 매우 중요하다. 주파수 영역의 스펙트럼 신호는 잡음이 부가되는 경우에도 고조파정보와 포만트 포락선 정보를 유지하기 때문에 음성신호처리분야에서 매우 유용하다고 할 수 있다. 고조파 정보나 포만트 포락선 정보는 피치검출과 포만트 주파수 검출에 직접 이용된다 하지만 두 성분을 분리하는 방법에 따라 피치검출이나 포만트 주파수 검출에 영향을 미칠 수 있으므로 기존의 방법보다 두 성분을 더 잘 분리할 수 있는 방법이 필요한 것이다. 본 논문에서는 스펙트럼 신호를 최대한 평탄화시킴으로써 포만트의 영향을 제거하고 고조파 성분을 분리해 내어 이를 피치검출에 사용한다. LSP를 이용하여 적응적 밴드에서 평탄화를 시도하고 이를 피치 검출에 이용하였다.

  • PDF

A Study on the Analysis of the Audio DAC Performance (음성 DAC 의 성능 분석에 대한 고찰)

  • Sung, Kyunghun;Park, Seungsang;Nam, Wongtae;Go, Junghwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.484-485
    • /
    • 2018
  • DAC 는 디지털-아날로그 변환 회로는 디지털 전기 신호를 아날로그 전기 신호로 변환하는 전자 회로이다. 특히 최근 음성 신호는 그 효율성 및 경제성 때문에 디지털 데이터 형태로 저장/전송되고 있어 DAC 는 음성 관련 사업에서 필수적으로 쓰이고 있다. 본 논문은 음성 신호의 디지털-아날로그 변환 시 DAC 의 성능에 대한 분석 및 시험 결과를 소개한다.

An Implementation of Word Relay Game using Speech Recognition (음성인식 끝말 이어가기 게임의 구현)

  • 김동환;윤재선;홍광석
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.177-180
    • /
    • 2000
  • 최근에 음성인식의 상용화가 급격히 추진되고 있다. 그러나 음성인식 응용제품의 부족과 음성인식 시스템의 성능문제로 인하여 일반인의 이용은 그다지 많지 않다. 본 논문에서는 연구실에서 만든 가변 어휘 음성인식기를 이용하여 음성인식 끝말 이어가기 게임을 구현하였다. 가변어휘 음성 인식기는 VCCV(Vowel+consonant+Consonant+vowel) 기반의 화자독립으로 구현하였다. 끝말 이어가기 게임을 위해서 약 500만 어절이 포함된 문장에서 추출한 단어의 일부를 이용하여 사전을 구축하였고, 같은 음절로 시작하는 단어가 많은 경우에는 그 수를 제안하였다. 본 연구에서 구현한 음성인식 끝말 이어가기 게임은 제한된 단어사전을 이용하도록 하였으나 음성인식기의 성능향상과 완전한 사전구축이 이루어지면 음성인식을 이용한 언어 학습기나 게임 등의 개발과 이용의 활성화에 크게 기여할 것이라 생각된다.

  • PDF

On a Pitch Point Detection by Preserving the Phase Component of the Autocorrelation Function (자기상관함수에서 위상 성분의 보존에 의한 피치 시점 검출에 관한 연구)

  • 함명규;최성영;박종철;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.799-802
    • /
    • 2000
  • 음성신호처리 분야에서 음성신호의 기본 주파수를 정확히 검출 할 수 있다면 음성인식을 할 때 화자에 따른 영향을 줄일 수 있으므로 인식의 정확도를 높일 수 있고, 음성합성을 할 때 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 분석을 할 때 피치에 동기시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다. 위와 같은 피치검출의 중요성 때문에 피치검출에 대하여 다양한 방법 이 제안되었다〔1〕. 본 논문에서는 음성신호의 분석 시 불안정한 구간에 대해 피치 시점을 검출하는 방법을 연구하였다. 음성신호의 분석에 있어서 기존의 자기상관함수법(Autocorrelation Function)은 주기성을 강조할 수 있다는 장점을 가지고 있다. 그러나 자기상관함수는 위상성분을 보존하지 못한다는 단점을 가지고 있다. 따라서, 자기상관함수를 사용하면서 위상성분을 보존할 수 있는 알고리즘을 제안하고자 한다. 실험결과 피치시점을 수동으로 찾은 경우와 비교하였을 때 약 98% 정도의 정확도를 얻을 수 있었다. 위의 결과와 같이 위상 성분이 보존된 자기상관함수를 사용할 경우 음성합성, 코딩, 인식에서 유용하게 쓰일 수 있다.

  • PDF

On a pitch detection with spectrum compensation technique of speech signal (스펙트럼 보상에 의한 피치 검출에 관한 연구)

  • Ahn, Jung-Hyun;Bae, Myung-Jin
    • Proceedings of the IEEK Conference
    • /
    • 2006.06a
    • /
    • pp.401-402
    • /
    • 2006
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본주파수 즉, 피치를 정확히 검출하는 것은 중요하다. 그러나 포만트의 영향과 천이진폭의 영향 때문에 음성신호에서 피치를 정확히 구하는 것은 매우 어렵다. 더구나 노이즈가 포함된 신호에서는 더 더욱 어려워진다. 따라서 본 논문에서는 켑스트럼영역에서 포만트의 영향 을 제거하고 밴드 필터링 한 후 기본 피치 정보를 강조 보상하여 피치주기를 검출하는 방법을 새로이 제안한다.

  • PDF

Correlation Analysis of Between Spicy Food and Voice Signals (매운 음식과 음성신호와의 상관성 분석)

  • Kim, Bong-Hyun;Cho, Dong-Uk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.799-801
    • /
    • 2013
  • 최근 들어 봄과 가을이 짧아지고 여름이 길어지면서 매운 음식을 즐겨 먹는 현대인들이 증가하고 있다. 매운 음식은 더위 속에서 건강을 지키기 위해 만들어진 과학적인 음식으로 기후가 덥고 습한 환경에서 매운 음식으로 땀을 빼야 몸이 가뿐해진다고 알려져 있다. 따라서 본 논문에서는 매운 음식을 섭취함으로써 인체 기관에 미치는 기능적 변화를 음성신호 분석학적 방법의 적용으로 연구를 수행하였다. 이를 위해 20대 남성 15명을 대상으로 매운 음식을 섭취하기 전과 후의 음성을 수집하고 음성분석 요소를 적용한 실험을 수행하여 상호간의 비교, 분석을 통해 매운 음식과 음성신호 변화와의 상관성 분석을 수행하였다.

Inverse Rate Type Filtering for the Pitch Extraction (IRT Filtering 법에 의한 음성신호의 기본주파수 수출)

  • 배명수;안수길
    • The Journal of the Acoustical Society of Korea
    • /
    • v.5 no.3
    • /
    • pp.5-12
    • /
    • 1986
  • 음성 신호 처리분야에서 고속이며 정확히 기본 주파수를 추출하는 방법은 중요하며, 이를 위한 많은 연구가 제안되어 왔다. 이러한 방법들은 보통 성도의 방해를 제거한 후에 기본 주파수를 검출하기 때문에 지금까지는 처리과정이 복잡하다. 우리는 그러한 과정을 간단히 처리할 수 ldt는 inverse rate type filtering 법을 제안하였다. 제안된 방법은 유한 길이의 정수 계산이고 덧셈과 뺄셈으로 처리될 수 있기 때문에 범용 마이크로 컴퓨터에 의해서도 실시간 처리를 할 수 있게 된다.

  • PDF

A Study on Weighted Spectral Subtraction Using Adaptive Threshold In Car Noise Environment (차량내 잡음 환경에서 적응적 경계값을 이용한 가중치 주파수 차감에 관한 연구)

  • 전선도
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.185-188
    • /
    • 1998
  • 실제의 음성 인식 및 음성 통신 등의 음성 처리 시스템에서는 음성 신호를 손상시키는 배경 잡음 신호의 존재로 그 성능이 많이 저하된다. 특히 차량 내와 같은 잡음이 극심한 상황에서는 전처리 부분에서 이러한 잡음을 제거시켜 주어야한다. 본 연구는 자동차 내의 배경 잡음에 의해 손상된 음성에서 배경 잡음을 주파수 차감에 의하여 제거시킨다. 특히 음성 정보의 손실이 적은 잡음 추정 방법으로 가중치를 이용하여 잡음을 추정하는 가중치 주파수 차감법을 이용하였다. 이러한 가중치 주파수 차감법 사용의 전제 조건은 잡음의 변화가 완만한 경우에 적당하다. 그러나 실제적인 상황에서 배경잡음신호의 변화가 큰 경우가 존재한다. 이러한 이유에서 본 연구는 잡은 추정시 잡음 추정값을 이용하여 추정 잡음 경계값을 적응적으로 변화하는 차감법을 제안한다. 이러한 방법은 추정된 잡음 신호의 변화율을 이용하여 경계값을 상황에 따라 적응적으로 변화시키는 방법이다. 모의 실험에 의하여 고정적인 경계값을 갖는 가중치 주파수 차감법에 비해 제안한 적응적 경계값을 갖는 가중치 주파수 차감법의 출력 SNR이 증가함을 확인하였고, 음성 인식 시스템에 정용한 인식 실험에서도 성능이 향상됨을 확인하였다.

  • PDF

A Study on the Audio Compensation System (음향 보상 시스템에 관한 연구)

  • Jeoung, Byung-Chul;Won, Chung-Sang
    • The Journal of the Acoustical Society of Korea
    • /
    • v.32 no.6
    • /
    • pp.509-517
    • /
    • 2013
  • In this paper, we researched a method that makes a good acoustic-speech system using a digital signal processing technique with dynamic microphone as a transducer. Good acoustic-speech system should deliver the original sound input to electric signal without distortion. By measuring the frequency response of the microphone, adjustment factors are obtained by comparing measured data and standard frequency response of microphone for each frequency band. The final sound levels are obtained using the developed adjustment factors of frequency responses from the microphone and speaker to match the original sound levels using the digital signal processing technique. Then, we minimize the changes in the frequency response and level due to the variation of the distance from source to microphone, where the frequency responses were measured according to the distance changes.