• 제목/요약/키워드: speech signal

검색결과 1,175건 처리시간 0.022초

청각 장애인을 위한 음성 신호의 자극패턴 추출에 관한 연구 (A Research on Speech Processing and Coding Strategy for Cochlear Implants)

  • 채대곤;변정근;최두일;백승화;박상희
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1993년도 추계학술대회
    • /
    • pp.175-179
    • /
    • 1993
  • A Study on the speech processing and coding strategy for cochlear implants have been developed to create a speech signal processing system which extracts stimulus parameter including formants, pitch, amplitude information. In this study we have presented the method which extracts characteristic information of speech signal and adapt patients with hearing handicap.

  • PDF

스펙트럼 변이를 이용한 Soft Decision 기반의 음성향상 기법 (Robust Speech Enhancement Based on Soft Decision Employing Spectral Deviation)

  • 최재훈;장준혁;김남수
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.222-228
    • /
    • 2010
  • 본 논문에서는 비정상적인 배경 잡음 환경에서 음성향상을 위한 신호의 스펙트럼 변이 (Spectral Deviation)을 적용한 Soft Decision 기반의 잡음전력 수정 기법을 제안한다. 기존의 Soft Decision 기반의 잡음전력 추정에 있어서 잡음신호의 정상성(Stationarity)을 가정한 스무딩 파라미터를 사용하여 잡음전력을 추정하고 갱신하였지만, 잡음신호의 주파수적인 특성이 상대적으로 빠르게 변하는 비정상적인 환경에서는 강인하지 못한 단점을 가지게 된다. 본 논문에서는 신호의 스펙트럼 변이를 추정하여 정상적인 잡음 환경과 비정상적인 잡음 환경에 따라 적응적으로 잡음전력을 추정하고 갱신하여 잡음신호에 의해 오염된 음성신호를 향상시킨다. 제안된 알고리즘은 다양한 배경 잡음 환경에서 객관적인 음질측정 방법인 ITU-T P.862 perceptual evaluation of speech quality (PESQ)에 의해서 평가되었으며, 기존의 Soft Decision 기반의 음성 향상 기법과 비교하여 보다 향상된 성능을 보여주었다.

4채널 환경에서 독립벡터분석 및 주파수대역 빔형성 알고리즘에 의한 혼합잡음제거 (Mixed Noise Cancellation by Independent Vector Analysis and Frequency Band Beamforming Algorithm in 4-channel Environments)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제14권5호
    • /
    • pp.811-816
    • /
    • 2019
  • 본 논문에서는 잡음이 포함된 4채널의 음원신호를 주파수 대역의 독립벡터분석 알고리즘에 의하여 깨끗한 음성신호와 혼합잡음신호를 분리하는 기법을 먼저 제안한다. 제안한 독립벡터분석 알고리즘에 의하여 분리된 음원신호를 주파수대역 지연합 빔형성기로부터 출력되는 신호와 독립벡터분석으로부터 분리된 출력신호 간의 상호 상관성을 이용하여 향상된 출력음성신호를 구한다. 본 실험에서는 백색잡음이 포함된 0dB, -5dB의 SNR의 입력 혼합잡음음성에 대하여, 본 논문에서 제안하고 있는 알고리즘이 주파수대역 지연합 빔형성기 알고리즘만을 사용하였을 때 보다 최대 10.90dB의 SNR 및 10.02dB의 Segmental SNR이 개선되었음을 확인하였다. 따라서 본 논문의 알고리즘 기법이 주파수대역 지연합 빔형성기와 비교하여 음성품질이 향상된 것을 실험 및 고찰을 통하여 확인할 수 있었다.

피치 하모닉 움직임 예측과 적응적 신호 크기 예측을 이용한 패킷 손실 은닉 알고리즘 (Packet Loss Concealment Algorithm Using Pitch Harmonic Motion Estimation and Adaptive Signal Scale Estimation)

  • 김태하;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권4호
    • /
    • pp.247-256
    • /
    • 2021
  • 본 논문에서는 피치 하모닉 움직임 예측과 적응적 신호 크기 예측을 이용한 패킷 손실 알고리즘을 제안한다. 스펙트럼 움직임 예측 방법은 사용 가능한 이전 패킷의 스펙트럼 상의 움직임을 일정한 부대역으로 나누어 손실된 신호의 움직임을 예측하여 복원한다. 제안하는 알고리즘에서는 음성신호를 유성음과 무성음으로 구분하여 유성음의 경우 피치 주파수를 활용하여 피치 하모닉으로 나누어 손실된 신호의 피치 하모닉 움직임을 예측하여 복원하고 무성음의 경우 스펙트럼 움직임 예측 방법을 사용하여 신호를 복원한다. 음성 프레임의 연속 손실이 발생한 경우 LMS(Least Mean Square) 예측기를 사용하여 이전 프레임의 이득 정보를 활용하여 신호 크기를 예측하여 출력 신호의 이득을 조절하는 방법을 제안한다. 객관적 평가방법인 PESQ (Perceptual Evaluation of Speech Quality) 시험을 통해 제안된 알고리즘의 성능을 평가하였고 기존의 방법보다 MOS 0.1의 성능 개선을 보였다.

음성으로부터 감성인식 요소분석 (Analyzing the element of emotion recognition from speech)

  • 심귀보;박창현
    • 한국지능시스템학회논문지
    • /
    • 제11권6호
    • /
    • pp.510-515
    • /
    • 2001
  • 일반적으로 음성신호로부터 사람의 감정을 인식할 수 있는 요소는(1)대화의 내용에 사용한 단어, (2)톤 (tore), (3)음성신호의 피치(Pitch), (4)포만트 주파수(Formant Frequencey)그리고 (5)말의 빠르기(Speech Speed)(6)음질(Voice Quality)등이다. 사람의 경우는주파수 같은 분석요소 보다 톤과 단어 빠르기, 음질로 감정을 받아들이게 되는것이 자연스러운 방법이므로 당연히 후자의 요소들이 감정을 분류하는데 중요한 인자로쓰일 수있다. 그리고, 종래는 주로 후자의 효소들을 이용하였는데, 기계로써 구현하기 위해서는 포만트 주파수를 사용할 수있게 되는것이 도움이 된다. 그러므로, 본 연구는 음성 신호로부터 피치와 포만트, 그리고 말의 빠르기 등을 이용하여 감성인식시스템을 구현하는것을 목표로 연구를 진행하고 있으며, 그 1단계 연구로서 본 논문에서는 화가 나서 내뱉는 말을 기반으로 하여 화난 감정의 독특한 특성을 찾아내었다.

  • PDF

잡음에 강인한 음성인식을 위한 스펙트럼 보상 방법 (A Spectral Compensation Method for Noise Robust Speech Recognition)

  • 조정호
    • 전자공학회논문지 IE
    • /
    • 제49권2호
    • /
    • pp.9-17
    • /
    • 2012
  • 음성 인식 시스템의 용용에서 실제 문제점의 하나는 음성신호의 왜곡에 의한 인식성능의 저하이다. 음성신호의 왜곡에 가장 중요한 원인은 부가적인 잡음이다. 이 논문은 잡음에 강인한 음성인식을 위하여, 스펙트럼 피크 향상 기법과 효과적인 잡음 차감 기법에 기초한 스펙트럼 보상 방법을 기술한다. 제안한 방법은 음성 스펙트럼의 포먼트 구조를 향상시키고 스펙트럼 기울기를 보상하면서도 광 대역폭 스펙트럼 요소는 그대로 유지한다. 백색 가우스 잡음, 자동차 잡음, 음성 잡음 또는 지하철 잡음에 의해 왜곡된 음성을 이용한 인식실험을 수행한 결과, 새로운 방법은 스펙트럼 보상을 하지 않은 경우에 비해, 높은 SNR(Signal to Noise Ratio) 환경에서는 평균 오인식율을 약간 줄였으며, 낮은 SNR(10 dB) 환경에서는 평균 오인식율을 1/2로 크게 줄였다.

멀티채널 AMR 음성부호화기의 실시간 구현 (Real-time Implementation of Multi-channel AMR Speech Coder)

  • 지덕구;박만호;김형중;윤병식;최송인
    • 한국음향학회지
    • /
    • 제20권8호
    • /
    • pp.19-23
    • /
    • 2001
  • 고속 저전력의 DSP (Programmable Digital Signal Processor)가 개발됨에 따라 이동통신 분야에서 시스템 및 단말기 등이 DSP를 사용하여 구현되고 있다. 본 논문에서는 DSP를 사용한 AMR (Adaptive Multi-rate) 음성부호화기의 멀티 채널 실시간 구현에 관하여 논한다. AMR 음성부호화 알고리즘을 250 MHz로 동작하는 32비트 정수형 DSP 칩인 TMS320C6202를 사용하여 구현하였다. 실시간 동작을 위하여 cross compile, 선형 어셈블리 최적화, TMS320C62xx 어셈블리 최적화 작업을 수행하였다. AMR 음성부호화기에 음성 데이터 입출력 기능 및 외부 CPU와의 통신기능을 포함하였다. DSP EVM 보드를 사용하여 AMR 음성부호화기를 개발하였고, ETRI에서 개발중인 비동기 IMT-2000 시스템 상에서 동작 및 기능을 검증하였다.

  • PDF

라인케부종환자의 음성분석 (Acoustic Analysis of Reinke Edema)

  • 김상균;최홍식;공석철;홍원표
    • 대한후두음성언어의학회지
    • /
    • 제7권1호
    • /
    • pp.11-19
    • /
    • 1996
  • Reinke's edema is used for describing varying degrees of chronic swelling of the vocal folds. The acoustic analysis of Reinke's edema has not been reported so far in this country. The purpose of this study is to clarify acoustic and aerodynamic characteristics of the Reinke's edema. Several acoustic evaluations & aerodynamic studies were done in 20 Reinke's edema patients and the data was compared with those of 20 normal controls. Videolaryngoscopy also was done to classify the severity in grading. We used C-Speech, Doctor speech science, and Phonatory function analyser. In C-Speech, we compared jitter, shimmer, and SNR(signal to noise ratio) of normal and Rrinke's edema patient. In Doctor speech science, we compared NNE(Glottal noise energy), speech fundamental frequency, voice quality between two groups. And in phonatory function analyser for aerodynamic function test, we compared speech intensity, airflow rate, and expiratory pressure between two groups. In conclusion, Reinke's edema patients showed lower voice pitches than normal, additionally jitter, shimmer, SNR(signal to noise ratio), NNE(Glottal noise energy), airflow rate, and expiratory pressure may be meaningful parameters for diagnosis and prognosis for treatment.

  • PDF

잡음환경에서 Teager Energy 기반의 전역 음성부재확률을 이용하는 음성검출 (Voice Activity Detection Using Global Speech Absence Probability Based on Teager Energy in Noisy Environments)

  • 박윤식;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.97-103
    • /
    • 2012
  • 본 논문에서는 잡음환경에서 효과적인 음성을 검출하기 위한 새로운 음성 검출 (VAD, voice activity detection) 알고리즘을 제안한다. 통계적 모델에 기반의 Likelihood ratio (LR)를 통하여 도출되는 전역 음성부재확률 (GSAP, global speech absence probability)은 음성검출을 위한 피쳐 (feature) 파라미터로 널리 적용되고 있다. 하지만 신호 대 잡음 비 (SNR, signal-to-noise ratio)가 낮은 잡음환경에서는 정확한 GSAP 추정이 어려운 문제점을 가지고 있다. 따라서 제안된 방법에서는 잡음환경에서 강인한 VAD 알고리즘을 위하여 Teager energy (TE) 기반의 GSAP를 피쳐 파라미터로 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

Voice Activity Detection with Run-Ratio Parameter Derived from Runs Test Statistic

  • Oh, Kwang-Cheol
    • 음성과학
    • /
    • 제10권1호
    • /
    • pp.95-105
    • /
    • 2003
  • This paper describes a new parameter for voice activity detection which serves as a front-end part for automatic speech recognition systems. The new parameter called run-ratio is derived from the runs test statistic which is used in the statistical test for randomness of a given sequence. The run-ratio parameter has the property that the values of the parameter for the random sequence are about 1. To apply the run-ratio parameter into the voice activity detection method, it is assumed that the samples of an inputted audio signal should be converted to binary sequences of positive and negative values. Then, the silence region in the audio signal can be regarded as random sequences so that their values of the run-ratio would be about 1. The run-ratio for the voiced region has far lower values than 1 and for fricative sounds higher values than 1. Therefore, the parameter can discriminate speech signals from the background sounds by using the newly derived run-ratio parameter. The proposed voice activity detector outperformed the conventional energy-based detector in the sense of error mean and variance, small deviation from true speech boundaries, and low chance of missing real utterances

  • PDF