• Title/Summary/Keyword: 음성검출기

Search Result 137, Processing Time 0.023 seconds

A study on pitch detection for RUI emotion classification based on voice (RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구)

  • Byun, Sung-Woo;Lee, Seok-Pil
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

Robust Speech Endpoint Detection in Noisy Environments for HRI (Human-Robot Interface) (인간로봇 상호작용을 위한 잡음환경에 강인한 음성 끝점 검출 기법)

  • Park, Jin-Soo;Ko, Han-Seok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.32 no.2
    • /
    • pp.147-156
    • /
    • 2013
  • In this paper, a new speech endpoint detection method in noisy environments for moving robot platforms is proposed. In the conventional method, the endpoint of speech is obtained by applying an edge detection filter that finds abrupt changes in the feature domain. However, since the feature of the frame energy is unstable in such noisy environments, it is difficult to accurately find the endpoint of speech. Therefore, a novel feature extraction method based on the twice-iterated fast fourier transform (TIFFT) and statistical models of speech is proposed. The proposed feature extraction method was applied to an edge detection filter for effective detection of the endpoint of speech. Representative experiments claim that there was a substantial improvement over the conventional method.

The Environmental Control System using Speech Recognition (음성인식을 이용한 생활환경 제어장치)

  • 정혁준;임재용;이행세;오문식
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.141-144
    • /
    • 2000
  • 일반인들은 음성인식을 이용한 생활보조기구들의 필요성이 적지만 장애인이나 노인들은 가족이나 주변인의 도움을 받지 않고서는 가전제품의 작동이나 전화통화 등과 같은 일을 스스로 하기에는 쉽지 않다. 이러한 사람들에게 각 가정에 널리 보급되어 있는 PC를 이용하여서 타인의 도움을 받지 않고서도 간편하게 사용할 수 있게 음성을 이용한 생활보조기구들 제어에 응용하였다본 음성인식기는 음성의 끝점 검출, 음성의 특징계수 추출, 백터 양자화 학습 및 인식, HMM학습 그리고 HMM인식으로 나누어져 있다. 그리고 그 인식 결과에 따라 생활보조기구등을 제어하였다. 이러한 음성인식기를 만드는 것은 노인이나 장애인들에게 자신이 혼자할수 없는 생활의 편리함을가져다 주기 위함이고 일반정상인에게도 많은 편리함을 가져다 주기 위함이다. 그러나 언어 학습과정에서 노인이나 환자는 학습에 어려움이 있어 적은 학습으로도 인식되어야하는 과제가 남아있다.

  • PDF

Robust Speech Segmentation Method in Noise Environment for Speech Recognizer (음성인식기 구현을 위한 잡음에 강인한 음성구간 검출기법)

  • 김창근;박정원;권호민;허강인
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.4 no.2
    • /
    • pp.18-24
    • /
    • 2003
  • One of the most important subjects in the implementation of real time speech recognizer is to design both reliable VAD(Voice Activity Detection) and suitable speech feature vector. But, because it is difficult to calculate reliable VAD in the environment having surrounding noise, designed suitable speech feature vector may not be obtained. Solving this problem, in this paper, we implement not only short time power spectrum which is generally used but also two additive parameters, the comparison measure of spectrum density having robust property in noise and linear discriminant function using linear regression, then perform VAD by using the combination of each parameter having apt weight in other magnitudes of surrounding noise and confirm that proposed parameters show a robust characteristic in circumstances having surrounding noise by using DTW(Dynamic Time Waning) in recognition experiment.

  • PDF

Time-Frequency Domain Impulsive Noise Detection System in Speech Signal (음성 신호에서의 시간-주파수 축 충격 잡음 검출 시스템)

  • Choi, Min-Seok;Shin, Ho-Seon;Hwang, Young-Soo;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.2
    • /
    • pp.73-79
    • /
    • 2011
  • This paper presents a new impulsive noise detection algorithm in speech signal. The proposed method employs the frequency domain characteristic of the impulsive noise to improve the detection accuracy while avoiding the false-alarm problem by the pitch of the speech signal. Furthermore, we proposed time-frequency domain impulsive noise detector that utilizes both the time and frequency domain parameters which minimizes the false-alarm problem by mutually complementing each other. As the result, the proposed time-frequency domain detector shows the best performance with 99.33 % of detection accuracy and 1.49 % of false-alarm rate.

Voice Activity Detection in Noisy Environment based on Statistical Nonlinear Dimension Reduction Techniques (통계적 비선형 차원축소기법에 기반한 잡음 환경에서의 음성구간검출)

  • Han Hag-Yong;Lee Kwang-Seok;Go Si-Yong;Hur Kang-In
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.9 no.5
    • /
    • pp.986-994
    • /
    • 2005
  • This Paper proposes the likelihood-based nonlinear dimension reduction method of the speech feature parameters in order to construct the voice activity detecter adaptable in noisy environment. The proposed method uses the nonlinear values of the Gaussian probability density function with the new parameters for the speec/nonspeech class. We adapted Likelihood Ratio Test to find speech part and compared its performance with that of Linear Discriminant Analysis technique. In experiments we found that the proposed method has the similar results to that of Gaussian Mixture Models.

Speech Enhancement Based on Improved Minima Controlled Recursive Averaging Incorporating GSAP (전역 음성 부재 확률 기반의 향상된 최소값 제어 재귀평균기법을 이용한 음성 향상 기법)

  • Song, Ji-Hyun;Bang, Dong-Hyeouck;Lee, Sang-Min
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.49 no.1
    • /
    • pp.104-111
    • /
    • 2012
  • In this paper, we propose a novel method to improve the performance of the improved minima controlled recursive averaging (IMCRA). From an examination for various noise environment, it is shown that the IMCRA has a fundamental drawback for the noise power estimate at the offset region of continuity speech signals. Espectially, it is difficult to obtain the robust estimates of the noise power in non-stationary noisy environments that is rapidly changed the spectral characteristics such as babble noise. To overcome the drawback, we apply the global speech absence probability (GSAP) conditioned on both a priori SNR and a posteriori SNR to the speech detection algorithm of IMCRA. With the performance criteria of the ITU-T P.862 perceptual evaluation of speech quality (PESQ) and a composite measure test, we show that the proposed algorithm yields better results compared to the conventional IMCRA-based scheme under various noise environments. In particular, in the case of babble 5 dB, the proposed method produced a remarkable improvement compared to the IMCRA ( PESQ = 0.026, composite measure = 0.029 ).

A study on speech recognition using pitch detection in a car-noisy environment (자동차 환경에서 피치검출을 이용한 음성인식 연구)

  • Lee Jeong-gi;Yoo Bong-keun;Kim Hak-jin;Kim Soon-kyob
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.97-100
    • /
    • 1999
  • 본 논문은 자동차의 편의성 및 안전성의 동시 확보를 위하여, 보조적 스위치의 조작없이 상시 음성의 입$\cdot$출력이 가능하도록 하였고, 남성과 여성을 구별하기 위하여 피치검출법을 사용하여 속도별로 구분하였다. 또한, band pass filter를 이용하여 자동으로 잡음하에서 정확하게 음성추간 검출(End Point Detection)을 하게 하였다. Reference Pattern은 DMS(Dynaminc Multi-Section)[1]모델을 사용하려고, 음성의 특징 파라미터와 인식 알고리즘은 PLP 13차와 One Stage Dynamic Programming(OSDP)를 사용하였다. 시내주행중인 자동차 환경에서 자주 사용되는 차량제어 명령어 30단어를 가지고 실험한 결과 40-80km에서 화자독립 남성 $96\%$, 여성 $94.4\%$ 화자종속일 때 남성 $97\%$, 여성 $95\%$의 인식률을 얻을수 있었고 남성과 여성을 구분하므로 써 인식률을 향상 시켰다.

  • PDF

New Speech Enhancement Method using Psychoacoustic Criteria (심리 음향 기준을 이용한 새로운 음질 개선 방법)

  • 김대경;박장식;손경식
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.1
    • /
    • pp.56-66
    • /
    • 2001
  • The spectral subtraction algorithm using a criterion based on the human perception has been recently developed. The speech processed with Virag's algorithm sounds more pleasant to a human listener than those obtained by the classical methods. However, Virag's algorithm requires a robust voice activity detector (VAD). In the ESS (extended spectral subtraction) algorithm without VAD, the residual noise becomes more noticeable as the SNR decrease. In this paper we propose a new speech enhancement method, the combination of Wiener filter and spectral subtraction based on noise masking characteristics in the human auditory system. There is no need of VAD because the noise can be successively updated even during speech activity using Wiener filter. The adjustment of the subtraction parameter based on the masking threshold makes the residual noise inaudible. The proposed method has been compared with conventional spectral subtraction algorithms. Objective and subjective evaluation of the proposed system is performed with several noise types having different time-frequency distributions. The application of objective measures, the study of the speech spectrograms, as well as subjective listening tests, confirm that the enhanced speech with proposed algorithm is more pleasant to a human listener.

  • PDF

On Speech Input with Microphone Array using the variable coefficient Pre-emphasis (가변계수 프리엠퍼시스를 이용한 마이크어레이 음성입력에 관한 연구)

  • Jo Wangrae;Bae Myungjin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.65-68
    • /
    • 2001
  • 현재 음성인식기는 다채널의 음성입력방식을 사용하고 있는 추세이다. 이런 방법으로 음성인식기를 사용할 때에 자동적으로 음성을 검출하는 음성입력방식은 발성자와 마이크간의 거리에 따라 발성음성, 반사음성과 잡음이 입력된 경우에 원 음성의 고차포만트 성분에 왜곡이 발생하게 된다 이러한 문제점을 개선하기 위하여 본 논문에서는 고주파영역의 특성을 강조시킬 수 있는 프리엠퍼시스를 이용하여 더욱 더 정확한 음성입력 방법을 제안한다. 제안한 방법은 원음과 유사한 합성입력음을 얻었고, 또한 기존의 시간영역 법 보다 더 높은 SNR을 얻을 수 있다는 것을 알 수가 있다.

  • PDF