• Title/Summary/Keyword: 음성구간검출

Search Result 158, Processing Time 0.03 seconds

Reduction of Background Noise using FFT cepstrum (FFT 켑스트럼을 사용한 배경잡음의 제거)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.10a
    • /
    • pp.264-267
    • /
    • 2010
  • 본 논문에서는 오차역전파 학습 알고리즘을 사용하여 신경회로망을 학습시켜, 각 프레임에서의 음성 및 잡음 구간의 검출에 의한 음성인식 알고리즘을 제안한다. 그리고 신경회로망에 의하여 음성 및 잡음 구간의 검출에 따라서 각 프레임에서 잡음을 제거하는 스펙트럼 차감법을 제안한다. 본 실험에서는 원음성에 백색잡음 및 자동차잡음을 부가하여 음성인식의 인식율을 평가한다. 또한 인식시스템에 의하여 검출된 음성 및 잡음 구간을 이용하여 각 프레임에서의 스펙트럼 차감법에 의한 잡음제거의 실험결과를 나타낸다.

  • PDF

Voice inactivity detection for Analysis of Acoustic data of Emergency Rescue (응급구조에서의 음향데이터 분석을 위한 음성 부재구간 검출 기술)

  • Huang, Seng Hyun;Chang, Joon-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1348-1349
    • /
    • 2015
  • 본 논문에서는 응급구조의 신고 상황에서의 수보자의 보다 정확하고 신속한 대응를 위하여 수화자의 음향환경을 분석하여 주변상황에 대한 정보를 알고자 심화 신경망 기반의 음성 부재구간 검출 기법을 제안한다. 제안한 알고리즘은 음성 신호에서의 23차의 Mel-filter bank를 추출하고 이를 심화 신경망 기법을 이용하여 음성 부재구간을 검출한다. 객관적인 성능 평가를 위해 제안된 기법은 실제 응급구조 상황에서 평가되었으며, 기존의 음성검출기를 이용한 음성 부재구간 검출 성능에 비하여 향상된 성능을 보였다.

Pattern Recognition by Section Detection Using Speech Word (음성 단어를 이용한 구간검출에 의한 패턴인식)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.05a
    • /
    • pp.681-682
    • /
    • 2016
  • 본 논문에서는 화자 식별에서 음성신호의 애매한 점을 보완할 수 있는 신경회로망의 오차역전파학습 알고리즘과 모음구간 검출에 기초하여 입력되는 음성의 화자 패턴을 구분하는 일본어 단어 패턴인식 알고리즘을 제안한다. 제안하는 알고리즘에서는 일본어 데이터베이스로부터의 단어를 사용하여 음성의 특징벡터를 추출하여 분석하고 이러한 음성의 특징벡터의 차이를 이용하여 일본어 화자에 대한 패턴인식 실험을 수행하였다.

  • PDF

A Study on Determining Syllable Length of Connected Spoken Digits (연속 숫자음의 음절구간 검출)

  • 김득수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06d
    • /
    • pp.76-79
    • /
    • 1998
  • 본 논문은 한국어 숫자를 연속적으로 또박또박 발음한 음성의 음절 구간 검출에 관한 내용이며 음절의 최소구간 및 스펙트럼 에너지를 이용하여 연속 음성에서 구간 검출 알고리즘을 제안한다. 숫자음 11개를 연속으로 발성하여 음절 구간을 검출하며 결정된 구간과 수작업으로 한 음절구간을 비교한다. 음절시작점인 경우에는 수작업시단과 동일하거나 항상 전방향이며 종단인 경우에는 92% 데이터가 $\pm$1 프레임내에 존재하며 제안된 알고리즘이 실용성이 있음을 보인다.

  • PDF

An Efficient Voice Activity Detection Method using Bi-Level HMM (Bi-Level HMM을 이용한 효율적인 음성구간 검출 방법)

  • Jang, Guang-Woo;Jeong, Mun-Ho
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.10 no.8
    • /
    • pp.901-906
    • /
    • 2015
  • We presented a method for Vad(Voice Activity Detection) using Bi-level HMM. Conventional methods need to do an additional post processing or set rule-based delayed frames. To cope with the problem, we applied to VAD a Bi-level HMM that has an inserted state layer into a typical HMM. And we used posterior ratio of voice states to detect voice period. Considering MFCCs(: Mel-Frequency Cepstral Coefficients) as observation vectors, we performed some experiments with voice data of different SNRs and achieved satisfactory results compared with well-known methods.

A Robust Speech/Non-Speech Decision Using Voiced Characteristics of Speech (음성의 유성음 특성을 이용한 음성/비음성 판별 방법)

  • Lee, Sung-Joo;Jung, Ho-Young;Lee, Yun-Keun;Kim, Hyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.411-412
    • /
    • 2007
  • 자동음성인식 시스템을 이용하는 사용자 입장에서 보면 음성인식시스템을 사용하기 위하여 음성을 입력할 때마다 버튼을 눌러야 하는 Push-To-Talk (PTT) 방식은 여간 번거로운 일이 아닐 수 없다. 그리고 사용자가 원거리에서 음성을 입력하는 경우처럼 PTT 방식 자체가 용이하지 못 한 음성인식 응용분야에서는 Non-Push-To-Talk (NON-PTT) 방식의 필요성이 대두되게 된다. NON-PTT 방식의 음성 전처리를 위해서는 입력신호로부터 음성신호만을 구분해내는 음성판별기술이 필수적이다. 하지만 일상적인 잡음환경에서 음성신호만을 구분해내는 일은 매우 어려운 일이 아닐 수 없다. 본 논문에서는 일상적인 가정잡음환경에 강인한 음성판별방식을 제안한다. 여기서는 음성판별을 위해서 음성의 유성음 특성을 이용하였다. 즉, 일정구간 이상의 음성신호에는 일정구간이상의 유성음 구간이 존재하며 만약 잡음환경에서도 유성음 구간을 잘 검출할 수 있다면 이러한 음성의 특성을 이용하여 검출된 신호가 음성인지 아닌지를 판별할 수 있다. 이를 위하여 여기서는 가정잡음환경에서도 유성음을 잘 검출할 수 있도록 11 가지 유성음 특징들과 이를 이용한 음성판별방법을 제안하였다. 제안된 방법의 성능 평가를 위하여 음성의 끝점검출방법과 통합하여 음성/비음성 판별 테스트를 수행하였으며 테스트 수행결과 열악한 잡음환경에서 80%이상의 비음성을 거절하는 성능을 보였다.

  • PDF

Section Detection Algorithm using Multi-layer Perceptron Neural Network (다층 퍼셉트론 신경회로망을 사용한 구간 검출 알고리즘)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.10a
    • /
    • pp.274-277
    • /
    • 2010
  • 본 논문에서는 다층 퍼셉트론 신경회로망을 사용하여 각 프레임에서 유성음, 무성음, 그리고 묵음 구간을 검출하는 구간검출 알고리즘을 제안한다. 신경회로망의 입력으로는 고속 푸리에변환에 의한 전력스펙트럼 및 고속 푸리에변환 계수가 사용되어 네트워크가 학습된다. 본 실험에서는 원 음성에 백색잡음이 중첩된 음성을 신경회로망에 입력함으로서 각 프레임에서의 유성음, 무성음, 묵음 구간의 검출성능 결과를 나타낸다.

  • PDF

Speaker Change Detection by Removing Phonetic Information (음성학적 정보의 제거를 통한 화자변화 구간 검출)

  • Park Sun Young;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.187-190
    • /
    • 2002
  • 본 논문에서는 음성 신호에서 발성 화자가 바뀌는 시점을 자동적으로 찾아내는 화자변화 구간 검출에 대하여 연구하였다. 화자변화 검출을 위해서는 음성 신호에 나타나는 화자 개별성에 의한 차이만 비교해야 하는데 실제 환경에서는 화자들이 동일한 내용의 발성을 하지 않으므로 다른 발성내용에 의한 정보가 포함되어 검출 성능을 저하시킨다. 그러므로 각 화자의 개별특성만 강조되도록 발성내용에 포함된 음성학적 정보의 영향을 제거하는 방법을 통해 검출 성능을 향상시켰다.

  • PDF

VAD By Neural Network Under Wireless Communication Systems (Neural Network을 이용한 무선 통신시스템에서의 VAD)

  • Lee Hosun;Kim Sukyung;Park Sung-Kwon
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.30 no.12C
    • /
    • pp.1262-1267
    • /
    • 2005
  • Elliptical basis function (EBF) neural network works stably under high-level background noise environment and makes the nonlinear processing possible. It can be adapted real time VAD with simple design. This paper introduces VAD implementation using EBF and the experimental results show that EBF VAD outperforms G729 Annex B and RBF neural networks. The best error rates achieved by the EBF networks were improved more than $70\%$ in speech and $50\%$ in silence while that achieved by G.729 Annex B and RBF networks respectively.

Development of Voice Activity Detection Algorithm for Elderly Voice based on the Higher Order Differential Energy Operator (고차 미분에너지 기반 노인 음성에서의 음성 구간 검출 알고리즘 연구)

  • Lee, JiYeoun
    • Journal of Digital Convergence
    • /
    • v.14 no.11
    • /
    • pp.249-255
    • /
    • 2016
  • Since the elderly voices include a lot of noise caused by physiological changes in respiration, phonation, and resonance, the performance of the convergence health-care equipments such as speech recognition, synthesis, analysis program done by elderly voice is deteriorated. Therefore it is necessary to develop researches to operate health-care instruments with elderly voices. In this study, a voice activity detection using a symmetric higher-order differential energy function (SHODEO) was developed and was compared with auto-correlation function(ACF) and the average magnitude difference function(AMDF). It was confirmed to have a better performance than other methods in the voice interval detection. The voice activity detection will be applied to a voice interface for the elderly to improve the accessibility of the smart devices.