• 제목/요약/키워드: Speech signal analysis

검색결과 275건 처리시간 0.03초

조음도를 이용한 발음훈련기기의 개발 (Development of Speech Training Aids Using Vocal Tract Profile)

  • 박상희;김동준;이재혁;윤태성
    • 대한전기학회논문지
    • /
    • 제41권2호
    • /
    • pp.209-216
    • /
    • 1992
  • Deafs train articulation by observing mouth of a tutor, sensing tactually the motions of the vocal organs, or using speech training aids. Present speech training aids for deafs can measure only single speech parameter, or display only frequency spectra in histogram of pseudo-color. In this study, a speech training aids that can display subject's articulation in the form of a cross section of the vocal organs and other speech parameters together in a single system is to be developed and this system makes a subject know where to correct. For our objective, first, speech production mechanism is assumed to be AR model in order to estimate articulatory motions of the vocal organs from speech signal. Next, a vocal tract profile model using LP analysis is made up. And using this model, articulatory motions for Korean vowels are estimated and displayed in the vocal tract profile graphics.

  • PDF

이산 웨이브렛 변환을 이용한 유효 음성 추출을 위한 머징 알고리즘 (A Merging Algorithm with the Discrete Wavelet Transform to Extract Valid Speech-Sounds)

  • 김진옥;황대준;백한욱;정진현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권3호
    • /
    • pp.289-294
    • /
    • 2002
  • 데이타로부터 유효한 음성 데이타를 추출하는 것은 음성 인식분야에서 중요하다. 본 논문의 음성 추출 기술은 빠른 연산이 가능하며 음성의 전처리 과정에 적합한 이산 웨이브렛 변환을 사용하고 있으며, 이산 웨이브렛 변환의 복수 해상도 해석 특징을 이용한 머징 알고리즘으로 유효한 음성을 추출하고 노이즈 제거를 동시에 구현한다. 머징 알고리즘은 음성만으로도 처리 매개변수를 결정할 수 있고 또한 시스템 잡음에 대하여서도 독립적이기 때문에, 유효 음성을 추출하는데 매우 효과적이다. 그리고 머징 알고리즘은 시스템 잡음에 대한 적응 특성을 갖고 탁월한 노이즈 분리 특성을 갖는다.

PARCOR 분석 방법에 의한 디지털 DTMF 수신기 구현에 관한 연구 (On Implementing the Digital DTMF Receiver Using PARCOR Analysis Method)

  • 하판봉;안수길
    • 대한전자공학회논문지
    • /
    • 제24권2호
    • /
    • pp.196-200
    • /
    • 1987
  • The following methods are proposed for implementing digital dual tone multi-frequency (DTMF) receiver: using infinite impulse response(IIR) digital filters, period-counting algorithm, discrete Fourier transform(DFT), and fast Fourier transform(FFT)[2]. The PARCOR(Partical Correlation) analysis method which has been widly used in the speech signal processing area is applied to the dual tone multi-frequency(DTMF) signal detection. This method is easy to implement digitally and stronger to digit simulation of speech than any other methods proposed up to date. Since sampling rate of 4KHz is used in the DTMF receiver for the detection of input DTMF signal originally sampled at 8KHz, it effects two times higher multiplexing efficiency.

  • PDF

Towards automatic inspection of nuclear fuel elements in spent fuel pools: Audio analysis

  • Sergio Segovia;Angel Ramos;David Izard;Doroteo T. Toledano
    • Nuclear Engineering and Technology
    • /
    • 제56권10호
    • /
    • pp.4062-4067
    • /
    • 2024
  • In this article, we propose and explore a novel step in the digitization of the mapping of the spent fuel pool of nuclear power plants, in which the audio signal from the operator's microphone is used to obtain the identification codes of those components that are in each of the cells of the pool. In this way, we have not only an acquisition system but also a verification system that can be used in combination with the outcome of the analysis of the video signal. We developed an algorithm that uses at its core one of the latest models of multilingual Automatic Speech Recognition to transcribe audio signal, and with a post-processing of the timed transcriptions we build the identification code of fuel heads and other components. Results show a very high accuracy in audios from real recording of Spanish nuclear facilities, and the methodology proposed is easily extensible to other nuclear facilities in the world.

음소 음향학적 변화 정보를 이용한 한국어 음성신호의 자동 음소 분할 (Automatic Phonetic Segmentation of Korean Speech Signal Using Phonetic-acoustic Transition Information)

  • 박창목;왕지남
    • 한국음향학회지
    • /
    • 제20권8호
    • /
    • pp.24-30
    • /
    • 2001
  • 본 논문에서는 발음표기가 주어진 상황에서 음성 신호의 자동 음소 분할에 관한 것이며 음소의 경계를 음소 음향학적인 변화특성에 따라 3가지 형태로 분류하여 각각에 적합한 분할 알고리즘을 개발하였다. 형태 1은 묵음·유성음·무성음간의 분할이며 히스토그램분석으로 구한 문턱 값으로 초기 분할 후, 웨이블릿 계수의 SVF (Spectral Variation Function)를 이용하여 분할하였다. 형태 2는 연속적인 모음의 분할이며 각 모음변화특성을 템플릿으로 구성하여 분할에 활용하였다. 형태 3은 모음과 유성자음 혹은 유성화 자음의 분할이며 특성주파수대역의 진폭변화를 이용하여 후보구간을 정한 후, 캡스트럼 계수의 SVF를 이용하여 최종적인 분할을 수행하였다. 본 실험에서는 분할 성능을 테스트하기 위하여 한국어 PBWSpeech DB에서 342개의 단어를 자동으로 분할한 후, 수작업으로 분할한 결과와 비교하였다. 전체적인 자동 분할 성능은 20 msec내에서 81.5%의 분할성능을 보였다.

  • PDF

자동 음성 인식기를 위한 단채널 음질 향상 알고리즘의 성능 분석 (Performance Analysis of a Class of Single Channel Speech Enhancement Algorithms for Automatic Speech Recognition)

  • 송명석;이창헌;이석필;강홍구
    • The Journal of the Acoustical Society of Korea
    • /
    • 제29권2E호
    • /
    • pp.86-99
    • /
    • 2010
  • This paper analyzes the performance of various single channel speech enhancement algorithms when they are applied to automatic speech recognition (ASR) systems as a preprocessor. The functional modules of speech enhancement systems are first divided into four major modules such as a gain estimator, a noise power spectrum estimator, a priori signal to noise ratio (SNR) estimator, and a speech absence probability (SAP) estimator. We investigate the relationship between speech recognition accuracy and the roles of each module. Simulation results show that the Wiener filter outperforms other gain functions such as minimum mean square error-short time spectral amplitude (MMSE-STSA) and minimum mean square error-log spectral amplitude (MMSE-LSA) estimators when a perfect noise estimator is applied. When the performance of the noise estimator degrades, however, MMSE methods including the decision directed module to estimate a priori SNR and the SAP estimation module helps to improve the performance of the enhancement algorithm for speech recognition systems.

화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법 (I-vector similarity based speech segmentation for interested speaker to speaker diarization system)

  • 배아라;윤기무;정재희;정보경;김우일
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.461-467
    • /
    • 2020
  • 잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 혼합 음성에서 관심 있는 화자의 음성만 추출한다. 중첩된 구간에서도 효과적으로 분리해내기 위해 VoiceFilter 모델을 사용하였으며, VoiceFilter 모델은 여러 화자의 발화로 이루어진 음성과 관심 있는 화자의 발화로만 이루어진 참조 음성이 입력으로 필요하다. 따라서 본 논문에서는 Probabilistic Linear Discriminant Analysis(PLDA) 유사도 점수로 군집화하여 혼합 음성만으로도 참조 음성을 대체해 사용하였다. 군집화로 생성한 음성에서 추출한 화자 특징과 혼합 음성을 VoiceFilter 모델에 넣어 관심 있는 화자의 음성만 분리함으로써 혼합 음성만으로 화자 구분 시스템을 구축하였다. 2명의 화자로 이루어진 전화 상담 데이터로 화자 구분 시스템의 성능을 평가하였으며, 분리 전 상담사(Rx)와 고객(Tx)의 음성 Source to Distortion Ratio(SDR)은 각각 5.22 dB와 -5.22 dB에서 분리 후 각각 11.26 dB와 8.53 dB로 향상된 성능을 보였다.

회의실 유리창 진동음의 음성 명료도 분석 (Speech Intelligibility Analysis on the Vibration Sound of the Glass Window of a Conference Room)

  • 김희동;김윤호;김석현
    • 한국소음진동공학회논문집
    • /
    • 제17권4호
    • /
    • pp.363-369
    • /
    • 2007
  • The purpose of the study is to obtain acoustical information to prevent eavesdropping of the glass window. Speech intelligibility was investigated on the vibration sound detected from the glass window of a conference room. Objective test using speech transmission index(STI) was performed to estimate quantitatively the speech intelligibility. STI was determined based on tile modulation transfer function(MTF) of the room-glass window system. Using Maximum Length Sequency(MLS) signal as a sound source, impulse responses of the glass window and MTF were determined by signals from accelerometers and laser doppler vibrometer. Finally, speech intelligibility of the interior sound and window vibration were compared under different sound pressure levels and amplifier gains to confirm the effect of measurement condition on the speech intelligibility.

청각 장애자용 발음 훈련 기기의 개발 (Speech training aids for deafs)

  • 김동준;윤태성;박상희
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1991년도 한국자동제어학술회의논문집(국내학술편); KOEX, Seoul; 22-24 Oct. 1991
    • /
    • pp.746-751
    • /
    • 1991
  • Deafs train articulation by observing mouth of a tutor. sensing tactually the notions of the vocal organs, or using speech training aids. Present speech training aids for deafs can measure only single speech ter, or display only frequency spectra in histogrm or pseudo-color. In this study, a speech training aids that can display subject's articulation in the form of a cross section of the vocal organs and other speech parameters together in a single system Is aimed to develop and this system makes a subject to know where to correct. For our objective, first, speech production mechanism is assumed to be AR model in order to estimate articulatory notions of the vocal tract from speech signal. Next, a vocal tract profile mode using LPC analysis is made up. And using this model, articulatory notions for Korean vowels are estimated and displayed in the vocal tract profile graphics.

  • PDF

잡음환경에서의 음성인식 성능 향상을 위한 이중채널 음성의 CASA 기반 전처리 방법 (CASA-based Front-end Using Two-channel Speech for the Performance Improvement of Speech Recognition in Noisy Environments)

  • 박지훈;윤재삼;김홍국
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.289-290
    • /
    • 2007
  • In order to improve the performance of a speech recognition system in the presence of noise, we propose a noise robust front-end using two-channel speech signals by separating speech from noise based on the computational auditory scene analysis (CASA). The main cues for the separation are interaural time difference (ITD) and interaural level difference (ILD) between two-channel signal. As a result, we can extract 39 cepstral coefficients are extracted from separated speech components. It is shown from speech recognition experiments that proposed front-end has outperforms the ETSI front-end with single-channel speech.

  • PDF