• Title/Summary/Keyword: 프레임 기반 음성신호처리

Search Result 15, Processing Time 0.02 seconds

Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation (문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리)

  • 이용주;손종목;강경옥;배건성
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

A Study on the Reconstruction of a Frame Based Speech Signal through Dictionary Learning and Adaptive Compressed Sensing (Adaptive Compressed Sensing과 Dictionary Learning을 이용한 프레임 기반 음성신호의 복원에 대한 연구)

  • Jeong, Seongmoon;Lim, Dongmin
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.37A no.12
    • /
    • pp.1122-1132
    • /
    • 2012
  • Compressed sensing has been applied to many fields such as images, speech signals, radars, etc. It has been mainly applied to stationary signals, and reconstruction error could grow as compression ratios are increased by decreasing measurements. To resolve the problem, speech signals are divided into frames and processed in parallel. The frames are made sparse by dictionary learning, and adaptive compressed sensing is applied which designs the compressed sensing reconstruction matrix adaptively by using the difference between the sparse coefficient vector and its reconstruction. Through the proposed method, we could see that fast and accurate reconstruction of non-stationary signals is possible with compressed sensing.

A Study on the Epoch Extraction of Voicd Speech (유성음 구간에서의 Epoch 추출에 관한 연구)

  • 강동규
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.216-220
    • /
    • 1995
  • 음성 신호처리분야의 기반을 이루고 잇는 선형예측기법으로 성대폐쇄구간 분석이 가능해질 경우 특히 음성합성가 부호화 시스템의 상당한 성능개선을 기대할 수 있기 때문에 최근 관련 분야에서 높은 신뢰도를 갖는 GCI 검출 알고리즘 개발에 많은 관심을 보이고 있다. 성대폐쇄구간 검출에서 가장 중요한 것은 성대폐쇄시점에 관한 정보이며, 본 논문에서는 이에 대응될 수 있는 정보인 epoch를 음성신호에서 직접 추출할 수 있는 기법을 제안하였다. 제안된 방법은 프레임 단위별 평균 피치를 참조하여 저역통과된 유성음 신호에서 3구간 영교차점별 평균진폭 변동율에 의해 pseudo-epoch를 검출한다. 대역 통과된 유성음 신호를 이용하여 pseudo-epoch 부근에 존재하는 보다 정밀한 실제 epoch을 최종적으로 결정하였다. 제안된 방법은 단계적으로 epoch가 존재할 수 있는 연역을 좁혀 나아가면서 처리하므로 검출오차를 줄일 수 있었고, 시간영역에서 처리되어 계산량이 적으므로 고속 처리가 가능하였다. 성능평가를 위해 처리결과를 EGG 신호와 비교한 결과 약 2샘플 정도의 오차만을 갖는 우수한 성능을 나타내었다.

  • PDF

DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition (음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법)

  • Oh, SangYeob
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.6
    • /
    • pp.1-6
    • /
    • 2021
  • In the field of speech recognition, as the DNN is applied, the use of speech recognition is increasing, but the amount of calculation for parallel training needs to be larger than that of the conventional GMM, and if the amount of data is small, overfitting occurs. To solve this problem, we propose an efficient method for robust voice feature extraction and voice signal noise removal even when the amount of data is small. Speech feature extraction efficiently extracts speech energy by applying the difference in frame energy for speech and the zero-crossing ratio and level-crossing ratio that are affected by the speech signal. In addition, in order to remove noise, the noise of the speech signal is removed by removing the noise of the speech signal with an average predictive improved LMS filter with little loss of speech information while maintaining the intrinsic characteristics of speech in detection of the speech signal. The improved LMS filter uses a method of processing noise on the input speech signal by adjusting the active parameter threshold for the input signal. As a result of comparing the method proposed in this paper with the conventional frame energy method, it was confirmed that the error rate at the start point of speech is 7% and the error rate at the end point is improved by 11%.

Classification of Underwater Transient Signals Using MFCC Feature Vector (MFCC 특징 벡터를 이용한 수중 천이 신호 식별)

  • Lim, Tae-Gyun;Hwang, Chan-Sik;Lee, Hyeong-Uk;Bae, Keun-Sung
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.8C
    • /
    • pp.675-680
    • /
    • 2007
  • This paper presents a new method for classification of underwater transient signals, which employs frame-based decision with Mel Frequency Cepstral Coefficients(MFCC). The MFCC feature vector is extracted frame-by-frame basis for an input signal that is detected as a transient signal, and Euclidean distances are calculated between this and all MFCC feature. vectors in the reference database. Then each frame of the detected input signal is mapped to the class having minimum Euclidean distance in the reference database. Finally the input signal is classified as the class that has maximum mapping rate in the reference database. Experimental results demonstrate that the proposed method is very promising for classification of underwater transient signals.

The Subjective Evaluation System Implementation Using Speech Recognition (음성인식을 이용한 주관평가 시스템 구현)

  • 한화영;고한우;윤용현;조택동
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2001.05a
    • /
    • pp.276-279
    • /
    • 2001
  • 환경이나 작업부하 등이 인간에게 주는 피로나, stress 또는 쾌, 불쾌감 등의 감성을 평가하기 위한 정신물리학적인 방법의 하나으로 설문지에 의한 주관적인 평가법이 많이 사용되고 있다. 기존의 수작업으로 이루어지던 설문 방식을 자동화하여 PC 기반으로 설문양식을 자동 생성하고 음성을 통해 응답할 수 있는 프로그램을 개발하였다. 주관평가 자동화 시스템은 주관평가 데이터를 효율적으로 처리를 할 수 있고 음성을 이용함으로써 피험자의 정신적 부담을 경감시키며 생리신호와 주관평가와의 경시적인 변화를 효과적으로 평가할 수 있다. 설문 형식으로는 5점 척도와 7점 척도를 선택하였으며 평가어는 “매우 아니다”∼“매우 그렇다”로 구성되었다. 평가어를 인식함에 있어 좋은 인식률을 얻기 위한 특징벡터의 치수와 기본 프레임 개수를 대상으로 인식실험을 하였다.

  • PDF

A Novel Speech Enhancement Based on Speech/Noise-dominant Decision in Time-frequency Domain (시간-주파수 영역에서 음성/잡음 우세 결정에 의한 새로운 잡음처리)

  • 윤석현;유창동
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.3
    • /
    • pp.48-55
    • /
    • 2001
  • A novel method to reduce additive non-stationary noise is proposed. The method requires neither the information about noise nor the estimate of the noise statistics from any pause regions. The enhancement is performed on a band-by-band basis for each time frame. Based on both the decision on whether a particular band in a frame is speech or noise dominant and the masking property of the human auditory system, an appropriate amount of noise is reduced using spectral subtraction. The proposed method was tested on various noisy conditions (car noise, Fl6 noise, white Gaussian noise, pink noise, tank noise and babble noise) and on the basis of comparing segmental SNR with spectral subtraction method and visually inspecting the enhanced spectrograms and listening to the enhanced speech, the method was able to effectively reduce various noise while minimizing distortion to speech.

  • PDF

2.4kbps MELP Vocoder with TMS320VC5510 DSK (TMS320VC5510 DSK를 이용한 2.4kbps MELP 보코더)

  • Lee Sang Won;Kim Jun;Bae Keun Sung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.61-64
    • /
    • 2004
  • 본 논문에서는 저전송율 음성부호화기인 2.4kbps MELP(Mixed Excitation Linear Prediction) 보코더를 TI(Texas Instruments) 사의 고정소수점 DSP인 TMS 320VC5510을 이용하여 실시간 구현한 결과를 제시한다. MELP 보코더는 전통적인 LPC 합성방식에 기반한 것으로, 2.4kbps LPC 보코더가 여기신호를 유성음 구간에 대해서는 펄스열로, 무성음 구간에 대해서는 백색잡음 신호로 단순화시켜 합성함으로써 음질이 저하되거나 buzz 현상이 나타나는 단점을 적절히 혼합된 형태의 여기신호를 사용함으로써 보완한 것이다. DDVPC(Defense Digital Voice Processing Consortium)에서 제공하는 ANSI C 소스 코드를 이용하여 TMS320VC5510 DSK에서 실시간 동작이 가능하도록 최적화 작업을 수행하였으며, 구현된 MELP 보코더는 프로그램 메모리 46.5 kbyte와 데이터 메모리 57.9 kbyte를 가지며, 22.5ms의 한 프레임을 처리하는데 1326531 클럭(6.6 ms)이 소요되었다.

  • PDF

Development of medical/electrical convergence software for classification between normal and pathological voices (장애 음성 판별을 위한 의료/전자 융복합 소프트웨어 개발)

  • Moon, Ji-Hye;Lee, JiYeoun
    • Journal of Digital Convergence
    • /
    • v.13 no.12
    • /
    • pp.187-192
    • /
    • 2015
  • If the software is developed to analyze the speech disorder, the application of various converged areas will be very high. This paper implements the user-friendly program based on CART(Classification and regression trees) analysis to distinguish between normal and pathological voices utilizing combination of the acoustical and HOS(Higher-order statistics) parameters. It means convergence between medical information and signal processing. Then the acoustical parameters are Jitter(%) and Shimmer(%). The proposed HOS parameters are means and variances of skewness(MOS and VOS) and kurtosis(MOK and VOK). Database consist of 53 normal and 173 pathological voices distributed by Kay Elemetrics. When the acoustical and proposed parameters together are used to generate the decision tree, the average accuracy is 83.11%. Finally, we developed a program with more user-friendly interface and frameworks.

Voice Activity Detection Based on Discriminative Weight Training with Feedback (궤환구조를 가지는 변별적 가중치 학습에 기반한 음성검출기)

  • Kang, Sang-Ick;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.27 no.8
    • /
    • pp.443-449
    • /
    • 2008
  • One of the key issues in practical speech processing is to achieve robust Voice Activity Deteciton (VAD) against the background noise. Most of the statistical model-based approaches have tried to employ equally weighted likelihood ratios (LRs), which, however, deviates from the real observation. Furthermore voice activities in the adjacent frames have strong correlation. In other words, the current frame is highly correlated with previous frame. In this paper, we propose the effective VAD approach based on a minimum classification error (MCE) method which is different from the previous works in that different weights are assigned to both the likelihood ratio on the current frame and the decision statistics of the previous frame.