• 제목/요약/키워드: Noise robust feature

검색결과 155건 처리시간 0.021초

잡음 환경에 효과적인 음성 인식을 위한 Gaussian mixture model deep neural network 하이브리드 기반의 특징 보상 (A study on Gaussian mixture model deep neural network hybrid-based feature compensation for robust speech recognition in noisy environments)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.506-511
    • /
    • 2018
  • 본 논문에서는 잡음 환경에서 효과적인 음성인식을 위하여 GMM(Gaussian Mixture Model)-DNN(Deep Neural Network) 하이브리드 기반의 특징 보상 기법을 제안한다. 기존의 GMM 기반의 특징 보상에서 필요로 하는 사후 확률을 DNN을 통해 계산한다. Aurora 2.0 데이터를 이용한 음성 인식 성능 평가에서 본 논문에서 제안한 GMM-DNN 하이브리드 기법이 기존의 GMM 기반 기법에 비해 Known, Unknown 잡음 환경에서 모두 평균적으로 우수한 성능을 나타낸다. 특히 Unknown 잡음 환경에서 평균 오류율이 9.13 %의 상대 향상률을 나타내고, 낮은 SNR(Signal to Noise Ratio) 잡음 환경에서 상당히 우수한 성능을 보인다.

A Target Tracking Based on Bearing and Range Measurement With Unknown Noise Statistics

  • Lim, Jaechan
    • Journal of Electrical Engineering and Technology
    • /
    • 제8권6호
    • /
    • pp.1520-1529
    • /
    • 2013
  • In this paper, we propose and assess the performance of "H infinity filter ($H_{\infty}$, HIF)" and "cost reference particle filter (CRPF)" in the problem of tracking a target based on the measurements of the range and the bearing of the target. HIF and CRPF have the common advantageous feature that we do not need to know the noise statistics of the problem in their applications. The performance of the extended Kalman filter (EKF) is also compared with that of the proposed filters, but the noise information is perfectly known for the applications of the EKF. Simulation results show that CRPF outperforms HIF, and is more robust because the tracking of HIF diverges sometimes, particularly when the target track is highly nonlinear. Interestingly, when the tracking of HIF diverges, the tracking of the EKF also tends to deviate significantly from the true track for the same target track. Therefore, CRPF is very effective and appropriate approach to the problems of highly nonlinear model, especially when the noise statistics are unknown. Nonetheless, HIF also can be applied to the problem of timevarying state estimation as the EKF, particularly for the case when the noise statistcs are unknown. This paper provides a good example of how to apply CRPF and HIF to the estimation of dynamically varying and nonlinearly modeled states with unknown noise statistics.

Adaptive Channel Normalization Based on Infomax Algorithm for Robust Speech Recognition

  • Jung, Ho-Young
    • ETRI Journal
    • /
    • 제29권3호
    • /
    • pp.300-304
    • /
    • 2007
  • This paper proposes a new data-driven method for high-pass approaches, which suppresses slow-varying noise components. Conventional high-pass approaches are based on the idea of decorrelating the feature vector sequence, and are trying for adaptability to various conditions. The proposed method is based on temporal local decorrelation using the information-maximization theory for each utterance. This is performed on an utterance-by-utterance basis, which provides an adaptive channel normalization filter for each condition. The performance of the proposed method is evaluated by isolated-word recognition experiments with channel distortion. Experimental results show that the proposed method yields outstanding improvement for channel-distorted speech recognition.

  • PDF

HOG와 칼만필터를 이용한 다중 표적 추적에 관한 연구 (A Study on Multi Target Tracking using HOG and Kalman Filter)

  • 서창진
    • 전기학회논문지P
    • /
    • 제64권3호
    • /
    • pp.187-192
    • /
    • 2015
  • Detecting human in images is a challenging task owing to their variable appearance and the wide range of poses the they can adopt. The first need is a robust feature set that allows the human form to be discriminated cleanly, even in cluttered background under difficult illumination. A large number of vision application rely on matching keypoints across images. These days, the deployment of vision algorithms on smart phones and embedded device with low memory and computation complexity has even upped the ante: the goal is to make descriptors faster compute, more compact while remaining robust scale, rotation and noise. In this paper we focus on improving the speed of pedestrian(walking person) detection using Histogram of Oriented Gradient(HOG) descriptors provide excellent performance and tracking using kalman filter.

국부잡음에 강인한 웨이블릿 기반의 홍채 인식 기법 (Robust iris recognition for local noise based on wavelet transforms)

  • 박종근;이철희
    • 대한전자공학회논문지SP
    • /
    • 제42권2호
    • /
    • pp.121-130
    • /
    • 2005
  • 본 논문에서는 웨이블릿 변환을 이용하여 흥채의 특징을 추출하는 기법에 대해 제안한다. 웨이블릿 변환은 수행 속도가 빠르며 신호의 에너지를 저주파 대역으로 잘 모아주는 우수한 국소화 특징을 갖고 있으며, 특히 저주파 대역을 효율적인 특징 벡터로 사용한 수 있다. 한편 인식에 사용하고자 하는 흥채 영역에 눈꺼풀, 눈썹, 반사광, 안경의 흠집 등으로 인한 잡음이 포함될 수 있다. 이러한 잡음은 그 자체로도 홍채 패턴을 크게 변형시키며, 웨이블릿, 가보 등의 필터 기반 특징 추출 알고리즘은 잡음을 전체 영역으로 확산시킨다. 즉 잡음은 흥채 인식 시스템의 성능을 저하시킨다. 이를 막기 위해 본 논문에서는 홍채 템플릿을 여러 개의 영역으로 분할하여 각 영역에 대해 웨이블릿 변환을 수행함으로써 잡음의 영향을 제한된 영역에 국한시킨다. 실험에서 웨이블릿 방법이 기존의 Gabor 변환을 이용한 특징 추출 방법과 비교하여 특징 추출 속도는 더 빠르면서 대등한 성능을 보여주는 것을 확인할 수 있으며 영역 분할로 인해 성능 개선이 되었다.

이동통신 환경에서 강인한 음성 감성특징 추출에 대한 연구 (A Study on Robust Speech Emotion Feature Extraction Under the Mobile Communication Environment)

  • 조윤호;박규식
    • 한국음향학회지
    • /
    • 제25권6호
    • /
    • pp.269-276
    • /
    • 2006
  • 본 논문은 이동전화 (Cellular phone)를 통해 실시간으로 습득된 음성으로부터 사람의 감성 상태를 평상 혹은 화남으로 인식할 수 있는 음성 감성인식 시스템을 제안하였다. 일반적으로 이동전화를 통해 수신된 음성은 화자의 환경 잡음과 네트워크 잡음을 포함하고 있어 음성 신호의 감성특정을 왜곡하게 되고 이로 인해 인식 시스템에 심각한 성능저하를 초래하게 된다. 본 논문에서는 이러한 잡음 영향을 최소화하기 위해 비교적 단순한 구조와 적은 연산량을 가진 MA (Moving Average) 필터를 감성 특정벡터에 적용해서 잡음에 의한 시스템 성능저하를 최소화하였다. 또한 특정벡터를 최적화할 수 있는 SFS (Sequential Forward Selection) 기법을 사용해서 제안 감성인식 시스템의 성능을 한층 더 안 정화시켰으며 감성 패턴 분류기로는 k-NN과 SVM을 비교하였다. 실험 결과 제안 시스템은 이동통신 잡음 환경에서 약 86.5%의 높은 인식률을 달성할 수 있어 향후 고객 센터 (Call-center) 등에 유용하게 사용될 수 있을 것으로 기대된다.

강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화 (Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition)

  • 신광호;정현열
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.278-285
    • /
    • 2010
  • 훈련 환경과 인식 환경의 차이가 음성인식 성능저하의 주요요인이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음특징 정규화 방법이 제안되고 있다. 기존의 묵음특징 정규화 방법은 낮은 SNR (Signal-to-Noise Ratio)에서 묵음구간의 에너지 레벨이 증가하여 음성/묵음 분류의 정확도가 떨어짐으로 인해 인식성능이 저하되는 문제점이 있었다. 본 논문에서는 로그 에너지와 음성/묵음(또는잡음)의 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언(Euclidean) 거리를 결합하여 음성/묵음을 분류하는 묵음특징 정규화 방법 (Cepstral distance and Log-energy based Silence Feature Normalization)을 제안하였다. 제안한 방법은 높은 SNR에서는 로그 에너지 특징이 잡음의 영향을 적게 받는 특성을 반영하여 기존의 묵음 특징 정규화 (Silence Feature Normalization)방법의 우수성을 그대로 유지하는 반면, 낮은 SNR에서는 로그 에너지 대신 음성/묵음 분류의 분별력이 우수한 켑스트럼 거리 정보를 이용함으로써 인식성능을 향상시킬 수 있다. 인식실험결과 기존의 SFN-I/II, CSFN 방법에 비해 전반적으로 향상된 인식성능을 얻을 수 있어 그 유효성을 확인할 수 있었다.

Fast image stitching method for handling dynamic object problems in Panoramic Images

  • Abdukholikov, Murodjon;Whangbo, Taegkeun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권11호
    • /
    • pp.5419-5435
    • /
    • 2017
  • The construction of panoramic images on smartphones and low-powered devices is a challenging task. In this paper, we propose a new approach for smoothly stitching images on mobile phones in the presence of moving objects in the scene. Our main contributions include handling moving object problems, reducing processing time, and generating rectangular panoramic images. First, unique and robust feature points are extracted using fast ORB method and a feature matching technique is applied to match the extracted feature points. After obtaining good matched feature points, we employ the non-deterministic RANSAC algorithm to discard wrong matches, and the hommography transformation matrix parameters are estimated with the algorithm. Afterward, we determine precise overlap regions of neighboring images and calculate their absolute differences. Then, thresholding operation and noise removal filtering are applied to create a mask of possible moving object regions. Sequentially, an optimal seam is estimated using dynamic programming algorithm, and a combination of linear blending with the mask information is applied to avoid seam transition and ghosting artifacts. Finally, image-cropping operation is utilized to obtain a rectangular boundary image from the stitched image. Experiments demonstrate that our method is able to produce panoramic images quickly despite the existence of moving objects.

Similarity Measurement using Gabor Energy Feature and Mutual Information for Image Registration

  • Ye, Chul-Soo
    • 대한원격탐사학회지
    • /
    • 제27권6호
    • /
    • pp.693-701
    • /
    • 2011
  • Image registration is an essential process to analyze the time series of satellite images for the purpose of image fusion and change detection. The Mutual Information (MI) is commonly used as similarity measure for image registration because of its robustness to noise. Due to the radiometric differences, it is not easy to apply MI to multi-temporal satellite images using directly the pixel intensity. Image features for MI are more abundantly obtained by employing a Gabor filter which varies adaptively with the filter characteristics such as filter size, frequency and orientation for each pixel. In this paper we employed Bidirectional Gabor Filter Energy (BGFE) defined by Gabor filter features and applied the BGFE to similarity measure calculation as an image feature for MI. The experiment results show that the proposed method is more robust than the conventional MI method combined with intensity or gradient magnitude.

실 해상 실험 데이터를 이용한 정합장 처리에서의 특성치 추출 기법 분석 (Matched Field Processing: Ocean Experimental Data Analysis Using Feature Extraction Method)

  • Kim Kyung Seop;Seong Woo Jae;Song Hee Chun
    • The Journal of the Acoustical Society of Korea
    • /
    • 제24권1E호
    • /
    • pp.21-27
    • /
    • 2005
  • Environmental mismatch has been one of important issues discussed in matched field processing for underwater source detection problem. To overcome this mismatch many algorithms professing robustness have been suggested. Feature extraction method (FEM) [Seong and Byun, IEEE Journal of Oceanic Engineering, 27(3), 642-652 (2002)] is one of robust matched field processing algorithms, which is based on the eigenvector estimation. Excluding eigenvectors of replica covariance matrix corresponding to large eigenvalues and forming an incoherent subspace of the replica field, the processor is formulated similarly to MUSIC algorithm. In this paper, by using the ocean experimental data, processing results of FEM and MVDR with white noise constraint (WNC) are presented for two levels of multi-tone source. Analysis of eigen-space of CSDM and FEM performance are also presented.