• 제목/요약/키워드: Mixture of Gaussian

검색결과 505건 처리시간 0.027초

환경음 인식을 위한 GMM의 혼합모델 개수 추정 (Estimation of Optimal Mixture Number of GMM for Environmental Sounds Recognition)

  • 한다정;박아론;백성준
    • 한국산학기술학회논문지
    • /
    • 제13권2호
    • /
    • pp.817-821
    • /
    • 2012
  • 본 논문에서는 환경음 인식에 GMM(Gaussain mixture model)을 이용할 때 MDL(minimum description length)와 BIC(Bayesian information criterion) 모델선택 기준을 이용하여 최적의 혼합모델 개수를 결정하는 방법에 대해 다루었다. 실험은 모두 9가지 종류의 환경음으로부터 12차 MFCC(mel-frequency cepstral coefficients) 특징 27747개를 추출하고 이를 GMM으로 분류하였다. 각 환경음 클래스의 최적 혼합모델 개수를 추정 하기위해 MDL과 BIC를 적용하고 그 결과를 고정 개수의 혼합모델을 사용한 경우와 비교하였다. 실험 결과에 따르면 혼합모델 선택 방법을 적용한 경우가 그렇지 않은 경우에 비해 거의 유사한 인식성능을 유지하면서 계산복잡도는 BIC와 MDL를 통해 각각 17.8%와 31.7%가 감소하는 것을 확인하였다. 이는 GMM을 이용한 환경음 인식에서 BIC와 MDL 적용을 통해 계산복잡도를 효과적으로 감소시킬 수 있음을 보여준다.

프레임레벨유사도정규화를 적용한 문맥독립화자식별시스템의 구현 (Realization a Text Independent Speaker Identification System with Frame Level Likelihood Normalization)

  • 김민정;석수영;김광수;정현열
    • 융합신호처리학회논문지
    • /
    • 제3권1호
    • /
    • pp.8-14
    • /
    • 2002
  • 본 논문에서는 Gaussian mixture model을 이용한 실시간 문맥독립화자식별시스템을 구현하여 인식실험을 수행하였으며, 인식시스템의 성능을 향상시키기 위하여 화자검증시스템에서 좋은 결과를 보인 유사도 정규화(Likelihood normalization)방법을 적용하여 인식실험을 하였다. 시스템은 크게 전처리단과 화자모델생성단, 화자식별단으로 나누어진다. 전처리단에서는 화자의 발성변화를 고려하여 CMN(Cepstral mean normalization)과 Silence removal 방법을 적용하였다. 화자모델생성단에서는, 화자발성의 음향학적 특징을 잘 표현할 수 있는 GMM(Gaussian mixture model)을 이용하여 화자모델을 작성하였으며, GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법을 사용하였다. 화자식별단에서는 학습된 데이터와 테스트용 데이터로부터 ML(Maximum likelihood)을 이용하여 유사도를 계산하였으며, 이 과정에서 유사도 정규화를 적용한 경우에는 프레임단위로 유사도를 계산하게 된다. 계산된 유사도는 스코어(S$_{C}$)로 표현하였고, 가장 높은 스코어를 가지는 화자가 인식화자로 결정된다. 화자인식에서 발성의 종류로는 문맥독립 문장을 사용하였다. 인식실험을 위해서는 ETRI445 DB와 KLE452 DB를 사용하였으며, 특징파라미터로서는 켑스트럼계수 및 회귀계수값만을 사용하였다. 인식실험에서는 등록화자의 수를 달리하여 일반적인 화자식별방법과 프레임단위유사도정규화방법으로 각각 인식실험을 하였다. 인식실험결과, 프레임단위유사도정규화방법이 인식화자수가 많아지는 경우에 일반적인 방법보다 향상된 인식률을 얻을 수 있었다.

  • PDF

혼잡한 환경에 적합한 적응적인 배경모델링 방법 (Adaptive Background Modeling for Crowded Scenes)

  • 이광국;송수한;가기환;윤자영;김재준;김회율
    • 한국멀티미디어학회논문지
    • /
    • 제11권5호
    • /
    • pp.597-609
    • /
    • 2008
  • 기존의 배경 모델링 방법은 배경 모델의 반복적 갱신(recursive update)으로 인해 배경보다 객체가 더 자주 등장하는 혼잡한 환경에서는 정확한 배경 모델링을 생성하기 어려운 문제를 지니고 있다. 본 논문은 이러한 기존 방법의 문제를 해결하기 위해 기존의 혼합 Gaussian 모델을 기반으로 하는 적응적 배경 모델링 방법을 제안한다. 제안한 방법은 영상 내 전경 영역의 비율에 따라 배경 모델의 학습 비율을 적응적으로 조절한다. 따라서, 혼잡 상황에서는 배경 모델의 갱신을 억제하여 배경 모델을 잘 유지시키는 것이 가능하다. 실험을 통해 제안한 방법이 일반적인 상황의 영상에서는 기존 방법과 유사한 정확도를 보이지만 혼잡한 상황에서는 기존 방법과 비교하여 배경 제거를 효과적으로 수행하는 것을 확인하였으며, 또 정확도 측정 결과 혼잡한 상황의 영상에서 기존 방법과 비교하여 F 값이 5-10% 가량 향상함을 확인하였다.

  • PDF

Unsupervised Change Detection Using Iterative Mixture Density Estimation and Thresholding

  • Park, No-Wook;Chi, Kwang-Hoon
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.402-404
    • /
    • 2003
  • We present two methods for the automatic selection of the threshold values in unsupervised change detection. Both methods consist of the same two procedures: 1) to determine the parameters of Gaussian mixtures from a difference image or ratio image, 2) to determine threshold values using the Bayesian rule for minimum error. In the first method, the Expectation-Maximization algorithm is applied for estimating the parameters of the Gaussian mixtures. The second method is based on the iterative thresholding that successively employs thresholding and estimation of the model parameters. The effectiveness and applicability of the methods proposed here are illustrated by an experiment on the multi-temporal KOMPAT-1 EOC images.

  • PDF

IMAGE SEGMENTATION BASED ON THE STATISTICAL VARIATIONAL FORMULATION USING THE LOCAL REGION INFORMATION

  • Park, Sung Ha;Lee, Chang-Ock;Hahn, Jooyoung
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제18권2호
    • /
    • pp.129-142
    • /
    • 2014
  • We propose a variational segmentation model based on statistical information of intensities in an image. The model consists of both a local region-based energy and a global region-based energy in order to handle misclassification which happens in a typical statistical variational model with an assumption that an image is a mixture of two Gaussian distributions. We find local ambiguous regions where misclassification might happen due to a small difference between two Gaussian distributions. Based on statistical information restricted to the local ambiguous regions, we design a local region-based energy in order to reduce the misclassification. We suggest an algorithm to avoid the difficulty of the Euler-Lagrange equations of the proposed variational model.

음성학적인 정보를 포함한 SPLICE를 이용한 잡음환경에서의 음성인식 (Speech Recognition in Noise Environments Using SPLICE with Phonetic Information)

  • 김두희;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.83-86
    • /
    • 2002
  • 훈련과정과 인식과정에서의 주변환경 잡음과 채널 특성 등의 불일치는 음성인식 성능을 급격히 저하시킨다. 이러한 불일치를 보상하기 위해서 켑스트럼 영역에서의 다양한 전처리 방법이 시도되고 있으며 최근에는 stereo 데이터와 잡음 음성의 Gaussian Mixture Model (GMM)을 이용해 보상벡터를 구하는 SPLICE 방법이 좋은 결과를 보이고 있다(1). 기존의 SPLICE가 전체 발성에 대해서 음향학적인 정보만으로 Gaussian 모델을 구하는 반면 본 논문에서는 발성에 해당하는 음소정보를 고려하여 전체 음향 공간을 각 음소에 대해 나누어서 모델링하고 각 음소에 대한 Gaussian 모델과 그 음소에 해당하는 음성데이터만을 이용하여 음소별 보상벡터가 훈련되도록 하였다. 이 경우 보상벡터는 잡음이 각 음소에 미치는 영향을 보다 자세히 나타내게 된다. Aurora 2 데이터베이스를 이용한 실험결과, 제안된 방법이 기존의 SPLICE방법에 비해 성능향상을 보였다.

  • PDF

음성 문자 공용인식기를 위한 SSMS 기반 가변 파라미터 모델 (A Variable Parameter Model based on SSMS for an On-line Speech and Character Combined Recognition System)

  • 석수영;정호열;정현열
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.528-538
    • /
    • 2003
  • 음성 문자 공용 인식 시스템은 PDA (Personal Digital Assistants)와 같은 휴대용 모빌 환경에서 음성인식과 문자인식을 적용하기에 적합하도록 개발되었다. 공용 인식 시스템은 특징 파라미터 추출에 있어서는 음성과 문자부분이 독립적으로 수행되나, 인식 과정은 단일 엔진으로 수행된다. CHMM (Continuous Hidden Markov Model)을 이용하는 인식엔진은 고정 파라미터 모델 구조 대신에 동일한 인식률을 유지하면서 모델의 파라미터의 수를 효과적으로 줄일 수 있는 가변 파라미터 모델 구조를 사용하는 것이 유리하다. 본 논문에서는 문맥 독립 가변 파라미터 모델을 생성하기 위해 SSMS (Successive State and Mixture Splitting) 방법을 제안한다. SSMS 알고리즘은 시간 방향 분할과 혼합수 방향분할을 통해 적절한 상태수와 각 상태당 적절한 혼합수를 가지는 모델을 생성한다. 음성 인식 실험 결과 동일한 인식성능을 나타내는 경우 SSMS 기반 가변 파라미터 모델이 고정 파라미터 모델에 비해 GOPDD (Gaussian Output Probability Density Distribution)의 수가 40% 감소함을 확인할 수 있었다.

가우스성 잡음과 임펄스성 잡음이 혼재하는 다중전파 페이딩 전송로상에서의 제반 디지털 통신 시스템 특성의 종합분석 및 비교에 관한 연구(제 1 부) (Comprehensive Performance Analysis and Comparison of various Digital Communication Systems in an Multipath Fading Channel with additive Mixture of Gaussian and Impulsive Noise [Part-1])

  • 김현철;고봉진;공병옥;조성준
    • 한국통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.263-279
    • /
    • 1989
  • 본 논문의 제 1 부에서는 대표적인 제반 디지털 통신시스템, 즉, 진폭변조(ASK), 직교진폭변조(QAM), 동기위상변조(CPSK), 차동위상변조(DPSK), 주파수변조(FSK), 및 최소편이 주파수변조(MSK) 시스템이 가우으성 잡음과 임펄스성 잡음이 존재하는 채널 환경하에서 신호가 영향을 받았을 때의 오율에 관한 식을 유도하여 반송파 전력대 잡음전력비(CNR), 임펄스지수 및 임펄스성 잡음전력에 대한 가우스성 잡음전력비를 함수로 하여 시스템의 성능을 구했다. 각 시스템의 열화 특성을 그래프로 나타내어 임펄스성 잡음이 가우스성 잡음보다 시스템의 성능을 얼마나 더 열화시키는가를 알 수 있게 했다.

  • PDF

Study on Image Processing Techniques Applying Artificial Intelligence-based Gray Scale and RGB scale

  • Lee, Sang-Hyun;Kim, Hyun-Tae
    • International Journal of Advanced Culture Technology
    • /
    • 제10권2호
    • /
    • pp.252-259
    • /
    • 2022
  • Artificial intelligence is used in fusion with image processing techniques using cameras. Image processing technology is a technology that processes objects in an image received from a camera in real time, and is used in various fields such as security monitoring and medical image analysis. If such image processing reduces the accuracy of recognition, providing incorrect information to medical image analysis, security monitoring, etc. may cause serious problems. Therefore, this paper uses a mixture of YOLOv4-tiny model and image processing algorithm and uses the COCO dataset for learning. The image processing algorithm performs five image processing methods such as normalization, Gaussian distribution, Otsu algorithm, equalization, and gradient operation. For RGB images, three image processing methods are performed: equalization, Gaussian blur, and gamma correction proceed. Among the nine algorithms applied in this paper, the Equalization and Gaussian Blur model showed the highest object detection accuracy of 96%, and the gamma correction (RGB environment) model showed the highest object detection rate of 89% outdoors (daytime). The image binarization model showed the highest object detection rate at 89% outdoors (night).

Multi-Level Segmentation of Infrared Images with Region of Interest Extraction

  • Yeom, Seokwon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제16권4호
    • /
    • pp.246-253
    • /
    • 2016
  • Infrared (IR) imaging has been researched for various applications such as surveillance. IR radiation has the capability to detect thermal characteristics of objects under low-light conditions. However, automatic segmentation for finding the object of interest would be challenging since the IR detector often provides the low spatial and contrast resolution image without color and texture information. Another hindrance is that the image can be degraded by noise and clutters. This paper proposes multi-level segmentation for extracting regions of interest (ROIs) and objects of interest (OOIs) in the IR scene. Each level of the multi-level segmentation is composed of a k-means clustering algorithm, an expectation-maximization (EM) algorithm, and a decision process. The k-means clustering initializes the parameters of the Gaussian mixture model (GMM), and the EM algorithm estimates those parameters iteratively. During the multi-level segmentation, the area extracted at one level becomes the input to the next level segmentation. Thus, the segmentation is consecutively performed narrowing the area to be processed. The foreground objects are individually extracted from the final ROI windows. In the experiments, the effectiveness of the proposed method is demonstrated using several IR images, in which human subjects are captured at a long distance. The average probability of error is shown to be lower than that obtained from other conventional methods such as Gonzalez, Otsu, k-means, and EM methods.