• Title/Summary/Keyword: Mixture of Gaussian

검색결과 509건 처리시간 0.044초

가우시안 혼합 모델과 옵티컬 플로우 기법을 이용한 특이행동 인지 기법 연구 (Abnormal behavior detection using Gaussian Mixture Model and Optical Flow)

  • 박종현;임성조;강동중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.173-176
    • /
    • 2009
  • 본 논문에서는 감시시스템이 갖추어진 환경 내에서 발생할 수 있는 특이 행동을 효율적으로 감지하기 위한 기법을 제시한다. 최근 대형 범죄 및 방화 사건 등의 방지목적으로 DVR 의 단순 녹화를 벗어나 지능형 감시시스템을 도입하려는 연구가 활발히 진행되고 있다. 그러나 이러한 시스템들은 아직 초기 연구 단계에 있으며 영상내의 관심물체 추출을 위한 전경과 배경의 분리 및 추적 단계에 그치고 있다. 이에 본 논문에서는 가우시안 혼합 모델을 통하여 전경과 배경을 분리하고, 관심영역에 한해서 Optical Flow 기법을 이용하여 폭력상황과 같은 특이 행동의 감지 여부를 판단 할 수 있는 방법에 대해 실험을 통해 평가하였다.

화자인식을 위한 관측신뢰도 기반 변형된 HMM 디코더 (Modified HMM Decoder based on Observation Confidence for Speaker Identification)

  • ;민소희;김진영;나승유
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.443-446
    • /
    • 2007
  • 음성신호는 잡음 또는 전송 채널의 특성에 의하여 왜곡되고, 왜곡된 음성은 음성인식 및 화자인식의 성능을 크게 저하시킨다. 이러한 문제점을 극복하기 위해 본 논문에서는 Gaussian mixture model (GMM)에 적용된 신호대잡음비 (SNR)기반 신뢰도 가중 기법[1][2]을 Hidden Markov model(HMM) 디코더에 변형하여 적용하였다. HMM 디코더 변형은 HMM 상태별 관측확률을 논문 [1]에서 제시된 신뢰도로 가중함으로써 이루어졌다. 제안한 방법의 성능을 확인하기 위해 ETRI에서 만든 한국어 화자인식용 휴대폰 음성 DB를 사용하여 문맥종속 화자식별 실험을 하였다. 실험결과 기존 방법에 비해 제안한 방법의 화자인식률이 크게 향상됨을 확인 할 수 있었다.

  • PDF

오디오 피크 검출을 적용한 TV 방송 프로그램 내 배경음악 식별 알고리즘 (Background Music Identification in TV Broadcasting Program Algorithm using Audio Peak Detection)

  • 류상현;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.34-35
    • /
    • 2013
  • 본 논문에서는 오디오 피크 검출을 적용한 TV 방송 프로그램내 배경음악 식별 알고리즘을 제안한다. 제안한 알고리즘은 음악 핑거프린트 추출 및 전송부, 음악구간 검출부, 음악 핑거프린트는 고속 매칭 및 정보전송부 세 부분으로 구성되어 있다. 음악 핑거프린트 추출 및 전송부에서는 음악 원음 오디오 데이터를 퓨리에 변환하여 스펙트럼 계수를 추출한다. 추출된 스펙트럼의 성분 중에서 일정한 문턱값 이상의 에너지를 가지는 값을 피크로 검출하고 검출된 피크를 이용하이 핑거프린트를 생성하고 데이터 베이스화한다. 음악구간 검출부에서는 입력된 방송 프로그램 오디오 데이터에 GMM(Gaussian Mixture Model)을 적용하여 음악과 음악 외 오디오 데이터를 분류한다. 음악 핑거프린트 고속 매칭 및 정보전송부에서는 음악구간이라고 인식된 쿼리 오디오 데이터를 음악 핑거프린트 추출 및 전송부와 동일한 과정을 통해 핑거프린트를 생성하고 데이터 베이스화된 음악 원음의 핑거프린트들과 비교하여 가장 유사한 음원의 정보를 TV의 화면에 자막으로 보여준다.

  • PDF

영상 통화 상황에서 안정적인 사람 영역 검출 방법

  • 허선;구형일;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.244-247
    • /
    • 2013
  • 본 논문에서는 영상 통화나 웹캠 혹은 화상 회의 상황의 비디오 영상에서 안정적으로 사람 영역과 배경을 분리하는 방법을 제안한다. 이 방법은 카메라가 고정이라는 등의 제약을 두지 않고 자유롭게 움직이는 비디오 영상에서 사용자의 입력도 필요 없이 자동으로 사람 영역을 분리해 내게 된다. 첫 프레임에서 얼굴 검출을 통해 사람의 대략적인 위치를 추측하여 배경과 사람 영역을 Gaussian Mixture Model 로 모델링하고, 매 프레임 이 모델을 효율적으로 갱신한다. 그리고 비디오 영상의 연속성을 에너지 함수 설계에 적용하여 프레임간 사람 영역의 변화가 크지 않고 안정적으로 나오게 된다. 제안하는 방법은 기존 방법들에 비하여 제약이 적고, 사용자 입력이 필요 없으며 안정적으로 사람 영역을 분리함을 실험을 통하여 확인하였다.

  • PDF

화자인식에서 차분을 이용한 새로운 데이터 추출 방법 (New Data Extraction Method using the Difference in Speaker Recognition)

  • 서창우;고희애;임영환;최민정;이윤정
    • 음성과학
    • /
    • 제15권3호
    • /
    • pp.7-15
    • /
    • 2008
  • This paper proposes the method to extract new feature vectors using the difference between the cepstrum for static characteristics and delta cepstrum for dynamic characteristics in speaker recognition (SR). The difference vector (DV) which it proposes from this paper is containing the static and the dynamic characteristics simultaneously at the intermediate characteristic vector which uses the deference between the static and the dynamic characteristics and as the characteristic vector which is new there is a possibility of doing. Compared to the conventional method, the proposed method can achieve new feature vector without increasing of new parameter, but only need the calculation process for the difference between the cepstrum and delta cepstrum. Experimental results show that the proposed method has a good performance more than 2.03%, on average, compared with conventional method in speaker identification (SI).

  • PDF

운율 특성 벡터와 가우시안 혼합 모델을 이용한 감정인식 (Emotion Recognition using Prosodic Feature Vector and Gaussian Mixture Model)

  • Kwak, Hyun-Suk;Kim, Soo-Hyun;Kwak, Yoon-Keun
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2002년도 추계학술대회논문초록집
    • /
    • pp.375.2-375
    • /
    • 2002
  • This paper describes the emotion recognition algorithm using HMM(Hidden Markov Model) method. The relation between the mechanic system and the human has just been unilateral so far This is the why people don't want to get familiar with multi-service robots. If the function of the emotion recognition is granted to the robot system, the concept of the mechanic part will be changed a lot. (omitted)

  • PDF

가산잡음환경에서 강인음성인식을 위한 은닉 마르코프 모델 기반 손실 특징 복원 (HMM-based missing feature reconstruction for robust speech recognition in additive noise environments)

  • 조지원;박형민
    • 말소리와 음성과학
    • /
    • 제6권4호
    • /
    • pp.127-132
    • /
    • 2014
  • This paper describes a robust speech recognition technique by reconstructing spectral components mismatched with a training environment. Although the cluster-based reconstruction method can compensate the unreliable components from reliable components in the same spectral vector by assuming an independent, identically distributed Gaussian-mixture process of training spectral vectors, the presented method exploits the temporal dependency of speech to reconstruct the components by introducing a hidden-Markov-model prior which incorporates an internal state transition plausible for an observed spectral vector sequence. The experimental results indicate that the described method can provide temporally consistent reconstruction and further improve recognition performance on average compared to the conventional method.

화자인증 시스템에서 선정 방법에 관한 연구 (A Study on Background Speaker Selection Method in Speaker Verification System)

  • 최홍섭
    • 음성과학
    • /
    • 제9권2호
    • /
    • pp.135-146
    • /
    • 2002
  • Generally a speaker verification system improves its system recognition ratio by regularizing log likelihood ratio, using a speaker model and its background speaker model that are required to be verified. The speaker-based cohort method is one of the methods that are widely used for selecting background speaker model. Recently, Gaussian-based cohort model has been suggested as a virtually synthesized cohort model, and unlike a speaker-based model, this is the method that chooses only the probability distributions close to basic speaker's probability distribution among the several neighboring speakers' probability distributions and thereby synthesizes a new virtual speaker model. It shows more excellent results than the existing speaker-based method. This study compared the existing speaker-based background speaker models and virtual speaker models and then constructed new virtual background speaker model groups which combined them in a certain ratio. For this, this study constructed a speaker verification system that uses GMM (Gaussin Mixture Model), and found that the suggested method of selecting virtual background speaker model shows more improved performance.

  • PDF

실시간 영상에서 모션 벡터 차이를 이용한 정면얼굴 이미지 탐지 (Front face image detection using difference of motion vector on Real Video)

  • 김동현;정주신;김현정;원일용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.461-463
    • /
    • 2012
  • 본 연구는 실시간 영상에서 정면 얼굴을 가지고 있는 이미지를 탐지하는 방법에 대한 것이다. 모든 프레임마다 얼굴 인식 등의 연산을 수행한다면 계산량과 시간이 문제이다. 우리가 제안하는 방법은 동일인이 등장하는 영상 중 동일한 얼굴을 추적하여 움직임의 차이를 이용하여 정면 이미지를 판단하는 것이다. Gaussian Mixture Model 과 Motion template 을 이용하였으며, 실험을 통해 도출된 결과는 제안 알고리즘의 유용성을 어느 정도 증명할 수 있었다.

다중 심도 카메라를 이용한 실시간 피플 카운팅 시스템 (Real-time People Counting System Using Multiple Depth Cameras)

  • 이용섭;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.652-654
    • /
    • 2012
  • 본 논문에서는 다중 심도 카메라 기반의 실시간 피플 카운팅 시스템을 제안 한다. 카메라 영상으로부터 사람을 감지하고 추적하는 시스템 및 그 방법에 관한 것으로, 피플 카운팅 시스템은 쇼핑몰이나 대형건물의 출입구 등과 같은 다양한 환경에 적용될 수 있다. 기존 피플 카운팅 시스템에서의 급격한 조명의 변화나 겹침 현상, 가림 현상에 대한 해결 방법으로, 다중 심도 카메라 환경에서 동일 객체 추적을 위해 RLM(Range Laser Method)를 적용하고, 조명 등 환경 변화에 강인한 배경 제거 및 물체 검출 기법으로 가우시안 혼합 모델(Gaussian Mixture Model)을 적용해 객체인식에 대한 정확도를 높인다. 또한, 객체를 블랍(Blob)으로 지정해 확장 칼만 필터(Extended Kalman Filter, EKF) 방법으로 객체를 추적한다. 본 제안은 피플 카운팅 시스템에의 객체 검출 및 인식에 대한 정확도를 향상시킬 수 있으리라 기대된다.