• Title/Summary/Keyword: 연속 HMM

Search Result 150, Processing Time 0.023 seconds

Statistical Modeling Methods for Analyzing Human Gait Structure (휴먼 보행 동작 구조 분석을 위한 통계적 모델링 방법)

  • Sin, Bong Kee
    • Smart Media Journal
    • /
    • v.1 no.2
    • /
    • pp.12-22
    • /
    • 2012
  • Today we are witnessing an increasingly widespread use of cameras in our lives for video surveillance, robot vision, and mobile phones. This has led to a renewed interest in computer vision in general and an on-going boom in human activity recognition in particular. Although not particularly fancy per se, human gait is inarguably the most common and frequent action. Early on this decade there has been a passing interest in human gait recognition, but it soon declined before we came up with a systematic analysis and understanding of walking motion. This paper presents a set of DBN-based models for the analysis of human gait in sequence of increasing complexity and modeling power. The discussion centers around HMM-based statistical methods capable of modeling the variability and incompleteness of input video signals. Finally a novel idea of extending the discrete state Markov chain with a continuous density function is proposed in order to better characterize the gait direction. The proposed modeling framework allows us to recognize pedestrian up to 91.67% and to elegantly decode out two independent gait components of direction and posture through a sequence of experiments.

  • PDF

A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition (한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구)

  • 황철준;오세진;김범국;정호열;정현열
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.2 no.4
    • /
    • pp.9-15
    • /
    • 2001
  • In this paper we investigate context dependent acoustic models to improve the performance of the Korean speech recognition . The algorithm are using the Korean phonological rules and decision tree, By Successive State Splitting(SSS) algorithm the Hidden Merkov Netwwork(HM-Net) which is an efficient representation of phoneme-context-dependent HMMs, can be generated automatically SSS is powerful technique to design topologies of tied-state HMMs but it doesn't treat unknown contexts in the training phoneme contexts environment adequately In addition it has some problem in the procedure of the contextual domain. In this paper we adopt a new state-clustering algorithm of SSS, called Phonetic Decision Tree-based SSS (PDT-SSS) which includes contexts splits based on the Korean phonological rules. This method combines advantages of both the decision tree clustering and SSS, and can generated highly accurate HM-Net that can express any contexts To verify the effectiveness of the adopted methods. the experiments are carried out using KLE 452 word database and YNU 200 sentence database. Through the Korean phoneme word and sentence recognition experiments. we proved that the new state-clustering algorithm produce better phoneme, word and continuous speech recognition accuracy than the conventional HMMs.

  • PDF

Development of a Korean Speech Recognition Platform (ECHOS) (한국어 음성인식 플랫폼 (ECHOS) 개발)

  • Kwon Oh-Wook;Kwon Sukbong;Jang Gyucheol;Yun Sungrack;Kim Yong-Rae;Jang Kwang-Dong;Kim Hoi-Rin;Yoo Changdong;Kim Bong-Wan;Lee Yong-Ju
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.8
    • /
    • pp.498-504
    • /
    • 2005
  • We introduce a Korean speech recognition platform (ECHOS) developed for education and research Purposes. ECHOS lowers the entry barrier to speech recognition research and can be used as a reference engine by providing elementary speech recognition modules. It has an easy simple object-oriented architecture, implemented in the C++ language with the standard template library. The input of the ECHOS is digital speech data sampled at 8 or 16 kHz. Its output is the 1-best recognition result. N-best recognition results, and a word graph. The recognition engine is composed of MFCC/PLP feature extraction, HMM-based acoustic modeling, n-gram language modeling, finite state network (FSN)- and lexical tree-based search algorithms. It can handle various tasks from isolated word recognition to large vocabulary continuous speech recognition. We compare the performance of ECHOS and hidden Markov model toolkit (HTK) for validation. In an FSN-based task. ECHOS shows similar word accuracy while the recognition time is doubled because of object-oriented implementation. For a 8000-word continuous speech recognition task, using the lexical tree search algorithm different from the algorithm used in HTK, it increases the word error rate by $40\%$ relatively but reduces the recognition time to half.

Sign Language Spotting Based on Semi-Markov Conditional Random Field (세미-마르코프 조건 랜덤 필드 기반의 수화 적출)

  • Cho, Seong-Sik;Lee, Seong-Whan
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.12
    • /
    • pp.1034-1037
    • /
    • 2009
  • Sign language spotting is the task of detecting the start and end points of signs from continuous data and recognizing the detected signs in the predefined vocabulary. The difficulty with sign language spotting is that instances of signs vary in both motion and shape. Moreover, signs have variable motion in terms of both trajectory and length. Especially, variable sign lengths result in problems with spotting signs in a video sequence, because short signs involve less information and fewer changes than long signs. In this paper, we propose a method for spotting variable lengths signs based on semi-CRF (semi-Markov Conditional Random Field). We performed experiments with ASL (American Sign Language) and KSL (Korean Sign Language) dataset of continuous sign sentences to demonstrate the efficiency of the proposed method. Experimental results show that the proposed method outperforms both HMM and CRF.

Intention-Awareness Method using Behavior Model Based User Intention (사용자 의도에 따른 행동 모델을 이용한 의도 인식 기법)

  • Kim, Geon-Su;Kim, Dong-Mun;Yun, Tae-Bok;Lee, Ji-Hyeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.3-6
    • /
    • 2007
  • 사람들이 어떠한 행동을 할 때는 특정 의도를 가지고 있기 때문에 상황에 맞는 적합한 서비스를 제공하기 위해서는 사용자가 현재 하고 있는 행동에 대한 의도를 파악해야한다. 이를 위해 의도와 행동사이의 연관성을 이용하여 사용자의 의도에 따른 행동의 모델을 만든다. 일상생활에서 사람들이 하는 행동은 작은 단위 행동들의 연속(sequence)으로 이루어지므로, 사용자의 단위행동의 순서를 분석한다면 의도에 따른 행동 모델을 만들기가 용이해진다. 하지만, 이런 단위 행동 분석 방법의 문제점은 같은 의도를 가진 행동이 완벽하게 동일한 단위 행동의 순서로 일어나지는 않는다는 점이다. 시스템은 동일한 동작 순서로 일어나지 않는 행동들을 서로 다른 의도를 가진 행동으로 이해하게 된다. 따라서 이 문제점을 해결할 수 있는 사용자 의도 파악 기법이 필요하다. 본 논문에서는 과거의 사용자의 행동 정보를 기반으로 행동들의 유사성을 판별하였고, 그 결과를 이용하여 행동의 의도를 파악하는 방법을 사용한다. 이를 위해, 과거 사용자가 한 행동들을 단위 시간 별로 나누어 단위 행동의 순서로 만들고, 이를 K-평균 군집화 방법(K-means)으로 군집들의 순서로 나타내었다. 이 변경된 사용자 행동 정보를 사용하여 은닉 마코프 모델을 학습 시키고, 이렇게 만들어진 은닉 마코프 모델은 현재 사용자가 행한 행동이 어떤 행동인지를 예측하여 사용자의 의도를 파악한다.

  • PDF

Language Models constructed by Iterative Learning and Variation of the Acoustical Parameters (음향학적 파라미터의 변화 및 반복학습으로 작성한 언어모델에 대한 고찰)

  • Oh Se-Jin;Hwang Cheol-Jun;Kim Bum-Koog;Jung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.35-38
    • /
    • 2000
  • 본 연구에서는 연속음성인식 시스템의 성능 향상을 위한 기초 연구로서 시스템에 적합한 음향모델과 언어모델을 작성하고 항공편 예약 태스크를 대상으로 인식실험을 실시한 결과 그 유효성을 확인하였다. 이를 위하여 먼저 HMM의 출력확률분포의 mixture와 파라미터의 차원에 대한 정확한 분석을 통한 음향모델을 작성하였다. 또한 반복학습법으로 특정 태스크를 대상으로 N-gram 언어모델을 적용하여 인식 시스템에 적합한 모델을 작성하였다. 인식실험에 있어서는 3인의 화자가 발성한 200문장에 대해 파라미터 차원 및 mixture의 변화에 따른 음향모델과 반복학습에 의해 작성한 언어모델에 대해 multi-pass 탐색 알고리즘을 이용하였다. 그 결과, 25차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균 $81.0\%$의 인식률을 얻었으며, 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균 $90.2\%$의 인식률을 보여 인식률 제고를 위해서는 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복학습으로 작성한 언어모델을 이용한 경우가 매우 효과적임을 알 수 있었다.

  • PDF

A Parallel Speech Recognition Model on Distributed Memory Multiprocessors (분산 메모리 다중프로세서 환경에서의 병렬 음성인식 모델)

  • 정상화;김형순;박민욱;황병한
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.5
    • /
    • pp.44-51
    • /
    • 1999
  • This paper presents a massively parallel computational model for the efficient integration of speech and natural language understanding. The phoneme model is based on continuous Hidden Markov Model with context dependent phonemes, and the language model is based on a knowledge base approach. To construct the knowledge base, we adopt a hierarchically-structured semantic network and a memory-based parsing technique that employs parallel marker-passing as an inference mechanism. Our parallel speech recognition algorithm is implemented in a multi-Transputer system using distributed-memory MIMD multiprocessors. Experimental results show that the parallel speech recognition system performs better in recognition accuracy than a word network-based speech recognition system. The recognition accuracy is further improved by applying code-phoneme statistics. Besides, speedup experiments demonstrate the possibility of constructing a realtime parallel speech recognition system.

  • PDF

SVM Based Facial Expression Recognition for Expression Control of an Avatar in Real Time (실시간 아바타 표정 제어를 위한 SVM 기반 실시간 얼굴표정 인식)

  • Shin, Ki-Han;Chun, Jun-Chul;Min, Kyong-Pil
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.1057-1062
    • /
    • 2007
  • 얼굴표정 인식은 심리학 연구, 얼굴 애니메이션 합성, 로봇공학, HCI(Human Computer Interaction) 등 다양한 분야에서 중요성이 증가하고 있다. 얼굴표정은 사람의 감정 표현, 관심의 정도와 같은 사회적 상호작용에 있어서 중요한 정보를 제공한다. 얼굴표정 인식은 크게 정지영상을 이용한 방법과 동영상을 이용한 방법으로 나눌 수 있다. 정지영상을 이용할 경우에는 처리량이 적어 속도가 빠르다는 장점이 있지만 얼굴의 변화가 클 경우 매칭, 정합에 의한 인식이 어렵다는 단점이 있다. 동영상을 이용한 얼굴표정 인식 방법은 신경망, Optical Flow, HMM(Hidden Markov Models) 등의 방법을 이용하여 사용자의 표정 변화를 연속적으로 처리할 수 있어 실시간으로 컴퓨터와의 상호작용에 유용하다. 그러나 정지영상에 비해 처리량이 많고 학습이나 데이터베이스 구축을 위한 많은 데이터가 필요하다는 단점이 있다. 본 논문에서 제안하는 실시간 얼굴표정 인식 시스템은 얼굴영역 검출, 얼굴 특징 검출, 얼굴표정 분류, 아바타 제어의 네 가지 과정으로 구성된다. 웹캠을 통하여 입력된 얼굴영상에 대하여 정확한 얼굴영역을 검출하기 위하여 히스토그램 평활화와 참조 화이트(Reference White) 기법을 적용, HT 컬러모델과 PCA(Principle Component Analysis) 변환을 이용하여 얼굴영역을 검출한다. 검출된 얼굴영역에서 얼굴의 기하학적 정보를 이용하여 얼굴의 특징요소의 후보영역을 결정하고 각 특징점들에 대한 템플릿 매칭과 에지를 검출하여 얼굴표정 인식에 필요한 특징을 추출한다. 각각의 검출된 특징점들에 대하여 Optical Flow알고리즘을 적용한 움직임 정보로부터 특징 벡터를 획득한다. 이렇게 획득한 특징 벡터를 SVM(Support Vector Machine)을 이용하여 얼굴표정을 분류하였으며 추출된 얼굴의 특징에 의하여 인식된 얼굴표정을 아바타로 표현하였다.

  • PDF

Development of Voice Dialing System based on Keyword Spotting Technique (핵심어 추출 기반 음성 다이얼링 시스템 개발)

  • Park, Jeon-Gue;Suh, Sang-Weon;Han, Mun-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.153-157
    • /
    • 1996
  • 본 논문은 연속 분포 HMM을 사용한 핵심어 추출기법(Keyword Spotting)과 화자 인식에 기반한 음성 다이얼링 및 부서 안내에 관한 것이다. 개발된 시스템은 상대방의 이름, 직책, 존칭 등에 감탄사나 명령어 등이 혼합된 형태의 자연스런 음성 문장으로부터 다이얼링과 안내에 필요한 핵심어를 자동 추출하고 있다. 핵심 단어의 사용에는 자연성을 고려하여 문법적 제약을 최소한으로 두었으며, 각 단어 모델에 대해서는 음소의 갯수 더하기 $3{\sim}4$개의 상태 수와 3개 정도의 mixture component로써 좌우향 모델을, 묵음모델에 대해서는 2개 상태의 ergodic형 모델을 구성하였다. 인식에 있어서는 프레임 동기 One-Pass 비터비 알고리즘과 beam pruning을 채택하였으며, 인식에 사용된 어휘는 36개의 성명, 8개의 직위 및 존칭, 5개 정도의 호출어, 부탁을 나타내는 동사 및 그 활용이 10개 정도이다. 약 $3{\sim}6$개 정도의 단어로 구성된 문장을 실시간($1{\sim}3$초이내)에 인식하고, 약 98% 정도의 핵심어 인식 성능을 나타내고 있다.

  • PDF

New Machine Condition Diagnosis Method Not Requiring Fault Data Using Continuous Hidden Markov Model (결함 데이터를 필요로 하지 않는 연속 은닉 마르코프 모델을 이용한 새로운 기계상태 진단 기법)

  • Lee, Jong-Min;Hwang, Yo-Ha
    • Transactions of the Korean Society for Noise and Vibration Engineering
    • /
    • v.21 no.2
    • /
    • pp.146-153
    • /
    • 2011
  • Model based machine condition diagnosis methods are generally using a normal and many failure models which need sufficient data to train the models. However, data, especially for failure modes of interest, is very hard to get in real applications. So their industrial applications are either severely limited or impossible when the failure models cannot be trained. In this paper, continuous hidden Markov model(CHMM) with only a normal model has been suggested as a very promising machine condition diagnosis method which can be easily used for industrial applications. Generally hidden Markov model also uses many pattern models to recognize specific patterns and the recognition results of CHMM show the likelihood trend of models. By observing this likelihood trend of a normal model, it is possible to detect failures. This method has been successively applied to arc weld defect diagnosis. The result shows CHMM's big potential as a machine condition monitoring method.