통합 검색 | Korea Science

Frame-Correlated HMM을 이용한 음성 인식 (On the Use of a Frame-Correlated HMM for Speech Recognition)

김남수
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
- /
- pp.223-228
- /
- 1994
We propose a novel method to incorporate temporal correlations into a speech recognition system based on the conventional hidden Markov model. With the proposed method using the extended logarithmic pool, we approximate a joint conditional PD by separate conditional PD's associated with respective components of conditions. We provide a constrained optimization algorithm with which we can find the optimal value for the pooling weights. The results in the experiments of speaker-independent continuous speech recognition with frame correlations show error reduction by 13.7% with the proposed methods as compared to that without frame correlations.
PDF

음성 인식을 이용한 자동 교환 시스템 구현 (An Implementation of the Automatic Switching System using Speech Recognition)

함정표;김현아;박익현
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
- /
- pp.935-938
- /
- 2000
본 논문에서는 음성 인식을 이용하여 전화를 교환해주는 자동 교환 시스템을 구현하고, 성능을 평가하였다. 구현된 시스템에는 필수적인 음성인식 이외에도 DSP 진단 기능, 인식 대상 어휘의 추가 및 변경기능, 음성 수집 기능 등이 구현 되었다. SCHMM (Semi-Continuous Hidden Markov Model)을 이용한 전화망에서의 화자 독립 고립 단어 가변 어휘 인식을 대상으로 하였으며, 실시간 구현을 위하여 Texas Instrument 사의 TMS320C32를 사용하였다〔6〕. 인식 어휘는 부서명 및 인명이고 1300여 단어일 때, 인식 성능은 91.5%이다.
PDF

Modular Fuzzy Neural Controller Driven by Voice Commands

Izumi, Kiyotaka;Lim, Young-Cheol
- 제어로봇시스템학회:학술대회논문집
- /
- 제어로봇시스템학회 2001년도 ICCAS
- /
- pp.32.3-32
- /
- 2001
This paper proposes a layered protocol to interpret voice commands of the user´s own language to a machine, to control it in real time. The layers consist of speech signal capturing layer, lexical analysis layer, interpretation layer and finally activation layer, where each layer tries to mimic the human counterparts in command following. The contents of a continuous voice command are captured by using Hidden Markov Model based speech recognizer. Then the concepts of Artificial Neural Network are devised to classify the contents of the recognized voice command ...
PDF

은닉 마르코프 모델을 이용한 음성에서의 감정인식 (Emotion recognition in speech using hidden Markov model)

김성일;정현열
- 융합신호처리학회논문지
- /
- 제3권3호
- /
- pp.21-26
- /
- 2002
본 논문은 분노, 행복, 평정, 슬픔, 놀람 등과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과로서, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.
PDF

제스처 인식을 위한 은닉 마르코프 모델 (Hidden Markov Model for Gesture Recognition)

박혜선;김은이;김항준
- 전자공학회논문지CI
- /
- 제43권1호
- /
- pp.17-26
- /
- 2006
본 논문에서는 은닉 마르코프 모델 (HMM: hidden Markov model)을 이용한 제스처 인식 방법을 제안하고, 이를 게임 시스템의 인터페이스로 적용한 사례를 소개한다. 제안된 방법은 다음의 두 가지 특징을 가진다. 첫 번째는 사전에 분할된 데이터 열을 입력으로 사용하는 기존의 방법과는 달리, 제안된 방법은 카메라로부터 입력되는 비디오 스트림을 HMM의 입력으로 사용한다는 것이다. 두 번째는 제안된 HMM은 제스처의 분할과 인식을 동시에 수행한다는 것이다. 제안된 방법에서 사용자의 제스처는 13개의 제스처들을 인식하는 13개의 specific-HMM들을 결합하는 하나의 통합된 HMM을 통해 인식된다. 제안된 HMM은 사용자의 머리와 양손의 2D-위치 좌표로 구성된 포즈 심볼들의 열을 입력받는다. 그리고 새로운 포즈가 입력될 때마다, HMM의 상태 확률 값을 갱신한다. 그때, 만약 특정 상태의 확률 값이 미리 정해둔 임계치보다 큰 경우, 그 특정 상태를 포함하고 있는 제스처로 인식한다 제안된 방법의 정당성을 입증하기 위하여, 제안된 방법은 Quake II라는 컴퓨터 게임에 적용되었다. 실험결과는 제안된 방법이 높은 인식 정확률과, 계산 시간을 확연하게 감소시킬 수 있었음을 보여주었다.
PDF KSCI

음성인식 기능을 가진 주소입력 시스템의 개발과 평가 (Development and Evaluation of an Address Input System Employing Speech Recognition)

김득수;황철준;정현열
- 한국음향학회지
- /
- 제18권2호
- /
- pp.3-10
- /
- 1999
본 논문은 음성인식 기술을 사용자 인터페이스로 하여 국내 행정 단위 시(도), 구(군), 동(읍,면), 번지로 구성되는 주소를 인식의 대상으로 하는 주소 입력 시스템 구축에 대하여 기술한다. 본 시스템은 사운드카드가 장착된 개인용 컴퓨터상의 윈도우 95환경에서 동작하며, 음성인식부는 인식의 기본단위로 유사음소단위(Phoneme Like Units: PLUs)를 이용하여 CHMM(Continuous Hidden Markov Model) 음소모델을 작성하고, 주소인식을 위해서 주소명의 특징을 고려하여 이에 적합한 유한상태 오토마타(Finite State Automata)를 구성하여 OPDP(One Pass Dynamic Programming)법으로 인식을 수행하였다. 실용성있는 시스템 성능을 얻기 위하여 마이크, 환경잡음 및 화자의 변화 등의 사용환경변화에 대해 최대사후확률추정법(Maximum A Posteriori Probability Estimation: MAP)으로 적응화시켜 인식률의 향상을 도모하였고, 개인용 컴퓨터상에서의 인식속도를 향상시키기 위하여 가변프루닝 문턱치를 이용한 고속화 기법을 제안하였다. 평가결과, 화자적응화 후의 성인 남자 3인에 대한 100개의 연결주소명의 연결단어 인식률은 평균 96.0%이상, 인식속도는 발성완료후 약 2초 이내로 인식이 완료되어 본 시스템의 유효성을 확인할 수 있었다.
PDF

손실 데이터 이론을 이용한 강인한 음성 인식 (Robust Speech Recognition Using Missing Data Theory)

김락용;조훈영;오영환
- 한국음향학회지
- /
- 제20권3호
- /
- pp.56-62
- /
- 2001
본 논문에서는 손실이 발생하는 상황에서 높은 인식률을 유지하기 위해서 손실 데이터 이론을 음성 인식기에 적용하였다 손실 데이터 이론은 일반적으로 이용되는 통계적 정합 방법인 은닉 마코프 모델 (HMM: hidden Markov model) 중 연속 Gaussian확률 밀도 함수를 이용하여 음성 특징들의 출력 확률을 나타내는 경우에 쉽게 적용할 수 있다는 장점을 갖고 있다. 손실 데이터 이론의 방법 중 계산량이 적고 인식기에 적용이 쉬운 주변화(marginalization)방법을 사용하였으며 특징 벡터의 특정 차수나 시간열의 손실 검출 방법은 음성 신호의 에너지와 주위 배경 잡음의 에너지의 차이가 임계치보다 작게 되는 부분을 찾는 주파수 차감 방법을 이용하였다. 본 논문에서 제안한 손실 영역의 신뢰도 평가는 분석 구간이 모음일 확률을 계산해서 비교적 잉여 정보가 많이 포함된 모음화된 구간의 손실만을 처리하도록 하였다. 제안한 방법을 사용하여 여러 잡음 환경에 대해서 기존의 손실 데이터 처리 방법만을 사용한 경우보다 452 단어의 화자독립 단어 인식 실험을 수행한 결과 오류율측면에서 평균적으로 약 12％의 성능 향상을 얻을 수 있었다.
PDF

자동 교환 시스템을 위한 실시간 음성 인식 구현 (An Implementation of the Real Time Speech Recognition for the Automatic Switching System)

박익현;이재성;김현아;함정표;유승균;강해익;박성현
- 한국음향학회지
- /
- 제19권4호
- /
- pp.31-36
- /
- 2000
본 논문에서는 음성 인식을 이용한 자동 교환 시스템을 구현하고, 성능을 평가하였다. 이 시스템은 다수의 구성원과 조직 체계를 가지는 관공서나 일반 기업, 학교 등의 교환 서비스를 음성 인식을 통하여 자동으로 제공한다. 본 시스템에 사용된 음성 인식기는 SCHMM(Semi-Continuous Hidden Markov Model) 기반으로 한 전화망에서의 화자 독립 고립 단어 가변 어휘인식기(Speaker-Independent, Isolated-Word, Flexible-Vocabulary Recognizer)이며, 실시간 구현을 위해 사용한 DSP(Digital Signal Processor)는 Texas Instrument 사의 TMS320C32이다. 자동 교환 서비스를 위하여 음성 인식 기능 외에도 음성 인식 DSP 진단 기능과 인식 대상 어휘의 추가 및 변경을 위한 운용 단말을 구현하여 운용의 편의성을 추구하였다. 본 시스템의 인식 실험은 음성 인식 구내 자동 교환 시스템용 1300여 어휘(부서명, 인명 등)에 대해서 8명의 화자가 유선 전화망에서 수행하였으며 인식률은 91.5%이다.
PDF

음성 인식 시스템의 화자 적응 성능 향상을 위한 코드북 설계 (On Codebook Design to Improve Speaker Adaptation)

양태영;신원호;김원구;윤대희
- 한국음향학회지
- /
- 제15권2호
- /
- pp.5-11
- /
- 1996
본 논문에서는 반연속 HMM(semi-continuous Hidden Markov Model) 음성 인식 시스템에 적용되는 베이시안 화자 적응(Bayesian speaker adaptation)의 성능 향상을 위해 코드북 변환 알고리즘을 제안하였다. 기존 베이시안 화자 적응 알고리즘의 경우 새로운 화자의 특징 분포와 코드북 사전 밀도의 차이가 큰 경우 적응 데이터와 코드북간의 잘못된 대응 관계를 얻을 수 있으며, 기준(reference) 코드북에 필요 이상으로 많은 코드워드가 존재하는 경우 적응된 코드북에도 불필요한 코드워드들이 남아 인식 과정에 혼란을 줄 수 있다. 이 문제점을 해결하기 위하여 제안된 코드북 변환 알고리즘에서는 주파수 영역의 포만트 정보를 이용하였다. 화자 적응을 수행하기 앞서 코드북의 켑스트럼으로부터 포만트를 추출해 내고, 이들의 분포를 적응 화자의 포만트 분포와 일치되도록 변환시켜 주었다. 이 변환된 포만트들로부터 다시 켑스트럼을 구하여 변환된 코드북을 얻고, 이를 화자 적응의 초기 코드북으로 사용하였다. 제안된 알고리즘을 이용하였을 경우 코드북과 적응 화자의 음성 간의 정확한 대응 관계를 찾을 수 있었고, 불필요한 코드워드들이 인식 과정에서 사용되지 않도록 변환되어 인식률이 향상되는 것을 실험을 통해 확인하였다.
PDF

PVDHMM을 이용한 음소열 기반의 SDR 응용 (Spoken Document Retrieval Based on Phone Sequence Strings Decoded by PVDHMM)

최대림;김봉완;김종교;이용주
- 대한음성학회지:말소리
- /
- 제62호
- /
- pp.133-147
- /
- 2007
In this paper, we introduce a phone vector discrete HMM(PVDHMM) that decodes a phone sequence string, and demonstrates the applicability to spoken document retrieval. The PVDHMM treats a phone recognizer or large vocabulary continuous speech recognizer (LVCSR) as a vector quantizer whose codebook size is equal to the size of its phone set. We apply the PVDHMM to decode the phone sequence strings and compare the outputs with those of a continuous speech recognizer(CSR). Also we carry out spoken document retrieval experiment through PVDHMM word spotter on the phone sequence strings which are generated by phone recognizer or LVCSR and compare its results with those of retrieval through the phone-based vector space model.
PDF

검색결과 97건 처리시간 0.03초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)