통합 검색 | Korea Science

반음절 단위 HMM을 이용한 연속 숫자 음성인식 (Continuous Digits Speech Recognition using Semisyllable Unit HMM)

윤재선;홍광석
- 한국음향학회지
- /
- 제17권5호
- /
- pp.73-78
- /
- 1998
본 논문에서는 조음 효과에 대처할 수 있는 새로운 음성인식 단위로 반음절, 반음절 +반음절 단위 HMM을 제안하여 연속 숫자 음성인식을 하였다. 반음절 단위는 무음과 안정 구간으로, 반음절+반음절 단위는 안정, 천이, 안정구간으로 구성되어 있고, 음성인식 단위 분 할시 비교적 스펙트럼의 변화가 안정한 모음구간에서 분할하므로 분할 위치가 약간 변하여 도 인식성능에는 큰 영향을 주지 않게 된다. 또한, 제안된 반음절, 반음절+반음절 인식단위 는 그 패턴 안에 다음 숫자열의 정보를 포함하고 있기 때문에 모든 HMM 패턴들과 비교하 는 것이 아니라, 다음 숫자열의 정보를 포함한 HMM 패턴들과 비교한다. 인식실험결과 제 안된 방법이 효율적임을 확인하였다.
PDF

HMM을 이용한 지휘 동작의 인식 (Recognition of Conducting Motion using HMM)

문형득;구자영
- 한국컴퓨터정보학회논문지
- /
- 제9권1호
- /
- pp.25-30
- /
- 2004
본 논문은 지휘자의 지휘 동작으로부터 일련의 영상들을 추출하여 지휘자가 지휘하는 박자를 인식하는 방법을 제안하고 있다 색상판별에 의해서 손의 위치를 감지하였으며 양자화를 통해서 그 위치를 기호화함으로써 지휘 동작을 일련의 기호로 표현하였다. 변형을 포함하는 기호열의 인식에 좋은 결과를 보이는 HMM(Hidden Markov Model)을 사용함으로써 표현된 기호열을 지휘박자로 인식하도록 하는 시스템을 구성하였다.
PDF

최적화된 관측 신뢰도와 변형된 HMM 디코더를 이용한 잡음에 강인한 화자식별 시스템 (A Robust Speaker Identification Using Optimized Confidence and Modified HMM Decoder)

;김진영;나승유
- 대한음성학회지:말소리
- /
- 제64호
- /
- pp.121-135
- /
- 2007
Speech signal is distorted by channel characteristics or additive noise and then the performances of speaker or speech recognition are severely degraded. To cope with the noise problem, we propose a modified HMM decoder algorithm using SNR-based observation confidence, which was successfully applied for GMM in speaker identification task. The modification is done by weighting observation probabilities with reliability values obtained from SNR. Also, we apply PSO (particle swarm optimization) method to the confidence function for maximizing the speaker identification performance. To evaluate our proposed method, we used the ETRI database for speaker recognition. The experimental results showed that the performance was definitely enhanced with the modified HMM decoder algorithm.
PDF

HMM 기반의 한국어 음성합성에서 음색변환에 관한 연구 (A Study on the Voice Conversion with HMM-based Korean Speech Synthesis)

김일환;배건성
- 대한음성학회지:말소리
- /
- 제68권
- /
- pp.65-74
- /
- 2008
A statistical parametric speech synthesis system based on the hidden Markov models (HMMs) has grown in popularity over the last few years, because it needs less memory and low computation complexity and is suitable for the embedded system in comparison with a corpus-based unit concatenation text-to-speech (TTS) system. It also has the advantage that voice characteristics of the synthetic speech can be modified easily by transforming HMM parameters appropriately. In this paper, we present experimental results of voice characteristics conversion using the HMM-based Korean speech synthesis system. The results have shown that conversion of voice characteristics could be achieved using a few sentences uttered by a target speaker. Synthetic speech generated from adapted models with only ten sentences was very close to that from the speaker dependent models trained using 646 sentences.
PDF

조명변화에 강인한 얼굴인식 시스템 (A Face Recognition System Robust to Variations in Lighting)

이은주;김진철;박성미;이배호
- 한국멀티미디어학회:학술대회논문집
- /
- 한국멀티미디어학회 2003년도 추계학술발표대회(상)
- /
- pp.261-264
- /
- 2003
얼굴인식은 동일 사람의 얼굴이라도 조명변화나 얼굴 표정변화에 따라 매우 다른 영상들로 나타나기 때문에 매우 어려운 문제이다. 본 논문에서는 조명변화에도 강인하고 얼굴영상에 대해 높은 얼굴 인식률을 얻기 위해 2D-HMM(Hidden Markov Model) 얼굴인식 방법을 제안하고 실험하였다. 제안된 방법은 조명변화에 대해서 조명변화 함수인 $\delta$(delta) 함수를 0, 40, 60, 80으로 변화해 가면서 이미지 보정을 실험하였으며, 계산의 복잡성을 줄이고 얼굴영상에 대한 높은 인식률을 얻기 위해 기존의 픽셀값 대신에 2D-DCT 계수를 관측벡터로 사용하였다. 시스템의 성능을 평가하기 위해 정량적 평가방법은 FAR(False Accpt Rate)와 FRR(False Reject Rate)를 측정하여 비교하였으며, 기존의 얼굴인식 방법인 PCA, 1차원 HMM과 비교분석하였다. 실험결과 2D-HMM의 경우 FAR(False Accept Rate)가 5.08%로 ID-HMM 5.18%, PCA 10.16%보다 높은 성능을 보였으며, FRR(False Reject Rate)의 경우에도 0.01%로 10.16%인 PCA보다 좋은 성능을 보였다. 이로서 조명변화에 대해서는 PCA보다 2D-HMM 얼굴인식 방법이 우수함을 알 수 있었다.
PDF

HMM-Net 분류기의 학습 (On learning of HMM-Net classifiers)

김상운;오수환
- 전자공학회논문지C
- /
- 제34C권9호
- /
- pp.61-67
- /
- 1997
The HMM-Net is an architecture for a neural network that implements a hidden markov model(HMM). The architecture is developed for the purpose of combining the classification power of neural networks with the time-domain modeling capability of HMMs. Criteria which are used for learning HMM_Net classifiers are maximum likelihood(ML), maximum mutual information (MMI), and minimization of mean squared error(MMSE). In this classifiers trained by the gradient descent algorithm with the above criteria. Experimental results for the isolated numbers from /young/to/koo/ show that in the binary inputs the performance of MMSE is better than the others, while in the fuzzy inputs the performance of MMI is better than the others.
PDF

한국어 음소 HMM 모델 결정을 위한 파라미터 비교 연구 (A Comparative Study on Parameter for Korean Phoneme-based HMM Model Decision)

권혁제
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
- /
- pp.302-305
- /
- 1998
음소의 확률적 분포를 이용하는 음소 HMM 모델을 결정하기 위한 여러 가지 거리 측정방법에 대한 연구이다. 음소 HMM 모델 결정을 위해서 LPC 계수를 이용하고, 거리 측정자를 LPC 계수, LPC 스첵트럼, LPC 켑스트럼 등의 파라미터를 이용하고, 또한 양자화 과정은 k-means 와 LBG 알고리즘을 혼합한 하이브리드 알고리듬을 사용하였다. LPC 코드북을 구성하기 위해 세 가지 파라미터를 유클리디안 거리로 거리측정에 이용하였다. 이렇게 양자화한 파라미터의 평균과 분산을 구하고, 양자화한 파라미터 코드북의 확률갑승ㄹ 비교해 한국어 음소 HMM 모델 결정을 위한 거리 측정 파라미터를 비교하였으며, 그 결과 LPC 계수를 주파수 영역으로 변환하여 유클리디안 거리를 이용한 코드북의 분산이 작으므로 상대적으로 높은 확률을 가짐을 보았다.
PDF

연속분포 HMM에 의한 실시간 Word Spotting 에 관한 연구 (A Study on the Real-time Word Spotting by Continuous density HMM)

서상원
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
- /
- pp.92-95
- /
- 1995
연속분포 HMM을 사용한 실시간 로봇 암 제어 시스템에 대해 기술하고 있다. 본 시스템은 자연스러운 문장의 로봇 암 제어 명령 발성을 받아 핵심단어 인식의 framework을 통한 명령 인식 및 로봇 제어를 구현하고 있다. 로봇 몸체의 부분, 방향, 각도, 동작명령들에 대해 각기 우향 HMM, 이외의 비 핵심어들에 대해서는 이들을 한데 모아 ergodic형 상태천이를 모델링하는 garbage HMM을 형성했는데, 조사, 감탄사 등을 따로 모은 garbage 모델과, silence 및 배경 잡음에 대한 garbage 모델을 형성, 학습 및 인식에 포함시켜 연결단어 인식을 수행함으로써 핵심단어 인식의 효과를 얻었다. 이때 핵심단어들의 사용에 있어 간단한 문법적 제약을 가정하였다. 남성화자 35명을 대상으로 30개 문형에 대해 데이터 수집용 개념적 문장을 구성하여 음성 데이터를 수집하였다. 학습 화자에 대한 제어 명령 인식률은 95% 이상을 나타내고 있으며, 비 학습화자에 대한 인식율은 90% 이상이다. 또한 학습된 단어외의 비 핵심단어들의 사용에 대해서도 긍정적인 인식 성능을 보였다.
PDF

시간동기형 Viterbi 알고리즘과 HMM에 기반한 음성의 자동 세그멘테이션 (Auto-Segmentation of Unsegmented Speech based on HMM and Time-Synchronous Viterbi Algorithm)

오세진;황철준;김범국;정호열;정현열
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
- /
- pp.592-594
- /
- 2001
본 연구에서는 음성인식에 있어서 음향모델의 고정도화를 위해 통계적 방법인 HMM과 시간동기형 Viterbi 알고리즘을 기반으로 한 세그멘트되지 않은 음성의 자동 세그멘테이션에 관한 연구를 수행하였다. 본 연구에서는 소량의 세그멘트된 음성에 대해 연속분포형 HMM 기본모델을 작성한 후 이를 표준패턴으로 사용하고, 세그멘트되지 않은 입력음성의 특징 피라미터에 대해 시간동기형 Viterbi 알고리즘의 프레임마다 최대가 되는 지점을 최적경계로 설정하고, 앞에서 구현 최적 경계 정보와 언어학적 지식인 발음사전 정보를 이용하여 음성을 세그멘테이션 하는 것이다. 본 연구와의 비교를 위해 HTK를 이용하여 위와 동일한 과정을 수행하였다. 이렇게 구한 음성의 세그멘테이션 정보를 이용하여 연속분포형 HMM 기본모델과 HTK의 CHMM 기본모델을 각각 작성한 후, 국어공학센터(KLE) 단어 데이터에 대해 단어인식 성능을 평가하였다. 실험결과, KLE 452 남성과 여성에 대해, 본 연구실 인식 시스템은 화자독립 단어인식률 89.4%, 85.1%, HTK의 화자독립 단어인식률 85.1%, 81.9%를 각각 얻었다.
PDF

HMM 및 보정 알고리즘을 이용한 자동 음성 분할 시스템 (An Automatic Segmentation System Based on HMM and Correction Algorithm)

김무중;권철홍
- 음성과학
- /
- 제9권4호
- /
- pp.265-274
- /
- 2002
In this paper we propose an automatic segmentation system that outputs the time alignment information of phoneme boundary using Viterbi search with HMM (Hidden Markov Model) and corrects these results by an UVS (unvoiced/voiced/silence) classification algorithm. We selecte a set of 39 monophones and a set of 647 extended phones for HMM models. For the UVS classification we use the feature parameters such as ZCR (Zero Crossing Rate), log energy, spectral distribution. The result of forced alignment using the extended phone set is 11% better than that of the monophone set. The UVS classification algorithm shows high performance to correct the segmentation results.
PDF

검색결과 963건 처리시간 0.021초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)