• 제목/요약/키워드: Recognition Improvement

검색결과 1,489건 처리시간 0.031초

HMM 어휘 인식 모델 최적화를 이용한 베이시안 기법 인식률 향상 (Bayesian Method Recognition Rates Improvement using HMM Vocabulary Recognition Model Optimization)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제12권7호
    • /
    • pp.273-278
    • /
    • 2014
  • HMM(Hidden Markov Model)을 이용한 어휘 인식에서 인식 어휘의 모델들의 대한 인식 확률이 이산적인 분포를 나타내며 인식을 위한 계산량이 적은 장점이 있지만 인식률을 계산했을 때 상대적으로 낮은 단점이 있다. 이를 개선하기 위하여 HMM(Hidden Markov Model) 모델 최적화를 이용한 베이시안 기법 인식률 향상을 제안한다. 본 논문은 HMM 어휘 인식에서 인식을 위한 모델 구성을 가우시안 믹스쳐 모델로 최적화한 인식 모델을 생성하였으며 베이시안 기법인 사전확률과 사후확률을 이용한 인식률을 향상시켰다. 본 논문에서 제안한 방법을 적용한 결과 어휘인식률에서 97.9%의 인식률을 나타내었다.

선형 변환망을 이용한 화자적응 음성인식 (Speaker Adaptation Using Linear Transformation Network in Speech Recognition)

  • 이기희
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.90-97
    • /
    • 2000
  • 본 논문에서는 불특정 화자의 음성에 대해서도 신뢰성 있는 인식이 이루어지도록 하는 음성인식 시스템을 구현하기 위한 화자적응 음성인식 기법을 제안한다. 제안한 화자적응 기법에 의한 음성인식 시스템은 표준화자의 음성특징을 1차선형 변환 망에 의해 새로운 화자의 음성특징에 선형적으로 적응하여 인식하며. 그 구성은 다층퍼셉트론을 퍼지 벡터양자화기로 사용하는 반연속 HMM을 기반으로 한다 구현한 인식시스템은 그 성능을 확인하기 위해 고립단어 인식실험을 수행하였다. 그 결과, 화자적응 인식인 경우가 화자적응 수행하지 않은 시스템에 비해 인식률이 개선됨을 보였다.

  • PDF

2단계 히든마코프 모델을 이용한 제스쳐의 성능향상 연구 (Improvement of Gesture Recognition using 2-stage HMM)

  • 정훤재;박현준;김동한
    • 제어로봇시스템학회논문지
    • /
    • 제21권11호
    • /
    • pp.1034-1037
    • /
    • 2015
  • In recent years in the field of robotics, various methods have been developed to create an intimate relationship between people and robots. These methods include speech, vision, and biometrics recognition as well as gesture-based interaction. These recognition technologies are used in various wearable devices, smartphones and other electric devices for convenience. Among these technologies, gesture recognition is the most commonly used and appropriate technology for wearable devices. Gesture recognition can be classified as contact or noncontact gesture recognition. This paper proposes contact gesture recognition with IMU and EMG sensors by using the hidden Markov model (HMM) twice. Several simple behaviors make main gestures through the one-stage HMM. It is equal to the Hidden Markov model process, which is well known for pattern recognition. Additionally, the sequence of the main gestures, which comes from the one-stage HMM, creates some higher-order gestures through the two-stage HMM. In this way, more natural and intelligent gestures can be implemented through simple gestures. This advanced process can play a larger role in gesture recognition-based UX for many wearable and smart devices.

Eigen - Environment 잡음 보상 방법을 이용한 강인한 음성인식 (Robust Speech Recognition using Noise Compensation Method Based on Eigen - Environment)

  • 송화전;김형순
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.145-160
    • /
    • 2004
  • In this paper, a new noise compensation method based on the eigenvoice framework in feature space is proposed to reduce the mismatch between training and testing environments. The difference between clean and noisy environments is represented by the linear combination of K eigenvectors that represent the variation among environments. In the proposed method, the performance improvement of speech recognition systems is largely affected by how to construct the noisy models and the bias vector set. In this paper, two methods, the one based on MAP adaptation method and the other using stereo DB, are proposed to construct the noisy models. In experiments using Aurora 2 DB, we obtained 44.86% relative improvement with eigen-environment method in comparison with baseline system. Especially, in clean condition training mode, our proposed method yielded 66.74% relative improvement, which is better performance than several methods previously proposed in Aurora project.

  • PDF

Research on Recognition of Graphic Symbols in Amusement Park: A Case Study of Taiwan's Theme Amusement Park

  • Hsu, Yao-Wen;Chung, Yi-Chan;Chen, Ching-Piao;Tsai, Chih-Hung
    • International Journal of Quality Innovation
    • /
    • 제9권2호
    • /
    • pp.79-89
    • /
    • 2008
  • Each amusement park has a wayfinding system, while symbols are important mediums to guide tourists to find their destinations. It is very important that whether the meanings of symbols recognized by tourists immediately. This paper mainly discusses the recognition of graphic symbols in amusement park, and proposes the improvement suggestions. Materials for this study were drawn from 20 different graphic symbols of a theme amusement park in Taiwan. The testees were required to evaluate the design of graphic symbols based on symbolic meaning and graphics recognition to summarize the confusion matrix. The results show that there are three groups of graphic symbols easy to be confused, and five symbols not meeting a criterion of 67% correct responses. The reasons were discussed, and improvement and relevant suggestions have been proposed, which may be helpful to redesign of symbols.

채널보상기법을 사용한 전화 음성 연속숫자음의 인식 성능향상 (Performance Improvement of Connected Digit Recognition with Channel Compensation Method for Telephone speech)

  • 김민성;정성윤;손종목;배건성
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.73-82
    • /
    • 2002
  • Channel distortion degrades the performance of speech recognizer in telephone environment. It mainly results from the bandwidth limitation and variation of transmission channel. Variation of channel characteristics is usually represented as baseline shift in the cepstrum domain. Thus undesirable effect of the channel variation can be removed by subtracting the mean from the cepstrum. In this paper, to improve the recognition performance of Korea connected digit telephone speech, channel compensation methods such as CMN (Cepstral Mean Normalization), RTCN (Real Time Cepatral Normalization), MCMN (Modified CMN) and MRTCN (Modified RTCN) are applied to the static MFCC. Both MCMN and MRTCN are obtained from the CMN and RTCN, respectively, using variance normalization in the cepstrum domain. Using HTK v3.1 system, recognition experiments are performed for Korean connected digit telephone speech database released by SITEC (Speech Information Technology & Industry Promotion Center). Experiments have shown that MRTCN gives the best result with recognition rate of 90.11% for connected digit. This corresponds to the performance improvement over MFCC alone by 1.72%, i.e, error reduction rate of 14.82%.

  • PDF

연속 잡음 음성 인식을 위한 다 모델 기반 인식기의 성능 향상에 대한 연구 (Performance Improvement in the Multi-Model Based Speech Recognizer for Continuous Noisy Speech Recognition)

  • 정용주
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.55-65
    • /
    • 2008
  • Recently, the multi-model based speech recognizer has been used quite successfully for noisy speech recognition. For the selection of the reference HMM (hidden Markov model) which best matches the noise type and SNR (signal to noise ratio) of the input testing speech, the estimation of the SNR value using the VAD (voice activity detection) algorithm and the classification of the noise type based on the GMM (Gaussian mixture model) have been done separately in the multi-model framework. As the SNR estimation process is vulnerable to errors, we propose an efficient method which can classify simultaneously the SNR values and noise types. The KL (Kullback-Leibler) distance between the single Gaussian distributions for the noise signal during the training and testing is utilized for the classification. The recognition experiments have been done on the Aurora 2 database showing the usefulness of the model compensation method in the multi-model based speech recognizer. We could also see that further performance improvement was achievable by combining the probability density function of the MCT (multi-condition training) with that of the reference HMM compensated by the D-JA (data-driven Jacobian adaptation) in the multi-model based speech recognizer.

  • PDF

화자독립 음성인식을 위한 GMM 기반 화자 정규화 (Speaker Normalization using Gaussian Mixture Model for Speaker Independent Speech Recognition)

  • 신옥근
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.437-442
    • /
    • 2005
  • 화자독립 음성인식기의 화자 정규화를 위해 GMM(Gaussian mixture model)분포를 이용하는 방법에 대해 실험한다. 이 방법은 벡터 양자화기를 이용한 선행 연구를 개선한 것으로, 정규화된 학습용 특징벡터들의 확률분포를 최적의 클러스터의 수를 갖는 GMM분포로 모델링한 다음, 이 분포를 이용하여 시험용화자의 워핑계수를 추정한다. 이 연구의 목적은 기존의 ML을 이용한 방법의 단점을 개선하는 동시에 벡터 양자화기를 이용한 선행연구와'soft decision'이라 불리는 확률 분포를 이용한 방법의 성능을 비교하는데 있다. TIMIT 코퍼스를 대상으로 한 음소 인식 실험에서 클러스터의 수를 적절한 크기로 설정한 GMM분포를 이용함으로써 벡터 양자화기를 이용한 방법에 비해 약간 나은 인식률을 얻을 수 있었다.

잡음 환경에서 음성 인식률 향상에 필요한 MEMS 장치 개발에 관한 연구 (The research on the MEMS device improvement which is necessary for the noise environment in the speech recognition rate improvement)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1659-1666
    • /
    • 2018
  • 입력된 소리가 음성과 음향이 혼재된 경우 잡음의 영향으로 음성 인식률이 저하됨을 알 수 있으며 S/W적 처리 한계를 극복코자 H/W 장치인 MEMS 장치를 개발하여 음성 인식률을 향상시켰다. MEMS 마이크로폰 장치는 음성을 입력하는 장치로서 다양한 모양으로 구현되어 사용된다. 기존 MEMS 마이크로폰은 일반적으로 우수한 성능을 발휘하나 잡음 과 같은 특수 환경에선 음성과 음향이 혼재되어 처리 성능이 저하되는 문제점이 발생됨을 알 수 있었다. 이러한 문제점을 개선코자 초기 입력장치에 음성 특성을 구분하여 검출할 수 있는 신규 고안된 MEMS 장치를 사용하여 향상시켰다.

VCCV단위를 이용한 어휘독립 음성인식 시스템의 구현 (An Implementation of the Vocabulary Independent Speech Recognition System Using VCCV Unit)

  • 윤재선;홍광석
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.160-166
    • /
    • 2002
  • 본 논문에서는 CV (Consonant Vowel), VCCV (Vowel Consonant Consonant Vowel), VC (Vowel Consonant) 인식 단위를 이용한 새로운 어휘 독립 음성인식 시스템을 구현하였다. 이 인식 단위는 음절의 안정된 모음 구간에서 분할하여 구성했기 때문에 분할이 용이하다. VCCV단위가 존재하지 않을 경우에는 VC와 CV 반음절 모델을 결합하여 대체모델을 구성하였다. 모음군 군집화 (clustering)와 VCCV 모델이 존재하지 않을 경우 대체모델에 결합규칙을 적용하여 제 1후보에서 90.4% (모델 A)에서 95.6% (모델 C)로 5.2%의 인식 성능향상을 가져왔다. 인식실험결과 제 2후보에서 98.8%의 인식률로 제안된 방법이 효율적임을 확인하였다.