• Title/Summary/Keyword: 강인한 음성 인식

Search Result 197, Processing Time 0.022 seconds

Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization (음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출)

  • Ahn, Chan-Shik;Choi, Ki-Ho
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.169-174
    • /
    • 2013
  • Speech recognition, the problem of performance degradation is the difference between the model training and recognition environments. Silence features normalized using the method as a way to reduce the inconsistency of such an environment. Silence features normalized way of existing in the low signal-to-noise ratio. Increase the energy level of the silence interval for voice and non-voice classification accuracy due to the falling. There is a problem in the recognition performance is degraded. This paper proposed a robust speech detection method in noisy environments using a silence feature normalization and voice energy maximize. In the high signal-to-noise ratio for the proposed method was used to maximize the characteristics receive less characterized the effects of noise by the voice energy. Cepstral feature distribution of voice / non-voice characteristics in the low signal-to-noise ratio and improves the recognition performance. Result of the recognition experiment, recognition performance improved compared to the conventional method.

Performance Comparison of Speech Recognition Using Body-conducted Signals in Noisy Environment (소음 환경에서 body-conducted 신호를 이용한 음성인식 성능 비교)

  • Choi Dae-Lim;Lee Kwang-Hyun;Lee Yong-Ju;Kim Chong-Kyo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.57-60
    • /
    • 2004
  • 본 논문에서는 음성정보기술산업지원센터(SiTEC)에서 현재 배포중인 고소음 환경 음성 DB를 이용하여 air-conducted 음성과 body-conducted 음성의 인식 성능을 비교 실험하였다. 소음 환경에서 일반적인 마이크로폰으로부터 수집된 air-conducted 음성은 잡음의 영향을 받기 쉬우며 이는 인식률을 저하시킨다. 반면에 진동 픽업 마이크로폰에서 수집된 body-conducted 음성은 소음에 보다 강인한 특성을 보인다. 이러한 특성에 근거하여 소음 환경에서 일반 다이나믹 마이크로폰 음성에 음질 개선 방법과 채널 보상 방법을 적용한 인식 결과와 3종류의 진동 픽업 마이크로폰에서 수집된 음성과의 인식 성능을 비교 분석하여 body-conducted 음성 인식 시스템의 환용 가능성을 살펴보았다.

  • PDF

Robust Speech Segmentation Method in Noise Environment for Speech Recognizer (음성인식기 구현을 위한 잡음에 강인한 음성구간 검출기법)

  • 김창근;박정원;권호민;허강인
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.4 no.2
    • /
    • pp.18-24
    • /
    • 2003
  • One of the most important subjects in the implementation of real time speech recognizer is to design both reliable VAD(Voice Activity Detection) and suitable speech feature vector. But, because it is difficult to calculate reliable VAD in the environment having surrounding noise, designed suitable speech feature vector may not be obtained. Solving this problem, in this paper, we implement not only short time power spectrum which is generally used but also two additive parameters, the comparison measure of spectrum density having robust property in noise and linear discriminant function using linear regression, then perform VAD by using the combination of each parameter having apt weight in other magnitudes of surrounding noise and confirm that proposed parameters show a robust characteristic in circumstances having surrounding noise by using DTW(Dynamic Time Waning) in recognition experiment.

  • PDF

Development of Continuous Speech Recognition System for Multimedia Mobile Terminal Applications (휴대 멀티미디어 단말용 음성인식 시스템 개발)

  • 김승희
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.59-62
    • /
    • 1998
  • 본 논문에서는 한국전자통신연구원의 Handy Combi 응용 도메인을 대상으로 한 화자독립 연속음성인식 시스템 개발에 관하여 기술한다. 불특정화자가 자연스럽게 발음한 연속음성을 인식하는 기술은 펜인식 등과 더불어 멀티모달 인터페이스의 핵심 요소로서, 이동 환경에서 사용자의 다양한 요구사항을 처리하는 지능형 에이전트에 구현을 위해 필수적으로 개발되어야 하는 기술이다. 본 논문에서는 연속확률분포를 가지는 Hidden Markov Model(HMM) 기반의 연속음성인식 시스템을 구현하였다. 개발된 시스템은 음성특징벡터로 MFCC를 사용하였으며, 음소 모델의 강인한 훈련을 위해 음성학적 지식에 기반을 둔 tree-based clustering 방식을 도입하였다. 인식단계에서는 인식속도를 개선시키기 위해 beam-search 기법을 적용하였다. 인식 실험 결과, 99.7%의 어절 인식률과 98.8%의 문장 인식률을 얻었으며, 최종적인 문장의 이해도는 99% 이상이었다.

  • PDF

Robust Speech Recognition Parameters for Emotional Variation (감정 변화에 강인한 음성 인식 파라메터)

  • Kim Weon-Goo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.15 no.6
    • /
    • pp.655-660
    • /
    • 2005
  • This paper studied the feature parameters less affected by the emotional variation for the development of the robust speech recognition technologies. For this purpose, the effect of emotional variation on the speech recognition system and robust feature parameters of speech recognition system were studied using speech database containing various emotions. In this study, LPC cepstral coefficient, met-cepstral coefficient, root-cepstral coefficient, PLP coefficient, RASTA met-cepstral coefficient were used as a feature parameters. And CMS and SBR method were used as a signal bias removal techniques. Experimental results showed that the HMM based speaker independent word recognizer using RASTA met-cepstral coefficient :md its derivatives and CMS as a signal bias removal showed the best performance of $7.05\%$ word error rate. This corresponds to about a $52\%$ word error reduction as compare to the performance of baseline system using met - cepstral coefficient.

Robust Speech Recognition for Emotional Variation (감정 변화에 강인한 음성 인식)

  • Kim, Won-Gu
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.431-434
    • /
    • 2007
  • 본 논문에서는 인간의 감정 변화의 영향을 적게 받는 음성 인식 시스템의 특정 파라메터에 관한 연구를 수행하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향과 감정 변화의 영향을 적게 받는 특정 파라메터에 관한 연구를 수행하였다. 본 연구에서는 LPC 켑스트럼 계수, 멜 켑스트럼 계수, 루트 켑스트럼 계수, PLP 계수와 RASTA 처리를 한 멜 켑스트럼 계수와 음성의 에너지를 사용하였다. 또한 음성에 포함된 편의(bias)를 제거하는 방법으로 CMS 와 SBR 방법을 사용하여 그 성능을 비교하였다. HMM 기반의 화자독립 단어 인식기를 사용한 실험 결과에서 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 경우에 가장 우수한 성능을 나타내었다. 이러한 것은 멜 켑스트럼을 사용한 기준 시스템과 비교하여 59%정도 오차가 감소된 것이다.

  • PDF

Merging Context Information and Recognition Result for Robust Speech Recognition in Noisy Environments (잡음 환경에서의 강인한 음성인식을 위한 문맥 정보와 음성인식 결과의 융합)

  • Song, Won-Moon;Kim, Eun-Ju;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.733-735
    • /
    • 2005
  • 최근 음성인식 분야 에서는 잡음 환경에서 좀 더 신뢰도 높은 음성 인식 결과물 얻기 위하여 인식 결과 도출 단계에서 여러 가지 정보를 융합 하는 방법이나 인식결과를 후처리 하여 새로운 결과를 얻어 내는 방법들이 연구 되고 있다. 본 논문에서는 개인 모바일 기기에서의 음성 인식 환경에서 사용자의 발화 패턴 정보를 가지는 문맥 정보를 활용함으로서 잡음 환경에서의 음성 정보 손실에 따른 인식률 하락을 보완하는 방법을 제안한다. 먼저 사용자의 기기 사용 로그나 발화 로그 정보로부터 특정 명령어들의 순차적 발화 패턴을 마이닝하여 문맥 정보를 구성한다. 이 후 음성 발화시에 인식기의 최종 인식 결과에 대한 신뢰도가 떨어진다고 판단될 때 앞서 얻어진 문맥 정보의 신뢰도를 인식기의 각 후보단어들의 인식률과 융합하여 새로운 인식 결과를 도출해 낸다. 이러한 과정에서 인식기 결과에 대한 신뢰성을 판단하는 기준을 실험을 통하여 결정 하였으며 신뢰성이 기준 이하일 경우의 융합 과정을 위하여 후보 단어 인식률과 문맥정보를 적절히 융합할 수 있는 방법을 제안한다.

  • PDF

Performance improvement of Command Speech recognition using Context Information (Context 정보를 이용한 명령어 음성인식의 성능향상)

  • Kim, Young-Ju;Kim, Eun-Ju;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.718-720
    • /
    • 2005
  • 이동 단말기의 대중화로 사용자는 시간과 공간의 제약 없이 필요한 다양한 정보 서비스를 쉽게 접할 수 있게 되었다. 그러나 사용자 인터페이스에 있어 이동 단말기는 제약사항이 않음으로 적시적소에 원하는 정보를 접근하기가 어렵기 때문에 음성인식을 통한 인터페이스 연구가 진행되고 있으며, 특히 잡음환경에서 강인한 음성인식 처리를 위한 연구가 활발히 진행되고 있다. 지금까지 잡음환경을 위한 음성인식 접근 방법으로는 언어모델의 개선과 음향모델 개선으로 크게 구분할 수 있다. 그러나 이러한 접근 방법들은 적용하는데 있어 많은 시간과 비용이 요구됨으로 효율성이 떨어진다. 따라서 본 논문에서는 이러한 효율성 문제를 보완하기 위해 음성인식기로부터 인식되어 나오는 결과를 문맥정보와 융합하여 정보를 추출하고 이 정보를 이용한 후처리 모듈을 이용하여 인식시에 발생하는 오류를 적은 비용과 시간으로 수정하여 이동 단말기에 이용할 수 있도록 한다.

  • PDF

PCA-based Variational Model Composition Method for Roust Speech Recognition with Time-Varying Background Noise (시변 잡음에 강인한 음성 인식을 위한 PCA 기반의 Variational 모델 생성 기법)

  • Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.12
    • /
    • pp.2793-2799
    • /
    • 2013
  • This paper proposes an effective feature compensation method to improve speech recognition performance in time-varying background noise condition. The proposed method employs principal component analysis to improve the variational model composition method. The proposed method is employed to generate multiple environmental models for the PCGMM-based feature compensation scheme. Experimental results prove that the proposed scheme is more effective at improving speech recognition accuracy in various SNR conditions of background music, compared to the conventional front-end methods. It shows 12.14% of average relative improvement in WER compared to the previous variational model composition method.

A Study on Noisy Speech Recognition Using a Bayesian Adaptation Method (Bayesian 적응 방식을 이용한 잡음음성 인식에 관한 연구)

  • 정용주
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.2
    • /
    • pp.21-26
    • /
    • 2001
  • An expectation-maximization (EM) based Bayesian adaptation method for the mean of noise is proposed for noise-robust speech recognition. In the algorithm, the on-line testing utterances are used for the unsupervised Bayesian adaptation and the prior distribution of the noise mean is estimated using the off-line training data. For the noisy speech modeling, the parallel model combination (PMC) method is employed. The proposed method has shown to be effective compared with the conventional PMC method for the speech recognition experiments in a car-noise condition.

  • PDF