• 제목/요약/키워드: speech recognition rate improvement

검색결과 94건 처리시간 0.026초

선형 변환망을 이용한 화자적응 음성인식 (Speaker Adaptation Using Linear Transformation Network in Speech Recognition)

  • 이기희
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.90-97
    • /
    • 2000
  • 본 논문에서는 불특정 화자의 음성에 대해서도 신뢰성 있는 인식이 이루어지도록 하는 음성인식 시스템을 구현하기 위한 화자적응 음성인식 기법을 제안한다. 제안한 화자적응 기법에 의한 음성인식 시스템은 표준화자의 음성특징을 1차선형 변환 망에 의해 새로운 화자의 음성특징에 선형적으로 적응하여 인식하며. 그 구성은 다층퍼셉트론을 퍼지 벡터양자화기로 사용하는 반연속 HMM을 기반으로 한다 구현한 인식시스템은 그 성능을 확인하기 위해 고립단어 인식실험을 수행하였다. 그 결과, 화자적응 인식인 경우가 화자적응 수행하지 않은 시스템에 비해 인식률이 개선됨을 보였다.

  • PDF

남성과 여성의 음성 특징 비교 및 성별 음성인식에 의한 인식 성능의 향상 (Comparison of Male/Female Speech Features and Improvement of Recognition Performance by Gender-Specific Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제5권6호
    • /
    • pp.568-574
    • /
    • 2010
  • 음성인식에서의 인식률 향상을 위한 노력의 일환으로서, 본 논문에서는 성별을 구분하지 않는 일반적 화자독립 음성인식과 성별에 따른 음성인식의 성능을 비교하는 연구를 수행하였다. 실험을 위해 남녀 각 20명의 화자로 하여금 각각 300단어를 발성하게 하고, 그 음성 데이터를 여성/남성/혼성A/혼성B의 네 그룹으로 나누었다. 우선, 성별 음성인식에 대한 근거의 타당성을 파악하기 위하여 음성 신호의 주파수 분석 및 MFCC 특징벡터들의 성별 차이를 조사하였다. 그 결과, 성별 음성인식의 동기를 뒷받침할 정도의 두드러진 성별 차이가 확인되었다. 음성인식을 수행한 결과, 성을 구분하지 않는 일반적인 화자독립의 경우에 비해 성별 음성인식에서의 오류율이 절반 이하로 떨어지는 것으로 나타났다. 이로부터, 성 인식과 성별 음성인식을 계층적으로 수행함으로써 화자독립의 인식률을 높일 수 있을 것으로 사료된다.

IPA를 활용한 다국어 음성 인식에 관한 연구 (A Study on the Multilingual Speech Recognition using International Phonetic Language)

  • 김석동;김우성;우인성
    • 한국산학기술학회논문지
    • /
    • 제12권7호
    • /
    • pp.3267-3274
    • /
    • 2011
  • 최근 다양한 모바일 기기의 사용자 환경과 다양한 음성인식 소프트웨어의 영향으로 음성인식 기술역시 빠르게 발전되고 있다. 그러나 다국어를 대상으로 하는 음성인식의 경우 다국어 혼합음성에 대한 이해 부족과 시스템 성능의 한계로 인하여 원활한 인식율의 개선은 이루어지지 않고 있다. 여러 나라의 혼합 언어로 표현된 음성의 경우 하나의(단일) 음성모델로 구현하는 것이 쉽지 않고, 또한 여러 개의 음성모델을 사용한 시스템의 경우 음성인식 성능의 저하라는 문제점이 있다. 이에 따라 다양한 언어로 구성되어 있는 음성을 하나의 음성모델로 표현할 수 있는 다국어 음성인식 모바일 시스템의 개발 필요성이 증가되고 이에 대한 연구가 필요하다. 본 논문에서는 모바일 시스템에서 다국어 혼합 음성모델을 사용하기 위한 기본연구로써 한국어와 영어 음성을 국제 음성기호(IPA)로 인식하는 통합음성모델 시스템 구축을 연구하였고, 한국어와 영어 음소를 동시에 만족하는 IPA모델을 찾는데 중점을 두어 실험한 결과 우리말 음성은 94.8%, 영어 음성은 95.36%라는 인식률을 얻을 수 있었다.

잡음 환경에서 음성 인식률 향상에 필요한 MEMS 장치 개발에 관한 연구 (The research on the MEMS device improvement which is necessary for the noise environment in the speech recognition rate improvement)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1659-1666
    • /
    • 2018
  • 입력된 소리가 음성과 음향이 혼재된 경우 잡음의 영향으로 음성 인식률이 저하됨을 알 수 있으며 S/W적 처리 한계를 극복코자 H/W 장치인 MEMS 장치를 개발하여 음성 인식률을 향상시켰다. MEMS 마이크로폰 장치는 음성을 입력하는 장치로서 다양한 모양으로 구현되어 사용된다. 기존 MEMS 마이크로폰은 일반적으로 우수한 성능을 발휘하나 잡음 과 같은 특수 환경에선 음성과 음향이 혼재되어 처리 성능이 저하되는 문제점이 발생됨을 알 수 있었다. 이러한 문제점을 개선코자 초기 입력장치에 음성 특성을 구분하여 검출할 수 있는 신규 고안된 MEMS 장치를 사용하여 향상시켰다.

SPLICE 방법에 기반한 잡음 환경에서의 음성 인식 성능 향상 (Performance Improvement ofSpeech Recognition Based on SPLICEin Noisy Environments)

  • 김종현;송화진;이종석;김형순
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.103-118
    • /
    • 2005
  • The performance of speech recognition system is degraded by mismatch between training and test environments. Recently, Stereo-based Piecewise LInear Compensation for Environments (SPLICE) was introduced to overcome environmental mismatch using stereo data. In this paper, we propose several methods to improve the conventional SPLICE and evaluate them in the Aurora2 task. We generalize SPLICE to compensate for covariance matrix as well as mean vector in the feature space, and thereby yielding the error rate reduction of 48.93%. We also employ the weighted sum of correction vectors using posterior probabilities of all Gaussians, and the error rate reduction of 48.62% is achieved. With the combination of the above two methods, the error rate is reduced by 49.61% from the Aurora2 baseline system.

  • PDF

The Performance Improvement of Speech Recognition System based on Stochastic Distance Measure

  • Jeon, B.S.;Lee, D.J.;Song, C.K.;Lee, S.H.;Ryu, J.W.
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제4권2호
    • /
    • pp.254-258
    • /
    • 2004
  • In this paper, we propose a robust speech recognition system under noisy environments. Since the presence of noise severely degrades the performance of speech recognition system, it is important to design the robust speech recognition method against noise. The proposed method adopts a new distance measure technique based on stochastic probability instead of conventional method using minimum error. For evaluating the performance of the proposed method, we compared it with conventional distance measure for the 10-isolated Korean digits with car noise. Here, the proposed method showed better recognition rate than conventional distance measure for the various car noisy environments.

음향학적 및 언어적 탐색을 이용한 어휘 인식 최적화 (The Vocabulary Recognition Optimize using Acoustic and Lexical Search)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권4호
    • /
    • pp.496-503
    • /
    • 2010
  • 어휘인식 시스템은 스탠드 얼론(Standalone)으로 개발되어 지고 있으며 휴대용 단말기에서 사용하였을 경우 메모리 공간의 제약과 오디오 압축으로 인해 인식률이 낮게 나타난다. 본 연구에서는 휴대용 단말기의 성능과 인식률 향상을 위하여 음향학적 탐색과 언어적 탐색을 분리하여 어휘 인식 속도를 개선한 시스템을 제안하였다. 음향학적 탐색은 휴대용 단말기에서 수행하고 보다 복잡한 언어적 탐색은 서버에서 처리하는 시스템으로 음성신호로부터 특징벡터를 추출하여 GMM을 이용한 음소인식을 수행하고, 인식된 음소 열을 서버로 전송하여 렉시컬 트리 탐색 알고리즘을 사용하여 언어적 탐색 단계에서 어휘 인식을 수행하였다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.01%, 어휘 독립 인식률은 97.71%의 인식률을 나타냈으며 인식속도는 1.58초로 나타내었다.

음성 인식용 데이터베이스 검증시스템을 위한 새로운 음성 인식 성능 지표 (A New Speech Quality Measure for Speech Database Verification System)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.464-470
    • /
    • 2016
  • 본 논문에서는 음성의 특성 지표를 이용한 음성 인식용 데이터베이스 검증 시스템의 개발 내용을 소개하고 이 시스템의 핵심 기술인 음성 특성 지표 추출 알고리즘을 설명한다. 선행 연구에서는 본 시스템에 필요한 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 인식 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 실험에서는 선행 연구에서 조합에 사용한 이차적인 음성 인식기에서 추출된 음향 모델 확률 값을 GMM(Gaussian Mixture Model) 음향 모델 확률 값으로 대체해 조합함으로써 시스템 구축 시 다른 음성 인식기에 대한 의존성을 감소시킨다.

남녀성별 분류를 위한 화자종속 음성인식 알고리즘 (Speaker-dependent Speech Recognition Algorithm for Male and Female Classification)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제17권4호
    • /
    • pp.775-780
    • /
    • 2013
  • 본 논문에서는 백색잡음 및 자동차잡음 환경 하에서 남녀 성별인식이 가능한 신경회로망에 의한 화자종속 음성인식 알고리즘을 제안한다. 본 논문에서 제안한 음성인식 알고리즘은 남성화자 및 여성화자를 인식하기 위하여 LPC 켑스트럼 계수를 사용하여 신경회로망에 의하여 학습된다. 본 실험에서는 백색잡음 및 자동차잡음에 대하여 총 6개의 신경회로망의 네크워크에 대한 인식결과를 나타낸다. 인식실험의 결과로부터 백색잡음에 대해서는 최대 96% 이상의 인식률, 자동차잡음에 대해서는 최대 88% 이상의 인식률을 구하였다. 마지막으로 본 실험에서는 제안하는 음성인식 알고리즘이 배경잡음 환경 하에서의 기존의 음성인식 알고리즘과 비교하여 본 방식의 알고리즘이 유효하다는 것을 실험으로 확인한다.

잡음 환경에서 짧은 발화 인식 성능 향상을 위한 선택적 극점 필터링 기반의 특징 정규화 (Selective pole filtering based feature normalization for performance improvement of short utterance recognition in noisy environments)

  • 최보경;반성민;김형순
    • 말소리와 음성과학
    • /
    • 제9권2호
    • /
    • pp.103-110
    • /
    • 2017
  • The pole filtering concept has been successfully applied to cepstral feature normalization techniques for noise-robust speech recognition. In this paper, it is proposed to apply the pole filtering selectively only to the speech intervals, in order to further improve the recognition performance for short utterances in noisy environments. Experimental results on AURORA 2 task with clean-condition training show that the proposed selectively pole-filtered cepstral mean normalization (SPFCMN) and selectively pole-filtered cepstral mean and variance normalization (SPFCMVN) yield error rate reduction of 38.6% and 45.8%, respectively, compared to the baseline system.