• 제목/요약/키워드: 음성 인식률 향상

검색결과 233건 처리시간 0.026초

한국어에서의 성인과 유아의 음성 인식 비교 (Comparison of Adult and Child's Speech Recognition of Korean)

  • 유재권;이경미
    • 한국콘텐츠학회논문지
    • /
    • 제11권5호
    • /
    • pp.138-147
    • /
    • 2011
  • 현재 한국의 음성 데이터베이스 구축 현황을 살펴보면 유아에 맞춰진 음성 데이터베이스는 구축이 되지 않은 실정이다. 국외 연구를 분석한 결과, 다양한 언어를 기반으로 유아 대상의 음성 데이터베이스가 구축되어 있다. 이는 성인의 음성과 유아의 음성은 언어학적으로 차이가 있기 때문에 유아는 유아에 맞는 음성 데이터베이스가 필요하다. 한국어에서 성인과 유아의 음성 차이를 알아보기 위해, HMM을 이용하여 유아와 성인의 음성인식을 비교하였다. 유아와 성인의 음성인식 비교는 성별, 나이별, 성도 길이 정규화의 적용 유무에 따라 실험한다. 본 논문에서는 한국어에서 유아의 음성을 유아의 음성인식기로 인식했을 때가 성인의 음성인식기로 인식했을 때 보다 월등히 인식률이 높았으며, 성도 길이 정규화의 적용이 인식률 향상에 도움이 되고 있음을 보여준다.

다채널 마이크 환경에서 Naive Bayesian Network의 Decision에 의한 음성인식 성능향상 (Performance Improvement in Distant-Talking Speech Recognition by an Integration of N-best results using Naive Bayesian Network)

  • 지미경;김희린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.151-154
    • /
    • 2005
  • 원거리 음성인식에서 인식률의 성능향상을 위해 필수적인 다채널 마이크 환경에서 방 안의 도처에 분산되어있는 원거리 마이크를 사용하여 TV, 조명 등의 주변 환경을 음성으로 제어하고자 한다. 이를 위해 각 채널의 인식결과를 통합하여 최적의 결과를 얻고자 채널의N-best 결과와 N-best 결과에 포함된 hypothesis의 frame-normalized likelihood 값을 사용하여 Bayesian network을 훈련하고 인식결과를 통합하여 최선의 결과를 decision 하는데 사용함으로써 원거리 음성인식의 성능을 향상시키고 또한 hands-free 응용을 현실화하기위한 방향을 제시한다.

  • PDF

연속 음성 인식 향상을 위해 LMS 알고리즘을 이용한 CHMM 모델링 (CHMM Modeling using LMS Algorithm for Continuous Speech Recognition Improvement)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.377-382
    • /
    • 2012
  • 본 논문은 반향 제거 평균 예측 LMS 알고리즘을 이용하여 반향 잡음에 강인한 연속 음성 인식 모델인 CHMM 모델을 구성하는 방법을 제안하였다. 변화하는 반향 잡음에 적응하고 연속 음성 인식 성능 향상을 위한 반향 잡음 제거 평균 예측 LMS 알고리즘을 이용하여 CHMM 모델을 구성하였다. 제안한 알고리즘에 의해 구성된 CHMM 모델에 대하여 연속 인식 성능을 평가하였다. 실험 결과 변화하는 환경 잡음을 제거하여 얻은 음성의 SNR은 평균 1.93dB이 향상되었고 연속 음성의 인식률은 2.1% 향상되었다.

MLLR을 이용한 한국어 음성의 화자 적응 (A Speaker Adaptation of Korean Speech Using MLLR)

  • 김태형;이건웅;이상호;홍재근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.251-254
    • /
    • 2000
  • 화자 독립 인식은 훈련 화자와 시험 화자의 차이로 인해 화자 종속의 경우보다 인식률이 떨어진다. 따라서, 인식률을 향상시키기 위해 화자 독립 모델을 화자에 적응시킬 필요가 있다. 본 논문에서는 효과적인 적응 방법인 MLLR(Maximum Likelihood Linear Regression) 적응 방법을 한국어 음성에 적용하여 적응 성능을 향상시켰고, 온라인 상에서 적용 가능하도록 증가 적응 방법을 이용하였다. PBW 445 음성 데이타베이스에 대한 실험 결과, 400개의 적응 데이터를 사용하였을 때, 제안한 방법이 기존의 화자 독립 시스템보다 7.02% 향상된 성능을 보였다.

  • PDF

잡음환경하의 연속 음성인식을 위한 유사음소단위 분석 (An Analysis on Phone-Like Units for Korean Continuous Speech Recognition in Noisy Environments)

  • 신광호;임수호;서준배;김주곤;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.123-126
    • /
    • 2004
  • 본 논문은 잡음환경 하에서의 효율적인 문맥의존 음향 모델 구성에 대한 기초연구로서 잡음환경 하에서의 유사 음소단위 수에 따른 연속 음성인식 성능을 비교, 평가한 결과에 대한 보고이다. 기존의 연구[1,2]로부터 연속음성 인식의 경우 문맥종속모델은 변이음을 고려한 39유사음소를 이용한 경우가 48유사음소를 이용하는 것보다 더 좋은 인식성능을 나타냄을 알 수 있었다. 이 연구 결과를 바탕으로 본 연구에서는 잡음환경에서도 효율적인 문맥 의존 음향모델을 구성하기 위한 기초 연구를 수행하였다. 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음을 신호 대 잡음비(Signal to Noise Ratio) 5dB, 10dB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따른 연속음성인식 실험을 수행하였다. 그 결과, 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 clear 환경인 경우에 약 $7\%$$17\%$ 향상된 단어인식률과 문장 인식률을 얻을 수 있었으며, 각 잡음환경에서도 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 평균 적으로 $17\%$$28\%$ 향상된 단어인식률과 문장인식률을 얻을 수 있어 39유사음소 단위가 한국어 연속음성인식에 더 적합하고 잡음환경에서도 유효함을 확인할 수 있었다.

  • PDF

얼굴과 음성 정보를 이용한 바이모달 시스템 설계 및 구현 (Design and Implementation of Bimodal System using Face and Audio)

  • 김명훈;이지근;정성태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.701-704
    • /
    • 2005
  • 최근 들어 바이모달 인식에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 음성과 얼굴을 이용하여 바이모달 시스템을 구현하였다. 얼굴인식은 객체 분류 기법인 SVM을 이용하여 얼굴을 검출 및 인식하였으며, 음성인식은 HMM을 이용하여 음성인식을 하였다. 각기 인식된 결과에 대해 합성을 통하여 잡음에 의해 낮아지는 음성 인식률을 얼굴 인식과 같이 사용함으로서, 전체적인 인식률 향상을 볼 수 있다.

  • PDF

음소 기반의 유사율 알고리즘을 이용한 Home Network 환경에서의 음성 인식 (Voice Recognition using a Phoneme based Similarity Algorithm in Home Networks)

  • 이창섭;유재봉;박준석;양수호;김유섭;박찬영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.767-770
    • /
    • 2005
  • 네트워크상에서 전달되는 음성데이터는 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 홈 네트워크를 제어하는데 있어서 음성 인식률을 향상시키기 위해서 음성 데이터를 입력받아, 이를 음소단위 기반의 유사율 알고리즘을 적용시켜 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 음소단위 기반의 유사율 알고리즘과 다중발화를 이용했을 때 Threshold 값이 85% 일 경우 사전에 구축된 단어와 매칭된 인식률은 100%였으며, 사전에 없는 단어의 오인식률은 2%로 감소되었다.

  • PDF

심한 소음환경에서 언어장애인 음성 인식률 향상을 위한 단어선정 방법 및 장치 개선에 관한 연구 (A Study on Word Selection Method and Device Improvement for Improving Speech Recognition Rate of Speech-Language-impaired in Severe Noise Environment)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.555-567
    • /
    • 2019
  • 언어장애인, 언어 사용이 불편한 분들의 경우 조금의 잡음 환경에도 음성인식률이 저하되어 사회 생활시 어려움을 겪게 된다. 언어 사용 시 불편함을 장치로 개선시킴과 동시에, 언어 장애인의 발음 특성을 고려하여 단어 선정 시 자체 개선한 단어 선정 방법을 사용하여 280개 단어를 선정하였다. 실험에 사용된 MEMS 개발 장치는 재질, 유도선 종류, 길이, 방향을 고려하여 제작되었으며 잘못된 발음으로 인한 음성과 심한 소음에서 음성 인식률 향상을 위하여 개발된 MEMS 장치와 개발된 단어 선정 방법을 사용하여 개선시켰다. 개선 방법으론 새로운 단어 선정 방법과 mems 장치를 개선하여 진행하였으며 결과를 포함하였다.

음성 인식률 향상을 위한 음성의 특징 파라미터 추출 알고리즘

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.686-687
    • /
    • 2017
  • 본 논문에서는 잡음에 강인하고 음성인식 성능이 효과적인 멜 주파수 켑스트럼 계수의 파라미터의 추출 알고리즘을 제안한다. 본 논문에서 제안한 알고리즘은 배경잡음이 혼합된 깨끗한 연속음성 중에서 위너필터를 이용하여 음성에 포함된 배경잡음을 감소시키며, 이후에 멜 주파수 켑스트럼 계수의 특징추출 방법을 사용하여 음성의 특징 파라미터를 추출한다.

  • PDF

K-L 동적 계수를 이용한 단어 인식 (Word Recognition Using K-L Dynamic Coefficients)

  • 김주곤
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.103-106
    • /
    • 1998
  • 본 논문에서는 음성인식 시스템의 인식 정도의 향상을 위해서 동적 특징으로서 K-L(Karhanen-Loeve)계수를 이용하여 음소모델을 구성하는 방법을 제안하고, 음소, 단어, 숫자음 인식 실험을 통하여 그 유효성을 검토하였다. 인식 실험을 위한 음성자료는 한국 전자통신 연구소에서 채록한 445단어와 국어정보공학연구소에서 채록한 4연속 숫자음을 사용하였으며, K-L계수 동적 특징의 유효성을 확인하기 위해 정적 특징으로서 멜-켑스트럼과 동적 특징으로서 K-L계수 및 회귀계수를 추출한 후 음소, 단어, 숫자음 인식 실험을 수행하였다. 인식의 기본 단위로는 48개의 유사음소단위(Phoneme Likely Unite ; PLUs)를 음소모델로 사용하였으며, 단어와 숫자음 인식을 위해서는 유한상태 오토마타(Finite State Automata; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming)법을 이용하였다. 인식 실험 결과, 음소인식에 있어서는 정적특징인 멜-켑스트럼을 사용한 경우 39.8%, K-L 동적 계수를 사용한 경우가 52.4%로 12.6%의 향상된 인식률을 얻었다. 또한, 멜-켑스트럼과 회수계수를 사용한 경우 60.1%, K-L계수와 회귀계수를 결합한 경우에 있어서도 60.4%로 높은 인식률은 얻었다. 이 결과를 단어인식에 확장하여 인식 실험을 수행한 결과, 기존의 멜-켑스트럼 계수를 사용한 경우 65.5%, K-L계수를 사용한 경우 75.8%로 10.3% 향상된 인식률을 얻었으며, 멜-켑스트럼과 회귀계수를 결합한 경우 91.2%, K-L계수와 회귀계수를 결합한 경우 91.4%의 높은 인식률을 보였다. 도한, 4연속 숫자음에 적용한 경우에 있어서도 멜-켑스트럼을 사용한 경우 67.5%, K-L계수를 사용한 경우 75.3%로 7.8%의 향상된 인식률을 보였으며 K-L계수와 회귀계수를 결합한 경우에서도 비교적 높은 인식률을 보여 숫자음에 대해서도 K-L계수의 유효성을 확인할 수 있었다.

  • PDF