• 제목/요약/키워드: 음성데이터베이스

검색결과 269건 처리시간 0.026초

강건한 한국어 연속음성인식을 위한 유사음소단일에 대한 연구 (A Study on PLU (Phone-Likely Unit) for Korean Continuous Speech Recognition)

  • 서준배;김주곤;김민정;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.37-40
    • /
    • 2004
  • 본 논문은 한국어 연속음성인식에 효율적인 문맥의존 음향모델 수에 대한 연구로써 유사음소단위 수에 따른 인식 성능을 비교, 평가하였다. 기존에 본연구실에서는 48음소를 기본인식단위로 이용하고 있으나 연속음성인식의 경우 문맥종속모델이 사용되고 문맥종속모델은 변이 음을 고려한 음소가 이미 포함되어 있어 이를 고려하면 기본 음소를 줄이므로서 계산량의 감소와 인식 성능 향상을 기대할 수 있을 것으로 생각된다. 따라서 , 본 논문에서는 기존의 48음소와 이를 39음소로 줄여 인식실험에 사용하여 그 성능을 비교 평가하기로 하였다. 이를 위하여 다양한 태스크의 데이터베이스를 통합하여 부족한 문맥요소들을 확장한 후 인식실험을 수행하였다. 실험결과 변이음의 개수를 줄이면서도 인식 성능저하가 없음을 확인할 수 있었으며 연속 음성의 경우 39음소를 이용한 경우가 $10\%$정도의 향상된 인식성능을 얻을 수 있음을 확인할 수 있었다.

  • PDF

HEEAS: 감정표현 애니메이션 알고리즘과 구현에 관한 연구 (HEEAS: On the Implementation and an Animation Algorithm of an Emotional Expression)

  • 김상길;민용식
    • 한국콘텐츠학회논문지
    • /
    • 제6권3호
    • /
    • pp.125-134
    • /
    • 2006
  • 본 논문은 음성이 인간에게 전달되어 나타나는 여러 가지 감정 표현 중에서 단지 4가지 감정 즉 두려움, 싫증, 놀람 그리고 중성에 대한 감정 표현이 얼굴과 몸동작에 동시에 나타내는 애니메이션 시스템인 HEEAS(Human Emotional Expression Animation System)를 구현하는데 그 주된 목적이 있다. 이를 위해서 본 논문에서는 감정 표현이 풍부한 한국인 20대 청년을 모델로 설정하였다. 또한 입력되어진 음성 신호를 통해서 추출된 감정표현에 대한 데이터를 얼굴코드와 몸동작코드를 부여하고 이를 데이터 베이스화 하여 실제 애니메이션 구현을 하기 위한 처리의 시간을 최소화하였다. 즉, 입력되어진 음성 신호를 이용해서 원하는 결과인 얼굴, 몸동작에 대한 자료를 이진 검색을 이용해서 데이터베이스에서 찾으므로 검색 시간을 최소화하였다. 실제 감정 표현에 대한문제들을 실험을 통해서 얻은 결과가 99.9%의 정확도임을 알 수가 있었다.

  • PDF

다중 바이오 인증에서 특징 융합과 결정 융합의 결합 (Combining Feature Fusion and Decision Fusion in Multimodal Biometric Authentication)

  • 이경희
    • 정보보호학회논문지
    • /
    • 제20권5호
    • /
    • pp.133-138
    • /
    • 2010
  • 본 논문은 얼굴과 음성 정보를 사용한 다중 바이오 인증에서, 특정 단계의 융합과 결정 단계의 융합을 동시에 수행하는 다단계 융합 방법을 제안한다. 얼굴과 음성 특징을 1차 융합한 얼굴 음성 융합특징에 대해 Support Vector Machines(SVM)을 생성한 후, 이 융합특징 SVM 인증기의 결정과 얼굴 SVM 인증기의 결정, 음성 SVM 인증기의 결정들을 다시 2차 융합하여 최종 인증 여부를 결정한다. XM2VTS 멀티모달 데이터베이스를 사용하여 특징 단계 융합, 결정 단계 융합, 다단계 융합 인증을 비교 실험한 결과, 제안한 다단계 융합에 의한 인증이 가장 우수한 성능을 보였다.

AMR-WB 음성 부호화기를 이용한 TTS 데이터베이스의 효율적인 압축 기법 (Efficient TTS Database Compression Based on AMR-WB Speech Coder)

  • 임종욱;김기출;김경선;이항섭;박혜영;김무영
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.290-297
    • /
    • 2009
  • 본 논문에서는 효율적으로 Text-To-Speech (TTS) 데이터베이스를 압축하기 위해서 개선된 adaptive multi-rate wideband (AMR-WB) 음성 부호화 알고리즘을 제안하고자 한다. 제안된 알고리즘은 불필요한 common bit-stream (CBS)을 제거하고, 파라미터의 델타 코딩 방식과 특정 화자에 종속적인 Huffman coding을 접목하여 음질 저하 없이 비트율을 낮추고자 하였다. 또한, 최소한의 음질 손실로 최대의 비트율 개선 효과를 볼 수 있는 손실 압축 방식도 제안하였다. 기존의 12.65 kbit/s AMR-WB 코덱에 CBS 제거를 포함한 무손실 압축 방식을 적용한 결과 음질 저하 없이 최대 12.40%의 비트율 개선 효과를 나타냈다. 또한, 손실 압축방식에서는 20.00% 비트율 개선 시 PBSQ로 0.12 정도의 음질 저하가 발생했다.

Missing-Feature 복구를 위한 대역 독립 방식의 베이시안 분류기 기반 마스크 예측 기법 (Mask Estimation Based on Band-Independent Bayesian Classifler for Missing-Feature Reconstruction)

  • 김우일;;고한석
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.78-87
    • /
    • 2006
  • 본 논문에서는 알려지지 않은 잡음 환경에서 강인한 음성 인식 성능을 위하여 missing-feature복구 기법을 다루며, 베이시안 분류기를 기반으로 하는 마스크 예측 기법의 성능을 향상시킬 수 있는 방법을 제안한다. 기존의 마스크 예측 기법에서는 배경 잡음 종류에 독립적인 성능을 위해 전 주파수 대역을 분할하여 발생시킨 유색 잡음을 마스크 예측기의 훈련에 이용하였으나, 제한된 양의 훈련 데이터베이스 조건에서는 성능의 한계가 불가피하다. 보다 다양한 잡음 스펙트럼을 반영하면서 마스크 예측의 성능을 향상시키기 위해, 서로 다른 주파수 대역에 독립적인 구조를 가지는 베이시안 분류기를 제안하며, 훈련에 사용하는 유색 잡음의 생성 방식을 이에 맞게 수정한다. 각각의 주파수 대역을 분할하여 유색 잡음을 생성함으로써 다양한 잡음 환경을 반영하는 동시에 훈련 데이터베이스 부족 문제를 줄일 수 있다. 제안하는 마스크 예측 기법을 클러스터 기반의 missing-feature 복구 기법과 결합하여 음성 인식기에 적용함으로써 성능을 평가한다. 실험 결과는 제안한 기법이 백색 잡음, 자동차잡음, 배경 음악환경에서 기존의 방법에 비해 향상된 성능을 가짐을 입증한다.

상태 공유와 결정트리 방법을 이용한 효율적인 문맥 종속 프로세스 모델링 (Efficient context dependent process modeling using state tying and decision tree-based method)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권3호
    • /
    • pp.369-377
    • /
    • 2010
  • HMM(Hidden Markov Model)을 사용하는 어휘 인식 시스템에서 인식 시 훈련 중에 나타나지 않는 모델들로 인해 인식률의 저하를 가져오며 인식 대상 어휘가 변경되거나 추가되면 데이터베이스의 수집과 훈련 과정을 수행하여 모델을 재생성해야 하고 그에 따른 시간과 추가 비용이 초래된다. 본 논문에서는 결정 트리 방법과 모델 공유 방법을 사용하여 효율적인 문맥 종속 프로세스 모델링 방법을 제안하였다. 제안한 방법은 생성된 모델들로부터 모델 공유 방법을 이용하여 모델의 재생성 과정을 줄이고 강인하고 정확한 문맥 종속 음향 모델링을 제공한다. 또한, 모델의 수를 줄이고 훈련 중에 나타나지 않는 모델들에 대해 문맥 종속 유사 음소 모델을 제공하여 훈련 중에 나타나지 않는 모델의 문제점을 해결하고 훈련성을 확보하였다. 제안된 방법으로 6종류의 음성 데이터베이스를 이용하여 어휘 종속 인식과 어휘 독립 인식 실험을 수행한 결과 어휘 종속 인식 실험에서는 98.01%의 성능을 보였고, 어휘 독립 인식 실험에서 97.38%의 성능을 보였다.

퍼지추론에 의한 지능형 음성지시 조타기 제어 시스템의 구축 (Building of an Intelligent Ship's Steering Control System Based on Voice Instruction Gear Using Fuzzy Inference)

  • 서기열;박계각
    • 한국정보통신학회논문지
    • /
    • 제7권8호
    • /
    • pp.1809-1815
    • /
    • 2003
  • 최근 선박 운항의 고효율화 및 안전성 확보를 위하여 지능형 선박 시스템에 관한 연구가 활발하게 진행되고 있다. 전문가의 지식과 경험 정보가 데이터베이스로 구축된 전문가 시스템의 지식 정보를 이용하여 안전하고 효율적인 선박 운항이 가능한 항해 지원 시스템에 관한 연구도 활발하다. 따라서, 본 논문에서는 지능형 선박을 구현하기 위한 연구의 일환으로 퍼지 추론과 휴먼 인터페이스의 하나인 음성 인식 기술을 적용하여 선박 운항자의 부담 경감 및 인원 절감 등의 효과를 가져 올 수 있는 지능형 선박 조종 시스템을 구축한다. 구체적인 연구방법으로는 먼저, 음성 인식 기술과 지능형 학습 기법을 기반으로 음성 지시 기반 학습 시스템을 구현하고, 다음으로 퍼지 추론에 의한 조타수 조작 모델을 구성하여 PC기반 원격 제어 시스템을 구축하였다. 마지막으로 구현된 음성 지시 조타 제어 시스템을 모형 선박 시스템에 적용하여 그 효용성을 확인하였다.

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

가정용 로봇의 호출음 등록 및 인식 시스템 (A Name Recognition Based Call-and-Come Service for Home Robots)

  • 오유리;윤재삼;박지훈;김민아;김홍국;공동건;명현;방석원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.360-365
    • /
    • 2008
  • 본 논문에서는 Call-and-Come 서비스를 제공하는 가정용 로봇의 호출음 등록 및 인식 시스템 구축하고, 음성 기반의 효율적인 로봇 호출음 등록 및 인식 알고리즘을 제안한다. 본 논문에서는 음성을 이용하여 로봇 호출음을 효율적으로 등록하기 위해 monophone 음향모델을 이용하여 탐색 범위를 줄이고, 줄어든 탐색 범위 내에서 triphone 음향모델을 이용하여 호출음을 등록을 한다. 또한, 잘못된 호출이 인식되는 것을 줄이기 위한 발화 검증에 필요한 피라미터를 구한다. 원거리 음성인식률을 향상시키기 위해서 근거리 음성에 최적화된 음향모델을 원거리 음성 데이터베이스로 적응시켰으며, 마이크로폰 배열을 이용하여 사용자의 위치를 추정한다. 제안한 시스템의 성능 측정을 위해 수행된 로봇 호출음에 대한 등록 및 인식 실험에서 98.3%의 음성 인식률을 얻었다.

  • PDF

시간 영역 파형 패턴에 기반한 한국어 모음 'ㅗ'의 음성 인식 (Speech Recognition of the Korean Vowel 'ㅗ' Based on Time Domain Waveform Patterns)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.583-590
    • /
    • 2016
  • 최근 일상적인 인간 생활의 거의 모든 영역에서 사물 인터넷에 대한 관심이 급속히 증대되면서, 음성 인식은 중요한 HCI 수단으로 자리 잡고 있다. 더불어, 모바일 환경에서의 음성 인식 시스템에 대한 수요 또한 급속히 증대되고 있다. 모바일 환경을 위한 서버 기반의 음성 인식 시스템은 대체로 빠른 속도와 높은 인식률을 보이고 있지만, 데이터베이스에 저장되어 있는 단어를 단위로 하여 인식을 수행하므로, 인터넷이 연결되어 있어야 하고 서버에서의 많은 계산량을 필요로 한다. 본 논문은 음소 기반 한국어 음성 인식 시스템의 일부로서, 한국어 모음 'ㅗ'에 대한 새로운 인식 방식을 제안한다. 제안하는 방식은 주파수 영역에서의 분석 대신, 시간 영역에서의 파형 패턴에 기반하여 동작하므로, 계산 비용을 현저히 절감할 수 있다. 모음 'ㅗ'의 전형적인 파형 패턴들을 탐지하기 위한 요소 알고리즘들을 제시하며, 이를 결합하여 최종 판별을 수행한다. 실험 결과를 통해, 제안하는 방식이 89.9%의 인식 정확도를 달성할 수 있음을 확인하였다.