• Title/Summary/Keyword: 음성기반

검색결과 2,233건 처리시간 0.033초

음소 기반의 유사율 알고리즘을 이용한 Home Network 환경에서의 음성 인식 (Voice Recognition using a Phoneme based Similarity Algorithm in Home Networks)

  • 이창섭;유재봉;박준석;양수호;김유섭;박찬영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.767-770
    • /
    • 2005
  • 네트워크상에서 전달되는 음성데이터는 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 홈 네트워크를 제어하는데 있어서 음성 인식률을 향상시키기 위해서 음성 데이터를 입력받아, 이를 음소단위 기반의 유사율 알고리즘을 적용시켜 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 음소단위 기반의 유사율 알고리즘과 다중발화를 이용했을 때 Threshold 값이 85% 일 경우 사전에 구축된 단어와 매칭된 인식률은 100%였으며, 사전에 없는 단어의 오인식률은 2%로 감소되었다.

  • PDF

IIS를 이용한 VoiceXML 실험 환경 구현 (An Implementation of VoiceXML Test Environment Using IIS)

  • 권형준;김정현;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
    • /
    • pp.73-76
    • /
    • 2006
  • 유비쿼터스 컴퓨팅에서 중요한 기술 중 하나로 평가되는 음성인식 및 합성기술은 인간과 컴퓨터의 상호 작용에 있어 가장 편리하고 보편적인 방법이다. 음성인식 및 합성기술을 이용한 인간과 컴퓨터 상호작용 기반의 애플리케이션의 개발을 위해 음성 확장성 생성 언어(VoiceXML)을 이용하면 음성 인식 및 합성에 관한 전문 지식이 없어도 애플리케이션 제작을 쉽게 할 수 있다는 장점이 있어서 음성인식 및 합성기술의 인프라 구축과 저변 확대를 목적으로 일부 국내 업체들은 VoiceXML을 이용한 음성 애플리케이션을 제작하고 실험할 수 있도록 VoiceXML 실험 환경을 제공한다. 본 논문에서는 기존에 공개된 실험 환경을 소개하고, 다양한 실험 환경 제공을 위해 기존에 있던 Linux기반의 실험 환경과는 다른 Windows NT기반의 IIS(Internet Information Service)를 이용한 VoiceXML실험 환경을 제안하고 구현하였다. 그 결과 ASP(Active Server Page)와 ADO(ActiveX Data Object)를 이용한 VoiceXML음성 애플리케이션 실험이 가능한 환경을 구축하였고, 사용자 평가 결과 제안한 방법이 유효하다는 것을 확인하였다.

  • PDF

잡음환경에서 Teager Energy 기반의 전역 음성부재확률을 이용하는 음성검출 (Voice Activity Detection Using Global Speech Absence Probability Based on Teager Energy in Noisy Environments)

  • 박윤식;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.97-103
    • /
    • 2012
  • 본 논문에서는 잡음환경에서 효과적인 음성을 검출하기 위한 새로운 음성 검출 (VAD, voice activity detection) 알고리즘을 제안한다. 통계적 모델에 기반의 Likelihood ratio (LR)를 통하여 도출되는 전역 음성부재확률 (GSAP, global speech absence probability)은 음성검출을 위한 피쳐 (feature) 파라미터로 널리 적용되고 있다. 하지만 신호 대 잡음 비 (SNR, signal-to-noise ratio)가 낮은 잡음환경에서는 정확한 GSAP 추정이 어려운 문제점을 가지고 있다. 따라서 제안된 방법에서는 잡음환경에서 강인한 VAD 알고리즘을 위하여 Teager energy (TE) 기반의 GSAP를 피쳐 파라미터로 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

배경잡음 및 패킷손실에 강인한 voice-over-IP 수신단 기반 음질향상 기법 (Robust speech quality enhancement method against background noise and packet loss at voice-over-IP receiver)

  • 김지연;김형국
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.512-517
    • /
    • 2018
  • 음성 품질의 향상은 통신 분야의 주요 관심사이다. 본 논문에서는 VoIP(Voice-over-IP) 수신부에서의 배경잡음 및 패킷손실에 강인한 음질향상 방식을 제안한다. 제안된 방식에서는 하이브리드 마르코프 체인 기반 네트워크 지터추정, 추정된 지터를 이용한 적응적 플레이아웃 스케줄링, 그리고 진폭 및 위상 복원 기반의 음성 향상 방식 등을 결합하여 IP 네트워크를 통해 VoIP 수신부에 도착하는 음성신호의 품질을 향상시킨다. 실험결과는 제안된 방식이 송신부의 인코딩 전에 음성신호에 추가된 잡음을 제거하고 불안정한 네트워크 환경에서 양질의 음성을 제공하는 것을 확인할 수 있다.

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델 (Attention based multimodal model for Korean speech recognition post-editing)

  • 정영석;오병두;허탁성;최정명;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF

은닉 마코프 모델 기반 병렬음성인식 시스템 (A Parallel Speech Recognition System based on Hidden Markov Model)

  • 정상화;박민욱
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권12호
    • /
    • pp.951-959
    • /
    • 2000
  • 본 논문의 병렬음성인식 모델은 연속 은닉 마코프 모델(HMM; hidden Markov model)에 기반한 병렬 음소인식모듈과 계층구조의 지식베이스에 기반한 병렬 문장인식모듈로 구성된다. 병렬 음소인식 모듈은 수천개의 HMM을 병렬 프로세서에 분산시킨 수, 할당된 HMM에 대한 출력확률 계산과 Viterbi 알고리즘을 담당한다. 지식베이스 기반 병렬 문장인식모듈은 음소모듈에서 공급되는 음소열과 지안하는 병렬 음성인식 알고리즘은 분산메모리 MIMD 구조의 다중 트랜스퓨터와 Parsytec CC 상에 구현되었다. 실험결과, 병렬 음소인식모듈을 통한 실행시간 향상과 병렬 문장인식모듈을 통한 인식률 향상을 얻을 수 있었으며 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.

  • PDF

VoiceXML 음성 애플리케이션에 기반한 입시정보시스템 설계 및 구현 (Design and Implementation of UEEIS(University Entrance Examination Information System) Based on Voice Application of VoiceXML)

  • 하만석;윤용근;박수현
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2002년도 창립기념 학술대회
    • /
    • pp.268-274
    • /
    • 2002
  • 현재 대부분의 대학 입시정보시스템은 ARS 및 웹기반의 서비스를 병행하여 제공하고 있다. 기존 ARS 기반 시스템의 단점은 전화버튼만으로 입력이 제한된다는 점과 시스템의 구축 및 유지보수가 용이하지 않다는 점이다. 이러한 문제점을 해결하기 위하여 전화버튼뿐만 아니라 음성인식에 의한 입력이 가능한 VoiceXML 음성 애플리케이션을 도입하였다. VoiceXML 및 음성 애플리케이션을 활용하여 입시정보시스템을 설계 및 구현해 본 결과 이러한 문제점들을 상당부분 해결할 수 있었다. 그리고 미리 연관된 키워드를 등록하여 다양한 입력옵션을 제공함으로써 자연어 처리가 좀더 용이해졌다. 이는 XML의 최대장점인 다양한 확장성과 응용성이 향상되는 것이며 사용자에게 기존 시스템보다 훨씬 개선된 사용자 인터페이스를 제공할 수 있게 된 것이다. 또한 기존 웹기반의 서비스에 쉽게 연동이 가능하고 유지보수 또한 기존 시스템보다 쉽게 할 수 있다.

  • PDF

계층구조의 분류를 통한 서포트벡터머신 기반의 음성/음악 분류기의 실용도 향상기법 (A Technique to Improve the Practicality of SVM-based Speech/Music Classifiers Through Hierarchical Classification)

  • 최석환;조용옥;조지우;임정수;이연우;이성로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1033-1034
    • /
    • 2012
  • 본 논문은 제한된 대역폭의 효율적인 활용을 위한 가변 전송률 코덱을 목표로 제안된 서포트벡터머신 기반의 음성/음악 분류기의 실용도를 높이기 위한 기법을 제안한다. 서포트벡터머신 기반의 음성/음악 분류기는 높은 분류능력을 가지고 있지만 많은 계산량을 요구하기 때문에 실시간으로 사용하기에는 부적합한 면이 있다. 따라서 계층적 분류를 통해 서포트벡터머신 기반의 음성/음악 분류기의 실용성을 향상시키는 기법을 제안한다.

Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model

  • Jin, Hye-won;Lee, A-Hyeon;Chae, Ye-Jin;Park, Su-Hyun;Kang, Yu-Jin;Lee, Soowon
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권10호
    • /
    • pp.1-7
    • /
    • 2021
  • 현재 대부분의 음성인식 오류 교정에 관한 연구는 영어를 기준으로 연구되어 한국어 음성인식에 대한 연구는 미비한 실정이다. 하지만 영어 음성인식에 비해 한국어 음성인식은 한국어의 언어적인 특성으로 인해 된소리, 연음 등의 발음이 있어, 비교적 많은 오류를 보이므로 한국어 음성인식에 대한 연구가 필요하다. 또한, 기존의 한국어 음성인식 연구는 주로 편집 거리 알고리즘과 음절 복원 규칙을 사용하기 때문에, 된소리와 연음의 오류 유형을 교정하기 어렵다. 본 연구에서는 된소리, 연음 등 발음으로 인한 한국어 음성인식 오류를 교정하기 위하여 LSTM을 기반으로 한 인공 신경망 모델 Sequence-to-Sequence와 Bahdanau Attention을 결합하는 문맥 기반 음성인식 후처리 모델을 제안한다. 실험 결과, 해당 모델을 사용함으로써 음성인식 성능은 된소리의 경우 64%에서 77%, 연음의 경우 74%에서 90%, 평균 69%에서 84%로 인식률이 향상되었다. 이를 바탕으로 음성인식을 기반으로 한 실제 응용 프로그램에도 본 연구에서 제안한 모델을 적용할 수 있다고 사료된다.

음성인식기 성능 향상을 위한 영상기반 음성구간 검출 및 적응적 문턱값 추정 (Visual Voice Activity Detection and Adaptive Threshold Estimation for Speech Recognition)

  • 송태엽;이경선;김성수;이재원;고한석
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.321-327
    • /
    • 2015
  • 본 연구에서는 음성인식기 성능향상을 위한 영상기반 음성구간 검출방법을 제안한다. 기존의 광류기반 방법은 조도변화에 대응하지 못하고 연산량이 많아서 이동형 플렛홈에 적용되는 스마트 기기에 적용하는데 어려움이 있고, 카오스 이론 기반 방법은 조도변화에 강인하지만 차량 움직임 및 입술 검출의 부정확성으로 인해 발생하는 오검출이 발생하는 문제점이 있다. 본 연구에서는 기존 영상기반 음성구간 검출 알고리즘의 문제점을 해결하기 위해 지역 분산 히스토그램(Local Variance Histogram, LVH)과 적응적 문턱값 추정 방법을 이용한 음성구간 검출 알고리즘을 제안한다. 제안된 방법은 조도 변화에 따른 픽셀 변화에 강인하고 연산속도가 빠르며 적응적 문턱값을 사용하여 조도변화 및 움직임이 큰 차량 운전자의 발화를 강인하게 검출할 수 있다. 이동중인 차량에서 촬영한 운전자의 동영상을 이용하여 성능을 측정한 결과 제안한 방법이 기존의 방법에 비하여 성능이 우수함을 확인하였다.