통합 검색 | Korea Science

음성인식 시스템에서 엔트로피를 이용한 거절 (Rejection using Entropy in Speech Recognition System)

정미옥;김현숙;송점동;이정현
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
- /
- pp.195-197
- /
- 1999
본 논문은 음성인식 시스템에서 정확도를 높이기 위해 후처리 단계에서 후보 단어들의 엔트로피 정보를 이용하였다. 기존의 우도비 검출방법은 음성 데이터에 따라 음성인식 시스템의 성능이 변하고 N개의 후보단어들의 우도값이 비슷하여 오인식 발생확률이 높았다. 그러나 본 논문에서는 각 후보 단어들의 엔트로피 값보다 인식대상 단어 외의 단어들의 엔트로피 값이 상대적으로 낮은 후보를 거절하는 후처리 방법을 사용하여 음성 데이터에 독립적이면서도 변별력을 높인 정확한 음성인식 시스템을 얻을 수 있었다. 실험 결과 본 논문에서 제안하는 엔트로피에 의한 후처리 방법은 우도비에 의한 방법보다 인식 시스템의 성능을 falser alarm이 20%일 때 최대 3.6% 향상시킬 수 있었다.
PDF

앤트로피 거절을 활용한 음성인식 시스템의 성능 향상 (Improvement of Speech Recognition System using Entropy Rejection)

송점동
- 정보학연구
- /
- 제2권2호
- /
- pp.139-144
- /
- 1999
본 논문은 음성인식 시스템에서 정확도를 높이기 위해 후처리 단계에서 후보 단어들의 엔트로피 정보를 이용하였다. 기존의 우도비 검출방법은 음성 데이터에 따라 음성인식 시스템의 성능이 변하고 N개의 후보단어들의 우도값이 비슷하여 오인식 발생확률이 높았다. 그러나 본 눈문에서는 각 후보 단어들의 엔트로피 값보다 인식대상 단어 외의 단어들의 엔트로피 값이 상대적으로 낮은 후보를 거절하는 후처리 방법을 사용하여 음성 데이터에 독립적이면서도 변별력을 높인 정확한 음성인식 시스템을 얻을 수 있었다. 실험 결과 본 논문에서 제안하는 엔트로피에 의한 후처리 방법은 우도비에 의한 방법보다 인식 시스템의 성능을 false alarm이 20%일 때 최대 3.6% 향상시킬 수 있었다.
PDF

음성의 유성음 특성을 이용한 음성/비음성 판별 방법 (A Robust Speech/Non-Speech Decision Using Voiced Characteristics of Speech)

이성주;정호영;이윤근;김형순
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2007년도 춘계학술발표대회
- /
- pp.411-412
- /
- 2007
자동음성인식 시스템을 이용하는 사용자 입장에서 보면 음성인식시스템을 사용하기 위하여 음성을 입력할 때마다 버튼을 눌러야 하는 Push-To-Talk (PTT) 방식은 여간 번거로운 일이 아닐 수 없다. 그리고 사용자가 원거리에서 음성을 입력하는 경우처럼 PTT 방식 자체가 용이하지 못 한 음성인식 응용분야에서는 Non-Push-To-Talk (NON-PTT) 방식의 필요성이 대두되게 된다. NON-PTT 방식의 음성 전처리를 위해서는 입력신호로부터 음성신호만을 구분해내는 음성판별기술이 필수적이다. 하지만 일상적인 잡음환경에서 음성신호만을 구분해내는 일은 매우 어려운 일이 아닐 수 없다. 본 논문에서는 일상적인 가정잡음환경에 강인한 음성판별방식을 제안한다. 여기서는 음성판별을 위해서 음성의 유성음 특성을 이용하였다. 즉, 일정구간 이상의 음성신호에는 일정구간이상의 유성음 구간이 존재하며 만약 잡음환경에서도 유성음 구간을 잘 검출할 수 있다면 이러한 음성의 특성을 이용하여 검출된 신호가 음성인지 아닌지를 판별할 수 있다. 이를 위하여 여기서는 가정잡음환경에서도 유성음을 잘 검출할 수 있도록 11 가지 유성음 특징들과 이를 이용한 음성판별방법을 제안하였다. 제안된 방법의 성능 평가를 위하여 음성의 끝점검출방법과 통합하여 음성/비음성 판별 테스트를 수행하였으며 테스트 수행결과 열악한 잡음환경에서 80%이상의 비음성을 거절하는 성능을 보였다.
https://doi.org/10.3745/PKIPS.y2007m05a.411 인용 PDF

정규화신뢰도 기반 가변어휘 고립단어 인식기의 거절기능 성능 분석 (Rejection Performance Analysis in Vocabulary Independent Speech Recognition Based on Normalized Confidence Measure)

최승호
- 한국음향학회지
- /
- 제25권2호
- /
- pp.96-100
- /
- 2006
고립단어 인식기의 오 인식 단어를 거절하기 위한 방법으로 정규화 신뢰도가 제안되어 논문 [1-2]에서 성공적으로 적용된 바 있다. 그러나 정규화 신뢰도의 성능 측정을 위해 고정된 단어 셌을 대상으로 실험을 하였다. 본 논문에서는 정규화 신뢰도를 가변어휘 음성인식 영역에 적용하여 신뢰도의 거절성능을 밝히고 특히, 벡터양자화기를 이용하여 미 출현 트라이 폰의 문제를 극복하는 방법을 제안한다. 이때 정규화 신뢰도는 트라이 폰 신뢰도들의 통계적 특징(평균과 표준편차)을 사용한다. 가변어휘 인식실험 결과음소 단위의 정규화방법이 트라이 폰 기반 정규화방법에 비하여 우수한 성능을 보였으며 이러한 결과는 논문 [1-2]의 결과와는 상이한 것으로 트라이 폰 기반 정규화 방법이 미 출현 트라이 폰에 대하여 강인하지 못하다는 점을 시사하고 있다. 따라서 정규화 신뢰도가 음소 또는 트라이 폰에 상관없이 기준 신뢰도인 RLTC 신뢰도 [3]에 비하여 우수한 성능을 보였으며 가변어휘 인식에서도 동작함을 확인 할 수 있었다.
https://doi.org/10.7776/ASK.2006.25.2.096 인용 PDF KSCI

Deep neural network-hidden Markov model 하이브리드 구조의 모델을 사용한 사용자 정의 기동어 인식 시스템에 관한 연구 (A study on user defined spoken wake-up word recognition system using deep neural network-hidden Markov model hybrid model)

윤기무;김우일
- 한국음향학회지
- /
- 제39권2호
- /
- pp.131-136
- /
- 2020
음성 인식기를 대기모드에서 동작 모드로 전환하기 위해 발화하는 짧은 단어를 기동어(Wake Up Word, WUW)라고 하며, 음성 인식기를 실제로 사용하는 사용자가 지정한 기동어를 사용자 정의 기동어라고 한다. 본 논문에서는 이러한 사용자 정의 기동어를 인식하기 위해 기존의 Gaussian Mixture Model-Hidden Markov Model(GMM-HMM) 기반의 시스템, Linear Discriminant Analysis(LDA)를 적용한 LDA-GMM-HMM 기반의 시스템과, LDA-GMM-HMM 모델에서 GMM을 Deep Neural Network(DNN)로 대체한 LDA-DNN-HMM 기반의 시스템을 제작하고 각 시스템의 사용자 정의 기동어 인식 성능 및 비기동어 거절 성능을 비교한다. 또한 기동어 인식기의 체감 성능을 향상시키고자 각 모델에 threshold를 적용하여 기동어 인식 실패율을 약 10 % 수준으로 감소 시킨 후에 비기동어(non-WUW)의 거절 실패율을 비교 평가한다. Threshold 적용시에 LDA-DNN-HMM 기반의 시스템의 경우 기동어 인식 실패율 9.84 % 수준에서 비기동어 거절 실패율이 0.0058 %의 인식 성능을 나타내어 LDA-GMM-HMM 시스템 보다 약 4.82배 향상된 비기동어 거절 성능을 나타낸다. 이러한 결과는 본 논문에서 제작한 LDA-DNN-HMM 모델이 사용자 정의 기동어 인식 시스템을 구축하는데 효과적임을 입증한다.
https://doi.org/10.7776/ASK.2020.39.2.131 인용 PDF KSCI

베이시안 신뢰도 융합을 이용한 신뢰도 측정 (Bayesian Fusion of Confidence Measures for Confidence Scoring)

김태윤;고한석
- 한국음향학회지
- /
- 제23권5호
- /
- pp.410-419
- /
- 2004
본 논문에서는 베이시안에 기반한 신뢰도 융합 기법을 제안한다. 음성인식에서 신뢰도는 인식 결과에 대한 신뢰의 정도를 말하며, 인식 결과가 맞는 지의 여부를 판단할 수 있다. 개별 신뢰도 기법의 신뢰도 값을 융합하여 최종 판단을 내리는 집중형 융합 방식과 개별 신뢰도 기법의 판단 결과들을 융합하는 분산형 융합의 두 가지 방식에 대해 최적의 베이시안 융합규칙이 제시되었다. 고립단어 인식에서의 미등록어 거절 실험 결과 집중형 베이시안 신뢰도 융합 기법은 개별 신뢰도 기법에 비해 13% 이상의 상대적인 에러 감소 효과를 보였으나, 분산형 베이시안 융합은 성능의 향상을 보이지 못했다.
PDF KSCI

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

석수영;정현열
- 한국음향학회지
- /
- 제26권6호
- /
- pp.250-258
- /
- 2007
현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.
https://doi.org/10.7776/ASK.2007.26.6.250 인용 PDF KSCI

가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교 (Performance Comparison of Out-Of-Vocabulary Word Rejection Algorithms in Variable Vocabulary Word Recognition)

김기태;문광식;김회린;이영직;정재호
- 한국음향학회지
- /
- 제20권2호
- /
- pp.27-34
- /
- 2001
발화 검증이란 등록된 단어 목록 이외의 단어가 입력되었을 때, 미등록된 단어는 인식할 수 없는 단어임을 알려주는 기능으로써 사용자에게 친숙한 음성 인식 시스템을 설계하는데 중요한 기술이다. 본 논문에서는 가변어휘 단어 인식기에서 최소 검증 오류를 나타낼 수 있는 발화 검증 시스템의 알고리즘을 제안한다. 우선, 한국전자통신연구원의 PBW(Phonetically Balanced Words) 445DB를 이용하여 가변어휘 단어 인식에서의 미등록어 거절 성능을 향상시키는 효과적인 발화 검증 방법을 제안하였다. 구체적으로 특별한 훈련 과정이 없이도 유사 음소 집합을 많이 포함시킨 반음소 모델을 제안하여 최소 검증 오류를 지니도록 하였다. 또한, 음소 단위의 null hypothesis와 alternate hypothesis의 비를 이용한 음소 단위의 신뢰도는 null hypothesis로 정규화해서 강인한 발화 검증 성능을 보여 주었으며, 음소 단위의 신뢰도를 이용한 단어 단위의 신뢰도는 등록어와 미등록어 사이의 분별력을 잘 표현해 주었다. 이와 같이 새로이 제안된 반음소 모델과 발화 검증 방법을 사용했을 때, CA (Correctly Accept for Keyword: 등록어를 제대로 인정한 경우)는 약 89％, CR (Correctly Reject for OOV (Out-of-Vocabulary): 미등록어에 대해 거절한 경우)은 약 90％로써, 기존 필터 모델을 이용한 방법보다 미등록어 거절 성능이 ERR (Error Reduction Rate) 측면에서 약 15-21％ 향상됨을 알 수 있었다.
PDF

연속적 미디어의 서비스 질 보장을 위한 스케줄링 (Scheduling for guaranteeing QoS for continuous media)

길아라;구제웅
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
- /
- pp.193-195
- /
- 2003
분산 환경의 않은 멀티미디어 응용들은 연속적 음성/화상 자료들을 위한 실시간 특성을 가지는 패킷들을 생성하고, 실시간 태스크 스케줄링 이론에 따라 이들을 전송한다. 본 논문에서는 광대역폭 통신망을 기반으로 하는 분산 멀티미디어 응용의 연속 미디어를 위한 트래픽의 특성을 모델링하고, 보다 사용자의 요구에 따른 서비스 질의 보장을 위하여 비선점적 경성 실시간 태스크 스케줄링 이론인 PDMA 알고리즘을 도입한다. 또한 응용 시스템의 고 품질 서비스를 유지하기 위하여 새로운 트래픽 발생 요청이 현재 진행 중인 서비스 내용에 영향을 주지 않도록 제어하는 사용권 제어 기법을 제안한다. 제안하는 사용권 제어 기법은 PDMA 알고리즘을 위한 충분조건식이기 때문에 이를 만족하는 메시지 집합에 대하여 PDMA 알고리즘은 항상 실행가능한 스케줄을 찾을 수 있다. 따라서, 새로운 요청을 포함하는 전체 메시지 집합이 제안하는 사용권 제어 기법의 조건들을 만족하면, 새로운 요청에 의한 트래픽의 발생을 허용한다. 그렇지 않은 경우 새로운 요청을 거절한다. 끝으로 본 논문에서 제안하는 사용권 제어 기법을 이용하는 스케줄링의 실용성을 입증하기 위한 모의실험 결과를 보인다.
PDF

연속적 멀티미디어 트래픽의 서비스 질 보장을 위한 스케쥴링 (Scheduling for Guaranteeing QoS of Continuous Multimedia Traffic)

길아라
- 한국정보과학회논문지:시스템및이론
- /
- 제30권1호
- /
- pp.22-32
- /
- 2003
분산 환경의 많은 멀티미디어 응용들은 연속적 음성/화상 자료들을 위한 실시간 특성을 가지는 패킷들을 생성하고, 실시간 태스크 스케줄링 이론에 따라 이들을 전송한다. 본 논문에서는 광대역폭 통신망을 기반으로 하는 분산 멀티미디어 응용의 연속 미디어를 위한 트래픽의 특성을 모델링하고. 보다 사용자의 요구에 따른 서비스 질의 보장을 위하여 비선점적 경성 실시간 태스크 스케줄링 이론인 PDMA 알고리즘을 도입한다. 또한. 응용 시스템의 고 품질 서비스를 유지하기 위하여 새로운 트래픽 발생 요청이 현재 진행 중인 서비스 내용에 영향을 주지 알도록 제어하는 사용권 제어 기법을 제안한다. 제안하는 사용권 제어 기법은 PDMA 알고리즘을 위한 충분조건식이기 때문에 이를 만족하는 메시지 집합에 대하여 PDMA 알고리즘은 항상 실행가능한 스케줄을 찾을 수 있다. 따라서, 새로운 요청을 포함하는 전체 메시지 집합이 제안하는 사용권 제어 기법의 조건들을 만족하면, 새로운 요청에 의한 트래픽의 발생을 허용한다. 그렇지 않은 경우 새로운 요청을 거절한다. 끝으로 본 논문에서 제안하는 사용권 제어 기법을 이용하는 스케줄링의 실용성을 입증하기 위한 모의실험 결과를 보인다
PDF KSCI

검색결과 11건 처리시간 0.021초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)