• 제목/요약/키워드: 강인한 음성 인식

검색결과 197건 처리시간 0.027초

퍼지 이론을 이용한 한국어 및 영어 화자 인식에 관한 연구 (A Study on Korean and English Speaker Recognitions using the Fuzzy Theory)

  • 김연숙;김희주;김경재
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.49-55
    • /
    • 2002
  • 본 논문에서는 피치 파라미터와 퍼지를 포함한 화자 인식 알고리즘을 제안한다. 음의 시간적인 특징을 이용하여 시간 영역에서 분해력을 높이고 주파수 영역에서 잡음에 강인함을 갖는 국부 봉우리와 골에 의한 피치 검출법을 제안하여 피치를 검출한다. 또한 화자 인식에서 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속함수를 이용하여 표준 패턴을 작성하고 퍼지 패턴 매칭을 이용하여 인식을 수행한다.

  • PDF

퍼지 이론을 이용한 한국어 및 일어 화자 인식에 관한 연구 (A Study on Korean and Japanese Speaker Recognitions using the Fuzzy Theory)

  • 김연숙;김창완
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.51-57
    • /
    • 2000
  • 본 논문에서는 피치와 퍼지를 포함한 화자 인식 알고리즘을 제안한다. 음의 시간적인 특징을 이용하여 시간 영역에서 분해력을 높이고 주파수 영역에서 잡음에 강인함을 갖는 국부 봉우리와 골에 의한 피치 검출법을 제안하여 피치를 검출한다. 또한 화자 인식에서 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속함수를 이용하여 표준 패턴을 작성하고 퍼지 패턴 매칭을 이용하여 인식을 수행한다.

  • PDF

음성인식기 구현을 위한 SVM과 독립성분분석 기법의 적용 (Adoption of Support Vector Machine and Independent Component Analysis for Implementation of Speech Recognizer)

  • 박정원;김평환;김창근;허강인
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2164-2167
    • /
    • 2003
  • In this paper we propose effective speech recognizer through recognition experiments for three feature parameters(PCA, ICA and MFCC) using SVM(Support Vector Machine) classifier In general, SVM is classification method which classify two class set by finding voluntary nonlinear boundary in vector space and possesses high classification performance under few training data number. In this paper we compare recognition result for each feature parameter and propose ICA feature as the most effective parameter

  • PDF

상태 공유와 결정트리 방법을 이용한 효율적인 문맥 종속 프로세스 모델링 (Efficient context dependent process modeling using state tying and decision tree-based method)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권3호
    • /
    • pp.369-377
    • /
    • 2010
  • HMM(Hidden Markov Model)을 사용하는 어휘 인식 시스템에서 인식 시 훈련 중에 나타나지 않는 모델들로 인해 인식률의 저하를 가져오며 인식 대상 어휘가 변경되거나 추가되면 데이터베이스의 수집과 훈련 과정을 수행하여 모델을 재생성해야 하고 그에 따른 시간과 추가 비용이 초래된다. 본 논문에서는 결정 트리 방법과 모델 공유 방법을 사용하여 효율적인 문맥 종속 프로세스 모델링 방법을 제안하였다. 제안한 방법은 생성된 모델들로부터 모델 공유 방법을 이용하여 모델의 재생성 과정을 줄이고 강인하고 정확한 문맥 종속 음향 모델링을 제공한다. 또한, 모델의 수를 줄이고 훈련 중에 나타나지 않는 모델들에 대해 문맥 종속 유사 음소 모델을 제공하여 훈련 중에 나타나지 않는 모델의 문제점을 해결하고 훈련성을 확보하였다. 제안된 방법으로 6종류의 음성 데이터베이스를 이용하여 어휘 종속 인식과 어휘 독립 인식 실험을 수행한 결과 어휘 종속 인식 실험에서는 98.01%의 성능을 보였고, 어휘 독립 인식 실험에서 97.38%의 성능을 보였다.

청각 및 시가 정보를 이용한 강인한 음성 인식 시스템의 구현 (Constructing a Noise-Robust Speech Recognition System using Acoustic and Visual Information)

  • 이종석;박철훈
    • 제어로봇시스템학회논문지
    • /
    • 제13권8호
    • /
    • pp.719-725
    • /
    • 2007
  • In this paper, we present an audio-visual speech recognition system for noise-robust human-computer interaction. Unlike usual speech recognition systems, our system utilizes the visual signal containing speakers' lip movements along with the acoustic signal to obtain robust speech recognition performance against environmental noise. The procedures of acoustic speech processing, visual speech processing, and audio-visual integration are described in detail. Experimental results demonstrate the constructed system significantly enhances the recognition performance in noisy circumstances compared to acoustic-only recognition by using the complementary nature of the two signals.

대화 예제와 아젠다를 이용한 음성 인식 오류에 강인한 대화 관리 방법 (Robust Dialog Management with N-best Hypotheses Using Dialog Examples and Agenda)

  • 이청재;정상근;김경덕;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-161
    • /
    • 2008
  • This work presents an agenda-based approach to improve the robustness of the dialog manager by using dialog examples and n-best recognition hypotheses. This approach supports n-best hypotheses in the dialog manager and keeps track of the dialog state using a discourse interpretation algorithm with the agenda graph and focus stack. Given the agenda graph and n-best hypotheses, the system can predict the next system actions to maximize multi-level score functions. To evaluate the proposed method, a spoken dialog system for a building guidance robot was developed. Preliminary evaluation shows this approach would be effective to improve the robustness of example-based dialog modeling.

  • PDF

정규화신뢰도 기반 가변어휘 고립단어 인식기의 거절기능 성능 분석 (Rejection Performance Analysis in Vocabulary Independent Speech Recognition Based on Normalized Confidence Measure)

  • 최승호
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.96-100
    • /
    • 2006
  • 고립단어 인식기의 오 인식 단어를 거절하기 위한 방법으로 정규화 신뢰도가 제안되어 논문 [1-2]에서 성공적으로 적용된 바 있다. 그러나 정규화 신뢰도의 성능 측정을 위해 고정된 단어 셌을 대상으로 실험을 하였다. 본 논문에서는 정규화 신뢰도를 가변어휘 음성인식 영역에 적용하여 신뢰도의 거절성능을 밝히고 특히, 벡터양자화기를 이용하여 미 출현 트라이 폰의 문제를 극복하는 방법을 제안한다. 이때 정규화 신뢰도는 트라이 폰 신뢰도들의 통계적 특징(평균과 표준편차)을 사용한다. 가변어휘 인식실험 결과음소 단위의 정규화방법이 트라이 폰 기반 정규화방법에 비하여 우수한 성능을 보였으며 이러한 결과는 논문 [1-2]의 결과와는 상이한 것으로 트라이 폰 기반 정규화 방법이 미 출현 트라이 폰에 대하여 강인하지 못하다는 점을 시사하고 있다. 따라서 정규화 신뢰도가 음소 또는 트라이 폰에 상관없이 기준 신뢰도인 RLTC 신뢰도 [3]에 비하여 우수한 성능을 보였으며 가변어휘 인식에서도 동작함을 확인 할 수 있었다.

강인한 화자확인 시스템을 위한 채널 불일치 보상 기법에 관한 연구 (A Study on Channel Mis-match Compensation Technique for Robust Speaker Verification System)

  • 강철호;정희석
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.228-234
    • /
    • 2004
  • 본 논문에서는 공통 코드북의 평균값과 개인 코드북의 평균값 간의 바이어스 제거에 의한 채널 불일치 보상 알고리즘을 제안하였다. 제안한 방식은 학습시 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 미리 보상하여 학습하고, 확인시에도 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 보상하여 확인함으로써 채널의 불일치에 의한 급격한 본인 인식율 하락을 해결한다. 그러나 무조건적인 평균값 보상은 사칭자의 인증오류를 가져오게 되므로 채널의 변이에 비례하는 적절한 가중치를 통한 평균값 보상이 필요하다. 따라서, 제안하는 방식은 음성구간을 제외한 묵음구간의 분포를 고려하여 학습시 채널과의 변이차이를 비선형함수에 의한 가중치로 보상해준다. 모의 실험 결과 기존의 켑스트럼 평균 차감법을 사용할 때보다 제안한 알고리즘을 적용했을 때의 본인 거부 오류율이 평균 14.95% 감소함을 알 수 있었다.

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

세그먼트 차원압축을 이용한 HMM의 음절인식 (Syllable Recognition of HMM using Segment Dimension Compression)

  • 김주성;이양우;허강인;안점영
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.40-48
    • /
    • 1996
  • 본 논문은 단음절 전구간에 대해 4프레임폭과 7프레임폭을 결합하여 만든 40차원의 세그먼트를 K-L전개와 신경망으로 각각 10, 14, 20차원으로 압축하여 연속분포 HMM의 음성인식 특징파라미터로 사용하였다. 그리고 이산지속시간, 희귀계수 그리고 혼합분포를 특징 파라미터로 추가한 경우와 비교검토하였다. 단음절 100개에 대한 인식실험결과 연속분포 HMM의 인식률 85.19%에 비해 희귀계수를 부가한 경우 1.4%, 혼합분포를 이용한 경우 2.36%, 이산 지속시간제어를 한 경우 2.78%의 인식률이 향상되었다. 그리고 K-L전개에 의한 압축파라미터만 이용한 경우는 멜켑스트럼 + 희귀계수의 경우보다 인식률이 낮았으나, K-L전개에 의한 압축파라미터에 멜켑스트럼과 희귀계수를 부가한 경우는 동등한 결과를 얻을 수 있었다. 신경망에 의한 압축파라미터를 이용한 경우에는 비선형 변환인 시그모이드 함수를 사용하므로 음성의 동적변화가 잘 반영되어 K-L전개 및 다른 방법에 비해 향상된 인식결과를 얻을 수 있었다.

  • PDF