• 제목/요약/키워드: 화자 인식

검색결과 591건 처리시간 0.024초

문장종속형 화자확인에서의 관측확률 가중기법 (Observation Probability Weighting Method for Text-Dependent Speaker Verification)

  • 김세현;장길진;오영환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.28-31
    • /
    • 1999
  • 기존의 문장종속형 화자인식 방법들은 대부분 음성인식에서 사용되는 방법을 그대로 적용하기 때문에, 화자의 개인성 정보보다 음운정보에 더 민감한 단점이 있다. 화자인식 시스템의 성능향상을 위해서는 음운정보보다는 화자의 개인성 정보가 잘 반영되도록 하는 것이 중요하다. 본 논문에서는 HMM(hidden Maxkov model)을 기반으로 한 문장종속형 화자확인 시스템의 성능향상을 위한 관측확률 가중 반법을 제안한다. 먼저 주어진 학습자료에서 화자의 개인성이 잘 반영된 프레임들을 예측한다. 임의의 입력음성에 대한 인식점수는 화자의 특징이 잘 반영된 프레임의 관측확률에 가중치를 주어 구한다. 제안한 방법을 적용한 결과 기존의 우도비(likelihood ratio) 정규화 점수를 사용하는 방법에 비해 동일오류율(EER, equal error rate)을 $2\~3\%$정도 줄여 인식율 향상을 얻을 수 있었다.

  • PDF

연속 음성에서의 신경회로망을 이용한 화자 적응 (Speaker Adaptation Using Neural Network in Continuous Speech Recognition)

  • 김선일
    • 한국음향학회지
    • /
    • 제19권1호
    • /
    • pp.11-15
    • /
    • 2000
  • RM 음성 Corpus를 이용한 화자 적응 연속 음성 인식을 수행하였다. RM Corpus의 훈련용 데이터를 이용해서 기준화자에 대한 HMM 학습을 실시하고 평가용 데이터를 이용하여 화자 적응 인식에 대한 평가를 실시하였다. 화자 적응을 위해서는 훈련용 데이터의 일부가 사용되었다. DTW를 이용하여 인식 대상화자의 데이터를 기준화자의 데이터와 시간적으로 일치시키고 오차 역전파 신경회로망을 사용하여 인식 대상화자의 스펙트럼이 기준화자의 스펙트럼 특성을 지니도록 변환시켰다. 최적의 화자 적응이 이루어지도록 하기 위해 신경회로망의 여러 요소들을 변화시키면서 실험을 실시하고 그 결과를 제시하였다. 학습을 거쳐 적절한 가중치를 지닌 신경회로망을 이용하여 기준화자에 적응시킨 결과 단어 인식율이 최대 2.1배, 단어 정인식율이 최대 4.7배 증가하였다.

  • PDF

프레임레벨유사도정규화를 적용한 문맥독립화자식별시스템의 구현 (Realization a Text Independent Speaker Identification System with Frame Level Likelihood Normalization)

  • 김민정;석수영;김광수;정현열
    • 융합신호처리학회논문지
    • /
    • 제3권1호
    • /
    • pp.8-14
    • /
    • 2002
  • 본 논문에서는 Gaussian mixture model을 이용한 실시간 문맥독립화자식별시스템을 구현하여 인식실험을 수행하였으며, 인식시스템의 성능을 향상시키기 위하여 화자검증시스템에서 좋은 결과를 보인 유사도 정규화(Likelihood normalization)방법을 적용하여 인식실험을 하였다. 시스템은 크게 전처리단과 화자모델생성단, 화자식별단으로 나누어진다. 전처리단에서는 화자의 발성변화를 고려하여 CMN(Cepstral mean normalization)과 Silence removal 방법을 적용하였다. 화자모델생성단에서는, 화자발성의 음향학적 특징을 잘 표현할 수 있는 GMM(Gaussian mixture model)을 이용하여 화자모델을 작성하였으며, GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법을 사용하였다. 화자식별단에서는 학습된 데이터와 테스트용 데이터로부터 ML(Maximum likelihood)을 이용하여 유사도를 계산하였으며, 이 과정에서 유사도 정규화를 적용한 경우에는 프레임단위로 유사도를 계산하게 된다. 계산된 유사도는 스코어(S$_{C}$)로 표현하였고, 가장 높은 스코어를 가지는 화자가 인식화자로 결정된다. 화자인식에서 발성의 종류로는 문맥독립 문장을 사용하였다. 인식실험을 위해서는 ETRI445 DB와 KLE452 DB를 사용하였으며, 특징파라미터로서는 켑스트럼계수 및 회귀계수값만을 사용하였다. 인식실험에서는 등록화자의 수를 달리하여 일반적인 화자식별방법과 프레임단위유사도정규화방법으로 각각 인식실험을 하였다. 인식실험결과, 프레임단위유사도정규화방법이 인식화자수가 많아지는 경우에 일반적인 방법보다 향상된 인식률을 얻을 수 있었다.

  • PDF

화자적응을 이용한 음성인식 제어시스템 개발 (Development of Voice Activated Universal Remote Control System using the Speaker Adaptation)

  • 김용표;윤동한;최운하
    • 한국정보통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.739-743
    • /
    • 2006
  • 본 논문은 신경회로망을 이용한 화자적응 음성인식 제어시스템을 개발하였다. 화자종속시스템은 단일 화자의 음성만 등록하여 이용하므로 여러 화자의 음성을 인식하는 데는 문제가 있고, 화자독립시스템은 여러 화자를 인식한다. 본 연구 개발에서는 화자적응시스템을 구현하여 화자종속형의 단점을 보완하여 화자 독립과 화자 종속을 혼합하여 사용 할 수 있는 기능으로 화자 적용방법으로 구현하였고, 화자인증(Speaker Verification)도 가능하도록 프로그램 하였다.

최대 사후 추정 화자 적응을 이용한 가변어휘 고립단어 음성인식기의 사무실 환경에서의 성능 평가 (Performance Evaluation of Variable-Vocabulary Isolated Word Speech Recognizers with Maximum a Posteriori (MAP) Estimation-Based Speaker Adaptation in an Office Environment)

  • 권오욱
    • 한국음향학회지
    • /
    • 제17권2호
    • /
    • pp.84-89
    • /
    • 1998
  • 본 논문에서는 임의의 단어를 인식하기 위하여 음성학적으로 최적화된 (phonetically-optimized word) 음성 데이터베이스를 사용하여 훈련된 가변어휘 고립단위 음 성인식기의 실제 인식기 사용 환경에서의 성능을 평가하였다. 이를 위하여, 훈련 데이터베이 스에서와 상이한 환경에서 수집된 음성학적으로 균형 잡힌(phonetically-balanced word) 고 립 단어 음성을 테스트 데이터로 사용하였다. 테스트 데이터는 일반적인 사무실에서 작동하 는 노트북 PC에서 내장 마이크를 사용하여 녹음되었다. 이렇게 녹음된 음성을 사용하여 고 립단어 인식기의 인식률을 측정하였다. 이 인식기는 최대 사후(maximum a posteriori) 추정 알고리듬을 사용하여 화자의 변화에 적응하였다. 컴퓨터 모의실험 결과에 의하면 화자 적응 을 하지 않은 기본 시스템은 깨끗한 음성에 대하여 81.3%에서 사무실 환경 음성에 대하여 69.8%로 인식률이 저하되었다. 사무실 환경 음성에 대하여, 비교사 점진(unsupervised incremental) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 화자적 응을 하지 않은 경우에 비하여 9%의 에러를 감소시키며, 50단어의 적응 단어를 사용하여 교사 묶음(supervised batch) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 16%의 에러를 감소시켰다.

  • PDF

음성인식 시스템의 성능 향상을 위한 잡음음성의 남성 및 여성화자의 음성식별 (Speech Identification of Male and Female Speakers in Noisy Speech for Improving Performance of Speech Recognition System)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.619-620
    • /
    • 2017
  • 본 논문에서는 음성인식 알고리즘에 매우 중요한 정보를 제공하는 화자의 성별인식을 위하여 신경회로망을 사용하여 잡음 환경 하에서 남성음성 및 여성음성의 화자를 식별하는 성별인식 알고리즘을 제안한다. 본 논문에서 제안하는 신경회로망은 MFCC의 계수를 사용하여 음성의 각 구간에서 남성음성 및 여성음성의 화자를 인식할 수 있는 알고리즘이다. 실험결과로부터 백색잡음이 중첩된 잡음환경 하에서 음성신호의 MFCC의 특징벡터를 사용함으로써 남성음성 및 여성음성의 화자에 대해서 양호한 성별인식 결과가 구해졌다.

  • PDF

사상멤버쉽함수에 의한 화자적응 단어인식 (Speaker-adaptive Word Recognition Using Mapped Membership Function)

  • 이기영;최갑석
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.40-52
    • /
    • 1992
  • 본논문에서는 불특정화자 음성인식의 문제점이 되는 개인차에 의한 변동을 흡수하기 위하여 사상멤버쉽함수에 의한 화자적응 단어인식 방법을 제안하였다. 이방법의 학습과정에서는 미지화자의 표준화자의 스펙트럼패턴 사이에서 작성된 사상코드북에 퍼지이론을 도입하여 사상멤버쉽함수를 작성하였으며, 인식과정에서는 미지화자의 음성패턴을 사상멤버쉽함수에 의해 표준화자의 음성패턴에 적응된 패턴으로 재구성하고 뉴럴-퍼지패턴매칭에 의해 단어를 인식하였다. 본 방법의 타당성을 평가하기 위하여, 28개의 DDD 지역명을 대상으로 실험한 결과, 종래의 사상코드북에 의한 벡터양자화 화자적응방법에서는 64.9[%], 퍼지벡터양자화 화자적응방법에서는 76.1[%]의 인식율을 얻었으나, 사상멤버쉽함수에 의한 화자적응방법에서는 95.4[%]의 향상된 인식율을 얻으므로써 인식성능의 우수함을 확인하였다. 또한 사상멤버쉽함수의 작성과정에서는 반복된 학습과정이 불피요하며, 기억용량과 계산량도 사상코드북에 의한 화자적응방법보다 각각 1/30, 1/500배 정도였다.

  • PDF

감정 상호작용 로봇을 위한 신뢰도 평가를 이용한 화자독립 감정인식 (Speech Emotion Recognition Using Confidence Level for Emotional Interaction Robot)

  • 김은호
    • 한국지능시스템학회논문지
    • /
    • 제19권6호
    • /
    • pp.755-759
    • /
    • 2009
  • 인간의 감정을 인식하는 기술은 인간-로봇 상호작용 분야의 중요한 연구주제 중 하나이다. 특히, 화자독립 감정인식은 음성감정인식의 상용화를 위해 꼭 필요한 중요한 이슈이다. 일반적으로, 화자독립 감정인식 시스템은 화자종속 시스템과 비교하여 감정특징 값들의 화자 그리고 성별에 따른 변화로 인하여 낮은 인식률을 보인다. 따라서 본 논문에서는 신뢰도 평가방법을 이용한 감정인식결과의 거절 방법을 사용하여 화자독립 감정인식 시스템을 일관되고 정확하게 구현할 수 있는 방법을 제시한다. 또한, 제안된 방법과 기존 방법의 비교를 통하여 제안된 방법의 효율성 및 가능성을 검증한다.

신경회로망을 이용한 화자 식별 (Speaker Identification using Neural Network)

  • 황영수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.383-387
    • /
    • 1998
  • 신경회로망을 이용한 화자 식별에 대한 논문으로서, 화자 식별을 하기 위하여, 신경회로망중 패턴 인식의 성능이 우수하다는 ARTMAP을 이용하여 화자 식별 성능을 검토하였다. 본 논문에서 화자 식별 실험에 사용한 데이터는 25.6ms 와 51.2ms 구간의 모음들을 사용하였다. 실험 결과, 입력 모음에 따라 80.7%에서 98%까지의 인식률을 보였으며, 모음 '이'의 인식 결과가 화자 식별시 가장 좋은 결과를 보였다.

  • PDF

Incremental Neural Network 과 LPCC을 이용한 화자인식 (Speaker Identification using Incremental Neural Network and LPCC)

  • 허광승;박창현;이동욱;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.341-344
    • /
    • 2002
  • 음성은 화자들의 특징을 가지고 있다. 이 논문에서는 신경망에 기초한 Incremental Learning을 이용하여 화자인식시스템을 소개한다. 컴퓨터를 통하여 녹음된 문장들은 FFT를 거치면서 Frequency 영역으로 바뀌고, 모음들의 특징을 가지고 있는 Formant를 이용하여 모음들을 추출한다. 추출된 모음들은 LPC처리를 통하여 화자의 특성을 가지고 있는 Coefficient값들을 얻는다. LPCC과정과 Vector Quantization을 통해 10개의 특징 점들은 학습을 위한 Input으로 들어가고 화자 수에 따라 증가되는 Hidden Layer와 Output Layer들을 가지고 있는 신경망을 통해 화자인식을 수행한다.