• 제목/요약/키워드: 화자확인 시스템

검색결과 122건 처리시간 0.044초

자동차 주행 환경에서의 화자인식 시스템 개발에 관한 연구 (A Study on Developing Speaker Recognition System In Driving Car Environment)

  • 양준영;장준혁;이창원;박기희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.934-936
    • /
    • 2017
  • 화자인식 기술은 등록된 화자 목록 내 화자 또는 사칭 화자의 발화로부터 발화자를 식별하는 기술로써, 음성 소스를 기반으로 동작하는 디바이스의 개인화를 위해 필요한 기술이다. 본 논문에서는 차량 잡음이 존재하는 자동차 주행 환경을 타겟으로 하는 화자인식 시스템 개발 방법을 제안한다. 차량 잡음에 의해 오염된 음성신호로부터 잡음 성분을 제거하기 위해 parametric multi-channel Wiener filter (PWMF)를 이용하여 실험한 결과, 남성화자 조건에서는 PMWF의 내부 파라미터 조절을 통해 필터를 minimum variance distortionless response (MVDR) 빔포머로 동작하도록 설정하였을 때, 여성화자 조건에서는 잡음을 제거하지 않았을 때 가장 낮은 동일오류율을 보임을 확인할 수 있었다.

선형 변환망을 이용한 화자적응 음성인식 (Speaker Adaptation Using Linear Transformation Network in Speech Recognition)

  • 이기희
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.90-97
    • /
    • 2000
  • 본 논문에서는 불특정 화자의 음성에 대해서도 신뢰성 있는 인식이 이루어지도록 하는 음성인식 시스템을 구현하기 위한 화자적응 음성인식 기법을 제안한다. 제안한 화자적응 기법에 의한 음성인식 시스템은 표준화자의 음성특징을 1차선형 변환 망에 의해 새로운 화자의 음성특징에 선형적으로 적응하여 인식하며. 그 구성은 다층퍼셉트론을 퍼지 벡터양자화기로 사용하는 반연속 HMM을 기반으로 한다 구현한 인식시스템은 그 성능을 확인하기 위해 고립단어 인식실험을 수행하였다. 그 결과, 화자적응 인식인 경우가 화자적응 수행하지 않은 시스템에 비해 인식률이 개선됨을 보였다.

  • PDF

화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구 (A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation)

  • 진세훈;강철호
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.410-415
    • /
    • 2005
  • 최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.

유전자 알고리즘을 이용한 화자인식 시스템 성능 향상 (Performance Improvement of Speaker Recognition System Using Genetic Algorithm)

  • 문인섭;김종교
    • 한국음향학회지
    • /
    • 제19권8호
    • /
    • pp.63-67
    • /
    • 2000
  • 본 논문에서는 화자인식의 성능향상을 위한 dynamic time warping (DTW) 기반의 문맥 제시형 화자인식에 대해 연구하였다. 화자인식에 있어 중요한 요소인 화자의 특성을 잘 반영할 수 있는 참조패턴을 생성하기 위해 유전자 알고리즘을 적용하였다. 또한, 문맥 종속형과 문맥 독립형 화자인식의 단점을 개선하기 위해 문맥 제시형 화자인식을 수행하였다. Clos set에서 화자식별과 open set에서 화자확인 실험을 하였으며 실험결과 기존 방법의 참조패턴을 이용하였을 경우보다 유전자 알고리즘에 의한 참조패턴이 인식률과 인식속도 면에서 우수함을 보였다.

  • PDF

가무시안 혼합모델에서 점진적 강인적응을 통한 화자확인 성능개선 (Performance Enhancement for Speaker Verification Using Incremental Robust Adaptation in GMM)

  • 김은영;서창우;임영환;전성채
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.268-272
    • /
    • 2009
  • 본 논문에서는 화자확인을 위해서 가우시안혼합모델에 forgetting factor를 갖는 점진적 강인적응 방법을 제안하였다. 화자인식 시스템에서 적은 양의 데이터로 좋은 성능을 얻기 위하여 화자모델 적응방법이 사용되고 있다. 그러나, 현재 사용되고 있는 적응방법은 불규칙한 발성변화와 잡음 같은 이씨에 취약하고, 그것은 부정확한 화자모델을 만들 수 있다. 또한 시간이 지날수록 모델에 새로운 데이터가 적응되는 비율이 줄어들게 되는 문제점이 있다. 제안된 알고리즘은 가우시안혼합모델을 이용한 화자모델에서 이상치에 의한 왜곡과 새로운 데이터에 대한 적응 비율을 일정이상으로 유지할 수 있도록 하기 위하여 점진적 강인적응 방법을 제안하였다. 점진적 강인적응은 화자인식에서 적은 양의 데이터로 등록하고 테스트된 새로운 데이터로 모델을 적응시키는 방법이다. 실험결과는 7개월에 걸쳐서 수집된 데이터로부터 제안된 방법이 이상치에 강인하고 새로운 데이터의 적응 비율을 일정하게 유지시킴을 보였다.

화자 검증 시스템을 위한 PCA 기반 MFDWC 특징 파라미터 (A PCA-based MFDWC Feature Parameter for Speaker Verification System)

  • 함성준;정호열;정현열
    • 한국음향학회지
    • /
    • 제25권1호
    • /
    • pp.36-42
    • /
    • 2006
  • 본 논문에서는 화자검증 시스템의 성능향상을 위해서 주성분 분석 (PCA) 기반 Mel-Frequency Discrete Wavelet Coefficients (MFDWC) 추출방법을 제안한다. 제안된 방법에서는 멜척도 (Mel-scale)를 근사화한 각 레벨 (level)의 각 노드 (node) 에너지를 계산하기 위해 기존의 평균치 대신 주성분 분석을 이용한 첫 번째 eigenvector를 이용한다. 이 eigenvecto.의 제곱의 합은 1로서 일반적인 가중 함수 (weighting function)의 조건을 만족하고, 또한 각 화자마다 서로 다른 값을 갖게 되므로, 화자의 특징을 더 잘 나타내는 MFDWC를 추출할 수 있다. 화자검증은 Gaussian Mixture Model (GMM) 기반의 백그라운드 모델과 화자 모델과의 점수를 비교하는 이진 결정 (binary decision) 방법을 이용하여 Universal 백그라운드 모델 (UBM)과 각 화자 모델의 값을 프레임단위로 비교하여 대상 화자의 수락/거부 여부를 결정하는 방법을 채택하였다. 특징 파라미터에 따른 화자 검증 성능변화를 확인하기 위하여 제안된 화자종속 가중함수를 이용한 MFDWC를 특징 파라미터로 이용한 경우와 Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Cepstral Coefficients (LPCC), 기존의 MFDWC를 특징 파라미터로 이용한 경우에 대하여 성능비교실험을 수행한 결과 각각 $0.80\%,\;5.14\%,\; 6.69\%$의 향상된 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

신경회로망을 이용한 연속음성중 키워드(keyword)인식에 관한 연구

  • 최관선;한민홍
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 1993년도 춘계공동학술대회 발표논문 및 초록집; 계명대학교, 대구; 30 Apr.-1 May 1993
    • /
    • pp.275-281
    • /
    • 1993
  • 본 발표에서는 신경회로망을 이용하여 연속음성중에서 키워드를 인식하는 방법을 설명한다. 연속음성에서 파형소편 및 음절을 식별하는 휴리스틱 알고리즘을 개발하였고, 연속음성을 음절단위로 파형소편 스펙트럼분석(선형예측법)으로 특성치를 추출하였다. 음절의 특성치는 코호넨 신경회로망을 통하여 학습을 시켰으며, 연속음성중 키워드인식은 먼저 음절을 인식하여 단어를 찾고, 인식된 단어가 키워드와 일치하는가를 확인한다. 본 연구의 의의는 파형소편 및 음절식별 알고리즘을 통하여, 크기불변성(Scaling invariance), 시간불변성(Time warping 및 Time-shift invariance), 중복성제거의 문제점을 해결하였고, 신경회로망의 학습을 통하여 화자독립적인 연속음성인식시스템 구축의 기반을 확립한데 있다. 본 음성인식모델은 학교구내 전화번호 안내시스템으로 활용단계에 있으며 전화번호뿐만아니라 주소안내시스템으로도 활용될 예정이다. 또한 자동차 운전보조시스템 및 주행안내시스템의 음성명령에 응용될 수 있는데, 예로 음성명령은 "핸들 좌로 20도", "시청까지 주행", "시청 지도안내"등이 될 수 있다. 현재 자동차 운전보조시스템은 컴퓨터 화면상 모의동작시스템으로 운영되고 있다. 본 음성인식모델은 화자종속시 90%이상, 화자독립시 70%의 인식결과를 보였다.시 90%이상, 화자독립시 70%의 인식결과를 보였다.

  • PDF

지연누적에 기반한 화자결정회로망이 도입된 구문독립 화자인식시스템 (Text-Independent Speaker Identification System Using Speaker Decision Network Based on Delayed Summing)

  • 이종은;최진영
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.82-95
    • /
    • 1998
  • 본 논문에서는 구문독립 화지인식 시스템에서 가장 중요한 역할을 하는 분류기를 두 단계로 나누어, 먼저 짧은 구간들에 대해서 각각의 화자에 속하는 정도를 계산하고, 다음에 계산된 결과들을 가지고 주어진 음성구간전체에 대해 가장 가능성이 높은 화자를 선택하는 구조를 제안한다. 첫번째 부분은 학습에 의해 스스로 조기하는 RBFN을 이용하여 구현하고 두번째 부분에서는 MAXNET과 지연합의 조합으로 화자를 결정한다. 이렇게 함으로써 지연합의 개수가 증가함에 따라 인식률이 100%가 되는 것을 모의 실험을 통하여 확인한다. 또한 본 논문에서는 음성의 프랙탈적인 특징이 화자인식에 사용될 수 있는지를 검토한다. 화자인식은 동질의 집단에서 13명의 성인만자의 목소리를 이용하여 닫힌집합(closed-set)의 경우로 모의실험을 하였고, 기존의 특징으로는 선형예측계수(LPC) 와 PC-cepstrum을 사용하였다.

  • PDF

화자 적응 성능 향상을 위한 코드북 설계 (On Codebook Fesign to Improve Speaker Adaptation)

  • 양태영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.228-231
    • /
    • 1995
  • 반연속 HMM 음성인식 시스템의 화자 적응 성능 향상을 위해 코드북 변환 알고리즘을 제안하였다. 기존의 화자 적응 알고리즘으로는 새로운 화자의 적응 데이터 특징의 분포와 HMM 모수의 사전밀도를 함께 고려하는 베이시안 화자적응 알고리즘이 있다. 그러나 새로운 화자의 특징분포와 코드북 사전 밀도의 차이가 큰 경우 적응 데이터와 코드북간의 잘못된 대응 관계를 얻을 수 있으며, 기준 코드북에 필요 이상으로 많은 코드워드가 존재하는 경우 적응된 코드북에도 불필요한 코드워드 들이 남아 인식 과정에 혼란을 줄 수 있다. 이 문제점을 해결하기 위하여 제안된 코드북 변환 알고리즘에서는 주파수 영역의 포만트 정보를 이용하였다. 화자 적응을 수행하기 앞서 코드북의 켑스트럼으로부터 포만트를 추출해 내고, 이들의 분포를 적응 화자의 포만트 분포와 일치되도록 변환시켜 주었다. 이 변환된 포만트들로부터 다시 켑스트럼을 구하여 변환된 코드북을 얻고 이를 화자 적응의 초기 코드북으로 사용하였다. 제안된 알고리즘을 이용하였을 경우 코드북과 적응 화자의 음성 간의 정확한 대응관계를 찾을 수 있었고, 불필요한 코드워드들이 인식 과정에서 사용되지 않도록 변환되어 인식률이 향상되는 것을 실험을 통해 확인하였다.

  • PDF

EMAP에 기반한 화자적응을 위한 강인한 상관계수의 예측 (Robust Correlation Estimation for Rapid Speaker Adaptation)

  • 전유진;김동국;김남수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.113-116
    • /
    • 2000
  • 본 논문에서는 probabilistic principal component analysis (PPCA)를 이용하여 extended maximum a posteriori (EMAP)에 기반한 화자적응 시스템의 성능을 향상시키는 방법을 제시하고자 한다. PPCA는 각각의 hidden Markov model (HMM) 사이의 상관계수 행렬을 강인하게 예측하는데 적용된다. 이렇게 구한 상관계수 행렬은 화자적응 시스템에 사용된다. PPCA는 연산이 효율적이고, EMAP에서 기존에 사용되었던 방법에 비해 향상된 성능을 보여준다. 여러 차례의 음성인식 실험을 통하여, PPCA를 적용한 EMAP은 적은 양의 적응 데이타에서 좋은 성능을 보인다는 것을 확인할 수 있다.

  • PDF