• 제목/요약/키워드: Speaker verification

검색결과 162건 처리시간 0.031초

문장 독립 화자 검증을 위한 그룹기반 화자 임베딩 (Group-based speaker embeddings for text-independent speaker verification)

  • 정영문;엄영식;이영현;김회린
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.496-502
    • /
    • 2021
  • 딥러닝 기반의 심층 화자 임베딩 방식은 최근 문장 독립 화자 검증 연구에 널리 사용되고 있으며, 기존의 i-vector 방식에 비해 더 좋은 성능을 보이고 있다. 본 연구에서는 심층 화자 임베딩 방식을 발전시키기 위하여, 화자의 그룹 정보를 도입한 그룹기반 화자 임베딩을 제안한다. 훈련 데이터 내에 존재하는 전체 화자들을 정해진 개수의 그룹으로 비지도 클러스터링 하며, 고정된 길이의 그룹 임베딩 벡터가 각각의 그룹을 대표한다. 그룹 결정 네트워크가 각 그룹에 대응되는 그룹 가중치를 출력하며, 이를 이용한 그룹 임베딩 벡터들의 가중 합을 통해 집합 그룹 임베딩을 추출한다. 최종적으로 집합 그룹 임베딩을 심층 화자 임베딩에 더해주어 그룹기반 화자 임베딩을 생성한다. 이러한 방식을 통해 그룹 정보를 심층 화자 임베딩에 도입함으로써, 화자 임베딩이 나타낼 수 있는 전체 화자의 검색 공간을 줄일 수 있고, 이를 통해 화자 임베딩은 많은 수의 화자를 유연하게 표현할 수 있다. VoxCeleb1 데이터베이스를 이용하여 본 연구에서 제안하는 방식이 기존의 방식을 개선시킨다는 것을 확인하였다.

화자확인 시스템을 위한 분절 알고리즘 (A Blind Segmentation Algorithm for Speaker Verification System)

  • 김지운;김유진;민홍기;정재호
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.45-50
    • /
    • 2000
  • 본 논문에서는 하위단어에 기반한 전화선 채널에서의 어구 종속 화자 확인 시스템을 위한 음성 분할 알고리즘인, 파라미트릭 필터링에 기반한 델타 에너지를 제안한다. 제안한 알고리즘은 특정 밴드의 주파수를 기준으로 대역폭을 변화시키며 필터링한 후 델타 에너지를 이용하는 방법으로 다른 알고리즘에 비해 주변환경에 강인한 것으로 나타났다. 이를 이용해 음성을 하위단어로 분할하고, 각 하위단어를 이용해 화자의 성문을 모델링하였다. 제안한 알고리즘의 성능 평가를 위해 EER(Equal Error Rate)를 사용한다. 그 결과 단일 모델의 EER이 약 6.1%, 하위 단어 모델의 EER이 약 4.0%로 본 논문에서 제안한 알고리즘을 사용했을 때 약 2%의 성능이 향상되었다.

  • PDF

STFT와 RNN을 활용한 화자 인증 모델 (Speaker Verification Model Using Short-Time Fourier Transform and Recurrent Neural Network)

  • 김민서;문종섭
    • 정보보호학회논문지
    • /
    • 제29권6호
    • /
    • pp.1393-1401
    • /
    • 2019
  • 최근 시스템에 음성 인증 기능이 탑재됨에 따라 화자(Speaker)를 정확하게 인증하는 중요성이 높아지고 있다. 이에 따라 다양한 방법으로 화자를 인증하는 모델이 제시되어 왔다. 본 논문에서는 Short-time Fourier transform(STFT)를 적용한 새로운 화자 인증 모델을 제안한다. 이 모델은 기존의 Mel-Frequency Cepstrum Coefficients(MFCC) 추출 방법과 달리 윈도우 함수를 약 66.1% 오버랩하여 화자 인증 시 정확도를 높일 수 있다. 새로운 화자 인증 모델을 제안한다. 이 때, LSTM 셀을 적용한 Recurrent Neural Network(RNN)라는 딥러닝 모델을 사용하여 시변적 특징을 가지는 화자의 음성 특징을 학습하고, 정확도가 92.8%로 기존의 화자 인증 모델보다 5.5% 정확도가 높게 측정되었다.

정질적 기준을 이용한 다층신경망 기반 화자증명 시스템의 등록속도 단축방법 (Improving Speaker Enrolling Speed for Speaker Verification Systems Based on Multilayer Perceptrons by Using a Qualitative Background Speaker Selection)

  • 이태승;황병원
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.360-366
    • /
    • 2003
  • 다층신경망 (multilayer perceptron)이 다른 패턴인식 방법에 비해 여러 가지 이점을 제공하지만 다층신경망에 기반한 화자증명 시스템은 낮은 증명오류를 달성하기 위한 대규모 배경화자로 인한 느린 등록속도의 문제를 안는다. 이 문제를 해결하기 위해 QnDCS(quantitative discriminative cohort speakers) 방법에서 화자군집 방법을 다층신경망 기반화자증명 시스템에 도입하여 화자등록에 필요한 배경화자의 수를 줄이려는 시도가 있었다. QnDCS 방법이 목적을 어느 정도 달성하긴 했지만 등록속도의 향상률이 만족할만한 수준이지 못했다. 본 논문에서는 보다 높은 등록속도 향상률을 달성하기 위한 방법으로서, 선택되는 배경화자의 수를 더욱 낮추는 정질에 기반한 기준을 도입한 QlDCS (qualitative discriminative cohort speakers) 방법을 제안한다. 두 방법에 대한 성능평가를 위해 다층신경망과 지속음에 기반한 화자증명 시스템과 음성 데이터베이스를 사용한 실험을 실시한다 그 결과 제안한 방법이 QlDCS에 비해 온라인 방식의 EBP (error backpropagation)에 대한 학습속도 향상률 면에서 2배 이상 더 짧은 시간 내에 화자를 등록하는 것으로 나타나 보다 높은 효율을 지녔음을 증명한다.

Impostor Detection in Speaker Recognition Using Confusion-Based Confidence Measures

  • Kim, Kyu-Hong;Kim, Hoi-Rin;Hahn, Min-Soo
    • ETRI Journal
    • /
    • 제28권6호
    • /
    • pp.811-814
    • /
    • 2006
  • In this letter, we introduce confusion-based confidence measures for detecting an impostor in speaker recognition, which does not require an alternative hypothesis. Most traditional speaker verification methods are based on a hypothesis test, and their performance depends on the robustness of an alternative hypothesis. Compared with the conventional Gaussian mixture model-universal background model (GMM-UBM) scheme, our confusion-based measures show better performance in noise-corrupted speech. The additional computational requirements for our methods are negligible when used to detect or reject impostors.

  • PDF

문장 독립 화자 인증을 위한 세그멘트 단위 혼합 계층 심층신경망 (Segment unit shuffling layer in deep neural networks for text-independent speaker verification)

  • 허정우;심혜진;김주호;유하진
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.148-154
    • /
    • 2021
  • 문장 독립 화자 인증 연구에서는 일반화 성능 향상을 위해 문장 정보와 독립적인 화자 특징을 추출하는 것이 필수적이다. 그렇지만 심층 신경망은 학습 데이터에 의존적이므로, 동일한 시계열 정보를 반복 학습할 경우, 화자 정보를 학습하는 대신 문장 정보에 과적합 될 수 있다. 본 논문에서는 이러한 과적합을 방지하기 위해 시간 축으로 입력층 혹은 은닉층을 분할 및 무작위 재배열하여 시계열 정보의 순서를 뒤섞는 세그멘트 단위 혼합 계층을 제안한다. 세그멘트 단위 혼합 계층은 입력층 뿐만 아니라 은닉층에도 적용이 가능하므로, 입력층에서의 일반화 기법에 비해 효과적이라 알려진 은닉층에서의 일반화 기법으로 활용이 가능하며, 기존의 데이터 증강 방법과 동시에 적용할 수도 있다. 뿐만아니라, 세그멘트의 단위 크기를 조절하여 혼합의 정도를 조절할 수도 있다. 본 논문에서는 제안한 방법을 적용하여 문장 독립 화자 인증 성능이 개선됨을 확인하였다.

지속음 및 다층신경망을 이용한 화자증명 시스템 (Speaker Verification System Using Continuants and Multilayer Perceptrons)

  • Lee, Tae-Seung;Park, Sung-Won;Hwang, Byong-Won
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.1015-1020
    • /
    • 2003
  • 생체정보를 활용하여 개인정보를 보호하는 기술 가운데 화자증명은 다양한 사용편의성과 구현비용 면에서 이점을 갖고 있어 폭넓은 활용이 기대된다. 화자증명은 증명성능의 신뢰성, 음성문장 사용의 유연성, 증명시스템 복잡도의 효율성 면에서 높은 수준을 달성해야 한다. 지속음은 화자 구별력이 뛰어나며 구별되는 종류가 한정적이고, MLP(multilayer perceptron)는 높은 패턴인식률과 신속한 동작성능을 갖고 있어 화자증명 시스템이 이와 같은 특성을 달성하기 위한 유력한 수단을 제공한다. 본 논문에서는 지속음과 MLP를 적용한 시스템을 구현하고 한국어 음성 데이터베이스를 이용하여 이 시스템의 성능을 측정하고 분석한다. 실험의 결과는 지속음이 세 가지 특성에 대해 우수한 효과를 가지며 MLP가 높은 신뢰성과 효율성을 달성하는 데 실질적인 도움이 됨을 확인한다.

  • PDF

유전자 알고리즘을 결합한 Support Vector Machine의 화자인증에서의 성능분석 (Speaker Verification System Using Support Vector Machine with Genetic Algorithms)

  • 최우용;이경희;반성범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.557-560
    • /
    • 2003
  • Voice is one of the promising biometrics because it is one of the most convenient ways human would distinguish someone from others. The target of speaker verification is to divide the client from imposters. Support Vector Machine(SVM) is in the limelight as a binary classifier, so it can work well in speaker verification. In this paper, we combined SVM with genetic algorithm(GA) to reduce the dimensionality of input feature. Experiments were conducted with Korean connected digit database using different feature dimensions. The verification accuracy of SVM with GA is slightly lower than that of SVM, but the proposed algorithm has greater strength in the memory limited systems.

  • PDF

성량제한을 적용한 어구독립 화자증명 성능향상 방안 (On a Method Which Improves Text Independent Speaker Verification Performance through Limiting Speech Production Loudness)

  • 이태승;최호진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.457-459
    • /
    • 2001
  • 지속음(continuants) 단위로 화자간 차이를 식별하는 어구독립 화자증명(text-independent speaker verification) 방식에서 입력음성의 성량을 제한하여 보다 높은 인식률을 달성할 수 있는 화자인식 방법을 제안한다.

  • PDF

열악한 환경에 강인한 화자인증을 위한 위상 기반 특징 추출 기법 (A Phase-related Feature Extraction Method for Robust Speaker Verification)

  • 권철홍
    • 한국정보통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.613-620
    • /
    • 2010
  • 화자인증 시스템은 훈련 환경과 인식 환경이 다른 경우 인식 성능이 크게 저하된다. 이러한 훈련과 인식 환경의 불일치는 다양한 잡음과 상이한 채널 환경 때문이다. 본 논문은 화자인증 시스템의 강인성 개선을 위하여 음성신호의 위상에 기반한 특정 추출 기법을 제안한다. 이 방법은 음성신호의 위상으로부터 순시 주파수를 계산하여 대역별로 순시 주파수를 모두 모아 구한 히스토그램으로부터 특징 계수를 추출한다. 이 특징 파라미터를 적용한 결과 조 용한 환경뿐만 아니라 잡음환경 그리고 채널 왜곡 환경에서도 화자인증 시스템의 성능이 개선됨을 알 수 있다.