• 제목/요약/키워드: Speaker verification

검색결과 162건 처리시간 0.028초

신경망 기반 화자증명 시스템에서 더욱 향상된 사용자 등록속도 (Faster User Enrollment for Neural Speaker Verification Systems)

  • Lee, Tae-Seung;Park, Sung-Won;Hwang, Byong-Won
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.1021-1026
    • /
    • 2003
  • MLP(multilayer perceptron)는 화자증명에 대한 응용에 있어 우수한 특질을 지니고 있지만 동시에 느린 학습속도의 문제를 안고 있다. 편리한 사용을 위해 MLP에 기반한 화자증명 시스템에서는 신속한 화자등록이 요구되며 이 문제는 MLP의 빠른 학습속도에 전적으로 의존한다. 이러한 시스템에서 실시간 등록을 달성하기 위해 지금까지 두 가지 측면에서 연구가 시도되었으며 각기 의도한 목적을 달성하였다. 본 논문에서는 이 두 방법이 상이한 최적화 원리에서 동작한다는 가정 하에 이들을 결합하고 이를 MLP 기반 화자증명 시스템에 적용한다. 이러한 결합이 화자등록 속도를 더욱 향상시킬 수 있다는 사실은 한국어 음성 데이터베이스를 이용한 실험결과에서 입증된다.

  • PDF

가무시안 혼합모델에서 점진적 강인적응을 통한 화자확인 성능개선 (Performance Enhancement for Speaker Verification Using Incremental Robust Adaptation in GMM)

  • 김은영;서창우;임영환;전성채
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.268-272
    • /
    • 2009
  • 본 논문에서는 화자확인을 위해서 가우시안혼합모델에 forgetting factor를 갖는 점진적 강인적응 방법을 제안하였다. 화자인식 시스템에서 적은 양의 데이터로 좋은 성능을 얻기 위하여 화자모델 적응방법이 사용되고 있다. 그러나, 현재 사용되고 있는 적응방법은 불규칙한 발성변화와 잡음 같은 이씨에 취약하고, 그것은 부정확한 화자모델을 만들 수 있다. 또한 시간이 지날수록 모델에 새로운 데이터가 적응되는 비율이 줄어들게 되는 문제점이 있다. 제안된 알고리즘은 가우시안혼합모델을 이용한 화자모델에서 이상치에 의한 왜곡과 새로운 데이터에 대한 적응 비율을 일정이상으로 유지할 수 있도록 하기 위하여 점진적 강인적응 방법을 제안하였다. 점진적 강인적응은 화자인식에서 적은 양의 데이터로 등록하고 테스트된 새로운 데이터로 모델을 적응시키는 방법이다. 실험결과는 7개월에 걸쳐서 수집된 데이터로부터 제안된 방법이 이상치에 강인하고 새로운 데이터의 적응 비율을 일정하게 유지시킴을 보였다.

차량 보안을 위한 어구독립 화자증명의 등록시간 단축에 관한 연구 (A Study on the Fast Enrollment of Text-Independent Speaker Verification for Vehicle Security)

  • 이태승;최호진
    • 한국항행학회논문지
    • /
    • 제5권1호
    • /
    • pp.1-10
    • /
    • 2001
  • 음성은 차량 운행시 여러 가지 조작으로 분주한 운전자에게 간편한 장비 입력 및 조작을 위한 수단으로 유용한 특성을 지니고 있다. 본 논문에서는 이런 음성의 특성을 이용하여 차량 도난이나 중요한 온라인 서비스 접근시 신원을 증명할 수 있는 화자증명 방식을 제안한다. 이 방식에서는 음성의 언어정보를 이용하는 지속음 인식 기법과 함께 확률적 인식 방식에 비해 몇 가지 이점을 갖는 MLP(multi-layer perceptron)를 사용한다. 하지만 MLP를 사용하는 인식 기법은 학습에 많은 계산량을 요구하므로 실시간으로 화자를 등록해야 하는 화자증명에서는 적용하기가 쉽지 않다. 이 문제를 해결하기 위해 본 논문에서는 기존의 화자점수 평준화 방법에서 화자군집 모델 기법을 도입하여 배경화자를 사전에 여러 개의 작은 화자군집으로 분리하는 방법을 제안한다. 등록화자를 이렇게 나눈 화자군집 중 하나로 분류한 뒤 해당 화자군집에 대해서만 등록 학습과정을 거치는 방법으로 계산량을 큰 폭으로 줄일 수 있다.

  • PDF

화자 검증 시스템을 위한 PCA 기반 MFDWC 특징 파라미터 (A PCA-based MFDWC Feature Parameter for Speaker Verification System)

  • 함성준;정호열;정현열
    • 한국음향학회지
    • /
    • 제25권1호
    • /
    • pp.36-42
    • /
    • 2006
  • 본 논문에서는 화자검증 시스템의 성능향상을 위해서 주성분 분석 (PCA) 기반 Mel-Frequency Discrete Wavelet Coefficients (MFDWC) 추출방법을 제안한다. 제안된 방법에서는 멜척도 (Mel-scale)를 근사화한 각 레벨 (level)의 각 노드 (node) 에너지를 계산하기 위해 기존의 평균치 대신 주성분 분석을 이용한 첫 번째 eigenvector를 이용한다. 이 eigenvecto.의 제곱의 합은 1로서 일반적인 가중 함수 (weighting function)의 조건을 만족하고, 또한 각 화자마다 서로 다른 값을 갖게 되므로, 화자의 특징을 더 잘 나타내는 MFDWC를 추출할 수 있다. 화자검증은 Gaussian Mixture Model (GMM) 기반의 백그라운드 모델과 화자 모델과의 점수를 비교하는 이진 결정 (binary decision) 방법을 이용하여 Universal 백그라운드 모델 (UBM)과 각 화자 모델의 값을 프레임단위로 비교하여 대상 화자의 수락/거부 여부를 결정하는 방법을 채택하였다. 특징 파라미터에 따른 화자 검증 성능변화를 확인하기 위하여 제안된 화자종속 가중함수를 이용한 MFDWC를 특징 파라미터로 이용한 경우와 Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Cepstral Coefficients (LPCC), 기존의 MFDWC를 특징 파라미터로 이용한 경우에 대하여 성능비교실험을 수행한 결과 각각 $0.80\%,\;5.14\%,\; 6.69\%$의 향상된 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

동적 시간 신축 알고리즘을 이용한 화자 식별 (Speaker Identification Using Dynamic Time Warping Algorithm)

  • 정승도
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2402-2409
    • /
    • 2011
  • 음성에는 전달하고자 하는 정보 이외에 화자 고유의 음향적 특징을 담고 있다. 화자간의 음향적 차이를 이용하여 말하고 있는 사람이 누구인지 판단하는 방법이 화자 인식이다. 화자 인식에는 화자 확인과 화자 식별로 구분되는데 화자 확인은 1명의 음성을 대상으로 본인인지 아닌지를 검증하는 방법이다. 반면, 화자 식별은 미리 등록된 다수의 종속 문장으로부터 가장 유사한 모델을 찾아 대상 의뢰인이 누군지 식별하는 방법이다. 본 논문에서는 MFCC(Mel Frequency Cepstral Coefficient) 계수를 추출하여 특징 벡터를 구성하였고, 특징 간 유사도 비교는 동적 시간 신축(Dynamic Time Warping) 알고리즘을 이용한다. 각 화자마다 두 개의 종속 문장을 훈련 데이터로 사용하여 음운성에 기반을 둔 공통적 특징을 기술하였고, 이를 통해 데이터베이스에 저장되어 있지 않은 단어를 사용하더라도 동일 화자임을 식별할 수 있도록 하였다.

화자 확인 시스템을 위한 적응적 모델 갱신과 사전 문턱치 결정에 관한 연구 (A Study on Adaptive Model Updating and a Priori Threshold Decision for Speaker Verification System)

  • 진세훈;이재희;강철호
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.20-26
    • /
    • 2000
  • 화자 확인시스템에서 화자의 장기간 음성 변동에 대처하기 위해서는 작은 양의 데이터로써 화자 확인을 위한 HMM(hidden Markov model) 파라미터 갱신과 사전 문턱치 결정이 중요한 요소이다. 본 연구에서는 화자내 변이(mea-speaker variation)에 적응하는 모델 갱신방법과 이에 따른 문턱치 적응에 관한 방법을 제안한다. 제안하는 방법은 분기간 화자내 변이로 발생할 수 있는 오인식율을 Baum-Welch re-estimation을 통해 현재 화자 모델 파라미터에 새로운 음성 데이터를 적응시킴으로써 감소시킨다. 본 논문에서 제안하는 사전 문턱치 결정 방법은 기존의 월드 모델(world model) 방법과 군중 모델(cohort model) 방법의 하이브리드 형태로써 실험적으로 결정된다. 실험에 의해 모델 갱신을 하지 않은 경우보다 제안하는 모델 갱신방법의 화자 인식율이 우수함을 확인하였다. 또한, 사후 문턱치 결정에 의한 인식율과 제안한 사전 문턱치 결정에 의한 인식율의 차이가 근소함을 확인하였다.

  • PDF

HMM-UBM의 주 상태 정보를 이용한 음성 기반 문맥 독립 화자 검증 (Text Independent Speaker Verficiation Using Dominant State Information of HMM-UBM)

  • 손수원;노진상;김성수;이재원;고한석
    • 한국음향학회지
    • /
    • 제34권2호
    • /
    • pp.171-176
    • /
    • 2015
  • 본 논문에서는 Hidden Markov Model(HMM) - Universal Background Model(UBM)의 주 상태 정보 기반의 i-vector 추출 기술을 제안한다. Ergodic HMM이 UBM을 추정하는데 쓰였으며, 이를 통해 동일 화자 음성에도 다양하게 존재하는 특성을 HMM states로 분류할 수 있다. 제안한 방법을 이용하면 HMM의 state 개수에 따라 i-vector 들이 추출되는데, 주 상태 정보 방법을 통해 이들 중 하나를 선택한다. 제안한 방법을 검증하기 위해 National Institute of Standards and Technology(NIST) Speaker Recognition Evaluation(SRE) database를 이용하여 실험을 하였으며, Equal Error Rate(EER) 성능 수치에서 12 %의 성능 향상을 확인할 수 있었다.

ACHARF ANC를 채용한 화자인증시스템의 성능분석 (Performance analysis of speaker verification system adopting the ACHARF ANC)

  • 이현승;최홍섭;신윤기
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.179-182
    • /
    • 2002
  • The development of noise robust speech processing systems is becoming increasingly important as speech technology is currently widely applied in real world applications. Recently, to resolve such a noise problem, adaptive noise canceller(ANC) is frequently used, which is based upon adaptive filters. The adaptive recursive filters perform better than adaptive non-recursive filters due to the added poles, but the stability may be severely threatened. But these problems of adaptive recursive filters was solved by ACHARF algorithm. This paper presents a method which combines speaker verification system with ANC(Adaptive Noise Canceller) using the ACHARF algorithm. In the front-end stage, ANC is adopted to suppress the additive noise imposed on the speech signal. The results show that the performance of speaker verification system becomes better than before.

  • PDF

깊은 신경망 특징 기반 화자 검증 시스템의 성능 비교 (Performance Comparison of Deep Feature Based Speaker Verification Systems)

  • 김대현;성우경;김홍국
    • 말소리와 음성과학
    • /
    • 제7권4호
    • /
    • pp.9-16
    • /
    • 2015
  • In this paper, several experiments are performed according to deep neural network (DNN) based features for the performance comparison of speaker verification (SV) systems. To this end, input features for a DNN, such as mel-frequency cepstral coefficient (MFCC), linear-frequency cepstral coefficient (LFCC), and perceptual linear prediction (PLP), are first compared in a view of the SV performance. After that, the effect of a DNN training method and a structure of hidden layers of DNNs on the SV performance is investigated depending on the type of features. The performance of an SV system is then evaluated on the basis of I-vector or probabilistic linear discriminant analysis (PLDA) scoring method. It is shown from SV experiments that a tandem feature of DNN bottleneck feature and MFCC feature gives the best performance when DNNs are configured using a rectangular type of hidden layers and trained with a supervised training method.

화자 확인 시스템의 설계 제작 및 성능 분석 (Implementation and Performance Analysis of a Speaker Verification System)

  • 권석규;이병기
    • 전자공학회논문지B
    • /
    • 제30B권3호
    • /
    • pp.1-9
    • /
    • 1993
  • This paper discusses issues on the disign and implementation of real-time automatic speaker verification system, as well as the performance analysis of the implemented system. The system employs TI's TMS320C25 digital signal processor TMS320C25 and high speed SRAMs. The system is designed to be used stand-alone as well as via hand-shaking with IBM-PC. The speech parameters used for speaker verification are PARCOR and LPC-cepstrum coefficients, and the employed decision logics are those based on the generalized weighted distance comcept. The implemented system showed the performance of 5.3% error rate for the PARCOR coefficient, and 4.7% error rate for the LPG-cepstrum coefficient.

  • PDF