• 제목/요약/키워드: Speaker Verification

검색결과 162건 처리시간 0.023초

An Adaptive Utterance Verification Framework Using Minimum Verification Error Training

  • Shin, Sung-Hwan;Jung, Ho-Young;Juang, Biing-Hwang
    • ETRI Journal
    • /
    • 제33권3호
    • /
    • pp.423-433
    • /
    • 2011
  • This paper introduces an adaptive and integrated utterance verification (UV) framework using minimum verification error (MVE) training as a new set of solutions suitable for real applications. UV is traditionally considered an add-on procedure to automatic speech recognition (ASR) and thus treated separately from the ASR system model design. This traditional two-stage approach often fails to cope with a wide range of variations, such as a new speaker or a new environment which is not matched with the original speaker population or the original acoustic environment that the ASR system is trained on. In this paper, we propose an integrated solution to enhance the overall UV system performance in such real applications. The integration is accomplished by adapting and merging the target model for UV with the acoustic model for ASR based on the common MVE principle at each iteration in the recognition stage. The proposed iterative procedure for UV model adaptation also involves revision of the data segmentation and the decoded hypotheses. Under this new framework, remarkable enhancement in not only recognition performance, but also verification performance has been obtained.

짧은 음성을 대상으로 하는 화자 확인을 위한 심층 신경망 (Deep neural networks for speaker verification with short speech utterances)

  • 양일호;허희수;윤성현;유하진
    • 한국음향학회지
    • /
    • 제35권6호
    • /
    • pp.501-509
    • /
    • 2016
  • 본 논문에서는 짧은 테스트 발성에 대한 화자 확인 성능을 개선하는 방법을 제안한다. 테스트 발성의 길이가 짧을 경우 i-벡터/확률적 선형판별분석 기반 화자 확인 시스템의 성능이 하락한다. 제안한 방법은 짧은 발성으로부터 추출한 특징 벡터를 심층 신경망으로 변환하여 발성 길이에 따른 변이를 보상한다. 이 때, 학습시의 출력 레이블에 따라 세 종류의 심층 신경망 이용 방법을 제안한다. 각 신경망은 입력 받은 짧은 발성 특징에 대한 출력 결과와 원래의 긴 발성으로부터 추출한 특징과의 차이를 줄이도록 학습한다. NIST (National Institute of Standards Technology, 미국) 2008 SRE(Speaker Recognition Evaluation) 코퍼스의 short 2-10 s 조건 하에서 제안한 방법의 성능을 평가한다. 실험 결과 부류 내 분산 정규화 및 선형 판별 분석을 이용하는 기존 방법에 비해 최소 검출 비용이 감소하는 것을 확인하였다. 또한 짧은 발성 분산 정규화 기반 방법과도 성능을 비교하였다.

Voice Similarities between Sisters

  • Ko, Do-Heung
    • 음성과학
    • /
    • 제8권3호
    • /
    • pp.43-50
    • /
    • 2001
  • This paper deals with voice similarities between sisters who are supposed to have common physiological characteristics from a single biological mother. Nine pairs of sisters who are believed to have similar voices participated in this experiment. The speech samples obtained from one pair of sisters were eliminated in the analysis because their perceptual score was relatively low. The words were measured in both isolation and context, and the subjects were asked to read the text five times with about three seconds of interval between readings. Recordings were made at natural speed in a quiet room. The data were analyzed in pitch and formant frequencies using CSL (Computerized Speech Lab) and PCQuirer. It was found that data of the initial vowels are much more similar and homogeneous than those of vowels in other positions. The acoustic data showed that voice similarities are strikingly high in both pitch and formant frequencies. It is assumed that statistical data obtained from this experiment can be used as a guideline for modelling speaker identification and speaker verification.

  • PDF

과학수사를 위한 한국인 음성 특화 자동화자식별시스템 (Forensic Automatic Speaker Identification System for Korean Speakers)

  • 김경화;소병민;유하진
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.95-101
    • /
    • 2012
  • In this paper, we introduce the automatic speaker identification system 'SPO(Supreme Prosecutors Office) Verifier'. SPO Verifier is a GMM(Gaussian mixture model)-UBM(universal background model) based automatic speaker recognition system and has been developed using Korean speakers' utterances. This system uses a channel compensation algorithm to compensate recording device characteristics. The system can give the users the ability to manage reference models with utterances from various environments to get more accurate recognition results. To evaluate the performance of SPO Verifier on Korean speakers, we compared this system with one of the most widely used commercial systems in the forensic field. The results showed that SPO Verifier shows lower EER(equal error rate) than that of the commercial system.

DSP Processor(TMS320C32)를 이용한 화자인증 보안시스템의 구현 (Implementation of Speaker Verification Security System Using DSP Processor(TMS320C32))

  • 함영준;권혁재;최수영;정익주
    • 산업기술연구
    • /
    • 제21권B호
    • /
    • pp.107-116
    • /
    • 2001
  • The speech includes various kinds of information : language information, speaker's information, affectivity, hygienic condition, utterance environment etc. when a person communicates with others. All technologies to utilize in real life processing this speech are called the speech technology. The speech technology contains speaker's information that among them and it includes a speech which is known as a speaker recognition. DTW(Dynamic Time Warping) is the speaker recognition technology that seeks the pattern of standard speech signal and the similarity degree in an inputted speech signal using dynamic programming. ln this study, using TMS320C32 DSP processor, we are to embody this DTW and to construct a security system.

  • PDF

On-Line Linear Combination of Classifiers Based on Incremental Information in Speaker Verification

  • Huenupan, Fernando;Yoma, Nestor Becerra;Garreton, Claudio;Molina, Carlos
    • ETRI Journal
    • /
    • 제32권3호
    • /
    • pp.395-405
    • /
    • 2010
  • A novel multiclassifier system (MCS) strategy is proposed and applied to a text-dependent speaker verification task. The presented scheme optimizes the linear combination of classifiers on an on-line basis. In contrast to ordinary MCS approaches, neither a priori distributions nor pre-tuned parameters are required. The idea is to improve the most accurate classifier by making use of the incremental information provided by the second classifier. The on-line multiclassifier optimization approach is applicable to any pattern recognition problem. The proposed method needs neither a priori distributions nor pre-estimated weights, and does not make use of any consideration about training/testing matching conditions. Results with Yoho database show that the presented approach can lead to reductions in equal error rate as high as 28%, when compared with the most accurate classifier, and 11% against a standard method for the optimization of linear combination of classifiers.

화자확인에서 일정한 결과를 얻기 위한 빠른 순시 확률비 테스트 방법 (Fast Sequential Probability Ratio Test Method to Obtain Consistent Results in Speaker Verification)

  • 김은영;서창우;전성채
    • 말소리와 음성과학
    • /
    • 제2권2호
    • /
    • pp.63-68
    • /
    • 2010
  • A new version of sequential probability ratio test (SPRT) which has been investigated in utterance-length control is proposed to obtain uniform response results in speaker verification (SV). Although SPRTs can obtain fast responses in SV tests, differences in the performance may occur depending on the compositions of consonants and vowels in the sentences used. In this paper, a fast sequential probability ratio test (FSPRT) method that shows consistent performances at all times regardless of the compositions of vocalized sentences for SV will be proposed. In generating frames, the FSPRT will first conduct SV test processes with only generated frames without any overlapping and if the results do not satisfy discrimination criteria, the FSPRT will sequentially use frames applied with overlapping. With the progress of processes as such, the test will not be affected by the compositions of sentences for SV and thus fast response outcomes and even consistent performances can be obtained. Experimental results show that the FSPRT has better performance to the SPRT method while requiring less complexity with equal error rates (EER).

  • PDF

화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구 (A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation)

  • 진세훈;강철호
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.410-415
    • /
    • 2005
  • 최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.

스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구 (Authentication Performance Optimization for Smart-phone based Multimodal Biometrics)

  • 문현준;이민형;정강훈
    • 디지털융복합연구
    • /
    • 제13권6호
    • /
    • pp.151-156
    • /
    • 2015
  • 본 논문에서는 스마트폰 환경의 얼굴 검출, 인식 및 화자 인증 기반 다중생체인식 개인인증 시스템을 제안한다. 제안된 시스템은 Modified Census Transform과 gabor filter 및 k-means 클러스터 분석 알고리즘을 통해 얼굴의 주요 특징을 추출하여 얼굴인식을 위한 데이터 전처리를 수행한다. 이후 Linear Discriminant Analysis기반 본인 인증을 수행하고(얼굴인식), Mel Frequency Cepstral Coefficient기반 실시간성 검증(화자인증)을 수행한다. 화자인증에 사용하는 음성 정보는 실시간으로 변화하므로 본 논문에서는 Dynamic Time Warping을 통해 이를 해결한다. 제안된 다중생체인식 시스템은 얼굴 및 음성 특징 정보를 융합 및 스마트폰 환경에 최적화하여 실시간 얼굴검출, 인식과 화자인증 과정을 수행하며 단일 생체인식에 비해 약간 낮은 95.1%의 인식률을 보이지만 1.8%의 False Acceptance Ratio를 통해 객관적인 실시간 생체인식 성능을 입증하여 보다 신뢰할 수 있는 시스템을 완성한다.

효율적인 통합시뮬레이션에 의한 스피커 연결 시스템의 SoC 설계 (SoC Design of Speaker Connection System by Efficient Cosimulation)

  • 송문빈;송태훈;오재곤;정연모
    • 대한전자공학회논문지SD
    • /
    • 제43권10호
    • /
    • pp.68-73
    • /
    • 2006
  • 본 논문에서는 SoC(System On a Chip)의 효율적인 설계와 빠른 검증을 위해서 Active-HDL과 Matlab의 Simulink를 연동하여 HDL, SystemC 및 알고리즘 레벨의 추상화를 동시에 통합하여 시뮬레이션 할 수 있는 방법론을 제시하고, 이를 이용한 다채널 스피커의 직렬연결 기법을 설계 및 구현하였다. 구현은 ARM 프로세서와 Xilinx Virtex4 FPGA를 기반으로 하고 AMBA 버스를 사용하여 연동하는 SoC Master 보드 상에서 이루어졌다. 이러한 방법은 하드웨어 부분의 RTL 코드를 IP화하여 소프트웨어 부분과 동시에 검증 할 수 있는 장점을 가지고 있으며 직렬 연결 스피커 시스템과 같이 많은 신호처리를 하는 부분에서 쉽고 빠르게 설계를 진행할 수 있음을 보였다.