• 제목/요약/키워드: Speaker Verification

검색결과 162건 처리시간 0.029초

강건한 문맥독립 화자식별을 위한 프레임 선택방법, 복합방법, 수정된 가중모델순위 방법 (Frame Selection, Hybrid, Modified Weighting Model Rank Method for Robust Text-independent Speaker Identification)

  • 김민정;오세진;정호열;정현열
    • 한국음향학회지
    • /
    • 제21권8호
    • /
    • pp.735-743
    • /
    • 2002
  • 본 논문에서는 세 가지 문맥독립 화자식별방법을 제안한다. 먼저, 화자 식별시 성도의 특성을 충분히 표현하지 못한 프레임이 포함되지 않도록 하는 프레임선택 (Frame Selection; FS)방법을 제안한다. 이 방법은 각 프레임에서 가장 큰 유사도와 두 번째로 큰 유사도의 차이를 평가하여 중요 프레임을 선택한 후, 선택된 프레임만을 이용하여 유사도를 계산하는 방법이다. 두 번째로 제안하는 복합 (Hyrid)방법은 FS와 가중모델순위 (Weighting Model Rank: WMR)방법을 결합시킨 것으로, FS방법을 이용하여 중요 프레임을 선택한 후, 지수함수 가중치를 이용하여 식별화자를 결정하는 것이다. 마지막으로 제안하는 수정된 가중모델순위 (Modified WMR; MWMR)방법은 식별화자를 결정할 때 유사도의 상대적 위치만을 고려하였던 기존의 U방법과는 달리 유사도와 유사도의 상대적 위치를 함께 고려하는 방법이다. 화자식별 실험결과 제안한 방법들이 기존의 ML 방법보다 향상된 식별률을 보였으며, 복합 방법 및 MWMR방법의 경우에는 WMR방법보다 각각 약 2%와 3%의 향상된 식별률을 나타내어 제안한 방법들의 유효성을 확인할 수 있었다.

지속시간항을 갖는 AR HMM을 이용한 잡음환경에서의 강인 화자인식 시스템 구현 (Implementation of a Robust Speaker Recognition System in Noisy Environment Using AR HMM with Duration-term)

  • 이기용;임재열
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.26-33
    • /
    • 2001
  • 기존의 AR HMM(auroreg ressive hidden morkov model)에 의한 화자인식 방법은 그 성능이 우수하나, 잡음에 대한 것이 고려되지 않아 실제 환경에 적용시 성능저하가 문제가 된다. 본 논문에서는 실제 환경에 맞추기 위하여 관측 신호 모델에서 잡음을 고려하고, 화자인식 성능을 개선하고자 지속시간항 (duration-term)을 포함하는 AR HMM을 이용하여 잡음환경에서의 강인한 화자인식 시스템을 제안한다. 100명의 화자 (남자 77명, 여자 23명)가 2주에 걸쳐 6번 발성한 숫자음 데이터베이스을 가지고, 백색잡음 및 자동차 잡음하에서 실험한 결과, 제안된 방법으로 성능이 향상됨을 확인하였다.

  • PDF

강인한 화자확인 시스템을 위한 채널 불일치 보상 기법에 관한 연구 (A Study on Channel Mis-match Compensation Technique for Robust Speaker Verification System)

  • 강철호;정희석
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.228-234
    • /
    • 2004
  • 본 논문에서는 공통 코드북의 평균값과 개인 코드북의 평균값 간의 바이어스 제거에 의한 채널 불일치 보상 알고리즘을 제안하였다. 제안한 방식은 학습시 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 미리 보상하여 학습하고, 확인시에도 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 보상하여 확인함으로써 채널의 불일치에 의한 급격한 본인 인식율 하락을 해결한다. 그러나 무조건적인 평균값 보상은 사칭자의 인증오류를 가져오게 되므로 채널의 변이에 비례하는 적절한 가중치를 통한 평균값 보상이 필요하다. 따라서, 제안하는 방식은 음성구간을 제외한 묵음구간의 분포를 고려하여 학습시 채널과의 변이차이를 비선형함수에 의한 가중치로 보상해준다. 모의 실험 결과 기존의 켑스트럼 평균 차감법을 사용할 때보다 제안한 알고리즘을 적용했을 때의 본인 거부 오류율이 평균 14.95% 감소함을 알 수 있었다.

A Novel Two-Level Pitch Detection Approach for Speaker Tracking in Robot Control

  • Hejazi, Mahmoud R.;Oh, Han;Kim, Hong-Kook;Ho, Yo-Sung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.89-92
    • /
    • 2005
  • Using natural speech commands for controlling a human-robot is an interesting topic in the field of robotics. In this paper, our main focus is on the verification of a speaker who gives a command to decide whether he/she is an authorized person for commanding. Among possible dynamic features of natural speech, pitch period is one of the most important ones for characterizing speech signals and it differs usually from person to person. However, current techniques of pitch detection are still not to a desired level of accuracy and robustness. When the signal is noisy or there are multiple pitch streams, the performance of most techniques degrades. In this paper, we propose a two-level approach for pitch detection which in compare with standard pitch detection algorithms, not only increases accuracy, but also makes the performance more robust to noise. In the first level of the proposed approach we discriminate voiced from unvoiced signals based on a neural classifier that utilizes cepstrum sequences of speech as an input feature set. Voiced signals are then further processed in the second level using a modified standard AMDF-based pitch detection algorithm to determine their pitch periods precisely. The experimental results show that the accuracy of the proposed system is better than those of conventional pitch detection algorithms for speech signals in clean and noisy environments.

  • PDF

음성처리에서 온라인 오류역전파 알고리즘의 학습속도 향상방법 (A Method on the Learning Speed Improvement of the Online Error Backpropagation Algorithm in Speech Processing)

  • 이태승;이백영;황병원
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.430-437
    • /
    • 2002
  • 다층신경망 (MLP: multilayer perceptron)은 다른 패턴인식 방법에 비해 여러 가지 훌륭한 특성을 가지고 있어 음성인식 및 화자인식 영역에서 폭넓게 사용되고 있다. 그러나 다층신경망의 학습에 일반적으로 사용되는 오류역전파 (EBP: error backpropagation) 알고리즘은 학습시간이 비교적 오래 걸린다는 단점이 있으며, 이는 화자인식이나 화자적응과 같이 실시간 처리를 요구하는 응용에서 상당한 제약으로 작용한다. 패턴인식에 사용되는 학습데이터는 풍부한 중복특성을 내포하고 있으므로 패턴마다 다층신경망의 내부변수를 갱신하는 온라인 계열의 학습방식이 속도의 향상에 상당한 효과가 있다. 일반적인 온라인 오류역전파 알고리즘에서는 가중치 갱신 시 고정된 학습률을 적용한다. 고정 학습률을 적절히 선택함으로써 패턴인식 응용에서 상당한 속도개선을 얻을 수 있지만, 학습률이 고정된 상태에서는 학습이 진행됨에 따라 학습에 기여하는 패턴영역이 달라지는 현상에 효과적으로 대응하지 못하는 문제가 있다. 이 문제에 대해 본 논문에서는 패턴의 기여도에 따라 가변 하는 학습률과 학습에 기여하는 패턴만을 학습에 반영하는 패턴별 가변 학습률 및 학습생략 (COIL: Changing rate and Omitting patterns in Instant Learning)방법을 제안한다. 제안한 COIL의 성능을 입증하기 위해 화자증명과 음성인식을 실험하고 그 결과를 제시한다.

양자 간 대화 상황에서의 화자인식을 위한 문장 시퀀싱 방법을 통한 자동 말투 인식 (Automatic Speech Style Recognition Through Sentence Sequencing for Speaker Recognition in Bilateral Dialogue Situations)

  • 강가람;권오병
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.17-32
    • /
    • 2021
  • 화자인식은 자동 음성시스템에서 중요한 기능을 담당하며, 최근 휴대용 기기의 발전 및 음성 기술, 오디오 콘텐츠 분야 등이 계속해서 확장됨에 따라 화자인식 기술의 중요성은 더구나 부각 되고 있다. 이전의 화자인식 연구는 음성 파일을 기반으로 화자가 누구인지 자동으로 판정 및 정확도 향상을 위한 목표를 가지고 진행되었다. 한편 말투는 중요한 사회언어학적 소재로 사용자의 사회적 환경과 밀접하게 관련되어 있다. 추가로 화자의 말투에 사용되는 종결어미는 문장의 유형을 결정하거나 화자의 의도, 심리적 태도 또는 청자에 대한 관계 등의 기능과 정보를 가지고 있다. 이처럼 종결어미의 활용형태는 화자의 특성에 따라 다양한 개연성이 있어 특정 미확인 화자의 종결어미의 종류와 분포는 해당 화자를 인식하는 것에 도움이 될 것으로 보인다. 기존 텍스트 기반의 화자인식에서 말투를 고려한 연구가 적었으며 음성 신호를 기반으로 한 화자인식 기법에 말투 정보를 추가한다면 화자인식의 정확도를 더욱 높일 수 있을 것이다. 따라서 본 연구의 목적은 한국어 화자인식의 정확도를 개선하기 위해 종결어미로 표현되는 말투(speech style) 정보를 활용한 방법을 제안하는 것이다. 이를 위해 특정인의 발화 내용에서 등장하는 종결어미의 종류와 빈도를 활용하여 벡터값을 생성하는 문장 시퀀싱이라는 방법을 제안한다. 본 연구에서 제안한 방법의 우수성을 평가하기 위해 드라마 대본으로 학습 및 성능평가를 수행하였다. 본 연구에서 제안한 방법은 향후 실존하는 한국어 음성인식 서비스의 성능 향상을 위한 수단으로 사용될 수 있으며 지능형 대화 시스템 및 각종 음성 기반 서비스에 활용될 것을 기대한다.

화자인식을 위한 음성 요소들의 성능분석 및 새로운 판단 논리 (Performance Analysis of Speech Parameters and a New Decision Logic for Speaker Recognition)

  • 이혁재;이병기
    • 대한전자공학회논문지
    • /
    • 제26권7호
    • /
    • pp.146-156
    • /
    • 1989
  • 본 논문에서는 화자인식 시스템의 인식율 향상을 도모하기 위하여 요소의 선택 및 판단 논리의 문제를 고찰하였다. 또한 화자인식 실험을 수행하는 과정에서 기준패턴의 작성이 인식율에 어떠한 영향을 미치는 가를 아울러 검토해 보았다. LPC, PARCOR 계수, LPC-cepstrum 계수등을 인식 요소로 사용하여 화자확인 오차율을 측정한 결과, 기준 패턴의 작성방법에 관계 없이 LPC-cepstrum계수의 성능이 LPC나 PARCOR 계수의 성능에 비해 우수한 것으로 나타났다. 또 화자인식율을 향상시키기 위하여 일반화된 거리 개념을 도입한 새로운 판단 논리를 제안하였다. 제안된 판단 논리는 기준화자 및 외부화자의 통계적 성질을 동시에 고려하여 각 요소들에 서로 다른 가중치를 둔다는 점이 기존의 방법들에 비해 다르다. 화자적인 실험결과 제안된 판단 논리를 적용한 경우가 기존의 방법들에 비해서 인식율이 향상된 것을 관찰할 수 있었다.

  • PDF

화자인식 알고리즘을 이용한 보안 시스템 구축 (An Implementation of Security System Using Speaker Recognition Algorithm)

  • 신유식;박기영;김종교
    • 전자공학회논문지T
    • /
    • 제36T권4호
    • /
    • pp.17-23
    • /
    • 1999
  • 본 연구는 문맥 독립형 화자 인식 알고리즘을 이용하여 보안시스템을 소프트웨어와 하드웨어로 구성한 논문이다. 화자인식을 이용한 보안시스템은 윈도우상에서 사운드카드를 이용하여 음성을 입력받고, 성도 모델링을 이용한 음성 파라미터를 추출하였으며, k-means 클러스터링 알고리즘을 기반으로 하여 화자를 모델링하였다. 등록된 화자에 대한 인식된 결과는 PIC16F84 마이크로 프로세서를 이용하여 자물쇠를 개${\cdot}$폐하도록 구성하였다. OFF-LINE의 실험은 TIMIT데이터를 이용하였으며, 5명의 화자에 대하여 ON-LINE으로 인식한 결과 학습시킨 데이터에 대해서는 100%의 인식률을 얻었으며 학습을 시키지 않은 데이터에 대해서는 99%의 인식률을 얻었다. 그리고 사용자 거부율 1%, 사칭자 허용률 0%, 검증평균오류는 0.5%를 보였다.

  • PDF

생체기반 GMM Supervector Kernel을 이용한 운전자검증 기술 (Driver Verification System Using Biometrical GMM Supervector Kernel)

  • 김형국
    • 한국ITS학회 논문지
    • /
    • 제9권3호
    • /
    • pp.67-72
    • /
    • 2010
  • 본 논문에서는 음성과 얼굴 정보를 분석하여 자동차환경에서 운전자를 검증하는 기술을 소개한다. 음성정보를 이용한 화자검증을 위해서는 잘 알려진 Mel-scale Frequency Cepstral Coefficients(MFCCs)를 음성 특징으로 사용하였으며, 동영상을 이용한 얼굴검증에 대해서는 AdaBoost를 이용하여 검출된 얼굴 영역에 대해 주성분 분석을 수행하여 데이터의 크기가 현저히 줄어든 특징벡터를 추출하였다. 기존의 화자검증 방식에 비해 본 논문에서는 추출된 음성 및 얼굴 특징들을 Gaussian Mixture Models(GMM)-Supervector기반의 Support Vector Machine(SVM)커넬 방식에 적용하여 운전자의 음성과 얼굴을 효과적으로 검증하는 방식을 제안하였다. 실험결과 제안한 방법은 단순한 GMM 방식이나 SVM 방식보다 운전자 검증성능을 향상시킴을 알 수 있었다.

개인성 정보의 가중화에 의한 화자확인의 성능향상 (Performance Improvement of Speaker Verification System By Speaker Information Weighting)

  • 김세현;장길진;오영환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.539-541
    • /
    • 1999
  • 기존의 문장종속형 화자인식 기법에서는 음성 신호의 각 분석 프레임이 같은 기여도를 갖는 것으로 간주한다. 화자인식 시스템의 성능향상을 위해서는 음운정보보다는 인식의 단서가 되는 화자의 개인성 정보가 잘 반영되도록 하는 것이 중요하다. 본 논문에서는 HMM (hidden Markov model)을 기반으로 한 문장종속형 화자확인 시스템의 성능향상을 위해 프레임별로 인식의 단서가 되는 개인성 정보의 양을 측정하는 방법과, 이를 화자확인 시스템에 적용하는 기법을 제안한다. 제안한 방법을 적용한 결과, 기존의 우도비(likelihood ratio) 정규화 점수를 사용하는 방법에 비해 동일오류율(EER; equal error rate)을 평균 34% 감소시켜 인식율 향상을 얻을 수 있다.

  • PDF