• Title/Summary/Keyword: 화자 특성

Search Result 224, Processing Time 0.025 seconds

ETRI신기술-화자검증기술

  • Electronics and Telecommunications Research Institute
    • Electronics and Telecommunications Trends
    • /
    • v.14 no.5 s.59
    • /
    • pp.151-152
    • /
    • 1999
  • 화자검증기술은 화자의 입력음성으로부터 화자의 특성을 계산하고 해당 화자를 유일하게 구분할 수 있는 통계적 모수를 추출하여 이를 화자의 개인 데이터베이스로 구축하며, 검증시에는 개인데이터베이스와 입력되는 미지 화자의 특성에 대한 유사도를 비교.검증하는 것이다. 또한 이때 주어진 임계치(Threshold)의 만족 정도에 따라 동일 화자여부를 결정하는 결정논리(decision logic)로 검증엔진을 구성하는 기술이며, 응용영역에 따라 환경잡음, 채널잡음 등 사용환경과 전체시스템과의 적절한 시나리오 구성 등이 실용화를 위한 중요한 척도가 된다.

  • PDF

A Study on Speaker Adaptation in Continuous Digits Speech Recognition (연속숫자 음성인식에서 화자 적응에 관한 연구)

  • 최광표
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.319.2-322
    • /
    • 1998
  • 본 논문에서는 반음절 단위 HMM을 이용한 연속 숫자 음성인식 시스템의 2단계로 이루어지는 화자 적응 알고리즘을 수행하였다. 음성인식 시스템에서 사용되는 훈련데이터의 양이 많더라도 발성속도, 발성크기 등의 화자 발성 습관에 따라 화자독립 음성인식 시스템에서는 많은 문제점들이 발생하게 된다. 불특정 화자를 대상으로 한 음성 인식에 있어서 개인차에 의한 변동을 대처하는 방법으로 유효한 음향적 특성을 추출하기 위해 스펙트럼의 동적인(Dynamic) 특성을 주로 이용하고 있다. 따라서 본 논문에서는 화자 적을 기법의 하나인 frequency warped spectral matching 방법을 연속숫자 음성 인식시스템에 적용하였으며, 이때 인식에 의한 적절한 화자별 스케일링 계수 선정 방법을 수행하여 오인식률이 감소함을 확인하였다.

  • PDF

Speaker Verification System Based on HMM Robust to Noise Environments (잡음환경에 강인한 HMM기반 화자 확인 시스템에 관한 연구)

  • 위진우;강철호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.7
    • /
    • pp.69-75
    • /
    • 2001
  • Intra-speaker variation, noise environments, and mismatch between training and test conditions are the major reasons for the speaker verification system unable to use it practically. In this study, we propose robust end-point detection algorithm, noise cancelling with the microphone property compensation technique, and inter-speaker discriminate technique by weighting cepstrum for robust speaker verification system. Simulation results show that the average speaker verification rate is improved in the rate of 17.65% with proposed end-point detection algorithm using LPC residue and is improved in the rate of 36.93% with proposed noise cancelling and microphone property compensation algorithm. The proposed weighting function for discriminating inter-speaker variations also improves the average speaker verification rate in the rate of 6.515%.

  • PDF

Comparison of Speaker's Source Characteristics in Different Vowel Characteristics (모음에 따른 화자의 음원특성 비교)

  • 이후동;강선미;장문수;박한상
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.240-240
    • /
    • 2003
  • 본 논문에서는 기존의 매개변수들과 달리 화자의 고유한 특성을 보여주는 화자인식 매개변수를 발성유형에서 찾고자 한다. 일반적으로 화자의 음원 특성이 발성 유형을 결정한다. 발성유형의 특성을 나타내는 매개변수로는 개방지수(open quotient)와 스펙트럼의 기울기 (spectral tilt)가 있으며, 스펙트럼의 기울기는 음향학적으로 그 특성을 측정할 수 있다. 그러나 기존의 측정방식은 사람마다 다른 기본 주파수와 모음의 영향을 전부 혹은 일부 배제하지 못하였다. (중략)

  • PDF

A Noble Decoding Algorithm Using MLLR Adaptation for Speaker Verification (MLLR 화자적응 기법을 이용한 새로운 화자확인 디코딩 알고리듬)

  • 김강열;김지운;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.2
    • /
    • pp.190-198
    • /
    • 2002
  • In general, we have used the Viterbi algorithm of Speech recognition for decoding. But a decoder in speaker verification has to recognize same word of every speaker differently. In this paper, we propose a noble decoding algorithm that could replace the typical Viterbi algorithm for the speaker verification system. We utilize for the proposed algorithm the speaker adaptation algorithms that transform feature vectors into the region of the client' characteristics in the speech recognition. There are many adaptation algorithms, but we take MLLR (Maximum Likelihood Linear Regression) and MAP (Maximum A-Posterior) adaptation algorithms for proposed algorithm. We could achieve improvement of performance about 30% of EER (Equal Error Rate) using proposed algorithm instead of the typical Viterbi algorithm.

A Study on Reduction of the Processing time of Speaker Recognition using the PSOLA Method (PSOLA 방식을 이용한 화자인식 시스템의 처리시간 단축에 관한 연구)

  • 박현영;서지호;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2447-2450
    • /
    • 2003
  • 화자인식은 음성의 특성을 이용해서 화자의 신원을 확인하는 기술이다. 이러한 기술은 등록된 화자집단 중 화자를 식별하는 화자식별(speaker Identification)과 지금 발성한 화자만을 비교하여 확인하는 화자확인(speaker verification)이 있다. 이러한 화자인식은 음성에 내재되어 있는 화자정보를 추출하여 개인을 확인하는 기술로 전화망을 통한 서비스가 확산되어 가고 있는 현대사회에 가장 효과적인 기술 중 하나이다. 또한 PDA를 이용한 증건거래 시스템 등 현대사회에서는 실시간으로 화자인식이 이루어져야 한다. 본 논문에서는 이와 같이 실시간 화자인식을 위한 처리시간 단축에 관하여 연구하였다. 처리시간 단축을 위하여 우선 피치주기 단위로 음성 파형을 분해한 다음 분해된 피치 단위에 윈도우 함수를 곱해서 단구간 신호의 열로 만들고 분해된 단위를 조절하는 PSOLA 합성방식을 이용하여 인식 시스템의 전처리단을 재구성하였다. 이와 같은 방식으로 제안한 인식시스템의 처리시간, 인식률을 기존의 화자인식 시스템과 비교하였다.

  • PDF

Speaker Change Detection by Removing Phonetic Information (음성학적 정보의 제거를 통한 화자변화 구간 검출)

  • Park Sun Young;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.187-190
    • /
    • 2002
  • 본 논문에서는 음성 신호에서 발성 화자가 바뀌는 시점을 자동적으로 찾아내는 화자변화 구간 검출에 대하여 연구하였다. 화자변화 검출을 위해서는 음성 신호에 나타나는 화자 개별성에 의한 차이만 비교해야 하는데 실제 환경에서는 화자들이 동일한 내용의 발성을 하지 않으므로 다른 발성내용에 의한 정보가 포함되어 검출 성능을 저하시킨다. 그러므로 각 화자의 개별특성만 강조되도록 발성내용에 포함된 음성학적 정보의 영향을 제거하는 방법을 통해 검출 성능을 향상시켰다.

  • PDF

A Study of Continuous Speaker Recognition for Intelligent Responsive Space (지능형 반응공간을 위한 연속적 화자인식에 관한 연구)

  • Kwon, Soon-Il
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.293-297
    • /
    • 2007
  • Human Computer Interaction 기술을 구체화 시키기 위한 Intelligent Responsive Space의 개발에 있어서 음성정보는 여러 가지로 유용하게 활용될 수 있다. 음성신호로부터 얻을 수 있는 다양한 정보 중의 하나가 화자인식을 이용한 화자의 신원식별이다. 이 논문에서는 화자인식 인식이 어려운 환경에서도 음성 신호로부터 추출한 특성벡터들을 선택적으로 사용함으로써 화자인식 성능을 높일 수 있는 새로운 방법을 제안하려 한다. 화자를 인식하는데 있어서 인식오류를 발생시킬 가능성이 높은 특성벡터들을 인식을 위한 판단의 대상에서 배제시킴으로써 성능을 향상시킬 수 있다. 실험결과에 의하면 0.25초에서2초 길이의 짧은 음성만으로도 기존의 방법에 비해 20에서 51%의 상대적 성능 향상을 보였다. 새롭게 제안된 방법을 적용하면 기존의 방법들에 비해 세밀하면서도 정확하게 연속적으로 화자들을 인식할 수 있게 된다.

  • PDF

Speaker Indexing using Vowel Based Speaker Identification Model (모음 기반 하자 식별 모델을 이용한 화자 인덱싱)

  • Kum Ji Soo;Park Chan Ho;Lee Hyon Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.151-154
    • /
    • 2002
  • 본 논문에서는 음성 데이터에서 동일한 화자의 음성 구간을 찾아내는 화자 인덱싱(Speaker Indexing) 기술 중 사전 화자 모델링 과정을 통한 인덱싱 방법을 제안하고 실험하였다. 제안한 인덱싱 방법은 문장 독립(Text Independent) 화자 식별(Speaker Identification)에 사용할 수 있는 모음(Vowel)에 대해 특징 파라미터를 추출하고, 이를 바탕으로 화자별 모델을 구성하였다. 인덱싱은 음성 구간에서 모음의 위치를 검출하고, 구성한 화자 모델과의 거리 계산을 통하여 가장 가까운 모델을 식별된 결과로 한다. 그리고 식별된 결과는 화자 구간 변화와 음성 데이터의 특성을 바탕으로 필터링 과정을 거쳐 최종적인 인덱싱 결과를 얻는다. 화자 인덱싱 실험 대상으로 방송 뉴스를 녹음하여 10명의 화자 모델을 구성하였고, 인덱싱 실험을 수행한 결과 $91.8\%$의 화자 인덱싱 성능을 얻었다.

  • PDF

Text Independent Speaker Recognition System Using Prosody (운율 정보를 이용한 문장 독립형 화자인식)

  • 경연정
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.396-400
    • /
    • 1998
  • 문장 독립형 화자인식 시스템에 운율정보 사용을 제안한다. 스펙트럴 특징패턴만을 주로 사용하고 있는 기존의 화자인식 시스템은 채널왜곡이나 기타 잡음환경에서 성능이 크게 저하된다. 그러나 화자의 speaking style을 반영하는 운율정보는 주위환경에 강인한 특성을 갖는다. 적합한 코드북 크기와 피치 컨투어 특징 벡터의 길이를 실험 치로 구하여 자동차 소음과 백색 가우시안 소음이 섞인 음성에 대하여 화자인식 실험을 하였다. 실험 결과 소음 환경에서 운율 정보를 이용한 화자 dsltlr 시스템이 스펙트럴 모델보다 인식율이 높음을 보였다.

  • PDF