• 제목/요약/키워드: Speaker Variation

검색결과 74건 처리시간 0.024초

남성의 숫자음 발성에 나타난 화자변이 (Speaker Variation in Number Production by Males)

  • 양병곤
    • 음성과학
    • /
    • 제8권3호
    • /
    • pp.93-104
    • /
    • 2001
  • The author analyzed acoustic parameters of ten Korean numbers produced by ten male students using Praat. Variations of f0, F1, F2 and F3 within and between speakers were examined by determining an average and standard deviation of the parameters of each number and by comparing the acoustic values with one another. Results showed that each subject produced the numbers within a certain range of variation across time. Thus, speaker identification can be more certain using dynamic information of the acoustic parameters within each vocalic segment. Also, percent difference of within-subjects' variation to that of between-subjects can be utilized to determine which sounds would be better stimuli for speaker identification. According to the criteria, the number '2' proved the best stimulus while the number '7' was the worst. Future studies will be necessary to explore robust methods of speaker identification under noisy conditions.

  • PDF

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

  • 김동현;홍광석
    • 인터넷정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.9-14
    • /
    • 2003
  • 기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.

  • PDF

잡음환경에 강인한 HMM기반 화자 확인 시스템에 관한 연구 (Speaker Verification System Based on HMM Robust to Noise Environments)

  • 위진우;강철호
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.69-75
    • /
    • 2001
  • 화자확인에서 화자내 변이, 잡음환경, 그리고 학습환경과 인식 환경의 불일치는 화자확인 시스템이 실용화될 수 없는 가장 큰 원인이다. 본 연구에서는, 실제 환경에 강인한 화자 확인 시스템의 구현에 초점을 맞추어 음성 전처리 과정인 잡음환경에 강인한 끝점추출 알고리즘, 잡음제거 및 마이크특성 보상기법, LPG(Linear Predictive Coefficient)켑스트럼 가중치에 의한 화자간 변별력 향상 기법을 제안한다. 실험 결과, LPC잔차신호(residue)를 이용한 끝점추출 알고리즘을 사용한 경우 약 17.65% 가량의 끝점 추출 에러율을 향상시켰으며, 제안한 잡음제거 및 마이크특성 보상기법을 사용한 경우 다른 마이크 환경에서 화자 오인식율이 약 36.93% 가량 개선되었다. 또한, 제안한 LPC켑스트럼 가중치에 의한 화자간 변별력 향상 기법은 평균 화자 오인식율을 약 6.515% 향상시켰다.

  • PDF

Speaker-specific Implementation of VOT Values in Korean

  • Han, Jeong-Im;Kim, Joo-Yeon
    • 음성과학
    • /
    • 제15권4호
    • /
    • pp.7-18
    • /
    • 2008
  • The purpose of the present study is to test whether VOT values of the Korean plain stops in intervocalic position are encoded differently by individual speakers. In Scobbie (2006), the VOT values to the /p/-/b/ voicing contrast in Shetland Isles English were found to demonstrate a high degree of inter-speaker variation. More importantly such variation was not arbitrary: first, there was an inverse relationship between the amount of prevoicing for /b/ and the duration of aspiration for /p/. Second, the inter-speaker variation was shown to be similar between the subjects and their parents. These results suggest that the phonetic targets for VOT are specified in fine detail by speakers. The present study further explores this issue in terms of testing 1) whether the likelihood and the amount of voicing for the intervocalic plain stops in Korean show inter-speaker variation; 2) whether the likelihood and the exact amount of voicing for the intervocalic plain stops in Korean are closely related to the amount of aspiration for the Korean intervocalic aspirated stops. The results of the study suggest that the voicing of intervocalic plain stops in Korean varied according to the individual speakers, but it did not seem to be directly interrelated with the amount of aspiration of the aspirated stop sin the same phonological position.

  • PDF

가중된 예측 오차 파라미터를 사용한 화자 확인 성능 개선 (Speaker Verification Performance Improvement Using Weighted Residual Cepstrum)

  • 위진우;강철호
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.48-53
    • /
    • 2001
  • LPC분석 기반 화자 확인에서 잔여성분(residue) 예측은 보통 무시되고, LPCC(LPC-cepstrum)만이 특징 파라미터로 사용된다. 본 연구에서는 잔여성분으로부터 추출된 예측파라미터인 잔여 켑스트럼(residual cepstrum)을 LPCC와 함께 여러 환경에서 구축된 데이터 베이스에서 화자특징 파라미터로 사용하였다. 또한, 잔여 켑스트럼에 포함되어있는 화자 고유성분인 피치(pitch)성분에 큰 가중치(weighting)를 줌으로써 화자간 변이(inter-speaker variation)가 커지도록 하는 가중치 함수를 제안한다. 실험 결과, LPCC만을 특징 파라미터로 사용하였을 경우보다 잔여 켑스트럼 (RCEP)과 LPCC를 동시에 사용했을 경우 약 6%가량의 인식 오류율이 향상 되었으며, 제안한 가중치 함수를 적용한 잔여 켑스트럼 (RCEP)과 LPCC를 동시에 사용했을 경우 인식 오류율이 가중치를 주지 않은 경우보다 약 2.45%가량 개선되었다.

  • PDF

화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구 (A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation)

  • 진세훈;강철호
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.410-415
    • /
    • 2005
  • 최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.

Training Method and Speaker Verification Measures for Recurrent Neural Network based Speaker Verification System

  • 김태형
    • 한국통신학회논문지
    • /
    • 제34권3C호
    • /
    • pp.257-267
    • /
    • 2009
  • This paper presents a training method for neural networks and the employment of MSE (mean scare error) values as the basis of a decision regarding the identity claim of a speaker in a recurrent neural networks based speaker verification system. Recurrent neural networks (RNNs) are employed to capture temporally dynamic characteristics of speech signal. In the process of supervised learning for RNNs, target outputs are automatically generated and the generated target outputs are made to represent the temporal variation of input speech sounds. To increase the capability of discriminating between the true speaker and an impostor, a discriminative training method for RNNs is presented. This paper shows the use and the effectiveness of the MSE value, which is obtained from the Euclidean distance between the target outputs and the outputs of networks for test speech sounds of a speaker, as the basis of speaker verification. In terms of equal error rates, results of experiments, which have been performed using the Korean speech database, show that the proposed speaker verification system exhibits better performance than a conventional hidden Markov model based speaker verification system.

Tolerance Interval Analysis를 이용한 배경화자 없는 간단한 화자인증시스템에 관한 연구 (On the Simple Speaker Verification System Using Tolerance Interval Analysis Without Background Speaker Models)

  • 최홍섭
    • 대한음성학회지:말소리
    • /
    • 제56호
    • /
    • pp.147-158
    • /
    • 2005
  • In this paper, we are focused to develop the simplified speaker verification algorithm without background speaker models, which will be adopted in the portable speaker verification system equipped in portable terminals such as mobile phone and PMP. According to the tolerance interval analysis, the population of someone's speaker model can be represented by a suitable number of selected independent samples of speaker model. So we can make the representative speaker model and threshold under the specified confidence level and coverage. Using proposed algorithm with the number of samples is 40, the experiments show that the false rejection rate is $3.0\%$ and the false acceptance rate $4.3\%$, worth comparing to conventional method's results, $5.4\%\;and\;5.5\%$, respectively. Next step of research will be on the suitable adaptation methods to overcome speech variation problems due to aging effect and operating environments.

  • PDF

히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식 (Improved speech emotion recognition using histogram equalization and data augmentation techniques)

  • 허운행;권오욱
    • 말소리와 음성과학
    • /
    • 제9권2호
    • /
    • pp.77-83
    • /
    • 2017
  • We propose a new method to reduce emotion recognition errors caused by variation in speaker characteristics and speech rate. Firstly, for reducing variation in speaker characteristics, we adjust features from a test speaker to fit the distribution of all training data by using the histogram equalization (HE) algorithm. Secondly, for dealing with variation in speech rate, we augment the training data with speech generated in various speech rates. In computer experiments using EMO-DB, KRN-DB and eNTERFACE-DB, the proposed method is shown to improve weighted accuracy relatively by 34.7%, 23.7% and 28.1%, respectively.