• 제목/요약/키워드: speaker identification

검색결과 152건 처리시간 0.032초

부가 주성분분석을 이용한 미지의 환경에서의 화자식별 (Speaker Identification Using Augmented PCA in Unknown Environments)

  • 유하진
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.73-83
    • /
    • 2005
  • The goal of our research is to build a text-independent speaker identification system that can be used in any condition without any additional adaptation process. The performance of speaker recognition systems can be severely degraded in some unknown mismatched microphone and noise conditions. In this paper, we show that PCA(principal component analysis) can improve the performance in the situation. We also propose an augmented PCA process, which augments class discriminative information to the original feature vectors before PCA transformation and selects the best direction for each pair of highly confusable speakers. The proposed method reduced the relative recognition error by 21%.

  • PDF

좁은대역 스펙트럼의 차이값과 상관계수에 의한 화자확인 연구 (A Study on Speaker Identification by Difference Sum and Correlation Coefficients of Narrow-band Spectrum)

  • 양병곤;강선미
    • 음성과학
    • /
    • 제9권3호
    • /
    • pp.3-16
    • /
    • 2002
  • We examined some problems in speaker identification procedures: transformation of acoustic parameters into auditory scales, invalid measurement values, and comparability of spectral energy values across the frequency range. To resolve those problems, we analyzed the acoustic spectral energy of three Korean numbers produced by ten female students from narrow-band spectrograms at 19 proportional time points of each voiced segment. Then, cells of the first five spectral matrices were averaged to form a matrix model for each speaker. The correlation coefficients and sum of the absolute amplitude difference in each pair of the spectral models of the ten subjects were obtained. Also, some individual matrix models were compared to those of the same subject or the other subject with a similar spectral model. Results showed that in numbers '2' and '9' subjects could not be clearly distinguished from the others but in number '4' it shed some possibility of setting threshold values for speaker identification if we employed the coefficients and the sum of absolute difference. Further studies would be desirable on various combinations of the range of long-term average spectra and the degree of signal pre-emphasis.

  • PDF

대역별로 여과한 음성 강도의 차이값과 상관계수에 의한 화자확인 연구 (A Study on Speaker Identification by Difference Sum and Correlation Coefficient of Intensity Levels from Band-pass Filtered Sounds)

  • 양병곤
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.249-258
    • /
    • 2003
  • This study attempted to examine a speaker identification method using difference sum and correlation coefficient determined from a pair of intensity level matrices of band-pass-filtered numeric sounds produced by ten female speakers of similar age and height. Subjects recorded three digit numbers at a quiet room at a sampling rate of 22 kHz on a personal computer. Collected data were band-pass-filtered at five different band ranges. Then, matrices of five intensity levels at 100 proportional time points were obtained. Pearson correlation coefficients and the sum of absolute intensity differences between a pair of given matrices were determined within and across the speakers. Results showed that very high correlation coefficient and small difference sum generally occurred within each speaker but some individual variation was also observed. Thus, the matrix pair with a higher coefficient and a smaller difference sum was averaged to form each individual's model. Comparison among the speakers yielded generally low coefficients and large differences, which suggests successful speaker identification, but among them there were a few cases with very high coefficients and small differences. Future studies will focus on finer band ranges and additional spectral parameters at some peak points of the intensity contour at a low frequency band.

  • PDF

강인한 VQ-PCA에 기반한 효율적인 화자 식별 (Efficient Speaker Identification based on Robust VQ-PCA)

  • 이기용
    • 인터넷정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.57-62
    • /
    • 2004
  • 본 논문에서는, 효율적인 화자 식별을 위하여 강인한 벡터 양자화 주성분 분석을 제안하였다. 제안된 방법은 화자 식별에서 특징벡터의 학습을 위한 고차원(high dimension) 문제와 이상치(Outlier)에 대한 문제를 해결 하기위하여 제안 되었다. 먼저, 제안된 방법은 M-추정을 이용하여 강인한 벡터 양자화(Vector Quantization : VQ) 에 의한 몇 개의 분리된 영역으로 데이터 공간을 나눈다. 분리된 자 영역에서 공분산 행렬로부터 강인한 주성분 분석(Principal Component Analysis)이 얻어지게 된다. 마지막으로 각 영역에서 강인한 PCA에 의하여 줄어든 차원을 갖는 변환된 특징 벡터로부터 화자의 가우시안 혼합 모델(Gaussian Mixture Model : GMM)을 구한다. 제안된 방법은 같은 성능하에서 대각 공분산 행렬을 갖는 전형적인 GMM방법과 비교할 때 더빠른 결과를 얻었으며, 데이터의 저장공간을 줄일 수 있었을 뿐 아니라, 이상치가 존재할 경우에 더욱 강인하였다.

  • PDF

독립성분 분석을 이용한 강인한 화자식별 (Robust Speaker Identification using Independent Component Analysis)

  • 장길진;오영환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권5호
    • /
    • pp.583-592
    • /
    • 2000
  • 본 논문에서는 독립성분분석을 이용한 음성의 특징 벡터 변환방법을 제안한다. 제안한 방법은 여러 환경에서 수집된 음성신호의 켑스트럼 벡터를 다수의 특징 함수들의 선형결합으로 가정하고, 독립성분분석을 이용하여 분리된 켑스트럼 벡터를 학습과 인식에 사용한다. 변환된 벡터 영역에서는 반복적으로 나타나는 화자의 특징 정보는 강조되고 임의로 나타나는 채널 왜곡은 억제되는 효과를 볼 수 있다. 제안된 방법의 유효성을 검증하기 위해 실제 전화음성으로 문장독립형 화자식별 실험을 수행하였으며, 결과를 통해 독립성분분석을 이용한 특징벡터의 변환이 채널 환경 변화에 대해 보다 강인함을 보였다.

  • PDF

Modified GMM Training for Inexact Observation and Its Application to Speaker Identification

  • Kim, Jin-Young;Min, So-Hee;Na, Seung-You;Choi, Hong-Sub;Choi, Seung-Ho
    • 음성과학
    • /
    • 제14권1호
    • /
    • pp.163-174
    • /
    • 2007
  • All observation has uncertainty due to noise or channel characteristics. This uncertainty should be counted in the modeling of observation. In this paper we propose a modified optimization object function of a GMM training considering inexact observation. The object function is modified by introducing the concept of observation confidence as a weighting factor of probabilities. The optimization of the proposed criterion is solved using a common EM algorithm. To verify the proposed method we apply it to the speaker recognition domain. The experimental results of text-independent speaker identification with VidTimit DB show that the error rate is reduced from 14.8% to 11.7% by the modified GMM training.

  • PDF

지속적으로 발성한 모음에 의한 화자인식 (Automatic Speaker Identification by Sustained Vowel Phonation)

  • 배건성
    • 한국음향학회지
    • /
    • 제11권1호
    • /
    • pp.35-41
    • /
    • 1992
  • 지속적으로 발성한 모음에 대해 각 화자의 특징을 나타내는 벡터양자화 코드북을 만들고 이를 이용해 화자를 인식하는 방법을 제안하고 실험하였다. 특히 벡터로는 모음 /이/로 부터 각각의 피치 주기에 대해 얻어진 선형예측계수를 사용하였으며, 코드북의 크기는 4가 적절함을 실험적으로 보였다. 인식실험에서, 학습에 사용된 데이타를 이용했을 경우에는 99.4%의 인식율을 보였으며, 학습에 사용되지 않은 50개의 피치 주기를 포함하는 음성신호로 부터는 89.4%의 인식율을 보였다.

  • PDF

화자 인식을 위한 특징 벡터의 유연한 선택 (Flexible selection of feature vectors for speaker identification)

  • 윤상민;박경미;김길연;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.45-48
    • /
    • 2007
  • This paper proposes a flexible selection method of feature vectors for speaker identification. In speaker identification, overlapped region between speaker models lowers the accuracy. Recently, a method was proposed which discards overlapped feature vectors without regard to the source causing the overlap. We suggest a new method using both overlapped features among speakers and non-overlapped features to mitigate the overlap effects.

  • PDF

Development of a Work Management System Based on Speech and Speaker Recognition

  • Gaybulayev, Abdulaziz;Yunusov, Jahongir;Kim, Tae-Hyong
    • 대한임베디드공학회논문지
    • /
    • 제16권3호
    • /
    • pp.89-97
    • /
    • 2021
  • Voice interface can not only make daily life more convenient through artificial intelligence speakers but also improve the working environment of the factory. This paper presents a voice-assisted work management system that supports both speech and speaker recognition. This system is able to provide machine control and authorized worker authentication by voice at the same time. We applied two speech recognition methods, Google's Speech application programming interface (API) service, and DeepSpeech speech-to-text engine. For worker identification, the SincNet architecture for speaker recognition was adopted. We implemented a prototype of the work management system that provides voice control with 26 commands and identifies 100 workers by voice. Worker identification using our model was almost perfect, and the command recognition accuracy was 97.0% in Google API after post- processing and 92.0% in our DeepSpeech model.

홍채와 음성을 이용한 고도의 개인확인시스템 (Development of Advanced Personal Identification System Using Iris Image and Speech Signal)

  • 이대종;고현주;곽근창;전명근
    • 한국지능시스템학회논문지
    • /
    • 제13권3호
    • /
    • pp.348-354
    • /
    • 2003
  • 본 논문에서는 홍채인식과 화자식별 방법을 결합한 고도의 개인확인 시스템을 제안한다. 제안된 방법은 홍채인식과 화자식별의 장점만을 부각시켜 최종적으로 결정법칙에 의해 화자를 인식하는 구조로 되어 있으며, 특히 음성에 노이즈가 첨가된 환경하에서도 우수한 성능을 보일 수 있도록 시스템을 구성하였다. 제안된 알고리즘의 성능을 검증하기 위하여 실험한 결과, 보안의 정도가 높은 상급(High)에 해당하는 인식률은 홍채만을 이용한 경우보다 56.7%, 음성을 이용한 화자식별 방법만을 사용한 경우보다 10% 정도 인식률이 향상되었다. 또한 음성에 노이즈를 첨가한 경우에도 보안의 정도가 높은 상급(High)에 해당하는 인식률은 홍채만 이용한 경우보다 인식률이 30%, 노이즈가 첨가된 음성만 이용한 경우보다 60% 정도 향상된 인식률을 보였다.