• Title/Summary/Keyword: 화자독립

Search Result 231, Processing Time 0.022 seconds

A Study on Digit Modeling for Korean Connected Digit Recognition (한국어 연결숫자인식을 위한 숫자 모델링에 관한 연구)

  • 김기성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.293-297
    • /
    • 1998
  • 전화망에서의 연결 숫자 인식 시스템의 개발에 대한 내용을 다루며, 이 시스템에서 다양한 숫자 모델링 방법들을 구현하고 비겨하였다. Word 모델의 경우 문맥독립 whole-word 모델을 구현하였으며, sub-word 모델로는 triphone 모델과 불파음화 자음을 모음에 포함시킨 modified triphone 모델을 구현하였다. 그리고 tree-based clustering 방법을 sub-word 모델과 문맥종속 whole-word 모델에 적용하였다. 이와 같은 숫자모델들에 대해 연속 HMM을 이용하여 화자독립 연결숫자 인식 실험을 수행한 결과, 문맥종속 단어 모델이 문맥독립 단어 모델보다 우수한 성능을 나타냈으며, triphone 모델과 modified triphone 모델은 유사한 성능을 나타냈다. 특히 tree-based clustering 방법을 적용한 문맥종속 단어 모델이 4연 숫자열에 대해 99.8%의 단어 dsltlr률 및 99.1%의 숫자열 인식률로서 가장 우수한 성능을 나타내었다.

  • PDF

Speaker-Independent Korean Digit Recognition Using HCNN with Weighted Distance Measure (가중 거리 개념이 도입된 HCNN을 이용한 화자 독립 숫자음 인식에 관한 연구)

  • 김도석;이수영
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.10
    • /
    • pp.1422-1432
    • /
    • 1993
  • Nonlinear mapping function of the HCNN( Hidden Control Neural Network ) can change over time to model the temporal variability of a speech signal by combining the nonlinear prediction of conventional neural networks with the segmentation capability of HMM. We have two things in this paper. first, we showed that the performance of the HCNN is better than that of HMM. Second, the HCNN with its prediction error measure given by weighted distance is proposed to use suitable distance measure for the HCNN, and then we showed that the superiority of the proposed system for speaker-independent speech recognition tasks. Weighted distance considers the differences between the variances of each component of the feature vector extraced from the speech data. Speaker-independent Korean digit recognition experiment showed that the recognition rate of 95%was obtained for the HCNN with Euclidean distance. This result is 1.28% higher than HMM, and shows that the HCNN which models the dynamical system is superior to HMM which is based on the statistical restrictions. And we obtained 97.35% for the HCNN with weighted distance, which is 2.35% better than the HCNN with Euclidean distance. The reason why the HCNN with weighted distance shows better performance is as follows : it reduces the variations of the recognition error rate over different speakers by increasing the recognition rate for the speakers who have many misclassified utterances. So we can conclude that the HCNN with weighted distance is more suit-able for speaker-independent speech recognition tasks.

  • PDF

Implementation of Speaker Independent Speech Recognition System Using Independent Component Analysis based on DSP (독립성분분석을 이용한 DSP 기반의 화자 독립 음성 인식 시스템의 구현)

  • 김창근;박진영;박정원;이광석;허강인
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.8 no.2
    • /
    • pp.359-364
    • /
    • 2004
  • In this paper, we implemented real-time speaker undependent speech recognizer that is robust in noise environment using DSP(Digital Signal Processor). Implemented system is composed of TMS320C32 that is floating-point DSP of Texas Instrument Inc. and CODEC for real-time speech input. Speech feature parameter of the speech recognizer used robust feature parameter in noise environment that is transformed feature space of MFCC(met frequency cepstral coefficient) using ICA(Independent Component Analysis) on behalf of MFCC. In recognition result in noise environment, we hew that recognition performance of ICA feature parameter is superior than that of MFCC.

Covariance Model Based on Multi-Band for Speaker Verification in Noise (잡음 환경에서 화자 확인을 위한 다중대역에 기반한 공분산 방법)

  • Choi Min Jung;Lee Ki Yong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.127-130
    • /
    • 2004
  • 기존의 전대역(Full-Band)에서 특징 파라미터를 추출하는 화자 확인(Speaker Verification) 시스템은 저대역이나 고대역에서 화자 정보의 특징이 제거되기 쉽다. 또한, 주파수 스펙트럼에 부분적으로 오염이 되는 경우, 특징 파라미터를 왜곡시켜 화자 확인 시스템의 성능을 저하시킨다. 본 논문에서는 이러한 문제점을 해결하기 위해 다중대역 공분산 모델(Covariance Model)을 제안한다. 제안한 방법은 주파수 영역에서 전대역을 여러 개의 부대역(Sub-Band)으로 분할하고, 부대역별로 독립적으로 특징 파라미터를 추출하여 공분산 모델을 구한다. 제안된 방법의 성능 확인을 위하여 공분산 모델 간의 거리를 측정하는 화자 확인 실험을 하였다. 잡음 환경에서 기존의 방법인 전대역에 기반한 공분산 모델과 제안한 방법을 비교 분석한 결과, 제안한 방법이 기존 방법보다 $2\%$정도 성능이 향상되었다. 또한, 제안된 방법은 전대역에 기반한 파라미터 차원 수를 다중대역의 개수로 분할하여 사용하므로 계산량의 감소와 저장 공간면에서 효율적이다.

  • PDF

A Study on the Speaker Adaptation in HMM Using Variable Number of Branches in Each State (상태당 가지수를 가변시킨 HMM을 이용한 화자적응화에 관한 연구)

  • 김광태;서정일;한유수;홍재근
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.3
    • /
    • pp.90-95
    • /
    • 1998
  • 본 논문에서는 CHMM인 CDHMM과 ARHMM을 이용하여 화자적응화 하는 방법을 각각 연구하였다. CDHMM에서는 최대사후화확률 추정법에 의하여 각 상태마다 하나의 가 지를 이용하여 화자에 적응시킨다. 본 논문에서는 음성의 다양한 음향학적 특징을 표현하기 위하여 상태마다 여러 개의 가지를 갖는 방법을 제안하였다. 상태마다의 적절한 가지 수를 결정하기 위하여 각 상태에 속하는 프레임 수와 특징 벡터들의 분산행렬의 행렬식값을 이용 하였다. ARHMM에서는 특징벡터로 선형예측계수를 사용하기 때문에 최대사후화확률 추정 법을 사용할 수 없게 된다. 따라서 화자독립모델을 이용하여 적응화자에 대한 음성을 Viterbi 알고리듬으로 상태별로 분할한 후 k-means 알고리듬을 이용하여 각 상태마다 하나 의 가지를 갖는 모델로 적응시키는 방법을 제안하였다.

  • PDF

Modified Weighting Model Rank Method for Improving the Performance of Real-Time Text-Independent Speaker Recognition System (실시간 문맥독립 화자인식 시스템의 성능향상을 위한 수정된 가중모델순위 결정방법)

  • Kim Min-Joung;Oh Se-Jin;Suk Su-Young;Chung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.107-110
    • /
    • 2002
  • 현재까지 개발된 화자식별 시스템 중 가중모델순위(Weighting Model Rank; WMR)방법을 이용한 화자인식 시스템이 비교적 높은 인식성능을 나타내고 있다. WMR 방법은 각 화자에 대한 프레임 유사도의 순위에 따라 지수함수 가중치로 대치시키는 방법을 사용하고 있으나, 이 방법은 유사도 본래의 변별력이 전체 계산에서 고려되지 않는 문제가 있었다. 이를 해결하기 위해 본 논문에서는 각 화자의 프레임 유사도와 지수함수를 이용한 가중치를 곱한 값을 이용하여 전체 스코어를 계산하도록 하는 수정된 가중모델 순위방법(Modified Weighting Model Rank; MWMR)을 제안한다. 제안한 방법의 유효성을 확인하기 위하여 316명의 화자를 대상으로 하여 인식실험을 실시한 결과, 학습 프레임이 10,000일 경우, MWMR 방법에서 $98.1\%$의 화자 인식률을 얻어 WMR 방법에 비해 약 $2.0\%$의 향상된 인식결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF

Rapid Speaker Adaptation Based on MAPLR with Adaptive Hybrid Priors Estimated from Reference Speakers (참조화자로부터 추정된 적응적 혼성 사전분포를 이용한 MAPLR 고속 화자적응)

  • Song, Young-Rok;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.6
    • /
    • pp.315-323
    • /
    • 2011
  • This paper proposes two methods of estimating prior distribution to improve the performance of rapid speaker adaptation based on maximum a posteriori linear regression (MAPLR). In general, prior distribution of the transformation matrix used in MAPLR adaptation is estimated from all of the training speakers who are employed to construct the speaker-independent model, and it is applied identically to all new speakers. In this paper, we propose a method in which prior distribution is estimated from a group of reference speakers, selected using adaptation data, so that the acoustic characteristics of the selected reference speakers may be similar to that of the new speaker. Additionally, in MAPLR adaptation with block-diagonal transformation matrix, we propose a method in which the mean matrix and covariance matrix of prior distribution are estimated from two groups of transformation matrices obtained from the same training speakers, respectively. To evaluate the performance of the proposed methods, we examine word accuracy according to the number of adaptation words in the isolated word recognition task. Experimental results show that, for very limited adaptation data, statistically significant performance improvement is obtained in comparison with the conventional MAPLR adaptation.

A study on the Recognition of Continuous Digits using Syntactic Analysis and One-Stage DP (구문 분석과 One-Stage DP를 이용한 연속 숫자음 인식에 관한 연구)

  • Ann, Tae-Ock
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.3
    • /
    • pp.97-104
    • /
    • 1995
  • This paper is a study on the recognition of continuous digits for the implementation of a voice dialing system, and proposes an method of speech recognition using syntactic analysis and One-Stage DP. In order to perform the speech recognition, first of all, we make DMS model by section division algorithm and let continuous digits data be recognized through the proposed One-Stage DP method using syntactic analysis. In this study, 7 continuous digits of 21 kinds which is pronounced by 8 male speakers two or three times, are used. The speaker dependent and speaker independent recognition are performed with the above data by way of the conventional One-Stage DP and the proposed One-Stage DP using syntactic analysis under the condition of laboratory environment. From the recognition experiments, it is shown that the proposed method was better than the established method. And, the recognition accuracy of speaker dependence and independence by the proposed One-Stage DP using syntactic analysis was about 91.7% and 89.7%.

  • PDF

A Study on the Fast Enrollment of Text-Independent Speaker Verification for Vehicle Security (차량 보안을 위한 어구독립 화자증명의 등록시간 단축에 관한 연구)

  • Lee, Tae-Seung;Choi, Ho-Jin
    • Journal of Advanced Navigation Technology
    • /
    • v.5 no.1
    • /
    • pp.1-10
    • /
    • 2001
  • Speech has a good characteristics of which car drivers busy to concern with miscellaneous operation can make use in convenient handling and manipulating of devices. By utilizing this, this works proposes a speaker verification method for protecting cars from being stolen and identifying a person trying to access critical on-line services. In this, continuant phonemes recognition which uses language information of speech and MLP(mult-layer perceptron) which has some advantages against previous stochastic methods are adopted. The recognition method, though, involves huge computation amount for learning, so it is somewhat difficult to adopt this in speaker verification application in which speakers should enroll themselves at real time. To relieve this problem, this works presents a solution that introduces speaker cohort models from speaker verification score normalization technique established before, dividing background speakers into small cohorts in advance. As a result, this enables computation burden to be reduced through classifying the enrolling speaker into one of those cohorts and going through enrollment for only that cohort.

  • PDF