• 제목/요약/키워드: Speaker Recognition

검색결과 555건 처리시간 0.024초

녹음 환경의 차이에 따른 화자의 음원 특성 비교: 발성유형지수 k를 중심으로 (Comparison of Speaker's Source Characteristics in Different Recording Environments by Using Phonation Type Index k)

  • 이후동;강선미;박한상;장문수
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.213-224
    • /
    • 2003
  • Spoken sound includes not only speaker's source but the characteristics of vocal tract and speech radiation. This paper is based on the theory of Park[1], who proposes the Phonation Type Index k; a variable that shows the characteristic of speaker's source excluding those of speaker's vocal tract and speech radiation. With Park's theory, we collect data by changing recording environments and expanding experimental data, and analyze the data collected to see whether or not the PTI k shows good discriminating power as a variable for speaker recognition. In the experiment, we repeatedly record 8 sentences ten times for each of 5 males in the environment of a recording room and an office, extract PTI k for each speaker, and measure the discriminating power for each speaker by using the value of PTI k. The result shows that PTI k has the excellent discriminating power of speakers. We also confirm that, even if the recording environment is changed, PTI k shows similar results.

  • PDF

화자 불변 특징추출을 위한 스펙트럼 정규화 (Spectral Normalization for Speaker-Invariant Feature Extraction)

  • 오광철
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.238-241
    • /
    • 1993
  • We present a new method to normalize spectral variations of different speakers based on physiological studies of hearing. The proposed method uses the cochlear frequency map to warp the input speech spectra by interpolation or decimation. Using this normalization method, we can obtain much improved recognition results for speaker independent speech recognition.

  • PDF

휴대용 화자확인시스템을 위한 배경화자모델 설계에 관한 연구 (A Study on Background Speaker Model Design for Portable Speaker Verification Systems)

  • 최홍섭
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.35-43
    • /
    • 2003
  • General speaker verification systems improve their recognition performances by normalizing log likelihood ratio, using a speaker model and its background speaker model that are required to be verified. So these systems rely heavily on the availability of much speaker independent databases for background speaker model design. This constraint, however, may be a burden in practical and portable devices such as palm-top computers or wireless handsets which place a premium on computations and memory. In this paper, new approach for the GMM-based background model design used in portable speaker verification system is presented when the enrollment data is available. This approach is to modify three parameters of GMM speaker model such as mixture weights, means and covariances along with reduced mixture order. According to the experiment on a 20 speaker population from YOHO database, we found that this method had a promise of effective use in a portable speaker verification system.

  • PDF

Combination of Classifiers Decisions for Multilingual Speaker Identification

  • Nagaraja, B.G.;Jayanna, H.S.
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.928-940
    • /
    • 2017
  • State-of-the-art speaker recognition systems may work better for the English language. However, if the same system is used for recognizing those who speak different languages, the systems may yield a poor performance. In this work, the decisions of a Gaussian mixture model-universal background model (GMM-UBM) and a learning vector quantization (LVQ) are combined to improve the recognition performance of a multilingual speaker identification system. The difference between these classifiers is in their modeling techniques. The former one is based on probabilistic approach and the latter one is based on the fine-tuning of neurons. Since the approaches are different, each modeling technique identifies different sets of speakers for the same database set. Therefore, the decisions of the classifiers may be used to improve the performance. In this study, multitaper mel-frequency cepstral coefficients (MFCCs) are used as the features and the monolingual and cross-lingual speaker identification studies are conducted using NIST-2003 and our own database. The experimental results show that the combined system improves the performance by nearly 10% compared with that of the individual classifier.

에너지와 VQ를 이용한 음성 인식 (Speech Recognition Using the Energy and VQ)

  • 황영수
    • 한국ITS학회 논문지
    • /
    • 제6권3호
    • /
    • pp.87-94
    • /
    • 2007
  • 본 논문은 음성인식과 화자 적응 방법들의 성능을 검토한 것이다. 본 논문에서 검토한 인식 방법은 에너지의 변화 상태와 VQ를 이용하여, 음성 인식을 수행하였으며, 화자에 따른 인식률 문제를 해결하기 위하여 화자 적응 방법(최대사후 확률추정법, 선형스펙트럼 추정법)을 검토하였다. 수행 결과 일반 VQ 방법보다 에너지 변화 상태를 이용한 인식 결과가 더 우수한 결과를 보였으며, 최대사후 확률 추정법을 적용할 경우, 2-3 %의 인식률 향상을 얻을 수 있었다.

  • PDF

모음길이 비율에 따른 발화속도 보상을 이용한 한국어 음성인식 성능향상 (An Improvement of Korean Speech Recognition Using a Compensation of the Speaking Rate by the Ratio of a Vowel length)

  • 박준배;김태준;최성용;이정현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.195-198
    • /
    • 2003
  • The accuracy of automatic speech recognition system depends on the presence of background noise and speaker variability such as sex, intonation of speech, and speaking rate. Specially, the speaking rate of both inter-speaker and intra-speaker is a serious cause of mis-recognition. In this paper, we propose the compensation method of the speaking rate by the ratio of each vowel's length in a phrase. First the number of feature vectors in a phrase is estimated by the information of speaking rate. Second, the estimated number of feature vectors is assigned to each syllable of the phrase according to the ratio of its vowel length. Finally, the process of feature vector extraction is operated by the number that assigned to each syllable in the phrase. As a result the accuracy of automatic speech recognition was improved using the proposed compensation method of the speaking rate.

  • PDF

국부 봉우리와 골에 의한 피치 검출과 퍼지를 이용한 화자 인식에 관한 연구 (A Study on Speaker Recognition using the Peak and valley pitch detection and the Fuzzy)

  • 김연숙;김희주;김경재
    • 한국정보통신학회논문지
    • /
    • 제8권1호
    • /
    • pp.213-219
    • /
    • 2004
  • 본 논문에서는 국부 봉우리와 골에 의한 피치 파라미터와 퍼지를 포함한 화자 인식 알고리즘을 제안한다. 음성의 패턴 인식에서 인식 성능을 저하시키는 시간 변동과 주파수 변동에 대한 문제를 해결하여 피치를 검출한다. 비선형적인 발성 시간에 따른 시간 변동의 폭을 모두 포함하기 위하여 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속 함수를 이용하여 표준 패턴을 작성하고 퍼지 패턴 매칭을 이용하여 인식을 수행한다.

벡터 평균값을 갖는 스트레인지 어트랙터 기반 화자인식 (A Speaker Recognition Based on Strange Attractor with Vector Average)

  • 김태식
    • 음성과학
    • /
    • 제8권3호
    • /
    • pp.133-142
    • /
    • 2001
  • In the area of speech processing, raw signals used to be presented in 2D format and different kinds of algorithms use the format to solve their problems. However, such kinds of presentation methods have limitations to extract characteristics from the signal, even though the algorithms are quiet good. The basic reason is that not much information can be detected from the 2D signal. Strange attractor in the field of chaos theory provides the 3D presentation method. In the area of the recognition problem, signal construction method is very important because good features can be detected from a good shape of attractors. This paper discusses a new presentation method that can be used to construct strange attractor in a different way. Normal strange attractor uses time-delay idea while the new method uses time-delay and vector average. This method provides us good information to be applied to speaker recognition problem.

  • PDF

유무선 전화를 통한 화자인식 알고리즘에 관한 연구 (A Study on Speaker Recognition Algorithm Through Wire/Wireless Telephone)

  • 김정호;정희석;강철호;김선희
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.182-187
    • /
    • 2003
  • 본 논문에서는 방사 기저함수 (RBF: Radial Basis Function) 신경망을 이용하여 특징 파라미터를 사상시켜 화자인식의 성능을 개선하기 위한 알고리즘을 제안하였다. 동일한 화자의 유무선 전화의 백터 영역이 서로 다르므로 제안한 화자확인시스템은 유무선 학습모델을 생성하기 위해서 먼저 음성인식을 통해 유무선 채널을 판별하고, 학습하지 않은 채널의 모델은 방사 기저함수 신경망을 이용하여 학습된 모델의 특징 벡터 (LPC-켑스트럼)를 사상하는 방법이다. 모의 실험 결과 기존의 켑스트럼 평균 차감법을 사용할 때보다 제안한 알고리즘을 적용했을 때의 인식율이 약 0.6%∼10.5%의 성능 향상을 보여주었다.

전신마비환자용 기능적 전기자극기 화자인식 시스템의 개발 (Development of Speaker Recognition System in FES for General Paralysis Patients)

  • 진달복;이영석;이현희;정호춘;임승관;여운진
    • 한국정보통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.819-825
    • /
    • 2003
  • 본 논문은 전신마비환자를 위한 FES(Functional Electrical Stimulator) 시스템 모드 변환 중의 하나를 선택할 수 있게 하는 화자 인식 시스템을 개발하고자 한다. 교통사고나 산업재해로 인한 마비환자가 늘어나고 있는 현대사회에서 환자의 운동 보조를 위해서 또는 운동 능력의 회복을 위하여 FES 시스템에 대한 연구가 늘어나고 있다. FES의 동작은 휴지, 운동, 치료 등 몇 개의 모드를 선택해야 하는데, 사지마비환자의 경우에는 키패드 조작이 불가능하므로 가장 일반적이고 자연스러운 언어로 이들 모드를 선택하고자 한다. 화자 인식 소자로는 Sensory(주)의 RSC-300을 사용하였고, FES 시스템과 RSC-300의 인터페이스는 PIC16F84마이크로 콘트롤러를 사용하였다.