• Title/Summary/Keyword: Speech rate

Search Result 1,246, Processing Time 0.024 seconds

An Experiment of a Spoken Digits-Recognition System (숫자음성 자동 인식에 관한 일실험)

  • ;安居院猛
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.15 no.6
    • /
    • pp.23-28
    • /
    • 1978
  • This paper describes a speech recognition system for ten isolated spoken digits. In this system, acoustic parameters such as zero crossing rate, log energy and three formant frequencies estimated by linear prediction method were extracted for classification and/or recognition purpose(s). The former two parameters were used for the classification of unvoiced consonants and the latter one for the recognition of vowels and voiced consonants. Promising recognition results were obtained in this experiment for ten digit utterances spoken by a male speaker.

  • PDF

Recognition of Continuous speech via 64kbit/s(7 kHz) Codec (64kbit/s(7 kHz) Codec을 경유한 연속음성의 인식)

  • 정현열
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1993.06a
    • /
    • pp.125-127
    • /
    • 1993
  • 오디오 혹은 비디오화의, 방송 고품질전화 등의 음성신호의 전송을 위해 마련된 CCITT Recommendation G.722에 의거 Codec을 구성하고 이를 통과한 연속음성을 CMU의 불특정 화자 연속음성인식 시스템인 SPHINX에 입력하여 인식률을 조사 한 후 CODING전의 인식결과와 비교하였다. 이때 CODEC은 크게 네 부분(Trans Quarature Mirror Filter, Encoder, Decoder, Receive QMF)으로 구성하고 입력음성 데이터는 150화자에 의한 1018문장을 훈련용으로, 140문장을 테스트용으로 하였을 때의 단어 인식률을 인식률로 하였다. 또 이때 특징벡터로는 12차 Melcepstrum 계수를 사용하였다. 인식결과 코딩전(close talk Mic를 이용하여 직접입력)의 단어 인식률이 86.7%인데 비해 코딩후의 인식률은 85.6%로 나타나 약 1%의 인식률 저하를 가져와 코딩으로 인한 Error에 비해 비교적 양호한 결과를 얻을 수 있었다. 인식률 저하의 원인으로서는 코딩시의 BER(Bit Error Rate)에 의한 것으로 생각된다.

  • PDF

ON IMPROVING THE QUALITY OF RELP VOCODER

  • Oh, S.K.
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1985.10a
    • /
    • pp.79-86
    • /
    • 1985
  • Residual-ecited linear prediction vocoding is known to be one of the best approaches to speech coding in the range of 4.8 to 9.6 kbits/s. One problem associated with the RELP vocoder is that it often produces some roughness and tonal noise as the transmission rate becomes lower. In this paper, we investigate three methods to improve its quality. These include the multiband spectral folding method, the method of using both the spectrally folded signal and the pulsed ecitation signal, and the method of using both the multiband spectrally folded signal and the pulsed ecitation signal. It has been found that, among the three methods, the last one yields the best performance. It produces no roughness and little tonal noise.

  • PDF

A study on Voice Recognition using Model Adaptation HMM for Mobile Environment (모델적응 HMM을 이용한 모바일환경에서의 음성인식에 관한 연구)

  • Ahn, Jong-Young;Kim, Sang-Bum;Kim, Su-Hoon;Hur, Kang-In
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.11 no.3
    • /
    • pp.175-179
    • /
    • 2011
  • In this paper, we propose the MA(Model Adaption) HMM that to use speech enhancement and feature compensation. Normally voice reference data is not consider for real noise data. This method is not to use estimated noise but we use real life environment noise data. And we applied this contaminated data for recognition reference model that suitable for noise environment. MAHMM is combined with surround noise when generating reference patten. We improved voice recognition rate at mobile environment to use MAHMM.

Low Bit Rate Multi Mode Harmonic Transform Excitation Coding for Speech and Music (음성 및 음악을 위한 저 전송률 다중모드 하모닉 변환 여기 부호화기)

  • 김종학;이인성
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.525-528
    • /
    • 2001
  • 본 논문은 음성 및 음악을 위한 새로운 4kbps 다중 모드 하모닉 변환 여기 부호화 방법을 제안한다. 제안된 부호화방법은 음성/음악 분류기에 의해 분류된 신호를 각각 하모닉-잡음 여기모델과 MLT 여기모델로 부호화한다. 하모닉-잡음 여기모델에서는 전이구간과 유/무성음 혼합신호의 모델링오차 개선을 위해 MP(Matching Pursuit)방법과 혼합된 잡음스펙트럴을 표현하기 위한 캡스트럽 LPC 잡음 모델, 빠른 정현파 합성법을 제안한다. 음악에서는 비트할당 효율을 높이기위한 LP 적응 피크 분석을 적용한 MLT(Modulated Lapped Transform) 부호화 방법을 제안한다. 제안된 방법을 적용한 4kbps 음성부호화 방법은 전이구간에서의 향상된 모델링 구조를 보여주었으며, 주관적음질 평가 8kbps QCELP 보다 MOS 0.2 정도 향상된 결과를 얻었다.

  • PDF

Real-time Implementation of a GSM-EFR Speech Coder using a OakDSP Core (OakDSP Core를 이용한 GSM-EFR 음성 부호화기의 실시간 구현)

  • 최민석;변경진;김경수
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.135-138
    • /
    • 2000
  • 본 논문에서는 DSP Group사의 16 비트 고정 소수점 DSP인 OaKDSP Core를 사용하여 유럽의 이동통신에서 표준으로 사용되고 있는 음성 부호화기 알고리즘인 GSM-EFR (Global System for Mobile communications -Enhanced Full Rate) 을 실시간으로 구현하였다. 구현된GSM-EFR 음성 부호화기의 계산량은 약 24 MIPS가 소요되며, 7.06K 워드의 코드 메모리와 12.19K 워드의 데이터 메모리를 사용하였다. 구현된 음성 부호화기는 ETSI에서 제공하는 시험 벡터 샘플을 모두 통과하였으며, 객관적 평가 툴을 이용하여 지각 평가를 수행한 결과, 32kbps ADPCM과 비슷한 음질을 보였다. 본 논문에서 실시간으로 구현된 GSM-EFR 음성 부호화기는 IMT2000 비동기 방식의 음성 부호화기 표준인 GSM-AMR의 최상위 전송률 모드로서. 앞으로 IMT-2000 비동기식 단말기용 모뎀 ASIC에 탑재할 GSM-AMR 음성부호화기의 구현을 위한 기본 구조로 이용될 예정이다.

  • PDF

Aerodynamic Characteristics of Korean Bilabial Stop Consonant in Vowel Environment (모음환경에 따른 한국어 양순 파열음의 공기역학적인 특징)

  • Park Sang Hee;Lee Ok Bun;Jeong Ok-ran;Seok Dong Il
    • Proceedings of the KSPS conference
    • /
    • 2002.11a
    • /
    • pp.129-132
    • /
    • 2002
  • Aerodynamic analysis study was performed on 14 normal subjects(2 male, 12 female) by nonsense syllables composed of Korean bilabial stop(/p, p', $p^{h}$) and their preceding and/or following vowel /i, a, u/. That is [pi, p'i, phi, pa, p'a, pha, pu, p'u, $p^{h}u$]. All measures were analysed using Aerophone II voice function analyzer and included peak air pressure, mean air pressure, maximum flow rate, volume, mean SPL. As results, first, MSPL and MAP of /p, p', $p^{h}$/ themselves were significantly different. In addition, different vowel enviroment also produced significantliy different aerodynamic chracteristics those consonants.

  • PDF

Fast Speaker Adaptation Using Sub-Stream Based Eigenvoice (Sub-Stream 기반의 Eigenvoice를 이용한 고속 화자적응)

  • Song, Hwa-Jeon;Lee, Jong-Seok;Kim, Hyung-Soon
    • MALSORI
    • /
    • v.55
    • /
    • pp.93-102
    • /
    • 2005
  • In this paper, sub-stream based eigenvoice method is proposed to overcome the weak points of conventional eigenvoice and dimensional eigenvoice. In the proposed method, sub-streams are automatically constructed by the statistical clustering analysis that uses the correlation information between dimensions. To obtain the reliable distance matrix from covariance matrix for dividing into optimal sub-streams, MAP adaptation technique is employed to the covariance matrix of training data and the sample covariance of adaptation data. According to our experiments, the proposed method shows $41\%$ error rate reduction when the number of adaptation data is 50.

  • PDF

Detection of Pathological Voice Using Linear Discriminant Analysis

  • Lee, Ji-Yeoun;Jeong, Sang-Bae;Choi, Hong-Shik;Hahn, Min-Soo
    • MALSORI
    • /
    • no.64
    • /
    • pp.77-88
    • /
    • 2007
  • Nowadays, mel-frequency cesptral coefficients (MFCCs) and Gaussian mixture models (GMMs) are used for the pathological voice detection. This paper suggests a method to improve the performance of the pathological/normal voice classification based on the MFCC-based GMM. We analyze the characteristics of the mel frequency-based filterbank energies using the fisher discriminant ratio (FDR). And the feature vectors through the linear discriminant analysis (LDA) transformation of the filterbank energies (FBE) and the MFCCs are implemented. An accuracy is measured by the GMM classifier. This paper shows that the FBE LDA-based GMM is a sufficiently distinct method for the pathological/normal voice classification, with a 96.6% classification performance rate. The proposed method shows better performance than the MFCC-based GMM with noticeable improvement of 54.05% in terms of error reduction.

  • PDF

On an Improving Performance of Low Bit-Rate Speech Coder (저전송율 보코더의 성능개선에 관한 연구)

  • 박영호;홍성훈;배명진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.7
    • /
    • pp.101-107
    • /
    • 1998
  • 본 논문에서는 잔차신호를 모델링하기 위해 사용되는 동적희박대수코드북에 대해 분석하고 성능이 향상된 새로운 대수코드북 구조 및 검색과정을 제안하였다. 제안된 알고리 즘은 대수 코드북의 단점을 계산량의 증가 없이 개선시켰다. 먼저 기존에 단순히 부호비트 만을 검색하는 것에 대해 다양한 펄스 진폭의 선택을 가능하게 하였다. 그리고 동일 트랙상 에서 두 펄스를 선택하게 하였으며 추가 계산량이 필요없는 무성음에서 유성음으로의 천이 구간 검출기를 이용하여 LSF 보간 시 발생하는 천이구간에서의 LP지연을 최소화하였다. 제 안된 알고리즘을 이용한 5.6kbps음성부호화기는 전화선상의 음질을 시료로 하여 주관적 음 질면에서 6.3kbps MP-MLQ와 동등하였으며 MNRU Q=15dB에서는 MP-MLQ에 비해 약간 의 음질열하가 발생하였다.

  • PDF