• 제목/요약/키워드: speech rates

검색결과 271건 처리시간 0.029초

연속음성신호에서 피치와 TSIUVC 추출에 관한 연구 (A Study on Extraction of Pitch and TSIUVC in Continuous Speech)

  • 이시우
    • 인터넷정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.85-92
    • /
    • 2005
  • 본 연구에서는 연속음성에서 개별 피치펄스와 TSIUVC를 추출하는 새로운 방법을 제안하고자 한다. TSIUVC 탐색과 추출은 FIR-STREAK 필터를 사용한 개별 피치펄스와 영교차율을 사용한다. 실험결과, 개별 피치펄스의 추출률은 남자음성에서 $96{\%}$, 여자음성에서 $85{\%}$를 얻을 수 있었다. 아울러, TSIUVC 추출률은 남자 음성의 경우 $88{\%}$에서 $94.9{\%}$, 여자 음성의 경우는 $84.8{\%}$에서 $94.9{\%}$의 결과를 얻었다. 제안한 방법은 음성분석, 음성합성, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.

  • PDF

음성강조에의 응용을 위한 신경회로망에 의한 잡음량의 추정법 (Estimation method of noise intensity by neural network for application in speech enhancement)

  • 최재승
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.129-136
    • /
    • 2005
  • 잡음이 중첩된 음성으로부터 잡음을 제거하기 위해서는, 잡음의 크기에 따라서 음성처리 시스템의 매개변수를 변경하는 것이 양호한 음질의 음성을 재생하는데 바람직하다. 본 논문은 백색잡음 및 자동차의 주행잡음에 의해 저하된 3단계의 음성을 학습할 수 있는 3층 구조의 신경회로망을 사용하여, 음성 중의 잡음량의 크기를 추정하는 방식을 제안한다. 실험결과, 제안한 방법은 신경회로망에 의해서 잡음량이 추정될 수 있는 것을 알 수 있었으며, 화자와 음성 데이터가 학습데이터와 다르더라도 백색잡음에 대해서 평균 $95\%$ 이상의 높은 잡음 추정율을 구할 수 있었다.

한국어 연속음성중 키워드 인식을 위한 반연속 은닉 마코브 모델과 One-Pass 알고리즘의 개선방안 (Improvement of Semicontinuous Hiden Markov Models and One-Pass Algorithm for Recognition of Keywords in Korean Continuous Speech)

  • 최관선
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.358-363
    • /
    • 1994
  • This paper presents the improvement of the SCHMM using discrete VQ and One-Pass algorithm for keywords recognition in Korean continuous speech. The SCHMM using discrete VQ is a simple model that is composed of a variable mixture gaussian probability density function with dynamic mixture number. One-Pass algorithm is improved such that recognition rates are enhanced by fathoming any undesirable semisyllable with the low likelihood and the high duration penalty, and computation time is reduced by testing only the frame which is dissimilar to the previously testd frame. In recognition experiments for speaker-dependent case, the improved One-Pass algorithm has shown recognition rates as high as 99.7% and has reduced compution time by about 30% compared with the currently abailable one-pass algorithm.

  • PDF

음소인식 오류에 강인한 N-gram 기반 음성 문서 검색 (N-gram Based Robust Spoken Document Retrievals for Phoneme Recognition Errors)

  • 이수장;박경미;오영환
    • 대한음성학회지:말소리
    • /
    • 제67호
    • /
    • pp.149-166
    • /
    • 2008
  • In spoken document retrievals (SDR), subword (typically phonemes) indexing term is used to avoid the out-of-vocabulary (OOV) problem. It makes the indexing and retrieval process independent from any vocabulary. It also requires a small corpus to train the acoustic model. However, subword indexing term approach has a major drawback. It shows higher word error rates than the large vocabulary continuous speech recognition (LVCSR) system. In this paper, we propose an probabilistic slot detection and n-gram based string matching method for phone based spoken document retrievals to overcome high error rates of phone recognizer. Experimental results have shown 9.25% relative improvement in the mean average precision (mAP) with 1.7 times speed up in comparison with the baseline system.

  • PDF

한국어 발화 속도의 연령별 증가에 관한 연구 -만 $3{\sim}8$ 세 아동을 대상으로- (Increase in Speaking Rate by $3{\sim}8$-year-old Korean Children)

  • 김태경;장경희;이필영
    • 음성과학
    • /
    • 제13권3호
    • /
    • pp.83-95
    • /
    • 2006
  • This study attempts to suggest a criterion of Korean language development. For this purpose we investigated speaking rates of the spontaneous utterances produced by 144 children, aged 3 to 8. We analyzed each subject's speaking rate and its relevance with speaker's age, gender and utterance length. To determine the relative contributions of variables to the speaking rate, multiple regression was conducted. Results of this study can be summarized as follows: (1) The mean and maximum values of the speaking rate increased with the growth of age. (2) A statistically significant increase in speaking rate appeared at two-year intervals. (3) There was no significant difference between male and female groups in the speaking rate. (4) The multiple regression analysis has shown that along with the speaker's age, the utterance length(the mean number of syllables per utterance) is also important in estimating the speaking rates.

  • PDF

음성인식을 위한 잡음하의 음성왜곡제거 (The suppression of noise-induced speech distortions for speech recognition)

  • 지상문;오영환
    • 전자공학회논문지S
    • /
    • 제35S권12호
    • /
    • pp.93-102
    • /
    • 1998
  • 본 논문에서는 잡음에 의해 기인된 음성의 왜곡을 제거하여 음성인식기의 성능을 향상시키는 방법을 기술한다. 잡음 환경에서는 음성의 발성 방식이 변이하고(롬바드효과), 잡음이 음성신호에 첨가되므로 음성인식기의 성능을 저하시킨다. 롬바드 효과는 주변 잡음의 크기나 종류, 화자의 특성과 음소 등에 종속적인 비선형적인 변환이므로 측정방법이 알려져 있지 않았다. 본 연구에서는 롬바드 효과의 크기를 측정하는 방법을 제시하고, 롬바드 효과의 크기에 따른 롬바드 효과의 보정방법을 제안한다. 잡음에 의한 음성의 왜곡은 다음의 과정을 통해서 제거한다. 우선, 스펙트럼 차감법을 사용하여 음성에 포함된 잡잡음을 제거하고, 음성의 동적인 특성을 강조하기 위해 대역 통과 필터링을 한다. 두 번째로 에너지 정규화 과정을 통해서 롬바드 효과에 의한 음성의 발성 강도의 변이를 제거한다. 마지막으로 제안한 롬바드 효과의 크기 척도는 롬바드 음성의 켑스트럼에 존재하는 왜곡을 제거하는 변환에 이용한다. 제안한 방법을 음성인식에 적용한 결과, SNR(signal-to-noise ratio) 0, 10, 20 dB에서 46.3%, 75.5%, 87.4%의 인식률을 82.6%, 95.7%, 97.6%로 향상시켰다.

  • PDF

Adaptive Encoding of Fixed Codebook in CELP Coders

  • Kim, Hong-Kook
    • The Journal of the Acoustical Society of Korea
    • /
    • 제16권3E호
    • /
    • pp.44-49
    • /
    • 1997
  • In this paper, we propose an adaptive encoding method of fixed codebook in CELP coders and implement an adaptive fixed code exited linear prediction(AF-CELP) speech coder. AF-CELP exploits the fact that the fixed codebook contribution to speech signal is also periodic like the adaptive codebook (or pitch filter) contribution. By modeling the fixed code book with the pitch lag and the gain from the adaptive codebook, AF-CELP can be implemented at low bit rates as well as low complexity. Listening tests show that a 6.4 kbit/s AF-CELP has a comparable quality to the 8 kbit/s CS-ACELP in background noise conditions.

  • PDF

Sentence design for speech recognition database

  • Zu Yiqing
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.472-472
    • /
    • 1996
  • The material of database for speech recognition should include phonetic phenomena as much as possible. At the same time, such material should be phonetically compact with low redundancy[1, 2]. The phonetic phenomena in continuous speech is the key problem in speech recognition. This paper describes the processing of a set of sentences collected from the database of 1993 and 1994 "People's Daily"(Chinese newspaper) which consist of news, politics, economics, arts, sports etc.. In those sentences, both phonetic phenometla and sentence patterns are included. In continuous speech, phonemes always appear in the form of allophones which result in the co-articulary effects. The task of designing a speech database should be concerned with both intra-syllabic and inter-syllabic allophone structures. In our experiments, there are 404 syllables, 415 inter-syllabic diphones, 3050 merged inter-syllabic triphones and 2161 merged final-initial structures in read speech. Statistics on the database from "People's Daily" gives and evaluation to all of the possible phonetic structures. In this sentence set, we first consider the phonetic balances among syllables, inter-syllabic diphones, inter-syllabic triphones and semi-syllables with their junctures. The syllabic balances ensure the intra-syllabic phenomena such as phonemes, initial/final and consonant/vowel. the rest describes the inter-syllabic jucture. The 1560 sentences consist of 96% syllables without tones(the absent syllables are only used in spoken language), 100% inter-syllabic diphones, 67% inter-syllabic triphones(87% of which appears in Peoples' Daily). There are rougWy 17 kinds of sentence patterns which appear in our sentence set. By taking the transitions between syllables into account, the Chinese speech recognition systems have gotten significantly high recognition rates[3, 4]. The following figure shows the process of collecting sentences. [people's Daily Database] -> [segmentation of sentences] -> [segmentation of word group] -> [translate the text in to Pin Yin] -> [statistic phonetic phenomena & select useful paragraph] -> [modify the selected sentences by hand] -> [phonetic compact sentence set]

  • PDF

음성 인식 신경망을 위한 음성 파라키터들의 성능 비교 (A Comparative Study of Speech Parameters for Speech Recognition Neural Network)

  • 김기석;임은진;황희융
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.61-66
    • /
    • 1992
  • 음성 인식에 신경망 모델을 적용하는 많은 연구들이 있었지만, 주된 관심은 음성인식에 적합한 구조와 학습 방법이었다. 그러나 음성인식에 신경망 모델을 적용한 시스템의 효율 향상은 모델 자체의 구조뿐 아니라, 신경망 모델의 입력으로 어떤 음성 파라미터를 사용하는가에 따라서도 큰 영향을 받는다. 본 논문은 기존 음성인식에 신경망 모델을 적용한 많은 연구들에서 사용한 음성 파라미터를 살펴보고, 대표적인 음성 파라미터 6개를 선정하여, 같은 데이타와 같은 신경망 모델 하에서 어떻게 성능이 달라지는지를 분석한다. 인식 실험에 있어서는 한국어 파열음 9개에 대한 8개 데이터 집합과 모음 8개에 대한 18개 데이터 집합을 음성 파라미터로 하고 신경망 모델은 순환 신경망 모델을 사용하여 노드의 수를 일정하게 한뒤 다양한 입력 파라미터의 성능을 비교하였다. 그 결과 선형 예측 계수로부터 얻어진 delta cepstrum의 음성 파라미터가 가장 좋은 성능을 보였으며 이때 인식률은 같은 학습 데이터에 대해 파열음 100.0%, 모음 95.1%이었다.

  • PDF

신경회로망에 의한 음성 및 잡음 인식 시스템 (Speech and Noise Recognition System by Neural Network)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제5권4호
    • /
    • pp.357-362
    • /
    • 2010
  • 본 논문에서는 음성 및 잡음 구간을 검출하기 위하여 신경회로망에 의한 음성 및 잡음 인식시스템을 제안한다. 제안하는 신경회로망은 오차역전파알고리즘에 의하여 학습되는 네트워크이다. 먼저, 고속 푸리에변환에 의한 전력스펙트럼 및 선형예측계수가 각 프레임에서 신경회로망의 입력으로 사용되어 네트워크가 학습된다. 따라서 제안된 신경회로망은 잡음이 중첩되지 않은 음성 및 잡음을 사용하여 학습된다. 제안한 인식시스템의 성능은 다양한 음성 및 백색, 프린터, 도로, 자동차 잡음 들을 사용하여 인식율에 의하여 평가된다. 본 실험에서는 신경회로망의 학습 데이터 및 평가 데이터가 다를 경우에도 이러한 음성 및 잡음에 대하여 92% 이상의 인식율을 구할 수 있었다.