• Title/Summary/Keyword: 음소

Search Result 529, Processing Time 0.029 seconds

Lip-Synch System Optimization Using Class Dependent SCHMM (클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화)

  • Lee, Sung-Hee;Park, Jun-Ho;Ko, Han-Seok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.25 no.7
    • /
    • pp.312-318
    • /
    • 2006
  • The conventional lip-synch system has a two-step process, speech segmentation and recognition. However, the difficulty of speech segmentation procedure and the inaccuracy of training data set due to the segmentation lead to a significant Performance degradation in the system. To cope with that, the connected vowel recognition method using Head-Body-Tail (HBT) model is proposed. The HBT model which is appropriate for handling relatively small sized vocabulary tasks reflects co-articulation effect efficiently. Moreover the 7 vowels are merged into 3 classes having similar lip shape while the system is optimized by employing a class dependent SCHMM structure. Additionally in both end sides of each word which has large variations, 8 components Gaussian mixture model is directly used to improve the ability of representation. Though the proposed method reveals similar performance with respect to the CHMM based on the HBT structure. the number of parameters is reduced by 33.92%. This reduction makes it a computationally efficient method enabling real time operation.

A Study on the prosody generation of artificial neural networks (인공신경망의 운률 발생에 관한 연구)

  • 신동엽;민경중;강찬구;임운천
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.87-90
    • /
    • 2000
  • 문-음성 합성기의 자연감을 높이기 위해 주로 자연음에 존재하는 운률 법칙을 정확히 구현해 주어야 한다. 일반적으로 언어학적 정보를 이용하거나 자연음으로부터 추출한 운률 정보를 추출한 운률 법칙을 합성에 이용하고 있다. 이와 같이 구한 운률 법칙이 자연음에 존재하는 모든 운률 법칙을 포함할 수 있으면, 자연스러운 합성음을 들을 수 있겠으나, 실질적으로는 모든 법칙을 구현한다는 것은 어려운 실정이고, 자연음으로부터 추출한 운률 법칙이 잘못 구현되는 경우 합성음의 자연성이 떨어지는 것을 피할 수 없을 것이다. 이런 점을 고려하여 우리는 자연음에 내재하는 운율 법칙을 훈련을 통해 학습할 수 있는 인공 신경망을 제안하였다 운률의 세 가지 요소는 피치, 지속시간, 크기 변화가 있는데, 인공 신경망은 문장이 입력되면, 각 해당 음소의 지속시간에 따른 피치 변화와 크기 변화를 학습할 수 있도록 설계하였다. 신경망을 훈련시키기 위해 고립 단어군과 음소균형 문장군을 화자로 하여금 발성하게 하여, 녹음하고, 분석하여 운률 데이터베이스를 구축하였다. 자연음의 각 음소에 대해 지속시간과 피치변화 그리고 크기 변화를 구하여 곡선 적응 방법을 이용하여 각 변화 곡선에 대한 계수를 구해 데이터베이스를 구축한다. 이렇게 구축한 데이터베이스를 이용해 인공 신경망을 훈련시켜 평가한 결과 훈련용 데이터를 계속 확장하면 좀 더 자연스러운 운률을 발생시킬 수 있음을 관찰하였다.

  • PDF

A study on the robust context-dependent acoustic models by considering the state splitting and the time variant of speech (음성의 시간변이와 상태분할을 고려한 강건한 문맥의존 음향모델에 관한 연구)

  • 오세진;김광동;노덕규;정현열
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.229-231
    • /
    • 2003
  • 일반적으로 음성은 시간함수로 표현되며 음성인식에서 표준모델을 모델링하는 것은 매우 중요한 문제이다. 음절 단어, 연속음성을 발성할 때 자음과 모음에 따라 발성시간에 차이가 있으며 이를 잘 모델링하는 것 또한 음성인식에서는 중요한 문제라고 할 수 있다. 따라서 본 연구에서는 강건한 음향모델을 학습하기 위해 시간의 변화와 상태분할과정에서의 모델의 변화를 고려하여 다양한 구조의 초기모델을 작성하였다. 각 초기모델에 의한 HM-Net 문맥의존 음향모델은 음소결정트리 기반 SSS 알고리즘(PDT-SSS)을 이용하였다. PDT-SSS 알고리즘은 미지의 문맥정보를 해결하기 위해 문맥방향과 시간방향으로 목표 상태수에 도달할 때까지 상태분할을 수행하여 모델을 작성하는 방법이다. 음성의 시간변이를 고려한 강건한 문맥의존 음향모델을 작성하기 위해 설정한 각 모델의 구조에 대한 유효성을 확인하기 위해 국어공학센터의 452 단어를 대상으로 음소와 단어인식 실험을 수행한 결과. 음소인식의 경우 상태수 2000개에서 2상태 구조의 모델에 비해 4상태 구조가 약 11.4% 향상된 인식성능과 39.2초의 인식시간을 단축할 수 있었다. 또한 단어인식의 경우 상태수 2000개에서 1상태 구조의 모델에 비해 4상태 구조가 약 5% 향상된 인식성능과 4상태 구조에서 한 단어를 인식하는데 평균 0.8초가 소요되었다. 따라서 강건한 문맥의존 음향모델을 작성하기 위해 수행한 초기모델의 구조에 관한 연구가 향후 음성인식 시스템을 구축하는데 유효함을 확인할 수 있었다.

  • PDF

The Transfer Effects of Perceptual Learning by Japanese of Korean Alveolar Stop Consonants (일본인의 한국어 치경폐쇄음 지각 학습의 전이효과)

  • Kim, Yoon-Hyun;Kim, Jung-Oh
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2005.05a
    • /
    • pp.154-157
    • /
    • 2005
  • 본 연구는 한국어를 학습한 경험이 없는 일본인의 한국어 치경폐쇄음 세 음소 범주(/ㄷ/, /ㄸ/, /ㅌ/)에 대한 지각 학습이 양순폐쇄음 세 음소(/ㅂ/. /ㅃ/, /ㅍ/) 지각에 미치는 효과를 검토하였다. 김윤현과 김정오 (2005)는 일본인들이 지각 학습과제에서 한국어 치경폐쇄음 세 범주를 구분할 때 기식성. 긴장성과 같은 변별 자질에 선택주의 하게 됨을 시사하는 결과를 얻었다. 치경음에 대한 지각 학습으로 적절한 단서에 선택주의 하게 되었다면, 같은 지각 차원에 따라 세 범주로 구분되는 양순음의 경우에도 치경폐쇄음 학습 후 음성자극들을 옳게 범주화를 할 것이다. 실험 결과, 치경폐쇄음 자극(/다/, /따/, /타/)만으로 이루어진 동일-상이판단 학습 과제에서 치경폐쇄음 파악의 정확율은 29.1%(표준오차=3.02) 증가하였고, 조음 위치의 변화에 따른 음향적 차이에도 불구하고 양순폐쇄음의 정반응율도 15.8%(표준오차=3.27)의 향상을 보였다. 이 전이효과는 치경음 지각 학습 때문에 일본인들이 폐쇄음의 세 음소 범주를 구분하는 적절한 지각 차원에 선택주의하게 되었음을 시사한다.

  • PDF

Perceptual-phonemic Contrasts of Single-word Intelligibility for Testing Korean Dysarthric Speech (뇌성마비로 인한 마비말장애의 음소대조 낱말명료도와 문장명료도)

  • 김수진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.8
    • /
    • pp.694-702
    • /
    • 2003
  • The word intelligibility test for dysarthric speakers was designed to examine phonetic contrasts that are likely (1) to be sensitive to intelligibility impairment and (2) to contribute significantly to speech intelligibility. These phonetically contrasting word pairs were tested and proved to be reliable and to be valid, The results showed that in Korean dysarthric patients, the percentage of error in final position contrast was higher than in any other position. Unlike the results of previous studies, the initial-position contrasts were crucial in predicting the overall intelligibility among Korean patients.

Speech Recognition Optimization Learning Model using HMM Feature Extraction In the Bhattacharyya Algorithm (바타차랴 알고리즘에서 HMM 특징 추출을 이용한 음성 인식 최적 학습 모델)

  • Oh, Sang-Yeob
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.199-204
    • /
    • 2013
  • Speech recognition system is shall be composed model of learning from the inaccurate input speech. Similar phoneme models to recognize, because it leads to the recognition rate decreases. Therefore, in this paper, we propose a method of speech recognition optimal learning model configuration using the Bhattacharyya algorithm. Based on feature of the phonemes, HMM feature extraction method was used for the phonemes in the training data. Similar learning model was recognized as a model of exact learning using the Bhattacharyya algorithm. Optimal learning model configuration using the Bhattacharyya algorithm. Recognition performance was evaluated. In this paper, the result of applying the proposed system showed a recognition rate of 98.7% in the speech recognition.

A Study on Word Juncture Modeling for Continuous Speech Recognition of Korean Language (한국어 연속음성 인식을 위한 단어 결합 모델링에 관한 연구)

  • Choi, In-Jeong;Un, Chong-Kwan
    • The Journal of the Acoustical Society of Korea
    • /
    • v.13 no.5
    • /
    • pp.24-31
    • /
    • 1994
  • In this paper, we study continuous speech recognition of Korean language using acoustic models of word juncture coarticulation. To alleviate the performance degradation due to coarticulation problems, we use context-dependent units that model inter-word transitions in addition to intra-word transitions. In all cases the initial phone of each word has to be specified for each possible final phone of the previous word similarly for the final phone of each word. To improve the robustness of the HMM parameters, the covariance matrix is smoothed. We also use position-dependent units to improve the discriminative power between units. Simulation results show that when the improved models of word juncture coarticulation are used. the recognition performance is considerably improved compared to the baseline system using only intra-word units.

  • PDF

Voice Recognition using a Phoneme based Similarity Algorithm in Home Networks (음소 기반의 유사율 알고리즘을 이용한 Home Network 환경에서의 음성 인식)

  • Lee, Chang-Sub;Yu, Jae-Bong;Park, Joon-Seok;Yang, Soo-Ho;Kim, Yu-Seop;Park, Chan-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.767-770
    • /
    • 2005
  • 네트워크상에서 전달되는 음성데이터는 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 홈 네트워크를 제어하는데 있어서 음성 인식률을 향상시키기 위해서 음성 데이터를 입력받아, 이를 음소단위 기반의 유사율 알고리즘을 적용시켜 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 음소단위 기반의 유사율 알고리즘과 다중발화를 이용했을 때 Threshold 값이 85% 일 경우 사전에 구축된 단어와 매칭된 인식률은 100%였으며, 사전에 없는 단어의 오인식률은 2%로 감소되었다.

  • PDF

The Development of Grapheme-Phoneme Correspondence Rules and Kulja Reading in Korean-Chinese Children (중국 조선족 아동의 한글 자소-음소 대응능력의 발달과 글자읽기와의 관계에 관한 연구)

  • Yoon, Hyekyung;Park, Hyewon
    • Korean Journal of Child Studies
    • /
    • v.26 no.4
    • /
    • pp.145-155
    • /
    • 2005
  • This study was carried out to reveal Hangul acquisition processes in Korean-Chinese children who grow in a horizontal bilingual environment. In this experiment Grapheme substitution/deletion tasks and sensible/non-sensible Kulja reading tasks were administered to 3-, 4-, 5- and 6-year-old Korean-Chinese children growing up in a bilingual environment. Results were that Korean-Chinese children showed similar patterns of Hangul acquisition processes to Korean children but acquired grapheme-phoneme(G-P) correspondence earlier than Korean children. Hangul acquisition rates were 41.7%, 45.7%, 53% and 92.7% at age 3, 4, 5 and 6, respectively. Both Korean-Chinese and Korean children showed higher sensitivity for the final consonant than for the initial and middle consonants. Correlation between phoneme perception and reading was only significant among 6-year-olds in non-sensible Kulja reading tasks. Training in transforming ideographic Chinese to a phonetic system could effect early acquisition of G-P correspondence in Korean-Chinese children.

  • PDF

Experiments on Extraction of Non-Parametric Warping Functions for Speaker Normalization (화자 정규화를 위한 비정형 워핑함수 도출에 관한 실험)

  • Shin, Ok-Keun
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.5
    • /
    • pp.255-261
    • /
    • 2005
  • In this paper. experiments are conducted to extract a set of non-Parametric warping functions to examine the characteristics of the warping among speakers' utterances. For this Purpose. we made use of MFCC and LP spectra of vowels in choosing reference spectrum of each vowel as well as representative spectra of each speaker. These spectra are compared by DTW to give the warping functions of each speaker. The set of warping functions are then defined by clustering the warping functions of all the speakers. Noting that male and female warping functions have shapes similar to Piecewise linear function and Power function respectively, a new hybrid set of warping functions is defined. The effectiveness of the extracted warping functions are evaluated by conducting phone level recognition experiments, and improvements in accuracy rate are observed in both warping functions.