• 제목/요약/키워드: 연속음성

검색결과 420건 처리시간 0.037초

HMM의 교정 학습과 후처리를 이용한 연결 숫자음 인식에 관한 연구 (A Study on the Recognition of the Connected Digits Using CorrectIve Trammg WIth HMM and Post Processing)

  • 우인봉
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.161-165
    • /
    • 1994
  • HMM은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, 이 HMM의 학습방법인 maimum like-ihood estimation 은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 있다. 이러한 문제점을 보와하기 위하여 연결어 인식 알고리즘인 Segmental K-means의 학습과정에 교정 학습법을 도입하여 모델 파라메터 값을 재조정 해 준다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가했다. 이렇게 추가된 단어 모델들에 대한 몇가지 규픽을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시스템은 TMS320C30 프로세서 내장한 DSP 보드와 IBM PC 사엥서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성화자 3명을 대상으로 작성하였다. 인식 결과 21종 전화번호 252개 데이터에 대하여 화자 종속으로 92.1% 인식률을 나타내었다.

  • PDF

차세대 이동통신망을 핸드오버 관리 방안 (A Hand-over Management for Next Mobile Communication Networks)

  • 이종찬;박상준;박기홍;이양원
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2012년도 춘계학술논문집 2부
    • /
    • pp.832-834
    • /
    • 2012
  • 다양한 이종의 액세스 망들이 공존하는 융합망 환경에서 기존 음성 서비스에 적용된 절차적이고 정적인 제어 방식으로는 무선 멀티미디어 서비스 연속성을 효과적으로 지원하는 것은 현실적으로 어렵다고 여겨진다. 본 연구에서는 정책을 기반으로 서비스 연속성을 효과적으로 지원하기 위한 핸드오버 관리 방안을 제시하고자 한다.

  • PDF

제한된 한국어 연속음성에 나타난 음소인식에 관한 연구 (A Study on the Phoneme Recognition in the Restricted Continuously Spoken Korean)

  • 심성룡;김선일;이행세
    • 전자공학회논문지B
    • /
    • 제32B권12호
    • /
    • pp.1635-1643
    • /
    • 1995
  • This paper proposes an algorithm for machine recognition of phonemes in continuously spoken Korean. The proposed algorithm is a static strategy neural network. The algorithm uses, at the stage of training neurons, features such as the rate of zero crossing, short-term energy, and either PARCOR or auditory-like perceptual linear prediction(PLP) but not both, covering a time of 171ms long. Numerical results show that the algorithm with PLP achieves approximately the frame-based phoneme recognition rate of 99% for small vocabulary recognition experiments. Based on this it is concluded that the proposed algorithm with PLP analysis is effective in phoneme recognition.

  • PDF

Discriminant 학습을 이용한 전화 숫자음 인식 (Telephone Digit Speech Recognition using Discriminant Learning)

  • 한문성;최완수;권현직
    • 대한전자공학회논문지TE
    • /
    • 제37권3호
    • /
    • pp.16-20
    • /
    • 2000
  • 대부분의 음성인식 시스템이 확률 모델을 기반으로 한 HMM 방법을 가장 많이 사용하고 있다. 한국어 고립 전화 숫자음 인식인 경우에 만약 충분한 학습 데이터가 주어지면 HMM 방법을 사용해도 높은 인식률을 얻는다 그러나 한국어 연속 전화 숫자음 인식인 경우에 비슷하게 발음되는 전화 숫자음들에 대해서는 HMM방법이 한계를 가지고 있다. 본 논문에서는 한국어 연속 전화 숫자음 인식에서 HMM 방법의 한계를 극복하기 위해 discriminant 학습 방법을 제시한다. 실험결과는 우리가 제시한 discriminant 학습 방법이 비슷하게 발음되는 전화 숫자음들에 대해서 높은 인식률을 갖는 것을 보여준다.

  • PDF

연속분포 HMM에 의한 실시간 Word Spotting 에 관한 연구 (A Study on the Real-time Word Spotting by Continuous density HMM)

  • 서상원
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.92-95
    • /
    • 1995
  • 연속분포 HMM을 사용한 실시간 로봇 암 제어 시스템에 대해 기술하고 있다. 본 시스템은 자연스러운 문장의 로봇 암 제어 명령 발성을 받아 핵심단어 인식의 framework을 통한 명령 인식 및 로봇 제어를 구현하고 있다. 로봇 몸체의 부분, 방향, 각도, 동작명령들에 대해 각기 우향 HMM, 이외의 비 핵심어들에 대해서는 이들을 한데 모아 ergodic형 상태천이를 모델링하는 garbage HMM을 형성했는데, 조사, 감탄사 등을 따로 모은 garbage 모델과, silence 및 배경 잡음에 대한 garbage 모델을 형성, 학습 및 인식에 포함시켜 연결단어 인식을 수행함으로써 핵심단어 인식의 효과를 얻었다. 이때 핵심단어들의 사용에 있어 간단한 문법적 제약을 가정하였다. 남성화자 35명을 대상으로 30개 문형에 대해 데이터 수집용 개념적 문장을 구성하여 음성 데이터를 수집하였다. 학습 화자에 대한 제어 명령 인식률은 95% 이상을 나타내고 있으며, 비 학습화자에 대한 인식율은 90% 이상이다. 또한 학습된 단어외의 비 핵심단어들의 사용에 대해서도 긍정적인 인식 성능을 보였다.

  • PDF

연속음성에서 천이구간의 탐색, 추출, 근사합성에 관한 연구 (A Study on a Searching, Extraction and Approximation-Synthesis of Transition Segment in Continuous Speech)

  • 이시우
    • 한국정보처리학회논문지
    • /
    • 제7권4호
    • /
    • pp.1299-1304
    • /
    • 2000
  • In a speed coding system using excitation source of voiced and unvoiced, it would be involved a distortion of speech quality in case coexist with a voiced and an unvoiced consonants in a frame. So, I propose TSIUVC(Transition Segment Including UnVoiced Consonant) searching, extraction ad approximation-synthesis method in order to uncoexistent with a voiced and unvoiced consonants in a frame. This method based on a zerocrossing rate and pitch detector using FIR-STREAK Digital Filter. As a result, the extraction rates of TSIUVC are 84.8% (plosive), 94.9%(fricative), 92.3%(affricative) in female voice, and 88%(plosive), 94.9%(fricative), 92.3%(affricative) in male voice respectively, Also, I obain a high quality approximation-synthesis waveforms within TSIUVC by using frequency information of 0.547kHz below and 2.813kHz above. This method has the capability of being applied to speech coding of low bit rate, speech analysis and speech synthesis.

  • PDF

다중펄스 방법을 이용한 디컨벌루션 (The Seismic Multipulse Deconvolution)

  • 손호웅
    • 자원환경지질
    • /
    • 제28권5호
    • /
    • pp.487-491
    • /
    • 1995
  • 음성신호를 임펄스 반응으로 압축시키는데 사용되는 선형예측코드의 다중펄스 방법을 다중반사파를 제거시킬수 있도록 개선시켰다. 다중반사파는 층사이에서 연속 반사에 의해 발생하는 것으로서 탄성파 해석을 어렵게 한다. 본 논문에서는 개선된 다중펄스방법을 이용하여 음원 파형요소를 스파이크로 압축시키고 다중반사파를 제거하도록 하였으며, 지하 정보를 갖고 있는 반사계수 함수의 크기와 위치를 연속 계산방식에 의해 이끌어 냈었다. 개선된 다중펄스 방법의 탄성파 자료에의 적용은 좋은 결과를 보여주고 있다.

  • PDF

은닉 마르코프 모델을 이용한 음성에서의 감정인식 (Emotion recognition in speech using hidden Markov model)

  • 김성일;정현열
    • 융합신호처리학회논문지
    • /
    • 제3권3호
    • /
    • pp.21-26
    • /
    • 2002
  • 본 논문은 분노, 행복, 평정, 슬픔, 놀람 등과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과로서, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.

  • PDF

대어휘 연속음성인식을 위한 서브네트워크 기반의 1-패스 세미다이나믹 네트워크 디코딩 (1-Pass Semi-Dynamic Network Decoding Using a Subnetwork-Based Representation for Large Vocabulary Continuous Speech Recognition)

  • 정민화;안동훈
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.51-69
    • /
    • 2004
  • In this paper, we present a one-pass semi-dynamic network decoding framework that inherits both advantages of fast decoding speed from static network decoders and memory efficiency from dynamic network decoders. Our method is based on the novel language model network representation that is essentially of finite state machine (FSM). The static network derived from the language model network [1][2] is partitioned into smaller subnetworks which are static by nature or self-structured. The whole network is dynamically managed so that those subnetworks required for decoding are cached in memory. The network is near-minimized by applying the tail-sharing algorithm. Our decoder is evaluated on the 25k-word Korean broadcast news transcription task. In case of the search network itself, the network is reduced by 73.4% from the tail-sharing algorithm. Compared with the equivalent static network decoder, the semi-dynamic network decoder has increased at most 6% in decoding time while it can be flexibly adapted to the various memory configurations, giving the minimal usage of 37.6% of the complete network size.

  • PDF

음성장애 연속구어의 음향학적 분석 (A Study of Acoustic Measurement in Connected Speech with Dysphonia)

  • 이명순
    • 말소리와 음성과학
    • /
    • 제3권4호
    • /
    • pp.109-115
    • /
    • 2011
  • The purposes of this study were to identify acoustic parameters of connected speech and to contribute to acoustic analysis of dysphonic voice about patient's natural speech voice as well as sustained phonation of vowels. Acoustic parameters of sentences included LTAS (long-term average spectrum) mean and spectral slope over frequence ranges such as 0-4kHz, 0-6kHz, 0-8kHz, 0-12.5kHz as well as HNR. Acoustic parameters of the vowel 'a' included jitter, RAP, shimmer, NHR, and HNR. Based on 'G' of GRBAS for the severity of dysphonia, two experienced raters judged and classified as four groups including controls, mild, moderate and severe dysphonic group. Connected speech was two sentences extracted from 'stroll' passage. Parameters of the vowel and LTAS mean of the sentences were measured by CSL. The spectral slope of the sentences and HNR of the vowel and the sentences were measured by Praat. Data were statistically analyzed by Spearman correlation and Kruskal-Wallis test using SPSS 12.0. The results of this study are as follows: First, jitter, RAP, shimmer and NHR were significantly different between the groups. Second, for several frequencies, LTAS mean and spectral slope of the sentences were significantly different between the groups. Third, the HNR of the sentences were significantly different between the groups. Forth, there was a presence of correlation between HNR and NHR of the vowel and HNR of the sentences. Accordingly, this study concluded that LTAS, spectral slope, and HNR were predictive parameters of connected speech voice for dysphonic voice.

  • PDF