• 제목/요약/키워드: Isolated word

검색결과 156건 처리시간 0.022초

참조화자로부터 추정된 적응적 혼성 사전분포를 이용한 MAPLR 고속 화자적응 (Rapid Speaker Adaptation Based on MAPLR with Adaptive Hybrid Priors Estimated from Reference Speakers)

  • 송영록;김형순
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.315-323
    • /
    • 2011
  • 본 논문은 maximum a posteriori linear regression (MAPLR) 기반의 고속 화자적응 성능을 개선하기 위하여 사전분포를 추정하는 두 가지 방식을 제안한다. 일반적으로 MAPLR 방식에서 사용되는 변환행렬의 사전분포는 화자독립모델을 구성하는 훈련 화자들로부터 추정되어 모든 화자들에게 동등하게 적용된다. 본 논문에서는 새로운 화자에게 보다 더 적합한 사전분포를 적용하고자 적응 데이터를 이용하여 새로운 화자의 음향특성과 가까운 참조화자 집단을 선택한 후 참조화자 집단으로부터 사전분포를 추정하는 방법을 제안한다. 또한, 블록 대각 형태의 변환행렬의 사전분포를 추정하는 경우 사전분포의 평균행렬과 공분산행렬을 동일한 훈련 화자들로부터 얻어진 두 가지 형태의 변환행렬집단으로부터 각각 추정하는 방법을 제안한다. 제안된 방법의 성능 평가를 위하여 고립단어 인식실험을 통해 적응 단어의 개수에 따른 단어 인식률을 평가한다. 실험결과, 적응 단어 수가 매우 적을 때 기존의 MAPLR 방식에 비하여 통계적으로 유의미한 성능향상이 얻어짐을 보여준다.

손실 데이터 이론을 이용한 강인한 음성 인식 (Robust Speech Recognition Using Missing Data Theory)

  • 김락용;조훈영;오영환
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.56-62
    • /
    • 2001
  • 본 논문에서는 손실이 발생하는 상황에서 높은 인식률을 유지하기 위해서 손실 데이터 이론을 음성 인식기에 적용하였다 손실 데이터 이론은 일반적으로 이용되는 통계적 정합 방법인 은닉 마코프 모델 (HMM: hidden Markov model) 중 연속 Gaussian확률 밀도 함수를 이용하여 음성 특징들의 출력 확률을 나타내는 경우에 쉽게 적용할 수 있다는 장점을 갖고 있다. 손실 데이터 이론의 방법 중 계산량이 적고 인식기에 적용이 쉬운 주변화(marginalization)방법을 사용하였으며 특징 벡터의 특정 차수나 시간열의 손실 검출 방법은 음성 신호의 에너지와 주위 배경 잡음의 에너지의 차이가 임계치보다 작게 되는 부분을 찾는 주파수 차감 방법을 이용하였다. 본 논문에서 제안한 손실 영역의 신뢰도 평가는 분석 구간이 모음일 확률을 계산해서 비교적 잉여 정보가 많이 포함된 모음화된 구간의 손실만을 처리하도록 하였다. 제안한 방법을 사용하여 여러 잡음 환경에 대해서 기존의 손실 데이터 처리 방법만을 사용한 경우보다 452 단어의 화자독립 단어 인식 실험을 수행한 결과 오류율측면에서 평균적으로 약 12%의 성능 향상을 얻을 수 있었다.

  • PDF

천이 제한 HMM을 이용한 잡음 환경에서의 음성 인식 (Speech Recognition in Noisy environment using Transition Constrained HMM)

  • 김원구;신원호;윤대희
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.85-89
    • /
    • 1996
  • 본 논문에서는 상태간의 천이가 특정한 시간 구간에서만 발생하도록 하는 천이 제한(transition constrained) HMM를 제안하고 잡음 환경에서의 성능을 평가하였다. 천이 제한 HMM는 상태 지속을 제한하고 음성 신호의 시간적 변화를 단순하고 효과적으로 표현할 수 있다. 제안된 천이 제한 HMM은 기존 HMM 보다 성능이 우수할 뿐만아니라 계산량도 매우 감소한다. 제안된 방법의 성능을 평가하기 위하여 반연속(semi-continuous) HMM을 이용하여 잡음이 SNR 20, 10, 0 dB로 첨가된 음성에 화자독립 단독음 인식실험을 수행하였다. 실험 결과에서 제안된 방법은 잡음에 강인한 특성을 나타내었다. 두 가지 종류의 잡음을 SNR 10dB로 첨가하여 사용한 경우, 천이제한 HMM의 인식률은 기존 HMM의 단어 인식률 81.08%와 75.36%에 비하여 각각 7.31%와 10.35% 향상되었다.

  • PDF

전체 경로 제한 조건을 갖는 HMM을 이용한 단독음 인식 (HMM with Global Path constraint in Viterbi Decoding for Insolated Word Recognition)

  • 김원구;안동순;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.11-19
    • /
    • 1994
  • 상태 지속 밀도를 사용하는 hidden Markov Models(HMM/SD)은 음성 신호의 시간적인 변화를 보다 명확하게 나타낼 수 있다 그러나 상태 지속 밀도가 완만하거나 제한된 상태가 길면 이러한 장점은 감소된다. 이러한 문제점을 해결하기 위하여, 본 논문에서는 상태간의 천이가 특정한 시간 구간에서만 발생하도록 하는 전에 경로 제한 조건을 갖는 HMM/GPC를 제한한다. HMM/GPC는 상태 지속을 제한하고 음성 신호의 시간적 변화를 단순하고 효과적으로 표현할 수 있다. 또한 HMM/SD와 HMM/GPC를 결합한 새로운 형태의 HMM/SD+GPC를 제안하고 성능을 비교하였다. HMM/GPC는 기존 Viterbi 알고리즘을 약간 수정하여 구현될 수 있다. HMM/GPC와 HMM/SD+GPC는 기존 HMM과 HMM/SD에 비하여 우수한 성능을 보일 뿐만아니라 계산량도 매우 작다. 화자도립 단독음 인식 실험에서, HMM/GPC(1.6%)의 최소 오차는 기존 HMM보다 1.1% 낮았고 계산량도 57% 감소하였다.

  • PDF

대통합 언어이론을 향하여 (Toward an Integrated Theory of Language)

  • 문경환
    • 인문언어
    • /
    • 제1권1호
    • /
    • pp.33-63
    • /
    • 2001
  • This article does not deal with a theory or theories in the usual sense of the term but rather harks back to its etymological source, theorein ' to look at.' The phrase 'theory of language' thus purports a 'view of language' and does not carry the force of scientific explication of language. In fact, the word ' scientific' or 'science' per se originates from scire 'to know' and is here to be considered not so much in regard to some kind of positivistic methodology as a form of knowledge. If this exposition sounds unduly ingenious, that is because one is caught up in all kinds of presuppositions about the words under consideration. Sometimes, when we come to grips with an issue that strikes our mind as truly important, our language, by the light of which we hope to proceed safely, plays the will-o'-the-wisp instead and leaves us in the middle of a murky maze, twisting what was at first blush a mere cinch into a Gordian knot. On such occasions, etymology comes along the way and sends us back to itself as its own principle: Resort to etymos logos 'original, true word'! The main thrust of the present study is that alongside the quantitative, positivistic thought there is another equally valuable mode of qualitative and humanistic thinking that makes a whole gamut of new and concrete investigations possible, that an integrated theory of language is Possible by way of a happy amalgamation of diversified, humanistic views of language. With this idea as the leitmotif we explore two models of theory which typically set themselves up for a 'scientific' approach to language: analytic philosophy that delves into what it calls logical simples, and contemporary linguistics that stubbornly teeters around some formal rigor or other. It is argued that they are both characterized by a looking away from the fluid, ill-definable aspects of language, giving a preference to segments and isolated facts as a means to avoid those larger wholes and totalities which if they had to be seen would in the long run lead to an uncomfortable state of mind. Language, in the final analysis, is a Protean entity: so capricious and multifarious, and yet so noetic and prophetic, that we should catch sight of its picturesque images in their entirety to give form to an integrated theory of language.

  • PDF

정규화신뢰도 기반 가변어휘 고립단어 인식기의 거절기능 성능 분석 (Rejection Performance Analysis in Vocabulary Independent Speech Recognition Based on Normalized Confidence Measure)

  • 최승호
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.96-100
    • /
    • 2006
  • 고립단어 인식기의 오 인식 단어를 거절하기 위한 방법으로 정규화 신뢰도가 제안되어 논문 [1-2]에서 성공적으로 적용된 바 있다. 그러나 정규화 신뢰도의 성능 측정을 위해 고정된 단어 셌을 대상으로 실험을 하였다. 본 논문에서는 정규화 신뢰도를 가변어휘 음성인식 영역에 적용하여 신뢰도의 거절성능을 밝히고 특히, 벡터양자화기를 이용하여 미 출현 트라이 폰의 문제를 극복하는 방법을 제안한다. 이때 정규화 신뢰도는 트라이 폰 신뢰도들의 통계적 특징(평균과 표준편차)을 사용한다. 가변어휘 인식실험 결과음소 단위의 정규화방법이 트라이 폰 기반 정규화방법에 비하여 우수한 성능을 보였으며 이러한 결과는 논문 [1-2]의 결과와는 상이한 것으로 트라이 폰 기반 정규화 방법이 미 출현 트라이 폰에 대하여 강인하지 못하다는 점을 시사하고 있다. 따라서 정규화 신뢰도가 음소 또는 트라이 폰에 상관없이 기준 신뢰도인 RLTC 신뢰도 [3]에 비하여 우수한 성능을 보였으며 가변어휘 인식에서도 동작함을 확인 할 수 있었다.

청음 음성학적 지식에 기반한 음가분류에 의한 핵심어 검출 시스템 구현 (The Design of Keyword Spotting System based on Auditory Phonetical Knowledge-Based Phonetic Value Classification)

  • 김학진;김순협
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.169-178
    • /
    • 2003
  • This study outlines two viewpoints the classification of phone likely unit (PLU) which is the foundation of korean large vocabulary speech recognition, and the effectiveness of Chiljongseong (7 Final Consonants) and Paljogseong (8 Final Consonants) of the korean language. The phone likely classifies the phoneme phonetically according to the location of and method of articulation, and about 50 phone-likely units are utilized in korean speech recognition. In this study auditory phonetical knowledge was applied to the classification of phone likely unit to present 45 phone likely unit. The vowels 'ㅔ, ㅐ'were classified as phone-likely of (ee) ; 'ㅒ, ㅖ' as [ye] ; and 'ㅚ, ㅙ, ㅞ' as [we]. Secondly, the Chiljongseong System of the draft for unified spelling system which is currently in use and the Paljongseonggajokyong of Korean script haerye were illustrated. The question on whether the phonetic value on 'ㄷ' and 'ㅅ' among the phonemes used in the final consonant of the korean fan guage is the same has been argued in the academic world for a long time. In this study, the transition stages of Korean consonants were investigated, and Ciljonseeng and Paljongseonggajokyong were utilized in speech recognition, and its effectiveness was verified. The experiment was divided into isolated word recognition and speech recognition, and in order to conduct the experiment PBW452 was used to test the isolated word recognition. The experiment was conducted on about 50 men and women - divided into 5 groups - and they vocalized 50 words each. As for the continuous speech recognition experiment to be utilized in the materialized stock exchange system, the sentence corpus of 71 stock exchange sentences and speech corpus vocalizing the sentences were collected and used 5 men and women each vocalized a sentence twice. As the result of the experiment, when the Paljongseonggajokyong was used as the consonant, the recognition performance elevated by an average of about 1.45% : and when phone likely unit with Paljongseonggajokyong and auditory phonetic applied simultaneously, was applied, the rate of recognition increased by an average of 1.5% to 2.02%. In the continuous speech recognition experiment, the recognition performance elevated by an average of about 1% to 2% than when the existing 49 or 56 phone likely units were utilized.

성대신호 기반의 명령어인식기를 위한 특징벡터 연구 (Effective Feature Vector for Isolated-Word Recognizer using Vocal Cord Signal)

  • 정영규;한문성;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권3호
    • /
    • pp.226-234
    • /
    • 2007
  • 본 논문은 환경 노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 성대마이크는 환경 노이즈의 효과를 최소화하는 장점이 있다. 그러나 고주파의 부재와 부분적인 포먼트 정보 손실 때문에, 성대마이크를 이용해서 개발된 ASR시스템은 표준마이크를 이용한 시스템에 비해 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로부터 입력되는 정보 보안하는데 주로 사용된다. 본 논문은 한국어의 음운적 특정과 신호 분석을 통해 성대마이크만을 사용한 높은 성능의 ASR 시스템을 개발 할 수 있음을 보인다. 주파수 대역내 에너지 합을 이용하는 MFCC 알고리즘이 갖는 성대신호 분석의 문제점을 제시하고, 성대신호를 대상으로 보다 높은 성능을 갖는 특정추출 알고리즘의 조건을 제시한다. 이러한 조건은 (1) 민감한 band-pass filter와 (2) 유/무성음 분리를 위해 사용하는 특정벡터의 사용이다 실험 결과 제안된 조건을 만족하는 ZCPA 알고리즘을 적용한 경우가 MFCC를 적용한 경우보다 약 16%정도의 높은 성능을 보인다. 그러고 CMS와 RASTA와 같은 channel normalization 알고리즘을 적용한 경우 약 2%의 성능 향상이 있다.

On Wavelet Transform Based Feature Extraction for Speech Recognition Application

  • Kim, Jae-Gil
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권2E호
    • /
    • pp.31-37
    • /
    • 1998
  • This paper proposes a feature extraction method using wavelet transform for speech recognition. Speech recognition system generally carries out the recognition task based on speech features which are usually obtained via time-frequency representations such as Short-Time Fourier Transform (STFT) and Linear Predictive Coding(LPC). In some respects these methods may not be suitable for representing highly complex speech characteristics. They map the speech features with same may not frequency resolutions at all frequencies. Wavelet transform overcomes some of these limitations. Wavelet transform captures signal with fine time resolutions at high frequencies and fine frequency resolutions at low frequencies, which may present a significant advantage when analyzing highly localized speech events. Based on this motivation, this paper investigates the effectiveness of wavelet transform for feature extraction of wavelet transform for feature extraction focused on enhancing speech recognition. The proposed method is implemented using Sampled Continuous Wavelet Transform (SCWT) and its performance is tested on a speaker-independent isolated word recognizer that discerns 50 Korean words. In particular, the effect of mother wavelet employed and number of voices per octave on the performance of proposed method is investigated. Also the influence on the size of mother wavelet on the performance of proposed method is discussed. Throughout the experiments, the performance of proposed method is discussed. Throughout the experiments, the performance of proposed method is compared with the most prevalent conventional method, MFCC (Mel0frequency Cepstral Coefficient). The experiments show that the recognition performance of the proposed method is better than that of MFCC. But the improvement is marginal while, due to the dimensionality increase, the computational loads of proposed method is substantially greater than that of MFCC.

  • PDF

학교 청소년의 인터넷중독 현상의 영향요인에 관한 연구 (A Study of the Key Factors on the Internet Addiction of the Youth)

  • 신동로;백현기;강정화
    • 디지털융복합연구
    • /
    • 제6권3호
    • /
    • pp.93-107
    • /
    • 2008
  • The aim of this study was to draw some suggestions for Internet Policy by using empirical analyses of key factors in Internet addiction in youths. Internet addiction in youths is perceived as a current and significant issue throughout the world. For the purpose of this study, factors that have influence on the Internet addiction of the youth have been explored and analysed empirically of its hypothetical relationships by using the SEM(structural equation modelling). As a result, a few key factors that suggest a strong relationship to Internet addiction in youths have been drawn: subjects' personality, accessibility to the Internet, psychology and communication factor. Particularly accessibility to the Internet, and specifically the duration of time spent online causes the phenomenon of the Internet addiction. This study shows, however, the subjects' personality and communication factor have the most significant causal relationship to Internet addiction. In other word, the Internet addiction has been changing with the various factors including the factors drawn in this study, which are subjects' personality, accessibility to the Internet, psychology and communication factor. Therefore, Internet addiction should not be merely treated as the isolated problem of the Internet itself; rather it should be understood as various dimensions of society, economy, culture etc. Furthermore, some alternatives to deal with the Internet addiction should be found in various approaches.

  • PDF