• 제목/요약/키워드: End-to-end speech recognition

검색결과 90건 처리시간 0.024초

Word Recognition, Phonological Awareness and RAN Ability of the Korean Second-graders

  • Yoon, Hyo-Jin;Pae, So-Yeong;Ko, Do-Heung
    • 음성과학
    • /
    • 제12권1호
    • /
    • pp.7-14
    • /
    • 2005
  • This study investigated the reading ability of Korean second-graders and the relationship between reading and phonological awareness and RAN (Rapid Automatized Naming) ability. A language-based reading assessment battery was used. Children at the end of the Korean second-grade were still at the developmental stage of decoding skill and seemed to be at Chall's stage 1. Findings indicated significant correlations between reading ability and phonological awareness and between reading ability and RAN ability. Therefore, the importance of phonological processing could be extended to syllable-based alphabetic languages.

  • PDF

MMSE Estimator 기반의 적응 콤 필터링을 이용한 잡음 제거 (Noise Reduction Using MMSE Estimator-based Adaptive Comb Filtering)

  • 박정식;오영환
    • 대한음성학회지:말소리
    • /
    • 제60호
    • /
    • pp.181-190
    • /
    • 2006
  • This paper describes a speech enhancement scheme that leads to significant improvements in recognition performance when used in the ASR front-end. The proposed approach is based on adaptive comb filtering and an MMSE-related parameter estimator. While adaptive comb filtering reduces noise components remarkably, it is rarely effective in reducing non-stationary noises. Furthermore, due to the uniformly distributed frequency response of the comb-filter, it can cause serious distortion to clean speech signals. This paper proposes an improved comb-filter that adjusts its spectral magnitude to the original speech, based on the speech absence probability and the gain modification function. In addition, we introduce the modified comb filtering-based speech enhancement scheme for ASR in mobile environments. Evaluation experiments carried out using the Aurora 2 database demonstrate that the proposed method outperforms conventional adaptive comb filtering techniques in both clean and noisy environments.

  • PDF

강인한 음성인식을 위한 이중모드 센서의 결합방식에 관한 연구 (A Study on Combining Bimodal Sensors for Robust Speech Recognition)

  • 이철우;계영철;고인선
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.51-56
    • /
    • 2001
  • 최근 잡음이 심한 환경에서 음성인식을 신뢰성있게 하기 위하여 입모양의 움직임과 음성을 같이 사용하는 방법이 활발히 연구되고 있다 본 논문에서도 이러한 목적으로 영상언어인식기와 음성인식기의 결과에 각각 가중치를 주어 결합하는 방법을 제안한다. 특히 가중치를 입력음성의 잡음의 정도에 따라 자동적으로 결정하는 방법을 제안한다. 가중치의 결정을 위하여 입력샘플간의 상관도와 LPC분석의 잔여 오차를 이용한다. 모의실험 결과, 이런 방식으로 결합된 인식기는 잡음이 심한 환경에서도 약 83%의 인식성능을 보이고 있다.

  • PDF

화자 종속 알고리즘을 이용한 음성 인식 보안 시스템 구현 (Implementation of Speech Recognition Security System Using Speaker Defendent Algorithm)

  • 김영현;문철홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.65-68
    • /
    • 2003
  • In this paper, a speech recognition system using a speaker defendant algorithm is implemented on the PC. Results are loaded on a LDM display system that employs Intel StrongArm SA-1110. This research has completed so that this speech recognition system may correct its shortcomings. Sometimes a former system is operated by similar speech, not a same one. To input a vocalization is processed two times to solve mentioned defects. When references are creating, variable start-point and end-point are given to make efficient references. This references and new references are changed into feature parameter, LPC and MFCC. DTW is excuted using feature parameter. This security system will give user permission under fore execution have same result.

  • PDF

에코제거기와 MAP 추정에 기초한 핸즈프리 음성 인식 (Hands-free Speech Recognition based on Echo Canceller and MAP Estimation)

  • Sung-ill Kim;Wee-jae Shin
    • 융합신호처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.15-20
    • /
    • 2003
  • 핸즈프리 마이크를 이용한 원격회의나 원격 통신 시스템과 같은 몇 가지의 응용분야에서, 음성 신호는 주위 잡음뿐만 아니라 마이크와 스피커사이의 결합에 의해 발생하는 에코에 의해서 왜곡되기 쉽다. 게다가 채널 왜곡이나 부가적인 잡음을 포함한 환경 잡음들은 원래의 입력 음성신호에 영향을 미치리라 고려된다. 본 논문에서는, 이러한 핸즈프리 음성에 있어서의 음성 인식률을 향상시키기 위해 에코 제거기와 최대 사후 추정(MAP)을 이용한 새로운 접근방식을 소개한다. 이 접근방식에서, 제안된 시스템이 에코를 포함한 주위 잡음 환경에서의 핸즈프리 음성인식에 효과적이라는 것을 보여준다 또한, 실험 결과는 에코 제거기와 MAP 환경적응 기술의 결합 시스템이 에코와 잡음 환경에 잘 적응하는 것을 보여준다.

  • PDF

A New Endpoint Detection Method Based on Chaotic System Features for Digital Isolated Word Recognition System

  • 장한;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.37-39
    • /
    • 2009
  • In the research of speech recognition, locating the beginning and end of a speech utterance in a background of noise is of great importance. Since the background noise presenting to record will introduce disturbance while we just want to get the stationary parameters to represent the corresponding speech section, in particular, a major source of error in automatic recognition system of isolated words is the inaccurate detection of beginning and ending boundaries of test and reference templates, thus we must find potent method to remove the unnecessary regions of a speech signal. The conventional methods for speech endpoint detection are based on two simple time-domain measurements - short-time energy, and short-time zero-crossing rate, which couldn't guarantee the precise results if in the low signal-to-noise ratio environments. This paper proposes a novel approach that finds the Lyapunov exponent of time-domain waveform. This proposed method has no use for obtaining the frequency-domain parameters for endpoint detection process, e.g. Mel-Scale Features, which have been introduced in other paper. Comparing with the conventional methods based on short-time energy and short-time zero-crossing rate, the novel approach based on time-domain Lyapunov Exponents(LEs) is low complexity and suitable for Digital Isolated Word Recognition System.

  • PDF

한국인의 영어 인식을 위한 문맥 종속성 기반 음향모델/발음모델 적응 (Acoustic and Pronunciation Model Adaptation Based on Context dependency for Korean-English Speech Recognition)

  • 오유리;김홍국;이연우;이성로
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.33-47
    • /
    • 2008
  • In this paper, we propose a hybrid acoustic and pronunciation model adaptation method based on context dependency for Korean-English speech recognition. The proposed method is performed as follows. First, in order to derive pronunciation variant rules, an n-best phoneme sequence is obtained by phone recognition. Second, we decompose each rule into a context independent (CI) or a context dependent (CD) one. To this end, it is assumed that a different phoneme structure between Korean and English makes CI pronunciation variabilities while coarticulation effects are related to CD pronunciation variabilities. Finally, we perform an acoustic model adaptation and a pronunciation model adaptation for CI and CD pronunciation variabilities, respectively. It is shown from the Korean-English speech recognition experiments that the average word error rate (WER) is decreased by 36.0% when compared to the baseline that does not include any adaptation. In addition, the proposed method has a lower average WER than either the acoustic model adaptation or the pronunciation model adaptation.

  • PDF

Selective Adaptation of Speaker Characteristics within a Subcluster Neural Network

  • Haskey, S.J.;Datta, S.
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.464-467
    • /
    • 1996
  • This paper aims to exploit inter/intra-speaker phoneme sub-class variations as criteria for adaptation in a phoneme recognition system based on a novel neural network architecture. Using a subcluster neural network design based on the One-Class-in-One-Network (OCON) feed forward subnets, similar to those proposed by Kung (2) and Jou (1), joined by a common front-end layer. the idea is to adapt only the neurons within the common front-end layer of the network. Consequently resulting in an adaptation which can be concentrated primarily on the speakers vocal characteristics. Since the adaptation occurs in an area common to all classes, convergence on a single class will improve the recognition of the remaining classes in the network. Results show that adaptation towards a phoneme, in the vowel sub-class, for speakers MDABO and MWBTO Improve the recognition of remaining vowel sub-class phonemes from the same speaker

  • PDF

자바를 이용한 음성인식 시스템에 관한 연구 (Study of Speech Recognition System Using the Java)

  • 최광국;김철;최승호;김진영
    • 한국음향학회지
    • /
    • 제19권6호
    • /
    • pp.41-46
    • /
    • 2000
  • 본 논문에서는 자바를 사용하여 연속분포 HMM 알고리즘과 Browser-embedded 모델로 음성인식시스템을 구현하였다. 이 시스템은 웹상에서 음성분석, 처리, 인식과정을 실행할 수 있도록 설계되었으며, 클라이언트에서는 자바애플릿을 이용하여 음성의 끝점검출과 MFCC와 에너지 그리고 델타계수들을 추출하여 소켓을 통해 서버로 전송하고, 서버는 HMM 인식기와 학습DB를 이용하여 인식을 수행하고 인식된 결과는 클라이언트에 전송되어 문자로 출력되어진다. 또한 이 시스템은 플랫폼에 독립적인 시스템으로 네트웍상에서 구축되었기 때문에 높은 에러율을 갖고 있지만 멀티미디어 분야에 접목시켰다는 의의와 향후에 새로운 정보통신 서비스가 될 가능성이 있음을 알 수 있었다.

  • PDF

스마트폰용 영한, 한영 모바일 번역기 개발 (Development of Korean-to-English and English-to-Korean Mobile Translator for Smartphone)

  • 여상화;채흥석
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.229-236
    • /
    • 2011
  • 본 논문에서는 스마트폰용 경량화된 영한, 한영 모바일 번역기를 설계 및 구현한다. 번역 엔진은 자연스러운 번역과 높은 번역 품질을 위해 번역 메모리와 규칙기반의 번역 엔진으로 이중화를 한다. 개발된 번역 엔진의 사용자의 사용성 (Usability)을 극대화하기 위해 스마트폰에 내장된 카메라를 통한 문자인식(OCR; Optical Character Recognition) 엔진과 음성 합성 엔진(TTS; Text-to-Speech)을 각각 Front-End와 Back-end에 접목하였다. 실험결과 번역 품질은 BLEU와 NIST 평가치를 기준으로 구글번역기 대비 영한 번역은 72.4%, 한영 번역은 77.7%로 평가되었다. 이러한 평가결과는 본 논문에서 개발한 모바일 자동번역기가 서버 기반의 번역기의 성능에 근접하며 상업적으로 유용함을 보여준다.