• 제목/요약/키워드: Vocabulary-independent

검색결과 55건 처리시간 0.029초

Performance of Vocabulary-Independent Speech Recognizers with Speaker Adaptation

  • Kwon, Oh Wook;Un, Chong Kwan;Kim, Hoi Rin
    • The Journal of the Acoustical Society of Korea
    • /
    • 제16권1E호
    • /
    • pp.57-63
    • /
    • 1997
  • In this paper, we investigated performance of a vocabulary-independent speech recognizer with speaker adaptation. The vocabulary-independent speech recognizer does not require task-oriented speech databases to estimate HMM parameters, but adapts the parameters recursively by using input speech and recognition results. The recognizer has the advantage that it relieves efforts to record the speech databases and can be easily adapted to a new task and a new speaker with different recognition vocabulary without losing recognition accuracies. Experimental results showed that the vocabulary-independent speech recognizer with supervised offline speaker adaptation reduced 40% of recognition errors when 80 words from the same vocabulary as test data were used as adaptation data. The recognizer with unsupervised online speaker adaptation reduced abut 43% of recognition errors. This performance is comparable to that of a speaker-independent speech recognizer trained by a task-oriented speech database.

  • PDF

어휘독립 환경에서의 가변어휘 음성인식에 관한 연구 (A Study on the Variable Vocabulary Speech Recognition in the Vocabulary-Independent Environments)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.369-372
    • /
    • 1998
  • 본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.

  • PDF

가변어휘 인식기를 이용한 PDA상에서의 음성제어 구현 (Implementation of Voice Control on PDA using the Text Independent Vocabulary Recognizer)

  • 곽상훈;최승호;신도성;김진영
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.57-72
    • /
    • 2002
  • The technology of speech recognition has a wide field of application. The range of such technology is spreading into mobile computing having the large amount of movement for communication equipments at the present time. Particularly, recognition in internet environment is rapidly moving into mobile environment. Because of these environments, users want the faster speed of data transmission and the lighter portable equipment for data access. That is PDA(Personal Digital Assistant). Therefore, we designed a triphone-based text independent vocabulary recognizer for the implementation of speech control in this paper. The text independent vocabulary recognizer is based on the state .joint algorithm with decision trees

  • PDF

DSP를 이용한 가변어휘 음성인식기 구현에 관한 연구 (Implementation of Vocabulary- Independent Speech Recognizer Using a DSP)

  • 정익주
    • 음성과학
    • /
    • 제11권3호
    • /
    • pp.143-156
    • /
    • 2004
  • In this paper, we implemented a vocabulary-independent speech recognizer using the TMS320VC33 DSP. For this implementation, we had developed very small-sized recognition engine based on diphone sub-word unit, which is especially suited for embedded applications where the system resources are severely limited. The recognition accuracy of the developed recognizer with 1 mixture per state and 4 states per diphone is 94.5% when tested on frequently-used 2000 words set. The design of the hardware was focused on minimal use of parts, which results in reduced material cost. The finally developed hardware only includes a DSP, 512 Kword flash ROM and a voice codec. In porting the recognition engine to the DSP, we introduced several methods of using data and program memory efficiently and developed the versatile software protocol for host interface. Finally, we also made an evaluation board for testing the developed hardware recognition module.

  • PDF

가변어휘 핵심어 검출을 위한 비핵심어 모델링 및 후처리 성능평가 (Performance Evaluation of Nonkeyword Modeling and Postprocessing for Vocabulary-independent Keyword Spotting)

  • 김형순;김영국;신영욱
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.225-239
    • /
    • 2003
  • In this paper, we develop a keyword spotting system using vocabulary-independent speech recognition technique, and investigate several non-keyword modeling and post-processing methods to improve its performance. In order to model non-keyword speech segments, monophone clustering and Gaussian Mixture Model (GMM) are considered. We employ likelihood ratio scoring method for the post-processing schemes to verify the recognition results, and filler models, anti-subword models and N-best decoding results are considered as an alternative hypothesis for likelihood ratio scoring. We also examine different methods to construct anti-subword models. We evaluate the performance of our system on the automatic telephone exchange service task. The results show that GMM-based non-keyword modeling yields better performance than that using monophone clustering. According to the post-processing experiment, the method using anti-keyword model based on Kullback-Leibler distance and N-best decoding method show better performance than other methods, and we could reduce more than 50% of keyword recognition errors with keyword rejection rate of 5%.

  • PDF

The Effects of Cognitive Style and Vocabulary Learning Strategies on Students' Achievements in Web-Based Learning

  • Park, Jung-Hwan;Lee, Gun-In;Kang, Myung-Seon
    • 영어어문교육
    • /
    • 제11권4호
    • /
    • pp.21-47
    • /
    • 2005
  • The purpose of this study is to investigate the effectiveness of English vocabulary learning strategies such as definition-oriented/contextoriented/situated context-oriented vocabulary learning strategy according to the cognitive styles of learners and interaction effect on the achievement test score between the learners' cognitive style and vocabulary learning strategies. The results show that there is no significant difference in the achievement test scores between field-dependent learner group and field-independent learner group. And there is significant difference in the English vocabulary achievement test scores among three experimental treatment groups, definition-oriented, context-oriented, situated context-oriented vocabulary learning strategy groups. Finally, there is an interaction effect on the achievement test score between the learners' cognitive style and vocabulary learning strategies.

  • PDF

지능형 홈네트워크 시스템을 위한 가변어휘 연속음성인식시스템에 관한 연구 (A Study on Vocabulary-Independent Continuous Speech Recognition System for Intelligent Home Network System)

  • 이호웅;정희석
    • 한국ITS학회 논문지
    • /
    • 제7권2호
    • /
    • pp.37-42
    • /
    • 2008
  • 본 논문에서는 지능형 홈네트워크의 음성제어를 위한 가변어휘 연속음성인식시스템을 개발하였다. 또한 자연스런 음성명령에 대한 인식을 위해 핵심어 기반의 자연스런 연속어휘에 대한 대화형 시나리오를 작성하였고, 핵심어기반의 인식 엔진 및 데이터베이스를 구축하여 인식엔진의 성능을 최적화하였다.

  • PDF

가변어휘 단어 인식기를 사용한 음성 명령 웹 브라우저 (Voice Command Web Browser Using Variable Vocabulary Word Recognizer)

  • 이항섭
    • 한국음향학회지
    • /
    • 제18권2호
    • /
    • pp.48-52
    • /
    • 1999
  • 본 논문에서는 웹 브라우저 상에서 한국어 음성인식을 이용하여 정보검색을 할 수 있는 가변어휘 단어 인식기를 사용한 음성 명령 웹 브라우저에 대하여 기술한다. 이 시스템의 특징은 웹 브라우저 상에서 보여지는 링크를 가지는 HyperText Word들과 웹 브라우저 메뉴를 음성으로 인식할 수 있는 것으로, 마우스 click 뿐만이 아니라 음성인식을 이용하여서도 웹 브라우저를 사용할 수 있다는 것이다. 웹 브라우저를 통해서 보여지는 문서에서 추출되는 인식 후보들은 각 문서에 따라 고정되지 않고 계속하여 변화하므로, 이러한 가변적인 인식 후보들을 인식하기 위해 가변어휘 단어 인식기를 사용하였다. 가변어휘 단어 인식기는 훈련용 음성 데이터와 무관한 임의의 새로운 어휘를 훈련 없이 인식해 낼 수 있는 인식기로 POW (Phonetically Optimized Words) 3,848 단어를 사용하여 훈련한 결과 32단어에 대해 93.8%의 단어 인식률을 보인다. 음성 명령 웹 브라우저는 Windows 95/NT 환경에서 Netscape Navigator를 사용하여 개발되었으며, 사용자가 음성을 사용하는 새로운 인터페이스를 배울 필요 없이 바로 사용할 수 있도록 사용자 편의성 부분도 고려하여 개발되었다. 개발된 음성 명령 웹 브라우저는 환경 독립, 화자 독립에 대해 On-line으로 실험한 결과 평균 90%의 인식성능을 보인다.

  • PDF

VCCV단위를 이용한 어휘독립 음성인식 시스템의 구현 (An Implementation of the Vocabulary Independent Speech Recognition System Using VCCV Unit)

  • 윤재선;홍광석
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.160-166
    • /
    • 2002
  • 본 논문에서는 CV (Consonant Vowel), VCCV (Vowel Consonant Consonant Vowel), VC (Vowel Consonant) 인식 단위를 이용한 새로운 어휘 독립 음성인식 시스템을 구현하였다. 이 인식 단위는 음절의 안정된 모음 구간에서 분할하여 구성했기 때문에 분할이 용이하다. VCCV단위가 존재하지 않을 경우에는 VC와 CV 반음절 모델을 결합하여 대체모델을 구성하였다. 모음군 군집화 (clustering)와 VCCV 모델이 존재하지 않을 경우 대체모델에 결합규칙을 적용하여 제 1후보에서 90.4% (모델 A)에서 95.6% (모델 C)로 5.2%의 인식 성능향상을 가져왔다. 인식실험결과 제 2후보에서 98.8%의 인식률로 제안된 방법이 효율적임을 확인하였다.

지식베이스를 이용한 임베디드용 연속음성인식의 어휘 적용률 개선 (Vocabulary Coverage Improvement for Embedded Continuous Speech Recognition Using Knowledgebase)

  • 김광호;임민규;김지환
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.115-126
    • /
    • 2008
  • In this paper, we propose a vocabulary coverage improvement method for embedded continuous speech recognition (CSR) using knowledgebase. A vocabulary in CSR is normally derived from a word frequency list. Therefore, the vocabulary coverage is dependent on a corpus. In the previous research, we presented an improved way of vocabulary generation using part-of-speech (POS) tagged corpus. We analyzed all words paired with 101 among 152 POS tags and decided on a set of words which have to be included in vocabularies of any size. However, for the other 51 POS tags (e.g. nouns, verbs), the vocabulary inclusion of words paired with such POS tags are still based on word frequency counted on a corpus. In this paper, we propose a corpus independent word inclusion method for noun-, verb-, and named entity(NE)-related POS tags using knowledgebase. For noun-related POS tags, we generate synonym groups and analyze their relative importance using Google search. Then, we categorize verbs by lemma and analyze relative importance of each lemma from a pre-analyzed statistic for verbs. We determine the inclusion order of NEs through Google search. The proposed method shows better coverage for the test short message service (SMS) text corpus.

  • PDF