• Title/Summary/Keyword: 기동어 인식

Search Result 3, Processing Time 0.018 seconds

A study on user defined spoken wake-up word recognition system using deep neural network-hidden Markov model hybrid model (Deep neural network-hidden Markov model 하이브리드 구조의 모델을 사용한 사용자 정의 기동어 인식 시스템에 관한 연구)

  • Yoon, Ki-mu;Kim, Wooil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.39 no.2
    • /
    • pp.131-136
    • /
    • 2020
  • Wake Up Word (WUW) is a short utterance used to convert speech recognizer to recognition mode. The WUW defined by the user who actually use the speech recognizer is called user-defined WUW. In this paper, to recognize user-defined WUW, we construct traditional Gaussian Mixture Model-Hidden Markov Model (GMM-HMM), Linear Discriminant Analysis (LDA)-GMM-HMM and LDA-Deep Neural Network (DNN)-HMM based system and compare their performances. Also, to improve recognition accuracy of the WUW system, a threshold method is applied to each model, which significantly reduces the error rate of the WUW recognition and the rejection failure rate of non-WUW simultaneously. For LDA-DNN-HMM system, when the WUW error rate is 9.84 %, the rejection failure rate of non-WUW is 0.0058 %, which is about 4.82 times lower than the LDA-GMM-HMM system. These results demonstrate that LDA-DNN-HMM model developed in this paper proves to be highly effective for constructing user-defined WUW recognition system.

Triplet loss based domain adversarial training for robust wake-up word detection in noisy environments (잡음 환경에 강인한 기동어 검출을 위한 삼중항 손실 기반 도메인 적대적 훈련)

  • Lim, Hyungjun;Jung, Myunghun;Kim, Hoirin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.39 no.5
    • /
    • pp.468-475
    • /
    • 2020
  • A good acoustic word embedding that can well express the characteristics of word plays an important role in wake-up word detection (WWD). However, the representation ability of acoustic word embedding may be weakened due to various types of environmental noise occurred in the place where WWD works, causing performance degradation. In this paper, we proposed triplet loss based Domain Adversarial Training (tDAT) mitigating environmental factors that can affect acoustic word embedding. Through experiments in noisy environments, we verified that the proposed method effectively improves the conventional DAT approach, and checked its scalability by combining with other method proposed for robust WWD.

문자 인식에서의 Fuzzy Membership Function

  • Yang, Sun-Seong;Nam, Gi-Dong;Kim, Yeong-Jong;Lee, Gyun-Ha
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.191-198
    • /
    • 1990
  • 본 논문에서는 문서 자동 인식 시스템에서 다중 카테고리로 모호하게 인식되어 질 수 있는 조합 심볼을 하나의 메타 심볼로 간주하고, 이 심볼을 fuzzy set theory에 기초를 두어 분석을 하였다. 분석 과정에서는 메타 심볼이 갖는 프리미티브들의 기울기와 길이, 프리미티브들간의 연결 및 프리미티브의 위치등의 어트리뷰트들을 이용하였다. 모호성을 내재하고 있는 메타 심볼들을 ACS(Ambiguous Category Set)의 원소로 간주하였으며, ACS의 원소들은 모호성의 원인을 제공하는 부분패턴들을 공동으로 포함하고 있다. 부분패턴을 구성하고 있는 프리미티브를 분리하여 어트리뷰트 값을 측정하고, 정의한 MF(Membership 함수)의 파라메터로 사용하였다. MF에서 얻어진 MFV(Membership Function Value)는 모호한 메타 심볼이 어떤 카테고리로 분류될 수 있는지를 나타내도록 하였다.

  • PDF