• 제목/요약/키워드: Vocabulary Clustering

검색결과 30건 처리시간 0.023초

Modified Phonetic Decision Tree For Continuous Speech Recognition

  • Kim, Sung-Ill;Kitazoe, Tetsuro;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권4E호
    • /
    • pp.11-16
    • /
    • 1998
  • For large vocabulary speech recognition using HMMs, context-dependent subword units have been often employed. However, when context-dependent phone models are used, they result in a system which has too may parameters to train. The problem of too many parameters and too little training data is absolutely crucial in the design of a statistical speech recognizer. Furthermore, when building large vocabulary speech recognition systems, unseen triphone problem is unavoidable. In this paper, we propose the modified phonetic decision tree algorithm for the automatic prediction of unseen triphones which has advantages solving these problems through following two experiments in Japanese contexts. The baseline experimental results show that the modified tree based clustering algorithm is effective for clustering and reducing the number of states without any degradation in performance. The task experimental results show that our proposed algorithm also has the advantage of providing a automatic prediction of unseen triphones.

  • PDF

Determining the Optimal Number of Signal Clusters Using Iterative HMM Classification

  • Ernest, Duker Junior;Kim, Yoon Joong
    • International journal of advanced smart convergence
    • /
    • 제7권2호
    • /
    • pp.33-37
    • /
    • 2018
  • In this study, we propose an iterative clustering algorithm that automatically clusters a set of voice signal data without a label into an optimal number of clusters and generates hmm model for each cluster. In the clustering process, the likelihood calculations of the clusters are performed using iterative hmm learning and testing while varying the number of clusters for given data, and the maximum likelihood estimation method is used to determine the optimal number of clusters. We tested the effectiveness of this clustering algorithm on a small-vocabulary digit clustering task by mapping the unsupervised decoded output of the optimal cluster to the ground-truth transcription, we found out that they were highly correlated.

Effective Acoustic Model Clustering via Decision Tree with Supervised Decision Tree Learning

  • Park, Jun-Ho;Ko, Han-Seok
    • 음성과학
    • /
    • 제10권1호
    • /
    • pp.71-84
    • /
    • 2003
  • In the acoustic modeling for large vocabulary speech recognition, a sparse data problem caused by a huge number of context-dependent (CD) models usually leads the estimated models to being unreliable. In this paper, we develop a new clustering method based on the C45 decision-tree learning algorithm that effectively encapsulates the CD modeling. The proposed scheme essentially constructs a supervised decision rule and applies over the pre-clustered triphones using the C45 algorithm, which is known to effectively search through the attributes of the training instances and extract the attribute that best separates the given examples. In particular, the data driven method is used as a clustering algorithm while its result is used as the learning target of the C45 algorithm. This scheme has been shown to be effective particularly over the database of low unknown-context ratio in terms of recognition performance. For speaker-independent, task-independent continuous speech recognition task, the proposed method reduced the percent accuracy WER by 3.93% compared to the existing rule-based methods.

  • PDF

가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델 (Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System)

  • 김민제;이정철
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.319-324
    • /
    • 2006
  • 본 논문에서는 화자독립 가변어휘 핵심어 검출기의 성능을 개선하기 위하여 두 가지의 새로운 비핵심어 모델링 방법을 제안한다. 첫째는 K-means 알고리즘 기반 monophone 군집화 방법을 개선하기 위해 monophone을 state단위로 결정트리를 기반으로 군집화하여 비핵심어를 모델링하는 방법이다. 둘째는 single state multiple mixture 방법을 개선하기 위해 음절단위 multi-state multiple mixture 방법으로 모델링하는 방법이다. 실험에서 ETRI 표준 한국어 공통음성 단어 DB를 이용하여 트라이폰 모델을 훈련하였고, 훈련에 사용하지 않은 음성데이터를 이용하여 핵심어 검출closed 테스트를 수행하였다. 그리고 사무실 환경에서 4명의 화자가 각각 100문장씩 발성한 400문장의 음성데이터를 이용하여 100단어 핵심어 검출 open 테스트를 수행하였다. 실험 결과 결정트리기반 상태 군집화 방법이 기존의 K-means 알고리듬 기반 monophone clustering 방법보다 핵심어 검출 성능이 28%/29%(closed/open test) 향상되었다 그리고 음절단위 multi-state multiple mixture 방법이 비핵심어 전체를 single state 모델로 구성하는 방법보다 핵심어 검출 성능이 22%/2%(closed/open test) 향상됨으로써 본 논문에서 제안한 두 가지 알고리듬이 우수한 결과를 나타내었다

가변어휘 핵심어 검출 시스템의 구현 (Implementation of Vocabulary-Independent Keyword Spotting System)

  • 신영욱;송명규;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.167-170
    • /
    • 2000
  • 본 논문에서는 triphone을 기본단위로 하는 HMM에 의해 핵심어 모델을 구성하고, 사용자가 임의로 핵심어를 추가 및 변경할 수 있도록 가변어휘 핵심어 검출기를 구현하였다. 비핵심어 모델링 방법으로 monophone clustering을 사용한 방법 및 GMM을 사용한 방법의 성능을 비교하였다. 또한 후처리 과정에서 가변어휘 인식구조에 적합한 anti-subword 모델을 사용하였으며 몇 가지 구현방식에 따른 후처리 성능을 검토하였다. 실험결과 비핵심어 모델로 monophone을 clustering하여 사용한 방법보다 GMM을 사용한 경우 약간의 인식성능 개선을 얻을 수 있었으며, 후처리 과정에서 Kullback distance를 이용한 anti-subword 모델링 방식이 다른 방식에 비해 우수한 결과를 나타냈다.

  • PDF

가변 어휘 음성 인식기의 음향모델 개선 및 성능분석 (Acoustic Model Improvement and Performance Evaluation of the Variable Vocabulary Speech Recognition System)

  • 이승훈;김회린
    • 한국음향학회지
    • /
    • 제18권8호
    • /
    • pp.3-8
    • /
    • 1999
  • 문맥독립형 음향모델을 채택하고 있는 기존의 가변어휘 음성인식기는 주변환경에 따른 음소의 변화를 모델링 할 수 없었다. 이러한 문제를 해결하기 위해서는 변이음을 이용한 문맥의존형 음향모델을 사용해야 한다. 본 논문은 가변어휘 음성인식기의 음향모델을 효과적으로 개선하기 위하여 적용한 방법에 대해서 기술하고 있다. 즉, 음향모델의 개선은 엔트로피를 이용한 군집화 기법을 적용하여 변이음의 개수를 변경시키면서 최적의 변이음 모델을 추출하는 방법을 사용하였다. 개선된 모델에 대한 성능은 POW(Phonetically Optimized Words) 3848 DB 및 SNR이 크게 다른 2종류의 PC168 DB를 이용하여 훈련 및 인식 실험을 수행하면서 평가하였다. 결론적으로 변이음의 개수를 낮추면서도 인식 성능의 저하를 가져오지 않는 최적의 변이음 모델을 얻을 수 있었으며 PC168 DB를 이용한 인식실험을 통하여 확인할 수 있었다.

  • PDF

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

변형된 Dynamic Averaging 방법을 이용한 단독어인식 (Isolated Word Recognition using Modified Dynamic Averaging Method)

  • 정의봉;고영혁;이종악
    • 한국음향학회지
    • /
    • 제10권2호
    • /
    • pp.23-28
    • /
    • 1991
  • 본 논문을 특정화자에 대한 단독어 음성 인식에 대한 연구이다. 우리는 표준패턴으로서 변형된 dynamic linear averaging 방법을 이용한 DTW 음성 인식 시스템을 제안한다. 57개의 모든 도시명이 인식 대상 어휘로 선정되었고 12차 LPC cepstram 계수를 특징계수로 사용하였다. 이 논문은 표준패턴으로 변형된 dynamic linear averaging 방법을 이용하여 인식 실험을 한것 이외에도 같은 데이터 같은 조건상에서 causal 방법과 dynamic averaging방법, linear averaging방법, clustering 방법을 이용하여 실험하였다. 실험결과로 변형시킨 dynamic linear averaging 방법을 이용한 DTW 음성인식이 97.6%로 가장 좋은 인식율을 보였다.

  • PDF

Bayesian 기법의 모수 추정을 이용한 결정트리 상태 공유 모델링 (Decision Tree State Tying Modeling Using Parameter Estimation of Bayesian Method)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권1호
    • /
    • pp.243-248
    • /
    • 2015
  • 인식 모델을 구성할 때 정의되지 않은 모델, 인식 모델 구성 후에 추가되어진 모델, 모델이 부족하여 하나의 모델 클러스터링으로 모델링하여 생성된 인식 모델들은 인식률 저하의 원인이 된다. 이러한 원인을 개선하기 위하여 Bayesian 기법의 모수 추정을 이용한 결정트리 상태 공유 모델링 방법을 제안하였다. 제안 방법은 Bayesian 기법의 파라미터 추정을 통하여 탐색된 결과로부터 결정트리 기반 상태 공유 모델링의 최대 확률 기법에 따라 인식모델을 결정한다. 본 논문에서 제안하여 시뮬레이션 데이터를 이용한 실험 결과에서 제안한 군집화 방식을 비교하여 1.29%의 음성인식 오류감소율을 보였으며, 기존 군집화 방식에 비해 개선된 성능을 보였다.

A Study on the Triphone Replacement in a Speech Recognition System with DMS Phoneme Models

  • Lee, Gang-Seong
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권3E호
    • /
    • pp.21-25
    • /
    • 1999
  • This paper proposes methods that replace a missing triphone with a new one selected or created by existing triphones, and compares the results. The recognition system uses DMS (Dynamic Multisection) model for acoustic modeling. DMS is one of the statistical recognition techniques proper to a small - or mid - size vocabulary system, while HMM (Hidden Markov Model) is a probabilistic technique suitable for a middle or large system. Accordingly, it is reasonable to use an effective algorithm that is proper to DMS, rather than using a complicated method like a polyphone clustering technique employed in HMM-based systems. In this paper, four methods of filling missing triphones are presented. The result shows that a proposed replacing algorithm works almost as well as if all the necessary triphones existed. The experiments are performed on the 500+ word DMS speech recognizer.

  • PDF