• 제목/요약/키워드: Decision Tree-based state clustering

검색결과 9건 처리시간 0.027초

Optimal Decision Tree를 이용한 Unseen Model 추정방법 (Unseen Model Prediction using an Optimal Decision Tree)

  • 김성탁;김회린
    • 대한음성학회지:말소리
    • /
    • 제45호
    • /
    • pp.117-126
    • /
    • 2003
  • Decision tree-based state tying has been proposed in recent years as the most popular approach for clustering the states of context-dependent hidden Markov model-based speech recognition. The aims of state tying is to reduce the number of free parameters and predict state probability distributions of unseen models. But, when doing state tying, the size of a decision tree is very important for word independent recognition. In this paper, we try to construct optimized decision tree based on the average of feature vectors in state pool and the number of seen modes. We observed that the proposed optimal decision tree is effective in predicting the state probability distribution of unseen models.

  • PDF

Bayesian 기법의 모수 추정을 이용한 결정트리 상태 공유 모델링 (Decision Tree State Tying Modeling Using Parameter Estimation of Bayesian Method)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권1호
    • /
    • pp.243-248
    • /
    • 2015
  • 인식 모델을 구성할 때 정의되지 않은 모델, 인식 모델 구성 후에 추가되어진 모델, 모델이 부족하여 하나의 모델 클러스터링으로 모델링하여 생성된 인식 모델들은 인식률 저하의 원인이 된다. 이러한 원인을 개선하기 위하여 Bayesian 기법의 모수 추정을 이용한 결정트리 상태 공유 모델링 방법을 제안하였다. 제안 방법은 Bayesian 기법의 파라미터 추정을 통하여 탐색된 결과로부터 결정트리 기반 상태 공유 모델링의 최대 확률 기법에 따라 인식모델을 결정한다. 본 논문에서 제안하여 시뮬레이션 데이터를 이용한 실험 결과에서 제안한 군집화 방식을 비교하여 1.29%의 음성인식 오류감소율을 보였으며, 기존 군집화 방식에 비해 개선된 성능을 보였다.

가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델 (Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System)

  • 김민제;이정철
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.319-324
    • /
    • 2006
  • 본 논문에서는 화자독립 가변어휘 핵심어 검출기의 성능을 개선하기 위하여 두 가지의 새로운 비핵심어 모델링 방법을 제안한다. 첫째는 K-means 알고리즘 기반 monophone 군집화 방법을 개선하기 위해 monophone을 state단위로 결정트리를 기반으로 군집화하여 비핵심어를 모델링하는 방법이다. 둘째는 single state multiple mixture 방법을 개선하기 위해 음절단위 multi-state multiple mixture 방법으로 모델링하는 방법이다. 실험에서 ETRI 표준 한국어 공통음성 단어 DB를 이용하여 트라이폰 모델을 훈련하였고, 훈련에 사용하지 않은 음성데이터를 이용하여 핵심어 검출closed 테스트를 수행하였다. 그리고 사무실 환경에서 4명의 화자가 각각 100문장씩 발성한 400문장의 음성데이터를 이용하여 100단어 핵심어 검출 open 테스트를 수행하였다. 실험 결과 결정트리기반 상태 군집화 방법이 기존의 K-means 알고리듬 기반 monophone clustering 방법보다 핵심어 검출 성능이 28%/29%(closed/open test) 향상되었다 그리고 음절단위 multi-state multiple mixture 방법이 비핵심어 전체를 single state 모델로 구성하는 방법보다 핵심어 검출 성능이 22%/2%(closed/open test) 향상됨으로써 본 논문에서 제안한 두 가지 알고리듬이 우수한 결과를 나타내었다

결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘을 이용한 음성인식에 관한 연구 (A Study on Speech Recognition Using the HM-Net Topology Design Algorithm Based on Decision Tree State-clustering)

  • 정현열;정호열;오세진;황철준;김범국
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.199-210
    • /
    • 2002
  • 본 논문은 한국어 음성인식에서 음향모델의 성능개선을 위한 기초적 연구로서 결정트리 상태 클러스터링에 의한 HM-Net (Hidden Markov Network)의 구조결정 알고리즘을 이용한 음성인식에 관한 연구를 수행하였다. 한국어는 다른 언어와 비교하여 많은 문법과 변이음이 존재하는데, 국어 음성학에서 정의한 다양한 변이음을 조사하고, 음소결정트리를 위한 음소 질의어 집합을 작성하였다. 본 논문의 HM-Net 구조결정 알고리즘의 아이디어는 SSS (Successive State Splitting) 알고리즘의 구조를 가지면서 미리 작성해 둔 문맥의존 음향모델의 상태를 다시 분할하는 방법이다. 즉, 모델의 각 상태위치마다 음소 질의어 집합에 의해 음소결정트리를 생성하고, PDT-SSS (Phonetic Decision Tree-based SSS) 알고리즘에 의해 문맥의존 음향모델의 상태열을 다시 학습하는 방법이다. 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하기 위해, 국어공학센터 (KLE)의 452단어와 항공편 예약에 관련된 YNU200 문장을 대상으로 음성인식 실험을 수행하였다. 인식실험 결과, 음소, 단어, 연속음성인식 실험에서 상태분할을 수행한 후 상태수의 변화에 따라 인식률이 점진적으로 향상됨을 확인하였다. 상태수 2,000일 때 음소, 단어 인식률이 평균 71.5%, 99.2%를 각각 얻었으며, 연속음성인식률은 상태수 800일 때 평균 91.6%를 얻었다. 또한 HM-Net 구조결정 알고리즘의 파라미터 공유관계를 비교하기 위해 상태공유를 수행하는 HTK를 이용한 단어인식 실험을 수행하였다. 실험결과, HTK를 이용한 문맥의존 음향모델에 비해 평균 4.0%의 인식률 향상을 보여, 본 논문에서 적용한 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하였다.

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

혼합 가우시안 군집화를 이용한 상태공유 음향모델 최적화 (A Study on the Optimization of State Tying Acoustic Models using Mixture Gaussian Clustering)

  • 안태옥
    • 대한전자공학회논문지SP
    • /
    • 제42권6호
    • /
    • pp.167-176
    • /
    • 2005
  • 본 논문은 음성인식에 쓰이는 음향모델의 모델링 방법 중 결정트리 상태공유 모델링(DTST)을 기반으로 출력 확률 분포의 혼합 가우시안 수를 줄여 모델을 최적화하는 방법을 제안한다. DTST는 음성학적 지식을 포함할 수 있는 질의어 집합과 유사도를 기반으로 한 결정 방법을 이용하는 것이다. 이때 상태들의 출력 확률 분포의 혼합 가우시안 수를 늘려 인식률을 증가시킬 수 있게 된다. 본 논문에서는 인식률이 최대가 되는 지점에서 혼합 가우시안들을 군집화 하여 그 수를 줄이고자 한다. 군집화 시에 필요한 거리 측정 방법은 유클리드(Euclidean)와 바타챠랴(Bhattacharyya) 방법을 이용하였고, 새로운 가우시안은 거리가 최소가 되는 두 가우시안으로부터 평균과 분산을 다시 계산하여 생성하였다. 증권상장 회사명(STOCKNAME) 1,680개의 단어 데이터베이스를 구성하여 실험한 결과 바타챠랴 방법은 $97.2\%$의 인식률을 유지하면서 전체 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켰고, 유클리드 방법은 $96.9\%$의 인식률을 유지하면서 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켜 모델을 최적화할 수 있었다.

무선 센서 네트워크에서 클러스터링 기반 Sleep Deprivation Attack 탐지 모델 (Sleep Deprivation Attack Detection Based on Clustering in Wireless Sensor Network)

  • 김숙영;문종섭
    • 정보보호학회논문지
    • /
    • 제31권1호
    • /
    • pp.83-97
    • /
    • 2021
  • 무선 센서 네트워크를 구성하는 무선 센서는 일반적으로 전력 및 자원이 극히 제한적이다. 무선 센서는 전력을 보존하기 위해 일정 주기마다 sleep 상태로 진입한다. Sleep deprivation attack은 무선 센서의 sleep 상태 진입을 막음으로써 전력을 소진 시키는 치명적인 공격이지만 이에 대한 뚜렷한 대응책이 없다. 이에 본 논문에서는 클러스터링 기반 이진 탐색 트리 구조의 Sleep deprivation attack 탐지 모델을 제안한다. 본 논문에서 제안하는 sleep deprivation attack 탐지 모델은 기계학습을 통해 분류한 공격 센서 노드와 정상 센서 노드의 특징을 사용한다. 이때 탐지 모델에 사용한 특징은 Long Short-Term Memory(LSTM), Decision Tree(DT), Support Vector Machine(SVM), K-Nearest Neighbor(K-NN)을 이용하여 결정하였다. 결정된 특징은 본 논문에서 제안한 알고리즘에 사용하여 공격 탐지를 위한 값들을 계산하였으며, 계산한 값을 판정하기 위한 임계값은 SVM을 적용하여 도출하였다. 본 논문에서 제안하는 탐지 모델은 기계학습으로 도출된 특징과 임계값을 본 논문에서 제안한 탐지 알고리즘에 적용하여 구성하였으며, 실험을 통해 전체 센서 노드 20개 중 공격 센서 노드의 비율이 0.35일 때 94%의 탐지율을 갖고 평균 에너지 잔량은 기존 연구보다 최대 26% 향상된 결과를 보였다.

상태레벨 공유를 이용한 MLLR 적응화의 회귀클래스 생성에 관한 연구 (A Study on Regression Class Generation of MLLR Adaptation Using State Level Sharing)

  • 오세진;성우창;김광동;노덕규;송민규;정현열
    • 한국음향학회지
    • /
    • 제22권8호
    • /
    • pp.727-739
    • /
    • 2003
  • 본 논문에서는 HM-Net (Hidden Markov Network)을 다양한 태스크에의 적용과 화자의 특성을 효과적으로 나타내기 위해 HM-Net 음성인식 시스템에 MLLR (Maximum Likelihood Linear Regression) 적응방법을 도입하였으며, HM-Net 학습 알고리즘을 개량하여 회귀클래스 생성방법을 제안한다. 제안방법은 PDT-SSS (Phonetic Decision Tree-based Successive State Splitting)알고리즘의 문맥방향 상태분할에 의한 상태레벨 공유를 이용한 방법이다. 즉, 문맥방향의 각 상태에 적응화자 음성데이터에 포함된 문맥정보를 분할하여 적응화될 음소환경을 결정하는 것이다. 따라서 제안방법은 새로운 화자로부터 문맥정보와 적응화 데이터의 발성 양에 의존하여 결정된 많은 적응 파라미터들을 (평균, 분산) 자유롭게 제어할 수 있게 된다. 제안방법의 유효성을 확인하기 위해 국어공학센터 (KLE) 452 데이터와 항공편 예약관련 (YNU200) 연속음성을 대상으로 인식실험을 수행한 결과, 음소인식, 단어인식, 연속음성인식에 대해서, 평균 34∼37%, 평균 9%, 평균 20%의 성능 향상을 각각 보였다. 또한 적응화 데이터의 양에 따른 인식성능 비교에서 제안방법을 적용한 인식 시스템이 적응 데이터의 양이 적은 경우에도 향상된 인식률을 보여 MLLR 적응방법의 특성을 만족하였다. 따라서 MLLR 적응방법을 도입한 HM-Net 음성인식 시스템에 제안한 회귀클래스 생성방법이 유효함을 확인할 수 있었다.

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.