• 제목/요약/키워드: phoneme HMM

검색결과 62건 처리시간 0.027초

바타차랴 알고리즘에서 HMM 특징 추출을 이용한 음성 인식 최적 학습 모델 (Speech Recognition Optimization Learning Model using HMM Feature Extraction In the Bhattacharyya Algorithm)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.199-204
    • /
    • 2013
  • 음성 인식 시스템은 정확하지 않게 입력된 음성으로부터 학습 모델을 구성하고 유사한 음소 모델로 인식하기 때문에 인식률 저하를 가져온다. 따라서 본 논문에서는 바타차랴 알고리즘을 이용한 음성 인식 최적 학습 모델 구성 방법을 제안하였다. 음소가 갖는 특징을 기반으로 학습 데이터의 음소에 HMM 특징 추출 방법을 이용하였으며 유사한 학습 모델은 바타챠랴 알고리즘을 이용하여 정확한 학습 모델로 인식할 수 있도록 하였다. 바타챠랴 알고리즘을 이용하여 최적의 학습 모델을 구성하여 인식 성능을 평가하였다. 본 논문에서 제안한 시스템을 적용한 결과 음성 인식률에서 98.7%의 인식률을 나타내었다.

2층 구조의 입체 시각형 신경망 기반 음소인식 (Phoneme Recognition based on Two-Layered Stereo Vision Neural Network)

  • Kim, Sung-Ill;Kim, Nag-Cheol
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.523-529
    • /
    • 2002
  • 본 연구는 입체 시각을 위한 신경망에 대한 연구 결과로서 인간의 음성을 인식하는데 적용된다. 입체 시각신경망(SVNN)에 기반한 음성인식에서, 먼저 입력된 음성 신호를 표준 모델과 비교함으로써 유사성이 얻어진다. 이 값들은 다이나믹한 처리 과정으로 주어지고 이웃한 신경소자들 사이에서 경쟁적이고 협력적인 처리를 거치게 된다. 이러한 다이나믹한 처리과정을 통해 단 하나의 가장 우수한 신경세포(winner neuron)만이 최후에 검출된다. 비교연구에서 2층 구조의 SVNN은 HMM 인식기보다 인식정확도 측면에서 7.7% 더 높았다. 평가 결과. SVNN은 기손리 HMM 인식기 성능을 능가하는 것으로 나타났다.

  • PDF

Deep CNN 기반의 한국어 음소 인식 모델 연구 (Korean Phoneme Recognition Model with Deep CNN)

  • 홍윤석;기경서;권가진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.398-401
    • /
    • 2018
  • 본 연구에서는 심충 합성곱 신경망(Deep CNN)과 Connectionist Temporal Classification (CTC) 알고리즘을 사용하여 강제정렬 (force-alignment)이 이루어진 코퍼스 없이도 학습이 가능한 음소 인식 모델을 제안한다. 최근 해외에서는 순환 신경망(RNN)과 CTC 알고리즘을 사용한 딥 러닝 기반의 음소 인식 모델이 활발히 연구되고 있다. 하지만 한국어 음소 인식에는 HMM-GMM 이나 인공 신경망과 HMM 을 결합한 하이브리드 시스템이 주로 사용되어 왔으며, 이 방법 은 최근의 해외 연구 사례들보다 성능 개선의 여지가 적고 전문가가 제작한 강제정렬 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 또한 RNN 은 학습 데이터가 많이 필요하고 학습이 까다롭다는 단점이 있어, 코퍼스가 부족하고 기반 연구가 활발하게 이루어지지 않은 한국어의 경우 사용에 제약이 있다. 이에 본 연구에서는 강제정렬 코퍼스를 필요로 하지 않는 CTC 알고리즘을 도입함과 동시에, RNN 에 비해 더 학습 속도가 빠르고 더 적은 데이터로도 학습이 가능한 합성곱 신경망(CNN)을 사용하여 딥 러닝 모델을 구축하여 한국어 음소 인식을 수행하여 보고자 하였다. 이 모델을 통해 본 연구에서는 한국어에 존재하는 49 가지의 음소를 추출하는 세 종류의 음소 인식기를 제작하였으며, 최종적으로 선정된 음소 인식 모델의 PER(phoneme Error Rate)은 9.44 로 나타났다. 선행 연구 사례와 간접적으로 비교하였을 때, 이 결과는 제안하는 모델이 기존 연구 사례와 대등하거나 조금 더 나은 성능을 보인다고 할 수 있다.

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

분절 특징 HMM을 이용한 영어 음소 인식 (English Phoneme Recognition using Segmental-Feature HMM)

  • 윤영선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.167-179
    • /
    • 2002
  • 본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

분산 메모리 다중프로세서 환경에서의 병렬 음성인식 모델 (A Parallel Speech Recognition Model on Distributed Memory Multiprocessors)

  • 정상화;김형순;박민욱;황병한
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.44-51
    • /
    • 1999
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬계산모델을 제안한다. 음소모델은 연속 Hidden Markov Model(HMM)에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 지식베이스를 기반으로 한다. 또한 지식베이스를 구성하기 위해 계층구조의 semantic network과 병렬 marker-passing을 추론 메카니즘으로 쓰는 memory-based parsing 기술을 사용한다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD(Multiple Instruction Multiple Data) 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험결과, 본 연구의 지식베이스 기반 음성인식 시스템의 인식률이 word network 기반 음성인식 시스템보다 높게 나타났으며 code-phoneme 통계정보를 활용하여 인식성능의 향상도 얻을 수 있었다. 또한, 성능향상도(speedup) 관련 실험들을 통하여 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.

  • PDF

A Study on the Triphone Replacement in a Speech Recognition System with DMS Phoneme Models

  • Lee, Gang-Seong
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권3E호
    • /
    • pp.21-25
    • /
    • 1999
  • This paper proposes methods that replace a missing triphone with a new one selected or created by existing triphones, and compares the results. The recognition system uses DMS (Dynamic Multisection) model for acoustic modeling. DMS is one of the statistical recognition techniques proper to a small - or mid - size vocabulary system, while HMM (Hidden Markov Model) is a probabilistic technique suitable for a middle or large system. Accordingly, it is reasonable to use an effective algorithm that is proper to DMS, rather than using a complicated method like a polyphone clustering technique employed in HMM-based systems. In this paper, four methods of filling missing triphones are presented. The result shows that a proposed replacing algorithm works almost as well as if all the necessary triphones existed. The experiments are performed on the 500+ word DMS speech recognizer.

  • PDF

High-Performance 음성 인식을 위한 Efficient Mixture Gaussian 합성에 관한 연구 (A Study on Gaussian Mixture Synthesis for High-Performance Speech Recognition)

  • 이상복;이철희;김종교
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.195-198
    • /
    • 2002
  • We propose an efficient mixture Gaussian synthesis method for decision tree based state tying that produces better context-dependent models in a short period of training time. This method makes it possible to handle mixture Gaussian HMMs in decision tree based state tying algorithm, and provides higher recognition performance compared to the conventional HMM training procedure using decision tree based state tying on single Gaussian GMMs. This method also reduces the steps of HMM training procedure. We applied this method to training of PBS, and we expect to achieve a little point improvement in phoneme accuarcy and reduction in training time.

  • PDF

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

음소에 따른 화자특성을 이용한 화자적응방법에 관한 연구 (The Study on the Speaker Adaptation Using Speaker Characteristics of Phoneme)

  • 채나영;황영수
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.6-9
    • /
    • 2003
  • 본 연구는 화자 적응 시스템을 구축하기 위한 전과정으로서, 음성 인식 단위로, 음소를 이용할 경우 화자 적응 변화에 대한 연구이다. 음소 변화에 따른 가중치를 적응시켜 화자 적응을 하기 위하여, 본 연구에서는 인식 시스템으로 반연속 HMM, 화자 적응 방법으로는 최대사후확률추정법과 음성선형특성을, 인식 대상 단어로 10개의 격리 숫자음을 사용하였다. 상기의 화자 적응 방법들은 교사 없는 학습이 가능한 것으로서, 온라인 시스템에서 사용이 가능하다. 이 두 방법을 수행한 결과 두 번째 방법보다 첫 번째 방법의 결과가 더 나은 인식률을 보였으며, 두 방법 모두 결합하여 인식 실험을 한 결과가 각각의 화자 적응 방법을 독립적으로 수행한 결과보다 좋은 결과를 얻을 수 있었다. 또한 가중치에 따른 화자 적응 결과 음소에 따른 변동 가중치를 사용할 경우가 고정된 가중치를 이용한 것보다 우수한 결과를 보였다.

  • PDF