• 제목/요약/키워드: Continuous Speech Recognition

검색결과 223건 처리시간 0.026초

연속분포 HMM을 이용한 음성인식 시스템에 관한 연구 (A Study on Speech Recognition System Using Continuous HMM)

  • 김상덕;이극
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.221-225
    • /
    • 1998
  • 본 논문에서는 연속분포(Continuous) HMM(hidden Markov model)을 기반으로 하여 한국어 고립단어인식 시스템을 설계, 구현하였다. 시스템의 학습과 평가를 위해 자동차 항법용 음성 명령어 도메인에서 추출한 10개의 고립단어를 대상으로 음성 데이터 베이스를 구축하였다. 음성 특징 파라미터로는 MFCCs(Mel Frequency Cepstral Coefficients)와 차분(delta) MFCC 그리고 에너지(energy)를 사용하였다. 학습 데이터로부터 추출한 18개의 유사 음소(phoneme-like unit : PLU)를 인식단위로 HMM 모델을 만들었고 조음 결합 현상(채-articulation)을 모델링 하기 위해 트라이폰(triphone) 모델로 확장하였다. 인식기 평가는 학습에 참여한 음성 데이터와 학습에 참여하지 않은 화자가 발성한 음성 데이터를 이용해 수행하였으며 평균적으로 97.5%의 인식성능을 얻었다.

  • PDF

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

FIR-STREAK 디지털 필터를 사용한 피치추출 방법에 관한 연구 (A Study on Pitch Extraction Method using FIR-STREAK Digital Filter)

  • 이시우
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.247-252
    • /
    • 1999
  • 낮은 Bit Rate의 음성부호화 방식을 구현하기 위해 필요한 파라메터로서 피치정보가 있다. 연속음성에서 정규화 된 피치정보를 추출하는 방법에서는 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서 피치추출 오류가 발생한다. 이러한 오류를 억제하기 위하여 본 연구에서는 FIR-STREAK 필터의 출력 잔차신호에서 피치정보를 얻는 개별 피치추출법을 제안하였다. 이 방법은 피치정보를 정규화하지 않고 연속적으로 변위하는 피치간격을 적절하게 나타낼 수 있다. 실험결과, 개별 피치추출법은 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서도 유효한 피치정보를 얻을 수 있음을 알 수 있었다. 이 방법은 음성부호화방식, 음성분석, 음성합성, 음성인식등에 응용할 수 있을 것으로 기대된다.

  • PDF

이산 웨이브렛 변환영역에서의 스펙트럼 차감법을 이용한 잡음제거 (Noise Reduction using Spectral Subtraction in the Discrete Wavelet Transform Domain)

  • 김현기;이상운;홍재근
    • 한국멀티미디어학회논문지
    • /
    • 제4권4호
    • /
    • pp.306-315
    • /
    • 2001
  • 잡음환경에서의 음성인식을 위하여 음성에 부가된 잡음을 제거하는 방법에 있어, 기존의 스펙트럼 차감법은 잡음과 음성을 정확히 구별하기 힘들고 정확한 잡음의 특성을 추정할 수 없는 단점이 있다. 또한 웨이브렛 변환영역에서의 잡음제거 방법은 임계값 적용시 저주파 영역보다는 고주파영역에 상대적으로 더 큰 영향을 미쳐 고주파영역에서 신호의 손실이 발생하는 단점이 있다. 본 논문에서는 스펙트럼 차감법 및 웨이브렛 변환을 이용한 잡음제거 방법의 단점을 개선하기 위하여 연속 웨이브렛 변환 영역에서 웨이브렛 계수의 스케일별 표준편차로 묵음구간과 음성 구간을 판별하여 끝점을 검출 후, 잡음이 섞인 음성신호를 이산 웨이브렛 변화에 의해 3개의 대역으로 분리하여 각각의 대역 내에서 스펙트럼 차감법을 적용시키는 방법을 제안한다. 끝점을 검출하고 대역을 나눔으로써 스펙트럼 차감을 적응할 잡음 신호의 특성을 정확히 추출할 수 있다. 실험을 통하여 제안한 방법이 기존의 스펙트럼 차감법 및 웨이브렛 변환을 이용한 잡음제거 방법보다 신호대 잡음비 및 Itakura-Saito거리 측면에서 향상됨을 확인할 수 있었다.

  • PDF

시계열패턴의 학습과 예측을 위한 적응 시간지연 회귀 신경회로망 (An adaptive time-delay recurrent neural network for temporal learning and prediction)

  • 김성식
    • 한국통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.534-540
    • /
    • 1996
  • This paper presents an Adaptive Time-Delay Recurrent Neural Network (ATRN) for learning and recognition of temporal correlations of temporal patterns. The ATRN employs adaptive time-delays and recurrent connections, which are inspired from neurobiology. In the ATRN, the adaptive time-delays make the ATRN choose the optimal values of time-delays for the temporal location of the important information in the input parrerns, and the recurrent connections enable the network to encode and integrate temporal information of sequences which have arbitrary interval time and arbitrary length of temporal context. The ATRN described in this paper, ATNN proposed by Lin, and TDNN introduced by Waibel were simulated and applied to the chaotic time series preditcion of Mackey-Glass delay-differential equation. The simulation results show that the normalized mean square error (NMSE) of ATRN is 0.0026, while the NMSE values of ATNN and TDNN are 0.014, 0.0117, respectively, and in temporal learning, employing recurrent links in the network is more effective than putting multiple time-delays into the neurons. The best performance is attained bythe ATRN. This ATRN will be sell applicable for temporally continuous domains, such as speech recognition, moving object recognition, motor control, and time-series prediction.

  • PDF

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

음소변동규칙의 적합도 조정을 통한 연속음성인식 성능향상 (Improving the Performance of the Continuous Speech Recognition by Estimating Likelihoods of the Phonetic Rules)

  • 나민수;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.80-83
    • /
    • 2006
  • The purpose of this paper is to build a pronunciation lexicon with estimated likelihoods of the phonetic rules based on the phonetic realizations and therefore to improve the performance of CSR using the dictionary. In the baseline system, the phonetic rules and their application probabilities are defined with the knowledge of Korean phonology and experimental tuning. The advantage of this approach is to implement the phonetic rules easily and to get stable results on general domains. However, a possible drawback of this method is that it is hard to reflect characteristics of the phonetic realizations on a specific domain. In order to make the system reflect phonetic realizations, the likelihood of phonetic rules is reestimated based on the statistics of the realized phonemes using a forced-alignment method. In our experiment, we generates new lexica which include pronunciation variants created by reestimated phonetic rules and its performance is tested with 12 Gaussian mixture HMMs and back-off bigrams. The proposed method reduced the WER by 0.42%.

  • PDF

PTM 모델을 사용한 HMM 음성인식기에서 효율적인 디코딩을 위한 가우시안 선택기법 (Gaussian Selection in HMM Speech Recognizer with PTM Model for Efficient Decoding)

  • 손종목;정성윤;배건성
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.75-81
    • /
    • 2004
  • 가우시안 선택기법은 연속 확률분포를 갖는 HMM음성인식기에서 인식성능을 저하시키지 않으면서 관측확률을 구할 때 계산되는 가우시안의 수를 줄여 효율적인 디코딩을 하기 위해 많이 이용되는 방법이다. 본 논문에서는 PTM 구조를 갖는 HMM에서 관측확률을 계산하는데 필요한 가우시안 함수의 부분집합을 구하는 새로운 가우시안 선택기법을 제안한다. PTM 모델에서는 음성신호의 음향특성에 따라 구분되는 클래스별 가중치와 공통적인 가우시안 집합을 이용하여 각 상태를 나타내는데, 제안한 방법에서는 PTM 구조가 갖는 이러한 특성을 이용하여 인식성능의 저하없이 관측확률 계산에 소요되는 적은 수의 가우시안 부분집합을 구한다. 실험결과 기존의 가우시안 선택기법이 가우시안 선택기법을 적용하지 않았을 경우에 비해 20∼30% 계산량을 필요로 하는데, 제안한 기법은 16.41%의 가우시안 함수 계산만으로도 별다른 인식성능 저하없이 인식 과정을 수행할 수 있었다.

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석 (Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System)

  • 이경님;정민화
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.656-664
    • /
    • 2002
  • 본 논문에서는 한국어 발음열 자동 생성기를 이용하여 한국어의 음운 규칙에 대한 통계적 분석을 수행하였다. 실험에 사용한 발음열 자동 생성기는 한국어 음운 변화 현상에 대해 형태음운론에 기반 한 언어학적 분석과 문교부 표준어 규정의 표준 발음법에서 유도된 필수 및 수의적 음소 변동 규칙과 변이음 규칙의 단계적 적용 모델을 사용해서 구현되었으며, 특히 연속음성 인식을 위한 학습용 발음열과 인식용 발음사전 생성의 최적화를 목표로 하였다. 본 논문에서는 대어휘 연속음성 인식기의 음향 모델을 구축하기 위해 만들어진 삼성 PBS(Phonetically Balanced Sentence) 음성 데이터 베이스의 60,000문장에 적용된 발음열 생성기의 음소 변동규칙들의 분포 및 그 통계를 사용해서 한국어 음운 변화 양상을 분석하였다. 적용된 빈도수를 기준으로 분석한 결과, 필수음소 변동규칙의 경우는 연음법칙, 경음화, 격음화, 장애음의 비음화순으로, 수의적 음소 변동규칙의 경우는 초성 ㅎ 탈락, 중복 자음화, 동일 조음위치 자음탈락 순으로 음운 변화가 발생하였다. 이러한 적용 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 양상을 파악할 수 있었으며, 나아가 본 논문의 연구 결과는 음성 인식 시스템을 개발하는데 유용하게 사용할 수 있을 것이다.

잡음에 강한 특징 벡터 및 스펙트럼 차감법을 이용한 음성 인식 (Speech Recognition Using Noise Robust Features and Spectral Subtraction)

  • 신원호;양태영;김원구;윤대희;서영주
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.38-43
    • /
    • 1996
  • 본 논문에서는 잡음 및 주변 환경에 강인한 것으로 알려져 있는 특징 벡터들을 이용한 인식 성능을 비교하였다. 아울러 스펙트럼 차감법을 적용하여 높은 인식 성능을 얻도록 하였다. 본 논문에서는 환경 변화에 강인한 인식 성능을 얻기 위하여 SMC(Short time Modified Coherence) 분석, 루트(root) 켑스트럼 분석, LDA(Linear Discriminant Analysis), PLP(Perceptual Linear Prediction), RASTA(RelAtive SpecTrAl) 처리 등을 이용하여 인식 실험을 수행하였다. 실험을 위하여 반연속 HMM을 이용한 단독음 인식 시스템을 구현하였고 전시장 및 컴퓨터실의 잡음을 첨가하여 0, 10 및 20dB의 SNR에 대한 인식 실험을 수행하였다. 실험 결과, LPCC(Linear Prediction Cepstral Coefficient)를 이용한 경우에 비하여 SMC나 루트처리를 이용한 멜 켑스트럼(루트_멜 켑스트럼)을 이용한 경우 10dB의 SNR에서 각각 9.86%, 12.68% 향상된 가장 좋은 인식률을 얻었다. 또한 멜 켑스트럼과 루트_멜 켑스트럼을 스펙트럼 차감법과 결합하여 잡음을 제거한 경우 10dB에서 각각 16.7%, 8.4% 향상된 94.91%, 94.28%의 인식률을 얻을 수 있었다.

  • PDF