통합 검색 | Korea Science

DMS 모델과 이중 스펙트럼 특징을 이용한 HMM에 의한 음성 인식 (HMM-based Speech Recognition using DMS Model and Double Spectral Feature)

안태옥
- 한국산학기술학회논문지
- /
- 제7권4호
- /
- pp.649-655
- /
- 2006
본 논문은 화자 독립의 음성인식을 위한 연구로써, DMS 모델에 의한 DMSVQ(Dynamic Multi-Section Vector Quantization) 코드북과 이중 스펙트럼 특징을 이용한 HMM(Hidden Markov Model) 음성인식 방법을 제안한다. 정적 스펙트럼 특징으로서는 LPC ?S스트럼 계수를 이용하였고, 동적 스펙트럼 특징으로는 LPC ?S스트럼의 회귀계수를 사용하였다. 이들 두개의 스펙트럼 특징들을 각각 VQ 코드북으로 양자화되고, DMS 모델을 이용한 HMM은 입력으로써 정적 스펙트럼 특징과 동적 스펙트럼 특징을 받아드림으로써 모델링된다. 제안된 방법에 의한 인식 실험은 기존의 다양한 인식 방법에 의한 인식 실험들과 비교를 위해 동일한 데이터와 조건 하에서 수행하였다. 실험 결과, 본 연구에서 제안한 방법이 기존의 방법들보다 우수한 방법임을 입증하였다.
PDF

FSVQ, 퍼지 개념 및 이중 스펙트럼 특징을 이용한 HMM에 기초를 둔 음성 인식 (HMM-based Speech Recognition using FSVQ, Fuzzy Concept and Doubly Spectral Feature)

정의봉
- 한국컴퓨터산업학회논문지
- /
- 제5권4호
- /
- pp.491-502
- /
- 2004
본 논문은 화자 독립의 단독어 인식에 관한 연구로써, FSVQ(first section vector quantization), 퍼지 이론 및 이중 스펙트럼 특징을 이용한 HMM(hidden Markov model) 모델을 제안한다. 제안된 연구 방법에서, 이중 특징 파라메타로써 LPC ？스트럼과 LPC 스트럼의 회귀 계수를 사용한다. 학습 데이터는 몇 개의 구간으로 나누어지며, 첫 번째 구간의 코드북(codebook)을 만든 후, 첫 번째 구간의 코드북으로 부터, 퍼지 개념을 도입하여 확률 값이 큰 순서에 의해 다중 관측열을 구한다. 그 다음, 첫 번째 구간의 관측열을 학습시키고, 같은 방법으로 확률 값을 얻은 단어가 인식되어 진다. 제안된 방법에 의한 인식 실험을 수행하는 것 이외에도 비교를 위하여 다른 방법의 인식 실험을 같은 조건하에서 같은 데이터로 수행하였다. 실험 결과, 본 연구에서 제안한 방법이 다른 방법들보다 인식률이 우수함을 입증하였다. 입증하였다.
PDF

Iterative LBG Clustering for SIMO Channel Identification

Daneshgaran, Fred;Laddomada, Massimiliano
- Journal of Communications and Networks
- /
- 제5권2호
- /
- pp.157-166
- /
- 2003
This paper deals with the problem of channel identification for Single Input Multiple Output (SIMO) slow fading channels using clustering algorithms. Due to the intrinsic memory of the discrete-time model of the channel, over short observation periods, the received data vectors of the SIMO model are spread in clusters because of the AWGN noise. Each cluster is practically centered around the ideal channel output labels without noise and the noisy received vectors are distributed according to a multivariate Gaussian distribution. Starting from the Markov SIMO channel model, simultaneous maximum ikelihood estimation of the input vector and the channel coefficients reduce to one of obtaining the values of this pair that minimizes the sum of the Euclidean norms between the received and the estimated output vectors. Viterbi algorithm can be used for this purpose provided the trellis diagram of the Markov model can be labeled with the noiseless channel outputs. The problem of identification of the ideal channel outputs, which is the focus of this paper, is then equivalent to designing a Vector Quantizer (VQ) from a training set corresponding to the observed noisy channel outputs. The Linde-Buzo-Gray (LBG)-type clustering algorithms [1] could be used to obtain the noiseless channel output labels from the noisy received vectors. One problem with the use of such algorithms for blind time-varying channel identification is the codebook initialization. This paper looks at two critical issues with regards to the use of VQ for channel identification. The first has to deal with the applicability of this technique in general; we present theoretical results for the conditions under which the technique may be applicable. The second aims at overcoming the codebook initialization problem by proposing a novel approach which attempts to make the first phase of the channel estimation faster than the classical codebook initialization methods. Sample simulation results are provided confirming the effectiveness of the proposed initialization technique.
PDF KSCI

웨이브렛벤환 영상 부호화용 범용 벡터양자화기의 설계 (A Design of a Robust Vector Quantizer for Wavelet Transformed Images)

도재수;조영석
- 융합보안논문지
- /
- 제6권4호
- /
- pp.83-90
- /
- 2006
본 논문에서는 영상의 웨이브렛 변환계수의 양자화를 위하여 입력영상의 통계적 성질에 영향을 받지 않고 부호화 결과에 범용성을 갖는 새로운 벡터 양자화기의 설계법을 제안한다. 부호화 대상영상의 상관과 에지성분의 양 등이 웨이브렛 변환영역에서의 양자화기 설계에 중용한 요소인 것을 밝힌다. 기존의 벡터 양자화기의 가장 큰 문제점은 양자화대상 영상과 대표 벡터를 생성하기 위한 학습계열간의 통계적 성질의 불일치에 의한 부호화 성능의 열화이다. 그리하여 본 논문에서는 웨이브렛 변환계수의 양자화에 적합한 벡터양자화기의 대표 벡터를 생성하기 위한 학습계열로, 독립난수에 영상의 상관과 에지성분을 첨가한 모사 영상을 사용하여 종래 방식의 문제점을 해결하는 방법에 대하여 검토하였다. 제안 방식에 의해 설계된 벡터양자화기와 대표벡터 생성에 이용하는 학습계열에 부호화 대상이 되는 영상과 같은 실영상을 사용한 종래 방식에 의해 설계된 벡터양자화기와 부호화 성능을 컴퓨터 시뮬레이션을 통하여 비교하여 종래 방식의 문제점을 명확하게 밝히고, 아울러 제안방식으로 설계한 벡터양자화기가 부호화 성능이 우수함을 입증한다.
PDF

FSVQ와 퍼지 개념을 이용한 HMM에 기초를 둔 음성 인식 (HMM-based Speech Recognition using FSVQ and Fuzzy Concept)

안태옥
- 대한전자공학회논문지SP
- /
- 제40권6호
- /
- pp.90-97
- /
- 2003
본 논문은 FSVQ(first section vector quantization)와 퍼지 개념을 이용한 HMM(hidden Markov model)에 기초를 둔 음성인식을 제안한다. 제안된 연구 방법에서는 첫 번째 구간의 코드북(codebook)을 만든 후, 첫 번째 구간의 코드북으로부터, 퍼지 개념을 도입하여 확률값이 큰 순서에 의해 다중 관측열을 구한다. 그 다음, 코드북으로부터 첫 번째 구간의 관측열을 학습시키고 인식할 때에도 같은 개념으로 첫 번째 구간에서의 확률 값이 가장 높은 단어를 인식된 단어로 선택한다. 인식 대상 어휘로는 전철역명을 선택하였으며, 특징 파라메타로는 LPC ？스트럼을 사용하였다. 제안된 방법에 의한 인식 실험을 수행하는 것 이외에도 비교를 위하여 이전에 실험한 몇 가지 방법의 인식 실험을 같은 조건하에서 같은 데이터로 수행한다. 실험 결과, 본 연구에서 제안한 FSVQ와 퍼지 개념을 이용한 HMM에 기초를 둔 방법이 다른 음성 인식방법들보다 인식률이 우수함을 입증하였다.
PDF KSCI

멀티미디어 정보검색에 적합한 영상정보의 벡터 양자화 코드북 설계 및 특징추출 (VQ Codebook Design and Feature Extraction of Image Information for Multimedia Information Searching)

서석배;김대진;강대성
- 전자공학회논문지S
- /
- 제36S권8호
- /
- pp.101-112
- /
- 1999
본 논문에서는 멀티미디어 정보검색을 위하여 영상정보의 특징추출에 적합한 벡터 양자화 코드북 설계 방법을 제안한다. 기존의 벡터 양자화의 경우 영상에 대한 특징을 추출할 경우 보통 영상을 복원한 다음 수행하므로 많은 시간과 메모리가 소요되며, DCT(discrete cosine transform)를 이용한 방법처럼 블록화 현상을 동반한다. 이를 개선하기 위하여 본 논문에서는 웨이브렛 변환과 주성분 해석을 이용한 벡터 양자화 코드북 설계 방법을 제안한다. 웨이브렛 변환은 높은 압축률에서도 블록화 없는 영상을 복원하기 위해서 도입되었으며, 주성분해석은 데이터를 여러 그룹으로 분할하기 위해 도입되었다. 신경회로만인 SOM(self-organizing map)을 이용한 벡터 양자화와 비교실험에서 비슷한 성능을 보이면서도 처리 시간을 대폭 단축시킬 수 있음을 볼 수 있었다.
PDF

SMV와 AMR 음성부호화기를 위한 상호부호화 알고리즘 (Transcoding Algorithm for SMV and AMR Speech Coder)

이덕종;정규혁;이인성
- 한국음향학회지
- /
- 제27권8호
- /
- pp.427-434
- /
- 2008
본 논문에서는 SMV와 AMR 음성부호화기를 위한 상호부호화 알고리즘을 제안한다. 각기 다른 통신망에서 음성부호화기간의 효율적인 연동을 위해 가장 간단한 방법인 tandem 방식이 있지만 긴 지연시간과 많은 연산량, 그리고 음질 저하의 문제점들을 해결하기위해 상호부호화 방법을 사용한다. 제안하는 상호부호화 알고리즘은 LSP (Line Spectral Pairs) 변환, 피치 변환, 그리고 고속 고정 코드북 탐색을 수행한다. 실험 결과, $20\sim50%$의 적은 계산량과 $5\sim10$ ms의 지연 시간을 줄이면서도 동등한 음질을 확인할 수 있었다.
https://doi.org/10.7776/ASK.2008.27.8.427 인용 PDF KSCI

HMM 음성인식 시스템을 위한 화자적응 방법들의 성능비교 (A Comparative Study of Speaker Adaptation Methods for HMM-Based Speech Recognition)

구명완;은종관;이황수
- 한국음향학회지
- /
- 제10권3호
- /
- pp.37-43
- /
- 1991
본 논문에서는 HMM을 이용한 음성인식 시스템에서 2단계로 이루어지는 화자적응 알고리즘의 성능비교를 수행하였다. 첫단계는 새로운 화자와의 거리차이를 줄여주는 VQ 적응방식들로 구성되는 이 방식들 중에서 lable prototype 적응, 적응음성으로부터 구성된 VQ코우드 북을 사용한 적응 및 사상 코우드 북을 사용한 적응등의 알고리즘 성능비교를 하였다. 두 번째 단계는 새로운 화자를 위해서 HMM 파라미터를 변환시켜주는 HMM 피라미터 적응방식들로 이루어지는데 이 방법들 중에서 Viterbi 알고리즘, DTW 알고리즘, iterative alignment 알고리즘 및 fuzzy histogram 알고리즘의 성능을 비교하였다. 성능비교 결과 fuzzy histogram 알고림즘에 의한 화자적응 방식이 최고의 인식율을 나타내었다.
PDF

윤관보존을 위한 개선된 벡터 양자화 알고리즘에 관한 연구 (A Study on the Advanced Vector Quantization Algorithm for Edge Preserving)

김백기;이대영
- 전자공학회논문지B
- /
- 제31B권12호
- /
- pp.72-80
- /
- 1994
In this paper, we present a digital image data compression method using vector quantization preserving edges. A new vector quantization algorithm is proposed using a new sampling method and edge region extraction. The codebook generation time is faster than existing algorithms and the quality of decompressed images is much improved. Extrimental results suggest that the resultant compression ratio and PSNR are better than those of BPVQ and HMVQ methods.
PDF

Color Image Vector Quantization Using Enhanced SOM Algorithm

Kim, Kwang-Baek
- 한국멀티미디어학회논문지
- /
- 제7권12호
- /
- pp.1737-1744
- /
- 2004
In the compression methods widely used today, the image compression by VQ is the most popular and shows a good data compression ratio. Almost all the methods by VQ use the LBG algorithm that reads the entire image several times and moves code vectors into optimal position in each step. This complexity of algorithm requires considerable amount of time to execute. To overcome this time consuming constraint, we propose an enhanced self-organizing neural network for color images. VQ is an image coding technique that shows high data compression ratio. In this study, we improved the competitive learning method by employing three methods for the generation of codebook. The results demonstrated that compression ratio by the proposed method was improved to a greater degree compared to the SOM in neural networks.
PDF

검색결과 55건 처리시간 0.022초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)