• 제목/요약/키워드: LPC quantization

검색결과 28건 처리시간 0.021초

FSVQ, 퍼지 개념 및 이중 스펙트럼 특징을 이용한 HMM에 기초를 둔 음성 인식 (HMM-based Speech Recognition using FSVQ, Fuzzy Concept and Doubly Spectral Feature)

  • 정의봉
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권4호
    • /
    • pp.491-502
    • /
    • 2004
  • 본 논문은 화자 독립의 단독어 인식에 관한 연구로써, FSVQ(first section vector quantization), 퍼지 이론 및 이중 스펙트럼 특징을 이용한 HMM(hidden Markov model) 모델을 제안한다. 제안된 연구 방법에서, 이중 특징 파라메타로써 LPC ?스트럼과 LPC 스트럼의 회귀 계수를 사용한다. 학습 데이터는 몇 개의 구간으로 나누어지며, 첫 번째 구간의 코드북(codebook)을 만든 후, 첫 번째 구간의 코드북으로 부터, 퍼지 개념을 도입하여 확률 값이 큰 순서에 의해 다중 관측열을 구한다. 그 다음, 첫 번째 구간의 관측열을 학습시키고, 같은 방법으로 확률 값을 얻은 단어가 인식되어 진다. 제안된 방법에 의한 인식 실험을 수행하는 것 이외에도 비교를 위하여 다른 방법의 인식 실험을 같은 조건하에서 같은 데이터로 수행하였다. 실험 결과, 본 연구에서 제안한 방법이 다른 방법들보다 인식률이 우수함을 입증하였다. 입증하였다.

  • PDF

광대역 음성부호화기를 위한 백터-스칼라 LSP 파라미터 양자화기 설계 (Design of the Vector-Scalar Quantizer of LSP Parameters for Wideband Speech Coder)

  • 신재현;이인성;지덕구;윤병식;최송인
    • 대한전자공학회논문지SP
    • /
    • 제40권4호
    • /
    • pp.286-291
    • /
    • 2003
  • 본 논문에서는 광대역 음성 부호화기를 위한 VQ-SQ 구조의 LSP(Line Spectral Pairs) 파라미터 양자화기를 설계하였다. 16차 LPC(Linear Prediction Coefficients) 계수를 사용하며, 양자화 특성이 좋고 합성필터의 안정성의 조건을 검사하기 쉬운 LSP 파라미터로 변환/sup [2]/하여 양자화 한다. 설계된 VQ-SQ 양자화기는 첫 번째 단에서 2단 SVQ(Split VQ)로 각각 8차씩 양자화한 뒤, 두 번째 단에서 순서화 특성(OP Ordering Property)을 적용한 SQ를 사용하여 잔여신호(Residual Signal)를 양자화하는 구조로 되어있다. VQ-SQ결합 양자화기의 전체적인 성능개선을 위해 백터 양자화기에서 하나의 최적 벡터를 찾지 않고 5개의 후보백터를 가지고 스칼라 양자화를 수행한 후, 전체적으로 본래의 LSP 파라미터에 가장 가까운 벡터 양자화기 인덱스와 스칼라 양자화기의 인덱스를 결정한다. 순서화 특성을 고려하여 설계된 적응 VQ-SQ 양자화기는 LSP 파라미터에 총 35비트를 할당하여 광대역 명료도(Wideband Transparency)인 평균 1.6㏈ 이하의 스펙트럼 왜곡(SD : Spectral Distortion)과 4%미만의 3㏈가 넘는 프레임의 비율/sup [1]/을 만족하였으며, 기존의 VQ-SQ 양자화기보다 2-3비트를 절약할 수 있었다.

DMS 모델을 이용한 한국어 음성 인식 (Korean Speech Recognition using Dynamic Multisection Model)

  • 안태옥;변용규;김순협
    • 대한전자공학회논문지
    • /
    • 제27권12호
    • /
    • pp.1933-1939
    • /
    • 1990
  • In this paper, we proposed an algorithm which used backtracking method to get time information, and it be modelled DMS (Dynamic Multisection) by feature vectors and time information whic are represented to similiar feature in word patterns spoken during continuous time domain, for Korean Speech recognition by independent speaker using DMS. Each state of model is represented time sequence, and have time information and feature vector. Typical feature vector is determined as the feature vector of each state to minimize the distance between word patterns. DDD Area names are selected as recognition wcabulary and 12th LPC cepstrum coefficients are used as the feature parameter. State of model is made 8 multisection and is used 0.2 as weight for time information. Through the experiment result, recognition rate by DMS model is 94.8%, and it is shown that this is better than recognition rate (89.3%) by MSVQ(Multisection Vector Quantization) method.

  • PDF

스팩트럼과 스팩트로그램의 이해 (Introduction to the Spectrum and Spectrogram)

  • 진성민
    • 대한후두음성언어의학회지
    • /
    • 제19권2호
    • /
    • pp.101-106
    • /
    • 2008
  • The speech signal has been put into a form suitable for storage and analysis by computer, several different operation can be performed. Filtering, sampling and quantization are the basic operation in digiting a speech signal. The waveform can be displayed, measured and even edited, and spectra can be computed using methods such as the Fast Fourier Transform (FFT), Linear predictive Coding (LPC), Cepstrum and filtering. The digitized signal also can be used to generate spectrograms. The spectrograph provide major advantages to the study of speech. So, author introduces the basic techniques for the acoustic recording, digital signal processing and the principles of spectrum and spectrogram.

  • PDF

HMM(Hidden Markov Model) 음성인식 알고리즘을 이용한 효율적인 음성인식 모듈 개발 설계에 관한 연구 (A Study on the Speech Recognition Moduleas Design Using HMM Speech Recognition Algorithm)

  • 김정훈;류홍석;강재명;강성인;이상배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.337-340
    • /
    • 2002
  • 본 논문에서는 휠체어 시스템에 화자 독립 고립단어 인식을 위한 임베디드 시스템 설계에 관한 내용을 서술한다. 실제 환경에서는 잡음이 포함되어 있어 인식률을 저하시키므로, 잡음을 제거하는 방식 중 가장 간단한 방식인 스펙트럼 차감법(Spectral subtraction method)을 사용하여 잡음을 제거했다 전처리 단계에서는 12차 LPC&Cepstrum 방식을 사용했고, 인식 알고리즘은 DHMM (Discrete Hidden Markov Model)을 전반부 인식기로 사용했다. 이 알고리즘을 적용하기 위해서는 데이터 간소화를 위해 벡터양자화(Vector Quantization) 처리가 전제되어야한다 또한 인식알고리즘은 인식률을 향상을 위해 후처리 인식기로 신경망(MLP:Multi-layer Perceptron)을 통해서 인식률을 향상시켰다 화자 독립 시스템에 맞는 인식 단어의 구성은 총 7개단어로 남녀 총 25명 목소리로 구성하였다. 그리고 하드웨어 구성은 32-bits floating point 방식인 TMS320C32를 적용했고, 메모리 부분은 4Mbyte로 설계를 했으며, 메인보드의 설계는 현재 완성 단계에 있다.

적응적인 확장된 코드북을 이용한 분할 벡터 양자화기 구조의 ISF 양자화기 개선 (A Method For Improvement Of Split Vector Quantization Of The ISF Parameters Using Adaptive Extended Codebook)

  • 임종하;정규혁;홍기봉;이인성
    • 한국음향학회지
    • /
    • 제30권1호
    • /
    • pp.1-8
    • /
    • 2011
  • 본 논문에서는 ISF 계수의 순서화 성질을 이용하여 분할구조 벡터양자화기의 단점을 보완하여 ISF 계수 양자화의 성능을 높이는 알고리듬을 제안하고, 이를 이용한 광대역 음성 부호화기용 ISF 계수 양자화기를 설계한다. 16차 이상의 광대역 코덱의 ISF 계수는 계산량과 메모리 사용을 줄이기 위해서 분할구조의 벡터 양자화기를 사용한다. 분할구조 양자화기는 ISF 계수간의 상관도를 충분히 활용하지 못하는 단점이 발생한다. 제안하는 알고리듬은 이러한 단점을 극복하기 위하여 ISF 계수의 순서화 성질을 이용한다. ISF 계수의 순서화 성질을 이용하여 각 서브벡터의 불필요한 코드북 (Codebook Redundancy)을 검색할 수 있다. 이러한 불필요한 코드북은 ISF 계수의 순서화 성질, ISF 계수 예측과정과 기존 코드북의 보간법 (Interpolation)을 통해 적응적인 확장된 코드북으로 교체되어 양자화기의 성능을 향상시킨다. 제안된 알고리듬은 기존의 분할구조 양자화기에서 사용되지 못했던 17 %가량의 불필요한 코드북 인덱스를 적응적인 확장된 코드북에 할당하여, 표준화된 코덱인 AMR-WB의 ISF 계수 양자화기에 비해서 주파수 왜곡 관점에서 약 2 bit 가량의 이득을 보는 결과를 얻었다.

QCELP에서 중첩된 코드북 검색의 개선 (Improvement of Overlapped Codebook Search in QCELP)

  • 박광철;한승진;이정현
    • 정보처리학회논문지C
    • /
    • 제8C권1호
    • /
    • pp.105-112
    • /
    • 2001
  • 본 논문에서는 이동통신 시스템에서 사용할 수 있는 잡음에 강인하면서 음질이 개선된 QCELP 코드북 검색을 제안한다. 기존 QCELP는 고정 코드 북을 한 번 검색하지만, 본 논문에서는 두 번에서 다섯 번까지 검색을 하고 이를 실험해 본 결과 두 번 검색이 전송률에 따른 음질향상이 최적임을 알게 되었다. 따라서 본 논문에서는 두 번의 정밀 양자화를 통해 여기신호를 상세히 나타내므로써 음질을 향상시키는 개선된 QCELP 부호화기를 제안한다. 실험에서 잡음을 고려하지 않은 환경(강의실, 가정집, 거리, 연구실 등)에서 얻은 음성을 입력자료로 사용하고, 음질은 SNR과 segSNR을 이용하여 측정하였다. 실험 결과, 개선된 QCELP는 기존 QCELP 보다 SNR, segSNR에서 각각 38.35%, 65.51% 향상되었다.

  • PDF

G.723.1 기반 비트율 scalable 음성 코덱 개발 (Design of a Bitrate Scalable Speech Codec Based on G.723.1)

  • 강상원;이강은;박동원;이준석
    • 한국음향학회지
    • /
    • 제24권6호
    • /
    • pp.358-364
    • /
    • 2005
  • 본 논문에서는 ITU-T 표준으로 채택된 G.723.1을 기본 계층으로 하고 G.723.1의 합성 에러 신호를 추가적인 부호화 과정을 통하여 부호화하는 비트율 scalable 코덱을 제안하였다. 그리고 제안된 scalable 음성 코덱을 ITU-T 표준 음질 측정 소프트웨어인 P.862 (PESQ)를 이용하여 성능 분석을 하였다. 제안된 비트율 scalable 코덱을 적용함으로써 G.723.1 5.3kbps와 개선 계층 6.7kbps가 함께 동작할 경우 G.723.1 5.3kbps 보다 MOS값이 0.372 향상되었으며, G.723.1 6.3kbps와 개선 계층 5.7kbps가 함께 동작할 경우 G.723.1 6.3kbps 보다 0.267 향상되었다.