• 제목/요약/키워드: speech feature parameters

검색결과 130건 처리시간 0.022초

감정 변화에 강인한 음성 인식 파라메터 (Robust Speech Recognition Parameters for Emotional Variation)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제15권6호
    • /
    • pp.655-660
    • /
    • 2005
  • 본 논문에서는 인간의 감정 변화에 강인한 음성 인식 기술 개발을 목표로 하여 감정 변화의 영향을 적게 받는 음성 인식시스템의 특징 파라메터에 관한 연구를 수행하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템의 특징 파라메터에 관한 연구를 수행하였다. 본 연구에서는 LPC 켑스트럼 계수, 멜 켑스트럼 계수, 루트 켑스트럼 계수, PLP 계수와 RASTA 처리를 한 멜 켑스트럼 계수와 음성의 에너지를 사용하였다 또한 음성에 포함된 편의(bias)를 제거하는 방법으로 CMS와 SBR 방법을 사용하여 그 성능을 비교하였다. 실험 결과에서 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신초편의 제거 방법으로 CMS를 사용한 경우에 HMM 기반의 화자독립 단어 인식기의 오차가 $7.05\%$로 가장 우수한 성능을 나타내었다. 이러한 것은 멜 켑스트럼을 사용한 기준시스템과 비교하여 $59\%$정도 오차가 감소된 것이다.

GMM을 이용한 화자 및 문장 독립적 감정 인식 시스템 구현 (Speaker and Context Independent Emotion Recognition System using Gaussian Mixture Model)

  • 강면구;김원구
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2463-2466
    • /
    • 2003
  • This paper studied the pattern recognition algorithm and feature parameters for emotion recognition. In this paper, KNN algorithm was used as the pattern matching technique for comparison, and also VQ and GMM were used lot speaker and context independent recognition. The speech parameters used as the feature are pitch, energy, MFCC and their first and second derivatives. Experimental results showed that emotion recognizer using MFCC and their derivatives as a feature showed better performance than that using the Pitch and energy Parameters. For pattern recognition algorithm, GMM based emotion recognizer was superior to KNN and VQ based recognizer

  • PDF

K-L 전개를 이용한 연속 숫자음 인식에 관한 연구 (A Study on Connected Digits Recognition Using the K-L Expansion)

  • 김주곤;오세진;황철준;김범국;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권3호
    • /
    • pp.24-31
    • /
    • 2001
  • K-L 전개 방법은 특징의 차원을 효과적으로 압축하므로 인식 처리에서 계산량을 줄일 수 있는 방법으로 잘 알려져 있다. 본 논문에서는 한국어 인식 시스템의 인식 정도를 개선하기 위해, 음성의 특징 파라미터에 대하여 효과적으로 K-L전개를 적용하는 방법(K-L 계수)을 제안한다. 그리고 제안한 방법으로 얻어진 새로운 음성 특징 파라미터를 이용하여 화자 독립 연속 숫자음 인식실험을 수행하고, 기존의 Mel-cepstrum과 회귀계수의 인식 결과와 비 교, 분석하였다. 인식 실험 결과, 제안한 K-L 계수를 이용한 방법이 기존의 방법보다 높은 인식률을 얻어 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF

On-Line Blind Channel Normalization for Noise-Robust Speech Recognition

  • Jung, Ho-Young
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제1권3호
    • /
    • pp.143-151
    • /
    • 2012
  • A new data-driven method for the design of a blind modulation frequency filter that suppresses the slow-varying noise components is proposed. The proposed method is based on the temporal local decorrelation of the feature vector sequence, and is done on an utterance-by-utterance basis. Although the conventional modulation frequency filtering approaches the same form regardless of the task and environment conditions, the proposed method can provide an adaptive modulation frequency filter that outperforms conventional methods for each utterance. In addition, the method ultimately performs channel normalization in a feature domain with applications to log-spectral parameters. The performance was evaluated by speaker-independent isolated-word recognition experiments under additive noise environments. The proposed method achieved outstanding improvement for speech recognition in environments with significant noise and was also effective in a range of feature representations.

  • PDF

분절 특징 은닉 마코프 모델에서의 경향 공유에 관한 연구 (A Study on Trend Sharing in Segmental-feature HMM)

  • 윤영선
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.641-647
    • /
    • 2002
  • 본 논문에서는 경향 양자화 기법을 적용하여 분절 특징 은닉 마코프 모델 (HMM: hidden Markov model)의 매개 변수 수를 줄이는 방법을 제안한다. 제안된 방법은 분절 특징 HMM에서 사용하는 분절 특징, 즉 모수적 궤적을 위치 정보와 경향 정보로 분리한 후, 분리된 경향 정보를 경향 코드북을 이용하여 공유한다. 분절 특징에서 위치 정보는 특징의 기준 점을 나타내고, 경향 정보는 분절 특징의 변이를 의미하며 특징의 많은 부분을 차지하고 있다. 따라서 경향 정보가 공유될 수 있다면 분절 특징 HMM의 매개 변수 수를 줄일 수 있을 것이다. 실험 결과 제안된 방식이 기존의 시스템과 비슷한 성능을 보였으며 매개 변수 수를 줄이는 방안으로 고려될 수 있음을 보였다.

음성을 이용한 화자 및 문장독립 감정인식 (Speaker and Context Independent Emotion Recognition using Speech Signal)

  • 강면구;김원구
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.377-380
    • /
    • 2002
  • In this paper, speaker and context independent emotion recognition using speech signal is studied. For this purpose, a corpus of emotional speech data recorded and classified according to the emotion using the subjective evaluation were used to make statical feature vectors such as average, standard deviation and maximum value of pitch and energy and to evaluate the performance of the conventional pattern matching algorithms. The vector quantization based emotion recognition system is proposed for speaker and context independent emotion recognition. Experimental results showed that vector quantization based emotion recognizer using MFCC parameters showed better performance than that using the Pitch and energy Parameters.

  • PDF

Proposed Efficient Architectures and Design Choices in SoPC System for Speech Recognition

  • Trang, Hoang;Hoang, Tran Van
    • 전기전자학회논문지
    • /
    • 제17권3호
    • /
    • pp.241-247
    • /
    • 2013
  • This paper presents the design of a System on Programmable Chip (SoPC) based on Field Programmable Gate Array (FPGA) for speech recognition in which Mel-Frequency Cepstral Coefficients (MFCC) for speech feature extraction and Vector Quantization for recognition are used. The implementing process of the speech recognition system undergoes the following steps: feature extraction, training codebook, recognition. In the first step of feature extraction, the input voice data will be transformed into spectral components and extracted to get the main features by using MFCC algorithm. In the recognition step, the obtained spectral features from the first step will be processed and compared with the trained components. The Vector Quantization (VQ) is applied in this step. In our experiment, Altera's DE2 board with Cyclone II FPGA is used to implement the recognition system which can recognize 64 words. The execution speed of the blocks in the speech recognition system is surveyed by calculating the number of clock cycles while executing each block. The recognition accuracies are also measured in different parameters of the system. These results in execution speed and recognition accuracy could help the designer to choose the best configurations in speech recognition on SoPC.

유ㆍ무성음 척도를 포함한 재구성 특징 파라미터의 음성 인식 성능평가 (Performance Evaluation of Speech Recognition Using the Reconstructed Feature Parameter with Voiced-Unvoiced Measure)

  • 이광석;한학용;고시영;허강인
    • 한국정보통신학회논문지
    • /
    • 제7권2호
    • /
    • pp.177-182
    • /
    • 2003
  • 본 연구는 유사음에 강인한 음성인식을 위하여 음성의 유ㆍ무성음 척도를 특징 파라미터에 추가 구성하여 음절과 음소단위의 음성인식을 행하였다. 이를 위하여 피치검출에 이용되는 알고리듬인 HPS(Harmonic Product Spectrum)의 스펙트럼 정보를 이용하여 유ㆍ무성음의 정도를 나타내는 척도를 제안한다. 제안된 척도는 HPS의 첨도와 피크의 개수 그리고 높이척도이다. 이들 척도 값을 포함하여 특징 파라미터를 재구성하고 제안된 특징의 유효성을 검증하기 위하여 CVC형 유사 음절 DB하에서 기존 특징 파라미터와 비교하여 음성인식 실험을 행하였다.

음성인식에서 특이 특징벡터의 제거에 대한 연구 (A Study on the Removal of Unusual Feature Vectors in Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.561-567
    • /
    • 2013
  • 음성 인식을 위해 추출되는 특징벡터 중 일부는 드물게 나타나는 특이 패턴이다. 이들은 음성인식 시스템의 훈련에서 파라미터의 과도맞춤을 일으키며, 그 결과 새로운 입력 패턴의 인식을 저해하는 구조적 위험을 초래한다. 본 논문에서는 이러한 특이 패턴을 제거하는 하나의 방법으로서, 어느 크기 이상의 벡터를 제외시켜 음성인식 시스템의 훈련을 수행하는 방법에 대해 연구한다. 본 연구의 목적은 인식률을 저해시키지 않는 한도에서 가장 많은 특이 특징벡터를 제외시키는 것이다. 이를 위하여 우리는 하나의 절단 파라미터를 도입하고, 그 값의 변화가 FVQ(Fuzzy Vector Quantization)/HMM(Hidden Markov Model)을 사용한 화자독립 음성 인식에 미치는 영향을 조사하였다. 실험 결과, 인식률을 저하시키지 않는 특이 특징벡터의 수가 3%~6% 정도임을 확인하였다.

한국어 숫자음 전화음성의 채널왜곡에 따른 특징파라미터의 변이 분석 (Variation Analysis of Feature Parameters According to the Channel Distortion of Korean Telephone Digit Speech)

  • 정성윤;손종목;김민성;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.191-194
    • /
    • 2002
  • The final purpose of this paper is the enhancement of speech recognition rate under the matched telephone environment between training data and test data. To analyze the effect by the distortion of the changing telephone channel on every call, MFCC is used as the feature parameter and CMN, RTCN, and RASTA are used as channel compensation techniques. For each case, the variation of feature parameters of all phones is analyzed. And, we find recognition rates according to each compensation method using the continuous HMM recognizer, and examine the relationship between variation and recognition rate.

  • PDF