• 제목/요약/키워드: speech feature parameters

검색결과 130건 처리시간 0.023초

개별 음향 정보를 이용한 화자 확인 알고리즘 성능향상 연구 (The Study for Advancing the Performance of Speaker Verification Algorithm Using Individual Voice Information)

  • 이재형;강선미
    • 음성과학
    • /
    • 제9권4호
    • /
    • pp.253-263
    • /
    • 2002
  • In this paper, we propose new algorithm of speaker recognition which identifies the speaker using the information obtained by the intensive speech feature analysis such as pitch, intensity, duration, and formant, which are crucial parameters of individual voice, for candidates of high percentage of wrong recognition in the existing speaker recognition algorithm. For testing the power of discrimination of individual parameter, DTW (Dynamic Time Warping) is used. We newly set the range of threshold which affects the power of discrimination in speech verification such that the candidates in the new range of threshold are finally discriminated in the next stage of sound parameter analysis. In the speaker verification test by using voice DB which consists of secret words of 25 males and 25 females of 8 kHz 16 bit, the algorithm we propose shows about 1% of performance improvement to the existing algorithm.

  • PDF

PCMM 기반 특징 보상 기법에서 변별력 향상을 위한 Minimum Classification Error 훈련의 적용 (Minimum Classification Error Training to Improve Discriminability of PCMM-Based Feature Compensation)

  • 김우일;고한석
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.58-68
    • /
    • 2005
  • 본 논문에서는 잡음 환경에서 강인한 음성 인식을 위하여 특징 보상 기법의 성능을 향상시킬 수 있는 방법을 제안한다. 기존의 음성 모델 기반의 특징 보상 기법에서 이용되는 오염 음성 모델 추정 방식은 입력 음성에 대한 변별력 있는 사후 확률 예측을 보장하지 못하며, 부정확하게 계산된 사후 확률은 복구된 음성에서 명료도 하락의 문제를 일으킨다. 제안하는 기법에서는 오염 음성 모델 추정 과정에 분별적 훈련 방식의 하나인 최소 분류 오류 (MCE) 훈련 기법을 도입한다. MCE 훈련 기법을 적용하기 위해 변별력 하락의 가능성을 가지는 '경쟁 요소' 를 결정하는 기법을 제안한다. 병렬결합된 혼합 모델 (PCMM) 기반의 특징 보상에 MCE 훈련 기법을 적용하는 과정을 제안하고 변별력 향상의 영향을 관찰한다. Aurora 2.0 데이터베이스와 실제 자동차 주행 환경에서 수집된 음성 데이터베이스에 대한 성능 평가를 실시한다. 실험 결과는 제안한 기법이 음성 인식 성능 향상에 도움이 되는 것을 입증한다.

RVM을 이용한 음성인식기의 구현 (Implementation of Speech Recognizer using Relevance Vector Machine)

  • 김창근;고시영;허강인;이광석
    • 한국정보통신학회논문지
    • /
    • 제11권8호
    • /
    • pp.1596-1603
    • /
    • 2007
  • 본 논문에서는 음성인식 시스템을 구현함에 있어 중요한 특징 파라미터와 학습, 인식 알고리즘의 선택을 위한 제안을 하기 위하여 각각 세 가지의 방법을 조합하여 인식 실험을 수행하고 검토하였다. 두 종류의 실험을 통하여 하드웨어 장치로 구현할 경우 보다 효과적인 음성 인식 시스템을 제안한다. 첫 번째로는 특징 파라미터의 성능을 평가하기 위하여 기존의 MFCC와 MFCC를 PCA와 ICA를 이용하여 특징 공간을 변화시킨 새로운 특징 파라미터를 제안하여 총 3종류의 특징파라미터에 대한 인식 실험을 수행하였으며, 두 번째로는 학습데이터 수에 따른 HMM, SVM, RVM의 인식 성능을 실험하였다. 이상의 실험에 의하여 ICA에 의한 특징 파라미터가 특징 공간상에서의 높은 선형 분별성에 의해 MFCC와 비교하여 평균 1.5%의 성능향상을 확인할 수 있었으며 학습데이터의 감소에 따른 인식실험에서는 HMM과 비교하여 RVM에서 최고 3.25%의 성능향상을 확인하였다. 이에 근거하여 TI사의 DSP(TMS320C32)를 사용하여 음성 인식기를 구현하여 실시간으로 실험하여 시뮬레이션과 비교하였다. 이와 같은 결과로서 본 논문에서 제안하는 음성인식시스템을 위한 효과적인 방법은 ICA를 이용한 특징 파라미터를 추출하고 RVM을 이용하여 인식을 수행하는 것이라 판단한다.

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델 (RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC)

  • 임현택;김수형;이귀상;양형정
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.28-35
    • /
    • 2023
  • 본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도간 trade-off를 계산하는 지표를 제안하였다.

음성의 피치 파라메터를 사용한 감정 인식 (Emotion Recognition using Pitch Parameters of Speech)

  • 이규현;김원구
    • 한국지능시스템학회논문지
    • /
    • 제25권3호
    • /
    • pp.272-278
    • /
    • 2015
  • 본 논문에서는 음성신호 피치 정보를 이용한 감정 인식 시스템 개발을 목표로 피치 정보로부터 다양한 파라메터 추출방법을 연구하였다. 이를 위하여 다양한 감정이 포함된 한국어 음성 데이터베이스를 이용하여 피치의 통계적인 정보와 수치해석 기법을 사용한 피치 파라메터를 생성하였다. 이러한 파라메터들은 GMM(Gaussian Mixture Model) 기반의 감정 인식 시스템을 구현하여 각 파라메터의 성능을 비교되었다. 또한 순차특징선택 방법을 사용하여 최고의 감정 인식 성능을 나타내는 피치 파라메터들을 선정하였다. 4개의 감정을 구별하는 실험 결과에서 총 56개의 파라메터중에서 15개를 조합하였을 때 63.5%의 인식 성능을 나타내었다. 또한 감정 검출 여부를 나타내는 실험에서는 14개의 파라메터를 조합하였을 때 80.3%의 인식 성능을 나타내었다.

음성 신호를 사용한 GMM기반의 감정 인식 (GMM-based Emotion Recognition Using Speech Signal)

  • 서정태;김원구;강면구
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.235-241
    • /
    • 2004
  • 본 논문은 화자 및 문장 독립적 감정 인식을 위한 특징 파라메터와 패턴인식 알고리즘에 관하여 연구하였다. 본 논문에서는 기존 감정 인식 방법과의 비교를 위하여 KNN을 이용한 알고리즘을 사용하였고, 화자 및 문장 독립적 감정 인식을 위하여 VQ와 GMM을 이용한 알고리즘을 사용하였다. 그리고 특징으로 사용한 음성 파라메터로 피치, 에너지, MFCC, 그리고 그것들의 1, 2차 미분을 사용하였다. 실험을 통해 피치와 에너지 파라메터를 사용하였을 때보다 MFCC와 그 미분들을 특징 파라메터로 사용하였을 때 더 좋은 감정 인식 성능을 보였으며, KNN과 VQ보다 GMM을 기반으로 한 인식 알고리즘이 화자 및 문장 독립적 감정 인식 시스템에서 보다 적합하였다.

AURORA 잡음 처리 알고리즘을 이용한 전화망 환경에서의 강인한 음성 검출 (Robust Speech Detection Using the AURORA Front-End Noise Reduction Algorithm under Telephone Channel Environments)

  • 서영주;지미경;김회린
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.155-173
    • /
    • 2003
  • This paper proposes a noise reduction-based speech detection method under telephone channel environments. We adopt the AURORA front-end noise reduction algorithm based on the two-stage mel-warped Wiener filter approach as a preprocessor for the frequency domain speech detector. The speech detector utilizes mel filter-bank based useful band energies as its feature parameters. The preprocessor firstly removes the adverse noise components on the incoming noisy speech signals and the speech detector at the next stage detects proper speech regions for the noise-reduced speech signals. Experimental results show that the proposed noise reduction-based speech detection method is very effective in improving not only the performance of the speech detector but also that of the subsequent speech recognizer.

  • PDF

확률적 스펙트럼 차감법을 이용한 잡은 환경에서의 음성인식 (Noisy Speech Recognition using Probabilistic Spectral Subtraction)

  • 지상문;오영환
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.94-99
    • /
    • 1997
  • 본 논문에서는 잡음환경에서의 음성인식을 위하여 잡음의 확률적 특성과 음성모델을 이용하는 확률적 스펙트럼 차감법을 제안한다. 기존의 스펙트럼 차감법은 음성이 존재하지 않는 구간에서 추정한 잡음을 잡음음성에서 차감하여 잡음을 제거함로, 추정한 잡음의 형태가 음성인식기에 입력되는 잡음음성에 포함된 잡음과 상이한 특성을 나타낼 경우에는 효과적인 잡음의 제거가 불가능하다. 이러한 단점을 보완하기 위해서 여러 가지 형태를 가지는 잡음의 원형을 사용하여, 잡음음성에서 잡음을 제거하는 방법을 사용하였다. 잡음의 확률적인 특성을 여러 개의 잡음원형으로 나타내므로, 스펙트럼 차감법은 입력음성에 대해서 확률적으로 수행되어 잡음이 제거된 다중의 스펙트럼을 출력하게 되고, 인식시에는 조용한 환경의 음성으로 학습된 음성모델에 따른 최적의 스펙트럼을 이용하여 인식을 수행한다. 또한 정적인 파라미터와 동적인 특징파라미터를 동시에 고려하여 잡음을 영향을 최소화하므로 보다 효과적인 잡음처리가 가능하다. 제안한 방법의 타당성을 실험적으로 검증하기 위해서, 잡음환경의 음성인식에 적용하였다. SNR 10 dB인 50개의 고립단어에 대한 실험결과, 잡음처리를 하지 않았을 경우 72.75%, 스펙트럼 차감법은 80.25%, 제안한 방법을 사용하였을 경우는 86.25%의 인식률을 얻음으로써, 효과적인 잡음처리 방법임을 확인할 수 있었다.

  • PDF

위너필터법이 적용된 MFCC의 파라미터 추출에 기초한 화자독립 인식알고리즘 (Speaker Independent Recognition Algorithm based on Parameter Extraction by MFCC applied Wiener Filter Method)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.1149-1154
    • /
    • 2017
  • 배경잡음 하에서 음성인식 시스템의 우수한 인식성능을 얻기 위해서 적절한 음성의 특징 파라미터를 선택하는 것이 매우 중요하다. 본 논문에서 사용한 특징 파라미터는 위너필터 방법이 적용된 인간의 청각 특성을 이용한 멜 주파수 켑스트럼 계수(Mel frequency cepstral coefficient, MFCC)를 사용한다. 즉, 본 논문에서 제안하는 특징 파라미터는 배경잡음을 제거한 후에 깨끗한 음성신호의 파라미터를 추출하는 새로운 방법이다. 제안한 수정된 MFCC 특징 파라미터를 다층 퍼셉트론 네트워크에 입력하여 학습시킴으로써 화자인식을 구현한다. 본 실험에서는 14차의 MFCC 특징 파라미터를 사용하여 화자독립 인식실험을 실시하였으며, 백색잡음이 혼합된 경우의 음성의 화자독립인식률은 평균 94.48%로 효과적인 결과를 구할 수 있었다. 본 논문에서 제안한 방법과 기존의 방법들을 비교하였을 때 본 논문에서 제안한 화자인식 성능이 수정된 MFCC 특징 파라미터를 사용함으로써 향상되었다.

감정 음성 인식을 위한 강인한 음성 파라메터 (Robust Speech Parameters for the Emotional Speech Recognition)

  • 이규현;김원구
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.681-686
    • /
    • 2012
  • 본 논문에서는 강인한 감정 음성 인식 시스템을 개발하기 위하여 감정의 영향을 적게 받는 음성 파라메터에 대한 연구를 수행하였다. 이러한 목적을 위하여 다양한 감정이 포함된 데이터를 사용하여 감정이 음성 인식 시스템과 음성 파라메터에 미치는 영향을 분석하였다. 본 연구에서는 멜 켑스트럼, 델타 멜 켑스트럼, RASTA 멜 켑스트럼, 루트 켑스트럼, PLP 계수와 성도 길이 정규화 방법에서 주파수 와핑된 멜 켑스트럼 계수를 사용하였다. 또한 신호 편의 제거 방법으로 CMS 방법과 SBR 방법이 사용되었다. 실험결과에서 성도정규화 방법을 사용한 RASTA 멜 켑스트럼, 델타 멜 켑스트럼 및 CMS 방법을 사용한 경우가 HMM 기반의 화자독립 단독음 인식 실험 결과에서 가장 우수한 결과를 나타내었다.