• 제목/요약/키워드: 화자 양자화

검색결과 34건 처리시간 0.021초

지속적으로 발성한 모음에 의한 화자인식 (Automatic Speaker Identification by Sustained Vowel Phonation)

  • 배건성
    • 한국음향학회지
    • /
    • 제11권1호
    • /
    • pp.35-41
    • /
    • 1992
  • 지속적으로 발성한 모음에 대해 각 화자의 특징을 나타내는 벡터양자화 코드북을 만들고 이를 이용해 화자를 인식하는 방법을 제안하고 실험하였다. 특히 벡터로는 모음 /이/로 부터 각각의 피치 주기에 대해 얻어진 선형예측계수를 사용하였으며, 코드북의 크기는 4가 적절함을 실험적으로 보였다. 인식실험에서, 학습에 사용된 데이타를 이용했을 경우에는 99.4%의 인식율을 보였으며, 학습에 사용되지 않은 50개의 피치 주기를 포함하는 음성신호로 부터는 89.4%의 인식율을 보였다.

  • PDF

웨이블렛 필터뱅크에 기반을 둔 강인한 화자식별 기법 (A Robust Speaker Identification Method Based on the Wavelet Filter Banks)

  • 이대종;곽근창;유정웅;전명근
    • 정보처리학회논문지C
    • /
    • 제9C권4호
    • /
    • pp.459-466
    • /
    • 2002
  • 본 논문에서는 웨이블렛 서브밴드 필터링기법을 이용하여 다중의사 결정기법에 기반을 둔 잡음에 강인한 화자식별 알고리즘을 제안한다. 제안된 방법은 잡음이 첨가된 음성신호를 웨이블렛 서브밴드 필터뱅크를 이용하여 각 주파수 대역별로 신호를 분리한 후 개별적인 대역별로 인식 알고리즘을 수행하기 때문에 어떤 서브밴드에서의 노이즈 영향이 상대적으로 적으므로 대역제약된 형태로 주어지는 일반적인 주변잡음이 있는 환경하에서 우수한 성능을 보일 수 있도록 시스템을 구성하였다. 제안된 알고리즘은 화자인식 기법으로 널리 쓰이고 있는 벡터양자화 알고리즘만을 적용한 경우에 비해 15∼60%의 향상된 인식률을 보였다.

음성 신호를 사용한 감정인식의 특징 파라메터 비교 (Comparison of feature parameters for emotion recognition using speech signal)

  • 김원구
    • 대한전자공학회논문지SP
    • /
    • 제40권5호
    • /
    • pp.371-377
    • /
    • 2003
  • 본 논문에서 음성신호를 사용하여 인간의 감정를 인식하기 위한 특징 파라메터 비교에 관하여 연구하였다. 이를 위하여 여러 가지 감정 상태에 따라 분류된 한국어 음성 데이터 베이스를 이용하여 얻어진 음성 신호의 피치와 에너지의 평균, 표준편차와 최대 값 등 통계적인 정보 나타내는 파라메터와 음소의 특성을 나타내는 MFCC 파라메터가 사용되었다. 파라메터들의 성능을 평가하기 위하여 문장 및 화자 독립 감정 인식 시스템을 구현하여 인식 실험을 수행하였다. 성능 평가를 위한 실험에서는 운율적 특징으로 피치와 에너지와 각각의 미분 값을 사용하였고, 음소의 특성을 나타내는 특징으로 MFCC와 그 미분 값을 사용하였다. 벡터 양자화 방법을 사용한 화자 및 문장 독립 인식 시스템을 사용한 실험 결과에서 MFCC와 델타 MFCC를 사용한 경우가 피치와 에너지를 사용한 방법보다 우수한 성능을 나타내었다.

가우시안 분포에서 Maximum Log Likelihood를 이용한 벡터 양자화 기반 음성 인식 성능 향상 (Vector Quantization based Speech Recognition Performance Improvement using Maximum Log Likelihood in Gaussian Distribution)

  • 정경용;오상엽
    • 디지털융복합연구
    • /
    • 제16권11호
    • /
    • pp.335-340
    • /
    • 2018
  • 정확한 인식률을 보이고 있는 상업적인 음성인식 시스템은 화자종속 고립데이터로부터 학습 모델을 사용한다. 그러나 잡음 환경에서 데이터양에 따라 음성인식의 성능이 저하되는 문제점이 있다. 본 논문에서는 가우시안 분포에서 Maximum Log Likelihood를 이용한 벡터 양자화 기반 음성 인식 성능 향상을 제안한다. 제안하는 방법은 음성에 대한 특징을 가지고 벡터 양자화와 Maximum Log Likelihood 음성 특징 추출 방법을 이용하여 유사 음성에 대한 음성 인식의 정확성을 높이는 최적 학습 모델 구성 방법이다. 이를 위해 HMM을 기반으로 음성 특징을 추출하는 방법을 사용한다. 제안하는 방법을 사용하여 기존 시스템에서 생성되어 사용되는 음성 모델에 대한 부정확한 음성 모델에 대한 정확성을 향상시킬 수 있으므로 음성 인식에 강인한 모델을 구성할 수 있다. 제안하는 방법은 음성 인식 시스템에서 향상된 인식의 정확도를 보인다.

주변 잡음 환경에 강한 화자인식 알고리즘 연구 (A study on the robust speaker recognition algorithm in noise surroundings)

  • 정종순
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.47-54
    • /
    • 2005
  • 대부분의 화자인식 시스템은 음성 분석을 통해 화자의 특징을 음향 파라미터 형태로 추출하여 화자의 표준패턴을 만든 후, 입력된 미지의 음성패턴과의 차이를 계산하여 허용 여부를 최종적으로 판단한다. 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 따라서 본 논문에서도 이를 위해서 다음과 같이 제안하였다. 벡터 양자화모델에 비잡음 환경에 강한 스펙트럼 특징과 잡음 환경에 강한 운율정보를 화자인식 시스템에 이용할 것을 제안하였다. 훈련과정에서 코드북 형성시 실제 데이터를 스펙트럼 특징과 운을 특징을 조합하여 원하는 모델 수만큼 만들었다. 인식과정에서는 입력된 테스트패턴을 각 모델간에 거리 측도로 비교하여 가부를 결정하였다. 실험결과 스펙트럼 특징과 운을 특징을 각각 이용할 경우 보다 좋은 인식율을 얻었으며, 특히 잡음 환경에서 안정된 인식율을 확보하므로 상용화의 가능성을 한층 높였다.

  • PDF

HMM(Hidden Markov Model) 음성인식 알고리즘을 이용한 효율적인 음성인식 모듈 개발 설계에 관한 연구 (A Study on the Speech Recognition Moduleas Design Using HMM Speech Recognition Algorithm)

  • 김정훈;류홍석;강재명;강성인;이상배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.337-340
    • /
    • 2002
  • 본 논문에서는 휠체어 시스템에 화자 독립 고립단어 인식을 위한 임베디드 시스템 설계에 관한 내용을 서술한다. 실제 환경에서는 잡음이 포함되어 있어 인식률을 저하시키므로, 잡음을 제거하는 방식 중 가장 간단한 방식인 스펙트럼 차감법(Spectral subtraction method)을 사용하여 잡음을 제거했다 전처리 단계에서는 12차 LPC&Cepstrum 방식을 사용했고, 인식 알고리즘은 DHMM (Discrete Hidden Markov Model)을 전반부 인식기로 사용했다. 이 알고리즘을 적용하기 위해서는 데이터 간소화를 위해 벡터양자화(Vector Quantization) 처리가 전제되어야한다 또한 인식알고리즘은 인식률을 향상을 위해 후처리 인식기로 신경망(MLP:Multi-layer Perceptron)을 통해서 인식률을 향상시켰다 화자 독립 시스템에 맞는 인식 단어의 구성은 총 7개단어로 남녀 총 25명 목소리로 구성하였다. 그리고 하드웨어 구성은 32-bits floating point 방식인 TMS320C32를 적용했고, 메모리 부분은 4Mbyte로 설계를 했으며, 메인보드의 설계는 현재 완성 단계에 있다.

확률적 방법을 이용한 음성 개성 변환 (Voice Personality Transformation Using a Probabilistic Method)

  • 이기승
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.150-159
    • /
    • 2005
  • 본 논문에서는 임의의 음성을 특정 화자가 발성한 것처럼 들리도록 변환하는 음성 개성 변환 알고리즘에 대해 연구하였다. 제안된 기법은 화자의 음성을 LPC 켑스트럼, 피치, 발성 속도를 사용하여 표현하였으며 각각에 대한 변환 규칙을 생성하여 변환을 수행하였다. LPC 켑스트럼은 혼합 가우시안 모델을 이용한 확률적으로 모델링하고, 두 화자간의 대응관계를 조건 확률로 나타내었다. 확률적인 모델링에 필요한 각종 파라메터들을 얻기 위해 최대 가능도 기법이 사용되었으며, 변환 LPC 켑스트럼은 최소 자승 오차 방법에 근거하여 얻어지도록 하였다. 운율 변환을 위한 변수로 본 논문에서는 피치와 발성 속도를 사용하였으며, 두 음성간의 평균값 비율을 사용하여 운율 변환을 수행하였다. 제안된 기법은 기존 벡터 양자화 기반의 기법과 비교에서, 객관적인 척도로 사용한 평균 켑스트럼 거리 감소율, 가능도 증가율 면에서 우수한 성능을 나타내었다. 주관적인 테스트에서도 기존의 방법과 유사한 인식율을 얻었으며 특히 완만하게 변화하는 스펙트럼 궤적에 따른 고음질이 얻어짐을 확인할 수 있었다.

DMS 모델과 이중 스펙트럼 특징을 이용한 HMM에 의한 음성 인식 (HMM-based Speech Recognition using DMS Model and Double Spectral Feature)

  • 안태옥
    • 한국산학기술학회논문지
    • /
    • 제7권4호
    • /
    • pp.649-655
    • /
    • 2006
  • 본 논문은 화자 독립의 음성인식을 위한 연구로써, DMS 모델에 의한 DMSVQ(Dynamic Multi-Section Vector Quantization) 코드북과 이중 스펙트럼 특징을 이용한 HMM(Hidden Markov Model) 음성인식 방법을 제안한다. 정적 스펙트럼 특징으로서는 LPC ?S스트럼 계수를 이용하였고, 동적 스펙트럼 특징으로는 LPC ?S스트럼의 회귀계수를 사용하였다. 이들 두개의 스펙트럼 특징들을 각각 VQ 코드북으로 양자화되고, DMS 모델을 이용한 HMM은 입력으로써 정적 스펙트럼 특징과 동적 스펙트럼 특징을 받아드림으로써 모델링된다. 제안된 방법에 의한 인식 실험은 기존의 다양한 인식 방법에 의한 인식 실험들과 비교를 위해 동일한 데이터와 조건 하에서 수행하였다. 실험 결과, 본 연구에서 제안한 방법이 기존의 방법들보다 우수한 방법임을 입증하였다.

  • PDF

퍼지 스무딩을 이용한 향상된 음성인식 (A Study on Improvement of Speech Recognition by Fuzzy Smoothing)

  • 김대수;김종교
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.13-16
    • /
    • 1999
  • 이산 HMM을 이용한 음성인식을 할 때, 관측심볼은 훈련 데이터의 양자화과정을 수행하여 얻게 된다. 훈련 데이터는 선정된 몇몇 화자에 의해서 얻어지게 되는데, 이러한 이유로 인하여 충분하지 못한 훈련 데이터가 얻어지므로, 관측 심볼에 따라 출력확률분포값이 영(zero)이나, 거의 영에 가까운 값을 가지게 된다. 이러한 요인은 인식률의 저하를 초래하므로, 본 논문에서는 fuzzy smoothing 기법을 채택하여, 출력확률분포값이 영(zero)의 값을 가지는 것을 방지하여, 새로 구해진 파라메터로 인식실험을 하였다. Smoothing과정을 수행한 후의 인식률이 smoothing을 하진 않은 인식율에 비해 평균 $1.46\%$ 향상되었다.

  • PDF

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System Using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관;박성현
    • 한국음향학회지
    • /
    • 제13권1호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 연속분포 hidden Markov모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다 성능 평가를 위한 회자 독립인식 실험에서 문법이 없을 경우 $83\%$, finite state network을 적용한 경우에는 $94\%$의 인식률을 나타내었다.

  • PDF