• 제목/요약/키워드: 화자 양자화

검색결과 34건 처리시간 0.024초

양자화 된 범용 화자모델을 이용한 연속적 화자분류 (Sequential Speaker Classification Using Quantized Generic Speaker Models)

  • 권순일
    • 전자공학회논문지CI
    • /
    • 제44권1호
    • /
    • pp.26-32
    • /
    • 2007
  • 연속적 화자 분류에 있어서 분류 대상이 되는 화자에 대한 정보가 없거나 부족할 경우 정확한 연속적 분류가 어렵다. 이러한 문제를 해결하기 위해 표본 화자모델을 이용하는 방법이 제안되었는데, 이 방법을 이용하면 미리 준비된 화자의 데이터가 없이 화자모델 초기화와 화자분류가 가능해진다. 하지만 여전히 화자모델의 표본을 얻는 방법에 어려움이 따른다. 이 문제를 해결하기 위해 벡터 양자화에서 비롯된 화자 양자화를 제안한다. 유선전화 데이터를 이용한 실험에서 화자 양자화를 이용한 표본 화자모델 방법은 무작위 표본추출 방법을 이용할 경우 보다 25%의 성능 향상을 보였다.

벡터 양자화 화자적응기법을 사용한 한국어 단어 인식 (Korean Word Recognition Using Vector Quantization Speaker Adaptation)

  • 최갑석
    • 한국음향학회지
    • /
    • 제10권4호
    • /
    • pp.27-37
    • /
    • 1991
  • 본 논문에서는 퍼지벡터양자화보다 양자화 왜곡을 더욱 저감시키기 위하여 에너지부분공간을 도입한 퍼지벡터양자화(energy subspace fuzzy vector quatization : ESFVQ)를 제안하였으며, 그것을 화자적응에 적용한 에너지부분공간 퍼지벡터양자화 화자적응기법에 의하여 미지화자의 한국어 단어를 인식하였다. 화자적응을 위한 학습과정에서 에너지 부분공간에 따른 퍼지 히스토그램으로 사상코드북을 작성하였으며, 인식과정에서 미지화자의 음성을 ESFVQ에 의해 복화화하므로써 인식율의 향상을 도모하였다. 남성 2인과 여성 1인이 발성한 DDD 전화 지역명에 대하여 ESFVQ에 의한 양자화 왜곡 및 화자적응 단어 인식율을 측정하여 그 성능을 평가하였다. ESFVQ의 양자화 왜곡은 벡터 양자화보다 22% 감소되었으며, 퍼지 벡터 양자화보다 5% 감소되었다. 또한, ESFVQ에 의한 화자적응방법으로 인식한 결과, 화자적응을 고려하지 않은 방법보다 26%, 벡터 양자화에 의한 방법보다 11%의 향상된 인식율을 얻을 수 있었다.

  • PDF

DHMM 음성 인식 시스템을 위한 양자화 기반의 화자 정규화 (Quantization Based Speaker Normalization for DHMM Speech Recognition System)

  • 신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.299-307
    • /
    • 2003
  • 화자독립 음성인식기에서 화자사이의 성도 길이의 영향을 최소화시켜 인식 성능을 개선하는 화자 정규화에 대한 많은 연구가 있어 왔다. 본 연구에서는 벡터양자화기를 이용하여 화자 검증이 가능하다는 사실에 착안하여 벡터 양자화기를 이용한 비교적 간단한 선형 워핑 화자정규화방법을 제안한다. 제안하는 방법에서는 먼저 정규화에 이용될 최적의 코드북을 생성한 다음, 이 코드 북을 이용하여 화자의 선형 워핑계수를 추출하고 추출된 워핑계수는 멜 켑스트럼 추출시에 사용되는 멜스케일 필터뱅크를 워핑하기 위해 이용된다. 본고에서 제안한 워핑계수 추출 및 적용 방법의 성능을 확인하기 위해 이산 HMM을 이용한 13가지의 단음절 한글 숫자음 인식기를 이용하여 인식실험을 수행하였으며, 실험 결과 약 29%의 오인식률 감소를 보여 제안하는 화자 정규화방법이 다른 라인서치 워핑계수추출 방법보다 간단한 동시에 효용가치가 있음을 확인하였다.

VQ와 HMM을 이용한 음성인식에서 화자적응에 관한 연구 (Speaker Adaptation in VQ and HMM Based Speech Recognition)

  • 이대룡
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.54-57
    • /
    • 1991
  • 본 논무에서는 HMM과 VQ를 이용한 고립단어에 대한 화자종속 및 화자독립 음성인식시스템을 만들고 여기에 화자적응을 하는 방법에 대한 연구를 했다. 화자적응방법에는 크게 VQ코드북을 적응시키는 방법과 HMM패러미터블 적응시키는 방법이 있다. 코드북적응을 하는 방법으로서 기존코드북에 대해 새로운화자의 적응음성을 양자화한 뒤 각 코드벡터에 해당하는 적응음성의 평균을 구해서 새로운 화자의 코드북을 구해주는 방법과 기준코드북에 대해 새로운화자의 적응음성을 양자화할 때 HMM의 각 상태에서 각각의 코드벡터를 발생할 확률을 거리오차의 계산에서 고려해 비록 거리오차는 크지만 그 코드벡터를 발생할 확률이 매우 높으면 적응음성이 그 코드벡터에 index되게해서 각 코드벡터에 해당하는 모든 적응음성데이타의 평균을 새로운 코드북으로 하는 두가지 알고리즘을 제안한다. 이렇게 함으로써 기존의 기준코드북을 초기 코드북으로해서 LBG알고리즘을 사용해서 적응음성데이타에 대한 새로운 코드북을 만드는 방법에 비해 5-10배의 계산시간을 감소하게 된다. 이 새로운 코드북으로 적응음성데이타를 다시 index해서 이 index된 음성렬로 HMM패러미터를 적응했다. 제안된 알고리즘이 코드북적응을 하는 경우에 기존의 적응방법에 비해 5-10배의 계산 시간을 단축하면서 인식률에서는 더 나은결과를 얻었다. 또 같은 적응방법에 대해서 화자종속모델 보다는 화자독립모델에 대해서 화자적응하는 것이 더 나은 인식결과를 보여주었다.

  • PDF

화자독립 음성인식을 위한 GMM 기반 화자 정규화 (Speaker Normalization using Gaussian Mixture Model for Speaker Independent Speech Recognition)

  • 신옥근
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.437-442
    • /
    • 2005
  • 화자독립 음성인식기의 화자 정규화를 위해 GMM(Gaussian mixture model)분포를 이용하는 방법에 대해 실험한다. 이 방법은 벡터 양자화기를 이용한 선행 연구를 개선한 것으로, 정규화된 학습용 특징벡터들의 확률분포를 최적의 클러스터의 수를 갖는 GMM분포로 모델링한 다음, 이 분포를 이용하여 시험용화자의 워핑계수를 추정한다. 이 연구의 목적은 기존의 ML을 이용한 방법의 단점을 개선하는 동시에 벡터 양자화기를 이용한 선행연구와'soft decision'이라 불리는 확률 분포를 이용한 방법의 성능을 비교하는데 있다. TIMIT 코퍼스를 대상으로 한 음소 인식 실험에서 클러스터의 수를 적절한 크기로 설정한 GMM분포를 이용함으로써 벡터 양자화기를 이용한 방법에 비해 약간 나은 인식률을 얻을 수 있었다.

문맥종속 화자인식을 위한 준비반복 벡터 양자기 설계 알고리즘 (A Semi-Noniterative VQ Design Algorithm for Text Dependent Speaker Recognition)

  • 임동철;이행세
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.67-72
    • /
    • 2003
  • 이 논문은 문맥 종속 화자인식에 사용될 벡터 앙자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 기준 화자를 제외한 모든 비기준 화자에 대해 비반복적 학습 방법을 사용하여, 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 이 제안된 준비반복 벡터 양자기 설계법은, 종래의 설계법이 모든 화자의 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 준비반복 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 단지 기준 화자에 대하여만 반복 학습을 수행하고 비기준 화자에 대하여는 반복 학습을 하지 않는다. 둘째, 설계된 비기준 화자의 양자 영역은 기준화자의 양자 영역을 원용하며, 양자점은 자신의 통계 분포에 대해 최적점으로 설정된다. 수치 실험은 화자 20명에 대하여 멜켑스트럼 12차 특징벡터를 사용하였고 코드북 크기를 2부터 32까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 코드북 크기가 적절하고 학습 데이터 길이가 충분한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 준비반복 벡터 양자기 설계법은, 설계에 필요한 학습 횟수가 획기적으로 줄면서 인식률은 보존되어, 새로운 대안이 될 것으로 사료된다.

연속음성 인식기를 위한 벡터양자화기 기반의 화자정규화 (Vector Quantizer Based Speaker Normalization for Continuos Speech Recognition)

  • 신옥근
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.583-589
    • /
    • 2004
  • 포만트 등의 음향학적인 정보를 이용하지 않는 연속음성인식 (CSR)을 위한 벡터 양자화기 기반의 화자 정규화 방법을 제안한다. 이 방법은 앞서 제안한 간단한 숫자음 인식기를 위한 화자정규화 방법을 개선한 것으로, 코드북의 크기를 증가시켜 가면서 벡터양자화기를 반복적으로 학습시킴으로써 정규화된 코드북을 구한 다음, 치를 이용하여 시험용화자의 워핑계수를 추정한다. 코드북 생성과 워핑계수 추정을 위해 모음 음소의 집합과 자음과 모음을 포함한 모든 음소의 집합 등 두 가지 음소집합을 이용i,겨 실험하였으며, 추정한 워핑계수에 상응하는 구간선형 워핑함수를 이용하여 인식기의 학습과 시험에 사용될 특징벡터를 워핑하였다. TIMIT 코퍼스와 HTK toolkit을 이용한 음소인식 실험을 수행하여 제안하는 방법의 성능을 조사한 결과, 포만트를 이용한 워핑 방법과 비슷한 성능을 가짐을 확인하였다.

강인한 VQ-PCA에 기반한 효율적인 화자 식별 (Efficient Speaker Identification based on Robust VQ-PCA)

  • 이기용
    • 인터넷정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.57-62
    • /
    • 2004
  • 본 논문에서는, 효율적인 화자 식별을 위하여 강인한 벡터 양자화 주성분 분석을 제안하였다. 제안된 방법은 화자 식별에서 특징벡터의 학습을 위한 고차원(high dimension) 문제와 이상치(Outlier)에 대한 문제를 해결 하기위하여 제안 되었다. 먼저, 제안된 방법은 M-추정을 이용하여 강인한 벡터 양자화(Vector Quantization : VQ) 에 의한 몇 개의 분리된 영역으로 데이터 공간을 나눈다. 분리된 자 영역에서 공분산 행렬로부터 강인한 주성분 분석(Principal Component Analysis)이 얻어지게 된다. 마지막으로 각 영역에서 강인한 PCA에 의하여 줄어든 차원을 갖는 변환된 특징 벡터로부터 화자의 가우시안 혼합 모델(Gaussian Mixture Model : GMM)을 구한다. 제안된 방법은 같은 성능하에서 대각 공분산 행렬을 갖는 전형적인 GMM방법과 비교할 때 더빠른 결과를 얻었으며, 데이터의 저장공간을 줄일 수 있었을 뿐 아니라, 이상치가 존재할 경우에 더욱 강인하였다.

  • PDF

FVQ(Fuzzy Vector Quantization) 사상화에 의한 화자적응 음성합성 (Speaker-Adaptive Speech Synthesis by Fuzzy Vector Quantization Mapping)

  • 이진이;이광형
    • 한국지능시스템학회논문지
    • /
    • 제3권4호
    • /
    • pp.3-20
    • /
    • 1993
  • 본 연구에서는 퍼지사상화(fuzzy mapping)에 의한 사상된(mapped) 코드북을 사용하는 화자적은 음성합성 알고리즘을 제안한다. 입력화자와 기준화자의 코드북은 신경망 클러스터링 알고리즘인 자율경쟁 학습을 사용하여 작성된다. 사상된 코드북은 입력 음성벡터에 대한 두 화자의 대응 코드벡터의 소속갑(membership value)으로 퍼지 히스토그랩을 작성하여 이들을 1차 결합함으로써 얻어지는 퍼지사상화에 의하여 작성된다. 음성합성시에는 사상된 코드북을 사용하여 입력화자의 음것을 퍼지 벡터양자화한 다음, CFM 연산으로 합성함으로써 입력화자에 적응된 합성음을 얻는다. 실험에서 여러 입력화자로 30대의 남성, 20대의 여성음을 사용하였고 기준음석으로 입력음성과는 다른 20대의 여성음성을 사용하였다.실험에 사용된 음성데이타는 문장/안녕하십니까/와/굿모닝/이다. 실험결과는 각각의 입력화자에 기준화자 음성이 적응된 합성음을 얻었다.

  • PDF

문맥 독립 화자인식을 위한 공간 분할 벡터 양자기 설계 (A Classified Space VQ Design for Text-Independent Speaker Recognition)

  • 임동철;이행세
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.673-680
    • /
    • 2003
  • 이 논문은 문맥 독립 화자인식에 사용될 벡터 양자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 특징 벡터 공간을 분할하여, 양자기 설계 시 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 제안된 공간 분할 벡터 양자기 설계법은 저자가 제안한 문맥 종속 화자인식을 위한 준비반복 벡터 양자기 설계법의 벡터 공간에 대한 일반화이다. 공간 분할 벡터 양자기 설계법은 종래의 설계법이 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 또한 공간 분할 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 특징 벡터 공간을 분할한 공간 분할 군집을 이용함으로써 반복 학습을 하지 않는다. 둘째, 설계된 각 양자 영역은 공간 분할 군집의 양자 영역을 원용하며, 양자점은 각각의 통계 분포에 대해 최적점으로 설정된다. 셋째, 공간 분할 군집은 특징 벡터 집합에 대해 표본 벡터 생성법(CSVQ1, 2), 특징 벡터 공간에 대해 균일 초격자 구조 생성법(CSYQ3)으로 형성하였다. 수치 실험은 화자 10명이 발성한 50개의 문장에 대해 문맥 독립 화자인식 실험으로 수행되었다. 특징계수는 12차 멜켑스트럼 벡터를 사용하였고 각각의 공간 분할 코드북 생성법에 대해 코드북 크기를 32부터 128까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 표본 벡터 생성법을 사용한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 공간 분할 벡터 양자기 설계법은 설계에 필요한 계산량이 획기적으로 줄면서 인식률은 보존되어 문맥 독립 화자 인식에 새로운 대안이 되며 또한 특징 벡터 공간을 설정할 수 있는 다양한 응용에 적용이 가능할 것으로 사료된다.