• 제목/요약/키워드: 화자표현

검색결과 109건 처리시간 0.025초

GMM 기반의 문맥독립 화자 검증 시스템의 성능 향상 (Performance Improvement in GMM-based Text-Independent Speaker Verification System)

  • 함성준;신광호;김민정;김주곤;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.131-134
    • /
    • 2004
  • 본 논문에서는 GMM(Gaussian Mixture Model)을 이용한 문맥독립 화자 검증 시스템을 구현한 후, arctan 함수를 이용한 정규화 방법을 사용하여 화자검증실험을 수행하였다. 특징파라미터로서는 선형예측방법을 이용한 켑스트럼 계수와 회귀계수를 사용하고 화자의 발성 변이를 고려하여 CMN(Cepstral Mean Normalization)을 적용하였다. 화자모델 생성을 위한 학습단에서는 화자발성의 음향학적 특징을 잘 표현할 수 있는 GMM(Gaussian Mixture Model)을 이용하였고 화자 검증단에서는 ML(Maximum Likelihood)을 이용하여 유사도를 계산하고 기존의 정규화 방법과 arctan 함수를 이용한 방법에 의해 정규화된 점수(score)와 미리 정해진 문턱값과 비교하여 검증하였다. 화자 검증 실험결과, arctan 함수를 부가한 방법이 기존의 방법보다 항상 향상된 EER을 나타냄을 확인할 수 있었다.

  • PDF

상태당 가지수를 가변시킨 HMM을 이용한 화자적응화에 관한 연구 (A Study on the Speaker Adaptation in HMM Using Variable Number of Branches in Each State)

  • 김광태;서정일;한유수;홍재근
    • 한국음향학회지
    • /
    • 제17권3호
    • /
    • pp.90-95
    • /
    • 1998
  • 본 논문에서는 CHMM인 CDHMM과 ARHMM을 이용하여 화자적응화 하는 방법을 각각 연구하였다. CDHMM에서는 최대사후화확률 추정법에 의하여 각 상태마다 하나의 가 지를 이용하여 화자에 적응시킨다. 본 논문에서는 음성의 다양한 음향학적 특징을 표현하기 위하여 상태마다 여러 개의 가지를 갖는 방법을 제안하였다. 상태마다의 적절한 가지 수를 결정하기 위하여 각 상태에 속하는 프레임 수와 특징 벡터들의 분산행렬의 행렬식값을 이용 하였다. ARHMM에서는 특징벡터로 선형예측계수를 사용하기 때문에 최대사후화확률 추정 법을 사용할 수 없게 된다. 따라서 화자독립모델을 이용하여 적응화자에 대한 음성을 Viterbi 알고리듬으로 상태별로 분할한 후 k-means 알고리듬을 이용하여 각 상태마다 하나 의 가지를 갖는 모델로 적응시키는 방법을 제안하였다.

  • PDF

d-vector를 이용한 한국어 다화자 TTS 시스템 (A Korean Multi-speaker Text-to-Speech System Using d-vector)

  • 김광현;권철홍
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.469-475
    • /
    • 2022
  • 딥러닝 기반 1인 화자 TTS 시스템의 모델을 학습하기 위해서 수십 시간 분량의 음성 DB와 많은 학습 시간이 요구된다. 이것은 다화자 또는 개인화 TTS 모델을 학습시키기 위해서는 시간과 비용 측면에서 비효율적 방법이다. 음색 복제 방법은 새로운 화자의 TTS 모델을 생성하기 위하여 화자 인코더 모델을 이용하는 방식이다. 학습된 화자 인코더 모델을 통해 학습에 사용되지 않은 새로운 화자의 적은 음성 파일로부터 이 화자의 음색을 대표하는 화자 임베딩 벡터를 만든다. 본 논문에서는 음색 복제 방식을 적용한 다화자 TTS 시스템을 제안한다. 제안한 TTS 시스템은 화자 인코더, synthesizer와 보코더로 구성되어 있는데, 화자 인코더는 화자인식 분야에서 사용하는 d-vector 기법을 적용한다. 학습된 화자 인코더에서 도출한 d-vector를 synthesizer에 입력으로 추가하여 새로운 화자의 음색을 표현한다. MOS와 음색 유사도 청취 방법으로 도출한 실험 결과로부터 제안한 TTS 시스템의 성능이 우수함을 알 수 있다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

화자인식을 위한 어트랙터로 부터의 음성특징추출 (Feature Extraction from the Strange Attractor for Speaker Recognition)

  • 김태식
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권2E호
    • /
    • pp.26-31
    • /
    • 1994
  • 화자인식을 위한 음성특징을 카오스의 어트랙터와 신경망를 이용해서 추출하는 방법을 제시한다. 기존의 음성신호 표현방법과 특징 추출법은 음성인식 시스템에서 별 무리가 없이 사용되었으나 2차원 표현에서 오는 한계는 아직까지 극복해야할 과제로 남아있다. 본 연구에서는 최근 각광받고있는 새로운 시그날표현기법인 카오스이론이 스트레인저 어트랙터를 이용하여 음성특징을 추출하는 화자인식시스템에 적용하고자 한다. 입력된 음성신호는 3차원 공간안에서 어트랙터라 불리우는 기하학적인 형태로 표현되는데 이 3차원 어트랙터를 이용하면 기존의 2차원적인 표현으로부터 얻는 특징보다 더 많은 정보를 추출할 수 있을 것이다. 특징추출 기법은 3가지를 제안하였고 각 기법으로 추출된 특징벡터는 신경회로망을 통해 학습되어 인식률을 실험하였다. 제시한 기법들에 따라 다르나 인식률은 약 82%부터 96%까지 나타났다.

  • PDF

동적 다중 그룹 혼합 가중치를 이용한 한국어 음성 인식의 성능향상 (Improvement in Korean Speech Recognition using Dynamic Multi-Group Mixture Weight)

  • 황기찬;김종광;김진수;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.544-546
    • /
    • 2002
  • 본 논문은 CDHMM(Continuous Density Hidden Markov Model)의 훈련하는 방법을 동적 다중 그룹 혼합 가중치(Dynamic Mutli-Group mixture weight)을 이용하여 재구성하는 방법을 제안한다. 음성은 Hidden 상태열에 의하여 특성화되고, 각 상태는 가중된 혼합 가우시안 밑도 함수에 의해 표현된다. 음성신호를 더욱더 정확하게 계산하려면 각 상태를 위한 가우시안 함수를 더욱더 많이 사용해야 하며 이것은 많은 계산량이 요구된다. 이러한 문제는 가우시안 분포 확률의 통계적인 평균을 이용하면 계산량을 줄일 수 있다. 그러나 이러한 기존의 방법들은 다양한 화자의 발화속도와 가중치의 적용이 적합하지 못하여 인식률을 저하시키는 단점을 가지고 있다. 이 문제를 다양한 화자의 발화속도에 적합하도록 화자의 화자의 발화속도에 따라 동적으로 5개의 그룹으로 구성하고 동적 다중 그룹 혼합 가중치를 적용하여 CDHMM 파라미터를 재구성함으로써 8.5%의 인식율이 증가되었다.

  • PDF

Adaptation Data의 Quality를 고려한 강인한 화자 적응 (Flexible Speaker Adaptation Reflecting the Quality of Adaptation Data)

  • 표현아;김세현;오영환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.37-40
    • /
    • 2002
  • 최근 음성 인식 시스템의 성능 향상을 위해 화자 적응(speaker adaptation)에 대한 연구가 활발히 진행되고 있다. HMM 기반 인식 시스템의 모델 파라미터를 수정하는 화자 적응의 경우, MAP 방법과 MLLR 방법에 대한 연구가 주류를 이루고 있다. 두 방법은 adaptation data의 양에 따라서 서로 다른 성능을 보인다. 본 논문에서는 adaptation data의 quality를 정의하고, 이를 기존 두 방법의 가중치로 이용하여 화자 적응을 수행하는 방법을 제안한다. 제안한 방법을 KAIST 통신연구실에서 구축한 한국어 도시이름 500단어 인식 시스템에 적용하여 성능을 개선하였다.

  • PDF

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 (A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition)

  • 김유진;정재호
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.61-74
    • /
    • 2004
  • 본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.

강건한 문맥독립 화자식별을 위한 프레임 선택방법, 복합방법, 수정된 가중모델순위 방법 (Frame Selection, Hybrid, Modified Weighting Model Rank Method for Robust Text-independent Speaker Identification)

  • 김민정;오세진;정호열;정현열
    • 한국음향학회지
    • /
    • 제21권8호
    • /
    • pp.735-743
    • /
    • 2002
  • 본 논문에서는 세 가지 문맥독립 화자식별방법을 제안한다. 먼저, 화자 식별시 성도의 특성을 충분히 표현하지 못한 프레임이 포함되지 않도록 하는 프레임선택 (Frame Selection; FS)방법을 제안한다. 이 방법은 각 프레임에서 가장 큰 유사도와 두 번째로 큰 유사도의 차이를 평가하여 중요 프레임을 선택한 후, 선택된 프레임만을 이용하여 유사도를 계산하는 방법이다. 두 번째로 제안하는 복합 (Hyrid)방법은 FS와 가중모델순위 (Weighting Model Rank: WMR)방법을 결합시킨 것으로, FS방법을 이용하여 중요 프레임을 선택한 후, 지수함수 가중치를 이용하여 식별화자를 결정하는 것이다. 마지막으로 제안하는 수정된 가중모델순위 (Modified WMR; MWMR)방법은 식별화자를 결정할 때 유사도의 상대적 위치만을 고려하였던 기존의 U방법과는 달리 유사도와 유사도의 상대적 위치를 함께 고려하는 방법이다. 화자식별 실험결과 제안한 방법들이 기존의 ML 방법보다 향상된 식별률을 보였으며, 복합 방법 및 MWMR방법의 경우에는 WMR방법보다 각각 약 2%와 3%의 향상된 식별률을 나타내어 제안한 방법들의 유효성을 확인할 수 있었다.

주변 잡음 환경에 강한 화자인식 알고리즘 연구 (A study on the robust speaker recognition algorithm in noise surroundings)

  • 정종순
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.47-54
    • /
    • 2005
  • 대부분의 화자인식 시스템은 음성 분석을 통해 화자의 특징을 음향 파라미터 형태로 추출하여 화자의 표준패턴을 만든 후, 입력된 미지의 음성패턴과의 차이를 계산하여 허용 여부를 최종적으로 판단한다. 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 따라서 본 논문에서도 이를 위해서 다음과 같이 제안하였다. 벡터 양자화모델에 비잡음 환경에 강한 스펙트럼 특징과 잡음 환경에 강한 운율정보를 화자인식 시스템에 이용할 것을 제안하였다. 훈련과정에서 코드북 형성시 실제 데이터를 스펙트럼 특징과 운을 특징을 조합하여 원하는 모델 수만큼 만들었다. 인식과정에서는 입력된 테스트패턴을 각 모델간에 거리 측도로 비교하여 가부를 결정하였다. 실험결과 스펙트럼 특징과 운을 특징을 각각 이용할 경우 보다 좋은 인식율을 얻었으며, 특히 잡음 환경에서 안정된 인식율을 확보하므로 상용화의 가능성을 한층 높였다.

  • PDF