• 제목/요약/키워드: 화자 양자화

검색결과 34건 처리시간 0.024초

퍼지 벡터 양자화기 사상화와 신경망에 의한 화자적응 음성합성 (Speaker-Adaptive Speech Synthesis based on Fuzzy Vector Quantizer Mapping and Neural Networks)

  • 이진이;이광형
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.149-160
    • /
    • 1997
  • 본 연구에서는 퍼지사상화(fuzzy mapping)와 FLVQ(fuzzy learning vector quantization)에 의한 사상된(mapped)코드북을 사용하는 화자적용 음성합성 알고리즘 을 제안하고, 기존의 음성합성결과와 비교한다. 입력화자와 기준화자의 코드북은 FLVQ 방법으로 작성한다. 사상된 코드북은 퍼지 히스토그램을 작성하여 이들을 선형 결합함으로써 얻어지는 퍼지 사상화에 의하여 작성된다. 대응 코드벡터의 퍼지 히스 토그램은 동일 입력벡터에 대해 선택된 입력화자의 코드벡터와 기준화자의 코드벡터 사이의 DTW(dynamic time warping)을 행하여 대응하는 코드벡터들의 소속값 (membership value)을 누적하여 얻는다. 음성합성시에는 사상된 코드북을 사용하여 입력화자의 음성을 퍼지벡터 양자화한 다음, FCM(fuzzy c means) 합성규칙을 사용하 여 사상된 코드북내의 코드벡터가 아닌 새로운 하나의 합성벡터를 얻게 되어 좀 더 입력화자에 적응된 합성음을 얻게 된다. 이 기술의 성능평가는 성별이 서로 다른 화 자를 입력화자 및 기준화자로 선정하여 입력화자의 음성에 가까운 정도로 평가하였으 며 그 결과 기존의 음성합성보다 입력화자에 더 적용된 합성음을 얻었다.

  • PDF

화상 통화시 화자의 얼굴화질을 강화하는 동영상 부호화 기법 (A Video Encoding Mechanism Improving the Quality of Speaker Face Region on Video Telephony)

  • 이승철;낭종호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (3)
    • /
    • pp.157-159
    • /
    • 2003
  • 본 논문에서는 화상 통화를 위한 비디오 인코딩에서 화자의 얼굴 화질을 강화하여 인코딩 할 수 있는 동영상 인코딩 방법을 제안한다. 제안한 인코딩 방법에서는 이미지의 Cr 데이터 및 움직임벡터 정보를 이용하여 빠르게 화자 얼굴 영역을 검출하고, 이 영역에 대하여 선택적인 양자화를 통하여 상대적으로 많은 비트량을 할당하여 화자의 얼굴 화질을 상대적으로 강화한다. 이 방법을 H.263 인코더에 적용하는 경우 전체적으로 이런 방법을 적용하지 않았을 때와 비교하여 18% 정도의 추가적인 CPU 오버헤드가 필요하였지만, 얼굴 영역에 대하여서는 PSNR 3dB 정도의 화질이 개선될 수 있음을 실험을 통하여 증명하였다.

  • PDF

모음 인식과 벡터 양자화를 이용한 화자 인식 (Speaker Identification Based on Vowel Classification and Vector Quantization)

  • 임창헌;이황수;은종관
    • 한국음향학회지
    • /
    • 제8권4호
    • /
    • pp.65-73
    • /
    • 1989
  • 본 연구에서는, VQ(vector quantization)와 모음 인식에 기초한 화자 인식 알고리즘을 제안하고, 기존의 VQ를 사용한 화자 인식 알고리즘과 성능을 비교하였다. 제안된 화자 인식 알고리즘은 모음 분리, 모음 인식 그리고 평균 distortion양을 계산하는 3개의 과정으로 구성되며, 이때 주어진 음성 신호로부터 모음 부분을 분리하기 위해 RMS 에너지, BTR(Back-to-Total cavity volume Ratio) 그리고 SFBR(Signed-Front-to-Back maximum area Ratio)이 라는 3개 의 Parameter를 사용하였다. 입력 음성 신호의 SNR이 20 dB이고 정확한 모음 분리가 수행되었을 때, 제안된 화자 인식 알고리즘의 성능이 기존의VQ를 사용한 화자 인식 알고리즘의 성능보다 대체로 좋았으며, 입력 신호가 전화선을 통과한 신호이고 잡음이 있는 경우에도 유사한 결과를 얻을 수 있었다

  • PDF

PDA를 위한 내장형 화자인증기의 구현 (An Implementation of Embedded Speaker Identifier for PDA)

  • 김동주;노용완;김동규;정광우;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.286-289
    • /
    • 2005
  • 기존의 물리적 인증도구를 이용한 방식이나 패스워드 인증 방식은 분실, 도난, 해킹 등에 취약점을 가지고 있다. 따라서 지문, 서명, 홍채, 음성, 얼굴 등을 이용한 생체 인식기술을 보안 기술로 적용하려는 연구가 진행중이며 일부는 실용화도 되고 있다. 본 논문에서는 최근 널리 보급되어 있는 임베디드 시스템중의 하나인 PDA에 음성 기술을 이용한 내장형 화자 인증기를 구현하였다. 화자 인증기는 음성기술에서 널리 사용되고 있는 벡터 양자화 기술과 은닉 마코프 모델 기술을 사용하였으며, PDA의 하드웨어적인 제약 사항을 고려하여 사용되는 벡터 코드북을 두 가지로 다르게 하여 각각 구현하였다. 처음은 코드북을 화자 등록시에 발성음만을 이용하여 생성하고 화자인증 시에 이용하는 방법이며, 다른 하나는 대용량의 음성 데이터베이스를 이용하여 코드북을 사전에 생성하여 이를 화자 인증시에 이용하는 방법이다. 화자인증기의 성능평가는 5명의 화자가 10번씩 5개의 단어에 대하여 실험하여, 각각 화자종속 코득북을 이용한 인증기는 88.8%, 99.5%, 화자독립 코드북을 이용한 인증기는 85.6%, 95.5%의 인증율과 거절율을 보였으며, 93.5%와 90.0%의 평균 확률을 보였다.. 실험을 통하여 화자독립 인증기의 경우가 화자종속 인증기의 경우보다 낮은 인식율을 보였지만, 화자종속 인증기에서 나타나는 코드북 훈련시에 발생하는 메모리 문제를 해결 할 수 있었다.

  • PDF

고립단어 인식을 위한 빠른 전처리기의 구현 (Implementation of A Fast Preprocessor for Isolated Word Recognition)

  • 안영목
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.96-99
    • /
    • 1997
  • 본 논문에서는 고립단어 인식을 위한 빠른 전처리기를 소개한다. 제안하는 전처리기는 적은 계산량으로 후보 단어를 추출한다. 본 전처리기에서는 계산량을 줄이기 위해서 벡터 양자화 대신에 특징 정렬 알고리즘을 사용하였다. 이 전처리기의 유효성을 보이기 위해서 준연속 은닉 마코프 모델을 기반으로 한 음성 인식기와 벡터 양자화를 기반으로 한 전처리기에 대해서 화자독립 고립단어 인식에 대한 성능을 비교했다. 실험에 사용한 음성 데이터는 남성 호자 40명이 발성한 244 단어이며, 40명의 화자 중에서 20명은 전처리기의 훈련용으로 사용했으며 나머지 20명은 평가용으로 사용하였다. 실험의 결과, 음성 데이터에 대해서 90%의 감축을 조건에서 제안한 전처리기는 99.9%의 정확성을 보였다.

  • PDF

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구 (A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation)

  • 진세훈;강철호
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.410-415
    • /
    • 2005
  • 최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.

고차 통계를 이용한 잡음 환경에서의 화자식별 (Speaker Identification Using Higher-Order Statistics In Noisy Environment)

  • 신태영;김기성;권영욱;김형순
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.25-35
    • /
    • 1997
  • 음성 신호 처리에 널리사용되어 온 2차 통계에 의한 음성 분석 방법은 잡음 환경에서 성능이 크게 저하되는 단점을 지닌다. 이에 반하여 고차 통계 방법은 Gaussian 잡음 등을 억제하는 특성을 가지고 있어서 잡음 환경에 상대적으로 강인한 음성 특징 추출을 가능하게 한다. 본 논문에서는 고차 통계에 의한 음성 분석 방법을 이용하여 백색 및 유색 잡음 환경에서의 문맥 독립형(text-independent) 화자식별 시스템을 제안하고, 기존의 2차 통계에 의한 방식과 성능을 비교하였다. 본 논문에서의 화자식별 시스템은 벡터 양자화 방법에 기반을 두고 있으며, 고차 통계 방법에 의한 유성음/무성음 판별을 통해 non-Gaussian 특징을 가지면서도 화자 정보가 집중되어 있는 유성음 부분에 대해서만 음성 특징을 추출하여 인식에 사용하였다. 50명의 화자를 대상으로 한 화자식별 실험 결과, 고차 통계 방법이 2차 통계에 의한 방법보다 잡음 환경에서 상대적으로 우수한 인식 성능을 나타냄을 확인하였다.

  • PDF

음성을 이용한 화자 검증기 설계 및 구현 (Design and Implementation of Speaker Verification System Using Voice)

  • 지진구;윤성일
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.91-98
    • /
    • 2000
  • 본 논문은 음성을 이용하여 개인의 신원을 확인할 수 있는 화자 검증시스템을 설계, 구현하였다. 특징 파라메터로는 선형 예측 계수나 고속 후리에 변환보다 안정적이고 계산량이 적은 장점이 있는 필터뱅크(filterbank)를 사용했으며 추출된 파라메터들을 LBG 알고리즘을 이용하여 각 개인의 코드북을 작성하였다. 작성된 코드북에 의해 특징 파라메터를 벡터양자화하여 얻어진 코드열로 화자 검증의 참조 패턴 및 입력 패턴을 생성, 이들을 동적시간 정합법을 이용하여 유사도를 측정하여 얻어진 유사도와 임계값을 비교하여 음성 의뢰자(client speaker)인지, 사칭자(impostor)인지 결정하는 화자 검증기를 설계, 구현하였다.

  • PDF

사상멤버쉽함수에 의한 화자적응 단어인식 (Speaker-adaptive Word Recognition Using Mapped Membership Function)

  • 이기영;최갑석
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.40-52
    • /
    • 1992
  • 본논문에서는 불특정화자 음성인식의 문제점이 되는 개인차에 의한 변동을 흡수하기 위하여 사상멤버쉽함수에 의한 화자적응 단어인식 방법을 제안하였다. 이방법의 학습과정에서는 미지화자의 표준화자의 스펙트럼패턴 사이에서 작성된 사상코드북에 퍼지이론을 도입하여 사상멤버쉽함수를 작성하였으며, 인식과정에서는 미지화자의 음성패턴을 사상멤버쉽함수에 의해 표준화자의 음성패턴에 적응된 패턴으로 재구성하고 뉴럴-퍼지패턴매칭에 의해 단어를 인식하였다. 본 방법의 타당성을 평가하기 위하여, 28개의 DDD 지역명을 대상으로 실험한 결과, 종래의 사상코드북에 의한 벡터양자화 화자적응방법에서는 64.9[%], 퍼지벡터양자화 화자적응방법에서는 76.1[%]의 인식율을 얻었으나, 사상멤버쉽함수에 의한 화자적응방법에서는 95.4[%]의 향상된 인식율을 얻으므로써 인식성능의 우수함을 확인하였다. 또한 사상멤버쉽함수의 작성과정에서는 반복된 학습과정이 불피요하며, 기억용량과 계산량도 사상코드북에 의한 화자적응방법보다 각각 1/30, 1/500배 정도였다.

  • PDF