• 제목/요약/키워드: 화자확인 시스템

검색결과 122건 처리시간 0.027초

피치 변환을 사용한 실시간 음성 변환 시스템 (Real-time Voice Change System using Pitch Change)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.759-763
    • /
    • 2004
  • 본 논문에서는 음성을 본인이 아닌 사람의 음성으로 변환시키기 위하여 피치 변환 기법을 사용한 실시간 음성 변환 방법을 제안하였다 이러한 목적을 위하여 DFT((Discrete Fourier Transform)를 사용한 표본화율 변환 방법과 SOLA(Synchronized Overlap and Add) 방법을 사용한 시간축 변환 방법을 결합하여 피치를 변환시켰다 제안된 방법의 성능을 평가하기 위하여 음성 변환 실험을 수행하였다. 실험 결과에서 원 음성 신호는 원 화자의 신원을 알기가 어려운 음성 신호로 바뀌는 것을 알 수 있었다. 제안된 시스템은 시스템의 실시간으로 구현될 수 있는지 확인하기 위하여 TI TMS320C6711DSK 보드를 사용하여 구현되었다.

웨이블릿 페킷을 이용한 잡음에 손상된 음성신호 인식에 관한 연구 (Recognition of Corrupted Speech by Noise using Wavelet Packets)

  • 고광현;장성욱;양성일;권영헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.89-92
    • /
    • 1999
  • 인식기 훈련과정에서 발생하지 않았던 잡음이 인식과정에서 신호를 손상할 경우 인식률의 저하가 발생한다. 본 논문에서는 음성의 질을 떨어뜨리는 이러한 잡음을 Wavelet Packets을 이용하여 전처리함으로서 인식률을 향상시키는 방법을 제안한다. 인식기로는 Hidden Markov Model을 사용하였고, 시스템에 사용된 특징 파라미터로는 15차 Cepstrum을 사용하였다. 11 kHz로 샘플링된 숫자음에 Additive White Gaussian Noise를 첨가한 손상된 음성신호를 인식실험에 사용하였다. 화자독립으로 진행된 실험에서 잡음에 의해 손상된 SNR 20dB의 음성신호에 대하여 Wavelet Packets로 잡음을 제거한 후 복원된 음성신호 의 인식률은 약 $10\%$ 향상됨을 확인하였다.

  • PDF

화자 확인 시스템의 설계 제작 및 성능 분석 (Implementation and Performance Analysis of a Speaker Verification System)

  • 권석규;이병기
    • 전자공학회논문지B
    • /
    • 제30B권3호
    • /
    • pp.1-9
    • /
    • 1993
  • This paper discusses issues on the disign and implementation of real-time automatic speaker verification system, as well as the performance analysis of the implemented system. The system employs TI's TMS320C25 digital signal processor TMS320C25 and high speed SRAMs. The system is designed to be used stand-alone as well as via hand-shaking with IBM-PC. The speech parameters used for speaker verification are PARCOR and LPC-cepstrum coefficients, and the employed decision logics are those based on the generalized weighted distance comcept. The implemented system showed the performance of 5.3% error rate for the PARCOR coefficient, and 4.7% error rate for the LPG-cepstrum coefficient.

  • PDF

음향학적 파라미터의 변화 및 반복학습으로 작성한 언어모델에 대한 고찰 (Language Models constructed by Iterative Learning and Variation of the Acoustical Parameters)

  • 오세진;황철준;김범국;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.35-38
    • /
    • 2000
  • 본 연구에서는 연속음성인식 시스템의 성능 향상을 위한 기초 연구로서 시스템에 적합한 음향모델과 언어모델을 작성하고 항공편 예약 태스크를 대상으로 인식실험을 실시한 결과 그 유효성을 확인하였다. 이를 위하여 먼저 HMM의 출력확률분포의 mixture와 파라미터의 차원에 대한 정확한 분석을 통한 음향모델을 작성하였다. 또한 반복학습법으로 특정 태스크를 대상으로 N-gram 언어모델을 적용하여 인식 시스템에 적합한 모델을 작성하였다. 인식실험에 있어서는 3인의 화자가 발성한 200문장에 대해 파라미터 차원 및 mixture의 변화에 따른 음향모델과 반복학습에 의해 작성한 언어모델에 대해 multi-pass 탐색 알고리즘을 이용하였다. 그 결과, 25차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균 $81.0\%$의 인식률을 얻었으며, 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균 $90.2\%$의 인식률을 보여 인식률 제고를 위해서는 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복학습으로 작성한 언어모델을 이용한 경우가 매우 효과적임을 알 수 있었다.

  • PDF

음성인식모듈을 이용한 선박조타용 임베디드 시스템 개발 (Development of an Embedded System for Ship선s Steering Gear using Voice Recognition Module)

  • 박계각;서기열;홍태호
    • 한국지능시스템학회논문지
    • /
    • 제14권5호
    • /
    • pp.604-609
    • /
    • 2004
  • 최근 국내외적으로 소형선박의 효율적인 운용을 위해서 많은 자동화 기술의 발전을 이루었으나, 이에 따른 선박 운용은 더욱 복잡해져 각종 계기와 선박 기기를 조작해야하는 번거로움이 있다. 이러한 문제를 해결하기 위하여 휴먼 인터페이스 기술의 하나인 음성정보처리기술을 선박 운용시스템에 적용한 연구 사례가 있으나 아직까지 구체적인 시스템 구현이 미비하다고 할 수 있다. 따라서, 본 논문에서는 선박운항자의 및 부담경감 및 효율적인 선박운용을 위하여 음성인식 모델을 이용한 선박조타용 임베디드 시스템을 구현하고자 한다. 구체적인 연구방법으로는, 화자독립방식의 음성인식 모듈(VR-33R)을 이용하여 선박의 조타기를 제어할 수 있는 임베디드 시스템을 설계 및 구현하고, 실제 선박시스템을 축소한 모형선박의 조타시스템에 적용하여 그 효용성을 확인하고, 실용화를 위한 방안을 모색하고자 한다.

웨이블렛 변환을 이용한 음성에서의 감정 추출 및 인식 기법 (Emotion Recognition Method from Speech Signal Using the Wavelet Transform)

  • 고현주;이대종;박장환;전명근
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.150-155
    • /
    • 2004
  • 본 논문에서는 사람의 음성속에 내포된 6가지 기본 감정(기쁨, 슬픔, 화남, 놀람, 공포, 혐오)의 특징을 추출하고 인식하고자 한다. 제안한 감정인식 알고리즘은 웨이블렛 필터뱅크를 이용하여 각각의 감정별 코드북을 만들고, 인식단계에서 필터뱅크별 감정을 확인한 후 최종적으로 다중의사결정기법에 의해 감정을 인식하는 구조로 이루어져 있다. 이와 같은 웨이블렛 필터뱅크와 다중의사 결정기법에 기반을 둔 알고리즘의 유용성을 보이기 위해 실험에 사용된 음성은 20명의 화자로부터 6가지의 감정을 대상으로 각각 3번씩 발음한 감정음성을 녹음하여 총 360개의 데이터베이스로 구성하고 실험하였다. 이와 같이 제안한 알고리즘은 기존의 연구에 비해 5% 이상 향상된 인식률을 보였다.

Neural-HMM을 이용한 고립단어 인식 (Isolated-Word Recognition Using Neural Network and Hidden Markov Model)

  • 김연수;김창석
    • 한국통신학회논문지
    • /
    • 제17권11호
    • /
    • pp.1199-1205
    • /
    • 1992
  • 본 논문에서는 HMM(Hidden Markov Models)에서 문제점이 되는 개인차에의한 변동을 흡수하고, 적은 학습 데이타로서 인식률을 향상시키기 위하여 신경회로망을 이용한 NN-HMM(Neural Network Hidden Makov Models)에 의해 한국어 인식에 관하여 연구하였다. 이 방법은 HMM과 신경회로망의 출력을 각각 독립적인 인식값으로 가정하여 두 시스템의 확률곱으로 서로 보정되어 최대 인식확률의 음성모델을 인식하는 음성인식 시스템이다. 본 방법의 타당성을 평가하기 위하여 남, 여화자가 28개의 DDD 지역명을 발성한 음성데이타로 실험한 결과, 이산분포 HMM에 의한 방법에서는 91[%], 신경회로망에 의한 방법에서는 89[%], 제안된 방법에서는 95[%]의 향상된 인식률을 얻으므로써 인식성능의 우수함을 확인하였다.

  • PDF

α-특징 지도 스케일링을 이용한 원시파형 화자 인증 (α-feature map scaling for raw waveform speaker verification)

  • 정지원;심혜진;김주호;유하진
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.441-446
    • /
    • 2020
  • 본 논문은 심층 신경망을 이용한 화자 인증(Speaker Verification, SV) 시스템에서, 심층 신경망 내부에 존재하는 각 특징 지도(Feature Map)들의 분별력을 강화하기 위해 기존 특징 지도 스케일링(Feature Map Scaling, FMS) 기법을 확장한 α-FMS 기법을 제안한다. 기존의 FMS 기법은 특징 지도로부터 스케일 벡터를 구한 뒤, 이를 특징 지도에 더하거나 곱하거나 혹은 두 방식을 차례로 적용한다. 하지만 FMS 기법은 동일한 스케일 벡터를 덧셈과 곱셈 연산에 중복으로 사용할 뿐만 아니라, 스케일 벡터 자체도 sigmoid 비선형 활성 함수를 이용하여 계산되기 때문에 덧셈을 수행할 경우 그 값의 범위가 제한된다는 한계가 존재한다. 본 연구에서는 이러한 한계점을 극복하기 위해 별도의 α라는 학습 파라미터를 특징 지도에 원소 단위로 더한 뒤, 스케일 벡터를 곱하는 방식으로 α-FMS 기법을 설계하였다. 이 때, 제안한 α-FMS 기법은 스칼라 α를 학습하여 특징 지도의 모든 필터에 동일 값을 적용하는 방식과 벡터 α를 학습하여 특징 지도의 각 필터에 서로 다른 값을 적용하는 방식을 각각 적용 후 그 성능을 비교하였다. 두 방식의 α-FMS 모두 심층 심경망 내부의 잔차 연결이 적용된 각 블록 뒤에 적용하였다. 제안한 기법들의 유효성을 검증하기 위해 RawNet2 학습세트를 이용하여 학습시킨 뒤, VoxCeleb1 평가세트를 이용하여 성능을 평가한 결과, 각각 동일 오류율 2.47 %, 2.31 %를 확인하였다.

멀티캐스트 화상회의를 위한 3-D 음향시스템 설계 (Design of a Three Dimensional Audio System for Multicast Conferencing)

  • 김영오;고대식
    • 한국통신학회논문지
    • /
    • 제25권1B호
    • /
    • pp.71-76
    • /
    • 2000
  • 다수의 참여자가 존재하는 멀티미디어 화상회의 시스템에서, 참여자의 얼굴은 화상을 통하여 쉽게 구별할 수 있지만, 음성의 경우는 모든 참여자의 음성이 1차원적으로 처리되기 때문에 참여자의 구분이 어렵고 공간적인 실감을 느끼지 못한다. 본 논문에서는 HRTF(Head Realted Transfer Function: 머리전달 함수)와 거리감 재생 기법을 이용한 3-D 음향재현 시스템을 구현하고, 멀티캐스트 화상회의 시스템의 적절한 화자 배치를 연구분석하였다. 고도각과 수평각을 이용한 청취실험결과, 수평각이 고도각에 비하여 양호한 방향감 구별 인지도를 보였으며, 특히 4명의 참여자가 존재하는 화상회의 시스템의 경우 $10^{\circ}$, 90$^{\circ}$, 270$^{\circ}$, 350$^{\circ}$의 HRTF를 이용한 공간배치가 효율적인 것을 확인하였다. 끝으로 5인 이상의 참여자가 존재하는 경우와 현실감의 개선을 위하여 거리감이 이용될 수 있음을 제안한다.

  • PDF

K-L 전개를 이용한 연속 숫자음 인식에 관한 연구 (A Study on Connected Digits Recognition Using the K-L Expansion)

  • 김주곤;오세진;황철준;김범국;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권3호
    • /
    • pp.24-31
    • /
    • 2001
  • K-L 전개 방법은 특징의 차원을 효과적으로 압축하므로 인식 처리에서 계산량을 줄일 수 있는 방법으로 잘 알려져 있다. 본 논문에서는 한국어 인식 시스템의 인식 정도를 개선하기 위해, 음성의 특징 파라미터에 대하여 효과적으로 K-L전개를 적용하는 방법(K-L 계수)을 제안한다. 그리고 제안한 방법으로 얻어진 새로운 음성 특징 파라미터를 이용하여 화자 독립 연속 숫자음 인식실험을 수행하고, 기존의 Mel-cepstrum과 회귀계수의 인식 결과와 비 교, 분석하였다. 인식 실험 결과, 제안한 K-L 계수를 이용한 방법이 기존의 방법보다 높은 인식률을 얻어 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF