• 제목/요약/키워드: 화자확인 시스템

검색결과 122건 처리시간 0.021초

음성 인식을 위한 후처리에 관한 연구 (A Study on the Post-processing for Speech Recognition)

  • 김원구
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.421-424
    • /
    • 2008
  • 음성 다이얼링 시스템은 화자의 음성을 인식하여 원하는 전화번호로 자동으로 전화를 걸어주는 시스템으로 주로 이동 전화나 휴대형 통신 장비에 유용하게 사용된다. 개인 음성 다이얼링 시스템의 경우, 다이얼링에 사용되는 모든 구문은 사용자가 선택하고 사용자의 음성을 사용하여 학습되어 음성 인식을 위한 HMM을 생성한다. 이러한 시스템은 화자독립 시스템보다 매우 적은 메모리 공간과 계산량으로 구현이 가능하다. 그러나 이러한 시스템은 학습시 각 단어랑 2-3개의 음성만을 사용하므로 음성인식 시스템의 성능을 개선하기 위한 각 상태에서의 상태지속분포을 추정하기는 매우 어렵다. 따라서 본 논문에서는 성능개선을 위한 후처리기를 제안하였다. 전화선을 통하여 구성된 데이터베이스를 이용한 실험에서 제안된 후처리기가 인식 시스템의 성능을 향상시킴을 확인하였다.

  • PDF

화자 종속 한국어 숫자음 음성 인식 다이얼링 시스템 (Voice Dialing System using Speaker Dependent Recognition for Korean Digit Speech)

  • 박기영;신유식;김종교
    • 전자공학회논문지T
    • /
    • 제36T권2호
    • /
    • pp.56-62
    • /
    • 1999
  • 본 논문은 음성으로 다이얼링하는 시스템으로써, 화자종속 한국어 숫자음을 인식을 하기 위한 하드웨어를 구성한 논문이다. 음성 다이얼링 시스템은 충격계수를 이용하여 한국어 숫자음을 인식하도록 하였다. 여기서 제안한 음성 다이얼링 시스템은 적분기, 레벨분별회로 그리고 인식프로그램으로 구성하였다. 아날로그 음성 신호는 차단 주파수 4.5(kHz)를 지닌 저주파 필터를 통해 음성 다이얼링 시스템에 입력하였다. 화자 종속 한국어 숫자음 인식은 하드웨어 시스템에 의해 확실하게 인식 되었음을 확인하였다. 실험결과는 한국어 숫자음 음성인식에 대해 평균 64(%)의 인식율이 나왔고, 숫자음 /사/, /오/, /육/, /칠/, /구/, /영/에 대해서는 100(%)의 인식율을 나타내었다.

  • PDF

화자인식을 위한 음성 요소들의 성능분석 및 새로운 판단 논리 (Performance Analysis of Speech Parameters and a New Decision Logic for Speaker Recognition)

  • 이혁재;이병기
    • 대한전자공학회논문지
    • /
    • 제26권7호
    • /
    • pp.146-156
    • /
    • 1989
  • 본 논문에서는 화자인식 시스템의 인식율 향상을 도모하기 위하여 요소의 선택 및 판단 논리의 문제를 고찰하였다. 또한 화자인식 실험을 수행하는 과정에서 기준패턴의 작성이 인식율에 어떠한 영향을 미치는 가를 아울러 검토해 보았다. LPC, PARCOR 계수, LPC-cepstrum 계수등을 인식 요소로 사용하여 화자확인 오차율을 측정한 결과, 기준 패턴의 작성방법에 관계 없이 LPC-cepstrum계수의 성능이 LPC나 PARCOR 계수의 성능에 비해 우수한 것으로 나타났다. 또 화자인식율을 향상시키기 위하여 일반화된 거리 개념을 도입한 새로운 판단 논리를 제안하였다. 제안된 판단 논리는 기준화자 및 외부화자의 통계적 성질을 동시에 고려하여 각 요소들에 서로 다른 가중치를 둔다는 점이 기존의 방법들에 비해 다르다. 화자적인 실험결과 제안된 판단 논리를 적용한 경우가 기존의 방법들에 비해서 인식율이 향상된 것을 관찰할 수 있었다.

  • PDF

음성인식 기반 컨텐츠 네비게이션 시스템 (Contents Navigation System using Speech Recognition)

  • 김기백;최종호
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.99-102
    • /
    • 2007
  • 최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.

  • PDF

한국어 음성 인식 시스템을 위한 MEL-LPC 분석 방법과 LPC-MEL 분석 방법의 비교 (Comparison of MEL-LPC and LPC-MEL Analysis Method for the Korean Speech Recognition Systems.)

  • 김주곤;김범국;정호열;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.833-836
    • /
    • 2001
  • 본 논문에서는 한국어 음성인식 시스템의 성능 향상을 위해 청각 주파수 분해능을 가진 MEL-LPC Cepstrum을 음소단위의 HMM(Hidden Markov Model)을 기반으로 하는 인식 시스템에 적용하여 그 결과를 비교 검토하였다. 선형예측(LP) 분석 후에 후처리로서 주파수를 왜곡시킨 LPC-MEL 분석이 계산량이 적고 효과적이라 일반적으로 많이 사용되고 있으나 주파수 분해능은 많이 개선되지 않는다. 따라서 본 논문에서는 주파수 분해능을 개선하기 위해, 원 음성신호로부터 직접적으로 멜주파수로 왜곡시킨 후 선형 예측 분석을 수행하는 MEL-LPC 분석방법을 이용한 음소기반의 화자 독립 음성인식 시스템을 구성하여 기존의 LPC-MEL 분석방법과 비교실험을 통하여 MEL-LPC 분석방법의 유효성을 검토하였다. 실험에 사용한 음성 데이터베이스는 음소 및 단어 인식실험에서는 ETRI 445단어 DB, 연속 숫자음인식 실험에서는 KLE 4연속 숫자음 DB를 사용하였다. 화자 독립 음소인식 실험의 경우, 묵음을 제외한 47개의 유사 음소에 대하여 4상태 3출력의 Left-to-Right 모델을이용하였다. 단어 및 연속 숫자음 인식 실험의 경우, 유한상태 네트워크에 의한 OPDP법을 이용하였다. 화자 독립 음소, 단어 및 4연속 숫자음 인식 실험결과, 기존의 LPC-MEL Cepstrum을 사용한 경우보다 MEL-LPC Cepstum을 사용한 경우가 더 높은 인식률을 나타내어 한국어 음성인식 시스템에서 MEL-LPC 분석방법의 유효성을 확인할 수 있었다.

  • PDF

짧은 음성을 대상으로 하는 화자 확인을 위한 심층 신경망 (Deep neural networks for speaker verification with short speech utterances)

  • 양일호;허희수;윤성현;유하진
    • 한국음향학회지
    • /
    • 제35권6호
    • /
    • pp.501-509
    • /
    • 2016
  • 본 논문에서는 짧은 테스트 발성에 대한 화자 확인 성능을 개선하는 방법을 제안한다. 테스트 발성의 길이가 짧을 경우 i-벡터/확률적 선형판별분석 기반 화자 확인 시스템의 성능이 하락한다. 제안한 방법은 짧은 발성으로부터 추출한 특징 벡터를 심층 신경망으로 변환하여 발성 길이에 따른 변이를 보상한다. 이 때, 학습시의 출력 레이블에 따라 세 종류의 심층 신경망 이용 방법을 제안한다. 각 신경망은 입력 받은 짧은 발성 특징에 대한 출력 결과와 원래의 긴 발성으로부터 추출한 특징과의 차이를 줄이도록 학습한다. NIST (National Institute of Standards Technology, 미국) 2008 SRE(Speaker Recognition Evaluation) 코퍼스의 short 2-10 s 조건 하에서 제안한 방법의 성능을 평가한다. 실험 결과 부류 내 분산 정규화 및 선형 판별 분석을 이용하는 기존 방법에 비해 최소 검출 비용이 감소하는 것을 확인하였다. 또한 짧은 발성 분산 정규화 기반 방법과도 성능을 비교하였다.

고차 통계를 이용한 잡음 환경에서의 화자식별 (Speaker Identification Using Higher-Order Statistics In Noisy Environment)

  • 신태영;김기성;권영욱;김형순
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.25-35
    • /
    • 1997
  • 음성 신호 처리에 널리사용되어 온 2차 통계에 의한 음성 분석 방법은 잡음 환경에서 성능이 크게 저하되는 단점을 지닌다. 이에 반하여 고차 통계 방법은 Gaussian 잡음 등을 억제하는 특성을 가지고 있어서 잡음 환경에 상대적으로 강인한 음성 특징 추출을 가능하게 한다. 본 논문에서는 고차 통계에 의한 음성 분석 방법을 이용하여 백색 및 유색 잡음 환경에서의 문맥 독립형(text-independent) 화자식별 시스템을 제안하고, 기존의 2차 통계에 의한 방식과 성능을 비교하였다. 본 논문에서의 화자식별 시스템은 벡터 양자화 방법에 기반을 두고 있으며, 고차 통계 방법에 의한 유성음/무성음 판별을 통해 non-Gaussian 특징을 가지면서도 화자 정보가 집중되어 있는 유성음 부분에 대해서만 음성 특징을 추출하여 인식에 사용하였다. 50명의 화자를 대상으로 한 화자식별 실험 결과, 고차 통계 방법이 2차 통계에 의한 방법보다 잡음 환경에서 상대적으로 우수한 인식 성능을 나타냄을 확인하였다.

  • PDF

유무선 전화를 통한 화자인식 알고리즘에 관한 연구 (A Study on Speaker Recognition Algorithm Through Wire/Wireless Telephone)

  • 김정호;정희석;강철호;김선희
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.182-187
    • /
    • 2003
  • 본 논문에서는 방사 기저함수 (RBF: Radial Basis Function) 신경망을 이용하여 특징 파라미터를 사상시켜 화자인식의 성능을 개선하기 위한 알고리즘을 제안하였다. 동일한 화자의 유무선 전화의 백터 영역이 서로 다르므로 제안한 화자확인시스템은 유무선 학습모델을 생성하기 위해서 먼저 음성인식을 통해 유무선 채널을 판별하고, 학습하지 않은 채널의 모델은 방사 기저함수 신경망을 이용하여 학습된 모델의 특징 벡터 (LPC-켑스트럼)를 사상하는 방법이다. 모의 실험 결과 기존의 켑스트럼 평균 차감법을 사용할 때보다 제안한 알고리즘을 적용했을 때의 인식율이 약 0.6%∼10.5%의 성능 향상을 보여주었다.

상태레벨 공유를 이용한 HM-Net 적응화 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of HM-Net Adaptation System Using the State Level Sharing)

  • 오세진;김광동;노덕규;황철준;김범국;김광수;성우창;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.397-400
    • /
    • 2003
  • 본 연구에서는 KM-Net(Hidden Markov Network)을 다양한 태스크에의 적용과 화자의 특성을 효과적으로 나타내기 위해 HM-Net 음성인식 시스템에 MLLR(Maximum Likelihood Linear Regression) 적응방법을 도입하였으며, HM-Net 학습 알고리즘을 개량하여 회귀클래스 생성방법을 제안한다. 제안방법은 PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) 알고리즘의 문맥방향 상태분할에 의한 상태레벨 공유를 이용한 방법으로 새로운 화자로부터 문맥정보와 적응화 데이터의 발성 양에 의존하여 결정된 많은 적응 파라미터들을(평균, 분산) 자유롭게 제어할 수 있게 된다. 제안방법의 유효성을 확인하기 위해 국어공학센터(KLE) 452 음성 데이터와 항공편 예약관련 연속음성을 대상으로 인식실험을 수행한 결과, 전체적으로 음소인식의 경우 평균 34-37%, 단어인식의 경우 평균 9%, 연속음성인식의 경우 평균 7-8%의 인식성능 향상을 각각 보였다. 또한 적응화 데이터의 양에 따른 인식성능 비교에서, 제안방법을 적용한 인식 시스템이 적응 데이터의 양이 적은 경우에도 향상된 인식률을 보였으며. 잡음을 부가한 음성에 대한 적응화 실험에서도 향상된 인식성능을 보여 MLLR 적응방법의 특성을 만족하였다. 따라서 MLLR 적응방법을 도입한 HM-Net 음성인식 시스템에 제안한 회귀클래스 생성방법이 유효함을 확인한 수 있었다.

  • PDF

멀티 VQ 코드북을 이용한 화자확인 시스템의 성능개선 (The Improvement Performance of Speaker Verification System Through the Multi-Vector Quantization Codebook Structure)

  • 이재희;이상철;정연해
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 학술대회 논문집 전문대학교육위원
    • /
    • pp.176-179
    • /
    • 2005
  • In this paper, we propose the new method that separate the existing common VQ code book into two parts, one is the common VQ code book which is the half of existing common VQ code book, another is the personal speaker VQ code book which accommodate the personal speaker characteristic, variation to improve the performance of the text-dependent speaker verification system using discrete HMM. We apply the propose method m this paper to the text-dependent speaker verification system using discrete HMM and have the improvement performance of about 0.24% compared to existing method

  • PDF