• 제목/요약/키워드: 화자 인식

검색결과 592건 처리시간 0.03초

이동전화를 위한 단어 인식기의 성능평가 (Evaluation of Word Recognition System For Mobile Telephone)

  • 김민정;황철준;정효열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.92-95
    • /
    • 1999
  • 본 논문에서는 음성에 의해 구동되는 이동천화를 구현하기 위한 기초 실험으로서, 이동전화상에서 많이 사용되는 단어 데이터를 직접 채록하여 단어 인식 실험을 수행하여 인식기의 성능을 평가하였다. 인식 실험에 사용된 단어 데이터베이스는 서울 화자 360명(남성화자 180명, 여성화자 180명), 41상도 화자 240명(남성화자 120명, 여성화자 120명)으로 구성된 600명의 발성을 이용하여 구성하였다. 발성 단어는 이동전화에 주로 사용되는 중요 기능과 제어 단어, 그리고 숫자음을 포함한 55개 단어로 구성되었으며, 각 화자가 3회씩 발성하였다. 데이터의 채집환경은 잡음이 다소 있는 사무실환경이며, 샘플링율은 8kHz였다. 인식의 기본단위는 48개의 유사음소단위(Phoneme Like Unit : PLU)를 사용하였으며, 정적 특징으로 멜켑스트럼과 동적 특징으로 회귀계수를 특징 파라미터로 사용하였다. 인식실험에서는 OPDP(One Pass Dynamic Programming)알고리즘을 사용하였다. 인식실험을 위한 모델은 각 지역에 따라 학습을 수행한 모델과, 지역에 상관없이 학습한 모델을 만들었으며, 기존의 16Htz의 초기 모델에 8kHz로 채집된 데이터를 적응화시키는 방법을 이용하여 학습을 수행하였다. 인식실험에 있어서는 각 지역별 모델과 지역에 관계없이 학습한 모델에 대하여, 각 지역별로, 그리고 지역에 관계없이 평가용 데이터로 인식실험을 수행하였다 인식실험 결과, $90\%$이상의 비교적 높은 인식률을 얻어 인식시스템 성능의 유효성을 확인할 수 있었다.

  • PDF

자동 전화번호 안내를 위한 한국어 대용량 음성 인식 시스템 (A Korean Large Vocabulary Speech Recognition System for Automatic Telephone Number Query Service)

  • 구준모;김형순;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • 제11권1E호
    • /
    • pp.86-97
    • /
    • 1992
  • 인식어휘수가 1160단어이며 자동 전화번호 안내에 사용될 수 있는 한국어 대용량 음성 인식 시 스템에 관하여 소개하였다. 이 시스템은 네 개의 부시스템으로 구성되어 있다. 첫 번째는 HMM 방식으 로 입력음성중의 단어를 인식하는 처리부에서 인식할 어휘를 제한하므로써 인식시간을 감축시켜 주는 인식 시간 감축부이다. 이 부시스템은 언어학적 정보뿐만 아니라 음향학적 정보도 이용한다. 마지막은 음성인식 시스템의 파라미터를 새로운 화자의 음성에 신속하게 적응시켜 주는 화자적응부이다. 마지막 부시스템은 VQ 적응방식과 스펙트럼 mapping 방식에 근거한 HMM 파라미터 적응방식을 이용한다. 또 한, 본 논문에서는 대용량 음성인식 시스템의 성능을 향상시키기 위한 최근의 연구결과들에 관하여 살 펴보았다. 이 연구들은 화자 독립 음성인식을 위한 음향학적 처리부와 인식 시간 감축부의 성능향상에 초점이 맞추어져 있다. 마지막으로 화자적응을 위한 새로운 연구결과라도 기술하였다.

  • PDF

남녀성별 분류를 위한 화자종속 음성인식 알고리즘 (Speaker-dependent Speech Recognition Algorithm for Male and Female Classification)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제17권4호
    • /
    • pp.775-780
    • /
    • 2013
  • 본 논문에서는 백색잡음 및 자동차잡음 환경 하에서 남녀 성별인식이 가능한 신경회로망에 의한 화자종속 음성인식 알고리즘을 제안한다. 본 논문에서 제안한 음성인식 알고리즘은 남성화자 및 여성화자를 인식하기 위하여 LPC 켑스트럼 계수를 사용하여 신경회로망에 의하여 학습된다. 본 실험에서는 백색잡음 및 자동차잡음에 대하여 총 6개의 신경회로망의 네크워크에 대한 인식결과를 나타낸다. 인식실험의 결과로부터 백색잡음에 대해서는 최대 96% 이상의 인식률, 자동차잡음에 대해서는 최대 88% 이상의 인식률을 구하였다. 마지막으로 본 실험에서는 제안하는 음성인식 알고리즘이 배경잡음 환경 하에서의 기존의 음성인식 알고리즘과 비교하여 본 방식의 알고리즘이 유효하다는 것을 실험으로 확인한다.

앙상블 기법을 이용한 잡음 환경에서의 화자인식 방법에 관한 연구 (A Study on Noise-Robust Speaker Recognition Methods Based on Ensemble of Decision Scores)

  • 양준영;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.457-459
    • /
    • 2018
  • 화자인식 기술은 주어진 임의의 두 발화로부터 발화자의 일치 여부를 판단하여 등록된 화자의 목록으로부터 임의로 입력된 발화의 발화자를 식별하는 기술이다. 그러나, 배경잡음이나 반향이 존재하는 경우에는 음성신호가 왜곡되어 화자인식 성능이 저하될 수 있기 때문에 별도의 음성신호 전처리 알고리즘을 함께 사용할 수 있다. 본 논문에서는 배경잡음이 존재하는 환경에서 다수의 마이크로폰을 통해 수집한 음성신호에 대해 화자인식을 수행하는 방법으로써 parametric multi-channel Wiener filter (PMWF)를 이용한 화자일치 점수 앙상블 기법을 제안한다. 입력신호의 신호대잡음비를 기준으로 점수 결합 시 사용되는 결합계수를 정하고, Wiener filter 로 잡음을 제거하여 얻은 점수와 minimum variance distortionless response (MVDR) 빔포머를 통해 잡음을 제거하여 얻은 정수를 가중결합하는 방식으로 동일오류율을 측정한 결과, 각 전처리 알고리즘을 독립적으로 사용하여 점수를 계산한 경우보다 우수한 성능을 보임을 확인할 수 있었다.

화자인식 알고리즘을 이용한 보안 시스템 구축 (An Implementation of Security System Using Speaker Recognition Algorithm)

  • 신유식;박기영;김종교
    • 전자공학회논문지T
    • /
    • 제36T권4호
    • /
    • pp.17-23
    • /
    • 1999
  • 본 연구는 문맥 독립형 화자 인식 알고리즘을 이용하여 보안시스템을 소프트웨어와 하드웨어로 구성한 논문이다. 화자인식을 이용한 보안시스템은 윈도우상에서 사운드카드를 이용하여 음성을 입력받고, 성도 모델링을 이용한 음성 파라미터를 추출하였으며, k-means 클러스터링 알고리즘을 기반으로 하여 화자를 모델링하였다. 등록된 화자에 대한 인식된 결과는 PIC16F84 마이크로 프로세서를 이용하여 자물쇠를 개${\cdot}$폐하도록 구성하였다. OFF-LINE의 실험은 TIMIT데이터를 이용하였으며, 5명의 화자에 대하여 ON-LINE으로 인식한 결과 학습시킨 데이터에 대해서는 100%의 인식률을 얻었으며 학습을 시키지 않은 데이터에 대해서는 99%의 인식률을 얻었다. 그리고 사용자 거부율 1%, 사칭자 허용률 0%, 검증평균오류는 0.5%를 보였다.

  • PDF

MLLR 화자적응 기법을 이용한 새로운 화자확인 디코딩 알고리듬 (A Noble Decoding Algorithm Using MLLR Adaptation for Speaker Verification)

  • 김강열;김지운;정재호
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.190-198
    • /
    • 2002
  • 화자확인에서 사용되는 디코딩 방법에는 음성인식에서 주로 사용되는 비터비 알고리듬을 사용하여 왔다. 그러나 화자확인에서는 화자의 특성을 최대한 발휘하여 같은 음소라도 화자마다 다르게 인식해야 하는 어려움이 있다. 본 논문에서는 기존 화자확인 디코딩에서 사용하는 비터비 알고리듬을 대신하는 새로운 알고리듬을 제안하였다. 제안된 알고리듬은 음성인식에서 사용되고 있는화자 적응 알고리듬을 화자의 특성에 따라 모델 파라미터로 변환하는 것을 응용한 방법이다. 본 논문에서는 여러 적응 알고리듬중 MLLR(Maximum Likelihood Linear Regression)과 MAP (Maximum A-Posterior) 적응 알고리듬을 사용하였고 제안된 알고리듬이 기존의 비터비 알고리듬을 사용하였을 때보다 평균 30%의 EER (Equal Error Rate) 향상을 이루었다.

VTN을 이용한 화자 정규화에 관한 연구 (A Study on Speaker Normalization using VTN)

  • 손창희;손종목;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.499-502
    • /
    • 2001
  • 본 연구에서는 화자에 따라 서로 다른 성도의 길이에 의해 발생하는 음성인식 시스템의 성능 저하를 줄이기 위하여, VTN(Vocal Tract Normalization)을 음성인식 시스템에 적용하고, 주소 인식 실험을 통하여 인식 성능을 평가하였다. 또, VTN을 CMN과 동시에 적용하여 인식 실험을 하였다. 실험에서는 화자간 성도길이의 차이를 반영하기 위하여 13개의 Warping 계수에 대해 필터 뱅크를 이용한 선형 Warping 방법을 적용하였다. 실험결과, Baseline 인식 시스템에 비하여 VTN을 적용하면, WER(Word Error Rate)이 1.24% 감소하였고, CMN과 VTN을 동시에 적용한 실험에서는 Baseline 인식 시스템과 비교하여 WER이 0.33% 감소 하였지만 VTN을 적용한 실험결과와 비교하면 오히려 0.91% 증가하였다.

  • PDF

성량제한을 적용한 어구독립 화자증명 성능향상 방안 (On a Method Which Improves Text Independent Speaker Verification Performance through Limiting Speech Production Loudness)

  • 이태승;최호진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.457-459
    • /
    • 2001
  • 지속음(continuants) 단위로 화자간 차이를 식별하는 어구독립 화자증명(text-independent speaker verification) 방식에서 입력음성의 성량을 제한하여 보다 높은 인식률을 달성할 수 있는 화자인식 방법을 제안한다.

  • PDF

신경회로망을 이용한 연속음성중 키워드(keyword)인식에 관한 연구

  • 최관선;한민홍
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 1993년도 춘계공동학술대회 발표논문 및 초록집; 계명대학교, 대구; 30 Apr.-1 May 1993
    • /
    • pp.275-281
    • /
    • 1993
  • 본 발표에서는 신경회로망을 이용하여 연속음성중에서 키워드를 인식하는 방법을 설명한다. 연속음성에서 파형소편 및 음절을 식별하는 휴리스틱 알고리즘을 개발하였고, 연속음성을 음절단위로 파형소편 스펙트럼분석(선형예측법)으로 특성치를 추출하였다. 음절의 특성치는 코호넨 신경회로망을 통하여 학습을 시켰으며, 연속음성중 키워드인식은 먼저 음절을 인식하여 단어를 찾고, 인식된 단어가 키워드와 일치하는가를 확인한다. 본 연구의 의의는 파형소편 및 음절식별 알고리즘을 통하여, 크기불변성(Scaling invariance), 시간불변성(Time warping 및 Time-shift invariance), 중복성제거의 문제점을 해결하였고, 신경회로망의 학습을 통하여 화자독립적인 연속음성인식시스템 구축의 기반을 확립한데 있다. 본 음성인식모델은 학교구내 전화번호 안내시스템으로 활용단계에 있으며 전화번호뿐만아니라 주소안내시스템으로도 활용될 예정이다. 또한 자동차 운전보조시스템 및 주행안내시스템의 음성명령에 응용될 수 있는데, 예로 음성명령은 "핸들 좌로 20도", "시청까지 주행", "시청 지도안내"등이 될 수 있다. 현재 자동차 운전보조시스템은 컴퓨터 화면상 모의동작시스템으로 운영되고 있다. 본 음성인식모델은 화자종속시 90%이상, 화자독립시 70%의 인식결과를 보였다.시 90%이상, 화자독립시 70%의 인식결과를 보였다.

  • PDF

화자인식을 위한 음성 요소들의 성능분석 및 새로운 판단 논리 (Performance Analysis of Speech Parameters and a New Decision Logic for Speaker Recognition)

  • 이혁재;이병기
    • 대한전자공학회논문지
    • /
    • 제26권7호
    • /
    • pp.146-156
    • /
    • 1989
  • 본 논문에서는 화자인식 시스템의 인식율 향상을 도모하기 위하여 요소의 선택 및 판단 논리의 문제를 고찰하였다. 또한 화자인식 실험을 수행하는 과정에서 기준패턴의 작성이 인식율에 어떠한 영향을 미치는 가를 아울러 검토해 보았다. LPC, PARCOR 계수, LPC-cepstrum 계수등을 인식 요소로 사용하여 화자확인 오차율을 측정한 결과, 기준 패턴의 작성방법에 관계 없이 LPC-cepstrum계수의 성능이 LPC나 PARCOR 계수의 성능에 비해 우수한 것으로 나타났다. 또 화자인식율을 향상시키기 위하여 일반화된 거리 개념을 도입한 새로운 판단 논리를 제안하였다. 제안된 판단 논리는 기준화자 및 외부화자의 통계적 성질을 동시에 고려하여 각 요소들에 서로 다른 가중치를 둔다는 점이 기존의 방법들에 비해 다르다. 화자적인 실험결과 제안된 판단 논리를 적용한 경우가 기존의 방법들에 비해서 인식율이 향상된 것을 관찰할 수 있었다.

  • PDF