• 제목/요약/키워드: 음성적 유사도

검색결과 306건 처리시간 0.029초

연속분포 HMM을 이용한 음성인식 시스템에 관한 연구 (A Study on Speech Recognition System Using Continuous HMM)

  • 김상덕;이극
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.221-225
    • /
    • 1998
  • 본 논문에서는 연속분포(Continuous) HMM(hidden Markov model)을 기반으로 하여 한국어 고립단어인식 시스템을 설계, 구현하였다. 시스템의 학습과 평가를 위해 자동차 항법용 음성 명령어 도메인에서 추출한 10개의 고립단어를 대상으로 음성 데이터 베이스를 구축하였다. 음성 특징 파라미터로는 MFCCs(Mel Frequency Cepstral Coefficients)와 차분(delta) MFCC 그리고 에너지(energy)를 사용하였다. 학습 데이터로부터 추출한 18개의 유사 음소(phoneme-like unit : PLU)를 인식단위로 HMM 모델을 만들었고 조음 결합 현상(채-articulation)을 모델링 하기 위해 트라이폰(triphone) 모델로 확장하였다. 인식기 평가는 학습에 참여한 음성 데이터와 학습에 참여하지 않은 화자가 발성한 음성 데이터를 이용해 수행하였으며 평균적으로 97.5%의 인식성능을 얻었다.

  • PDF

실시간 음성인식 및 립싱크 구현에 관한 연구 (A Study on the Implementation of Realtime Phonetic Recognition and LIP-synchronization)

  • 이형호;최두일;조우연
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2000년도 추계학술대회 논문집 학회본부 D
    • /
    • pp.812-814
    • /
    • 2000
  • 본 논문에서는 실시간 음성 인식에 의한 립싱크(Lip-synchronization) 애니메이션 제공 방법에 관한 것으로서, 소정의 음성정보를 인식하여 이 음성 정보에 부합되도록 애니메이션의 입모양을 변화시켜 음성정보를 시각적으로 전달하도록 하는 립싱크 방법에 대한 연구이다. 인간의 실제 발음 모습에 보다 유사한 립싱크와 생동감 있는 캐릭터의 얼굴 형태를 실시간으로 표현할 수 있도록 마이크 등의 입력을 받고 신경망을 이용하여 실시간으로 음성을 인식하고 인식된 결과에 따라 2차원 애니메이션을 모핑 하도록 모델을 상고 있다.

  • PDF

한국어 음성 데이타베이스의 저장 구조와 검색 기법 (The storage structure and retrieval mechanism for korean speech database)

  • 송군섭;박영배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.321-330
    • /
    • 1991
  • 기존의 데이타베이스에 음성 데이타를 저장하여 음성 데이타 베이스를 구축하고자 할 경우, 음성 데이타의 특성이 가변장(variable length)이며, 튜플(음소 단위)의 길이가 매우 긴 패턴 데이타이므로 기존의 데이타베이스 시스템에서는 지원할 수 없다. 또, 현재의 음성 인식 시스템에서는 패턴 데이타를 순차적인 검색 방법으로 검색하고 있어 빠른 검색 방법이 요구된다. 본 논문에서는 음성 데이타를 음소 단위로 인식하기 위해 음소 패턴 데이타를 저장하고, 유사한 특성을 갖는 부류와 음소 길이에 의한 분류를 혼합한 방법을 이용하여 빠른 시간에 검색을 할 수 있게 하기 위한 저장 구조와 검색 알고리즘을 제시한다.

  • PDF

음성 다이얼링을 위한 화자적응 (Speaker Adaptation for Voice Dialing)

  • 김원구
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.455-461
    • /
    • 2002
  • 본 논문에서는 화자독립 음소 모델을 사용하는 개인용 음성 다이얼링 시스템의 성능 개선 방법을 제안하였다. 화자독립 음소모델을 사용한 음성 다이얼링 방법은 각 화자가 발성한 단어와 연관된 음소 열만을 저장하므로 저장 공간은 크게 줄일 수 있으나 화자독립 모델을 음소 인식에 사용할 때 발생하는 오차로 인하여 화자종속 모델을 사용하는 방법보다는 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 학습과정에서 학습 데이터의 음소 열과 화자 적응을 위한 변환 벡터를 동시에 추정한 후 음소 열과 함께 저장하고, 인식 시에 화자독립 음소 모델을 각 화자의 변환벡터를 사용하여 변환한 후 인식을 수행하는 방법을 제안하였다. 여기서 화자적응을 위한 변환 벡터는 확률적 매칭 (stochastic matching)을 위한 최고 유사도 (maximum likelihood) 방법을 이용하여 구하였으며 음소 열과 함께 반복적으로 추정되었다. 인식 실험에서 제안된 방법은 음소 열만을 사용하는 기존 인식 시스템보다 우수한 성능을 나타내었다.

가전제품의 음성 인터페이스 디자인 적용에 대한 연구 (A Study on Voice User Interface for Domestic Appliance)

  • 홍지영;전명훈;한광희;채행석
    • 감성과학
    • /
    • 제10권1호
    • /
    • pp.55-68
    • /
    • 2007
  • 음성 사용자 인터페이스(Voice User Interface, 이하 VUI)는 음성을 매개로 일어나는 인간과 기계 간 인터페이스를 뜻한다. 음성 인식율의 향상과 음성 재생 장치의 발달에 힘입어 최근 들어 휴대폰과 자동차 네비게이션 시스템에 주로 적용되고 있다. 최근 이러한 경향은 A/V 시스템 등 가전제품(Domestic Appliance)에도 확대되고 있는데 본 연구에서는 사용자와 필수적이고 빈번한 상호작용이 일어나는 백색 가전을 대상으로 사용자를 만족시키는 음성 인터페이스의 주요 속성 중 음성 생성(Speech Generation)과 관련된 음성 표현을 중점적으로 연구하였다. 연구방법으로 먼저 주부들이 느끼는 가전에서의 문제점과 VUI로서 해결가능성에 대하여 심층집단면접(Focus Group Interviwe, F.G.I.)를 통한 사전조사에서 주요 이슈를 도출하고, 대표적 백색 가전인 에어컨, 세탁기, 김치냉장고, 냉장고, 식기세척기, 오븐레인지 등 6개 제품에 대하여 음성의 물리적 특성, 내용적 특성, 기능에 따른 배치에 대하여 조건에 따라 다양한 프로토타입을 제작한 후 실제 환경과 유사한 실험실 상황에서 사용자의 선호도, 적합도 및 수행을 측정하였다. 연구 결과 각 이슈에 따라 가전제품에 적합한 VUI 가이드라인 특성을 찾아내었다.

  • PDF

강건한 한국어 연속음성인식을 위한 유사음소단일에 대한 연구 (A Study on PLU (Phone-Likely Unit) for Korean Continuous Speech Recognition)

  • 서준배;김주곤;김민정;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.37-40
    • /
    • 2004
  • 본 논문은 한국어 연속음성인식에 효율적인 문맥의존 음향모델 수에 대한 연구로써 유사음소단위 수에 따른 인식 성능을 비교, 평가하였다. 기존에 본연구실에서는 48음소를 기본인식단위로 이용하고 있으나 연속음성인식의 경우 문맥종속모델이 사용되고 문맥종속모델은 변이 음을 고려한 음소가 이미 포함되어 있어 이를 고려하면 기본 음소를 줄이므로서 계산량의 감소와 인식 성능 향상을 기대할 수 있을 것으로 생각된다. 따라서 , 본 논문에서는 기존의 48음소와 이를 39음소로 줄여 인식실험에 사용하여 그 성능을 비교 평가하기로 하였다. 이를 위하여 다양한 태스크의 데이터베이스를 통합하여 부족한 문맥요소들을 확장한 후 인식실험을 수행하였다. 실험결과 변이음의 개수를 줄이면서도 인식 성능저하가 없음을 확인할 수 있었으며 연속 음성의 경우 39음소를 이용한 경우가 $10\%$정도의 향상된 인식성능을 얻을 수 있음을 확인할 수 있었다.

  • PDF

한국의 지하철역명을 위한 음소 기반의 음성인식에 관한 연구 (A Study on Speech Recognition based on Phoneme for Korean Subway Station Names)

  • 김범승;김순협
    • 한국철도학회논문집
    • /
    • 제14권3호
    • /
    • pp.228-233
    • /
    • 2011
  • 본 논문에서는 한국의 지하철역명을 위하여 음운론적 특성을 반영한 음소 기반의 음성인식 구현에 관한 방법을 제시하였다. 한국의 지하철역명의 음소 기반의 음성인식을 위하여 사용되는 최적의 유사음소 단위(PLU: Phoneme-Likely Unit)를 선정하기 위하여 네 가지의 Case 별로 PLU set과 음운 현상을 고려한 발음사전을 구성하여 인식률을 평가하였다. 적용된 유사음소 단위의 경우 초성과 종성 자음의 인식 단위 구분 및 음운 현상을 반영한 경우 트라이폰 모델에서 최적의 인식률(97.74%)을 보임을 알 수 있었다.

자기유사성을 고려한 VoIP 트래픽 생성 시뮬레이션 방법 의 연구 (Study of the Simulation of VoIP Traffic Generation with Considering Self-Similiarity)

  • 김윤배;이계신;김재범
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 2004년도 춘계학술대회 논문집
    • /
    • pp.25-29
    • /
    • 2004
  • VoIP는 인터넷 프로토콜(IP)를 이용하여 음성을 데이터 packet처럼 전송하는 것을 의미한다. 최근 VoIP 기술의 도입으로 기존 망 성능 관리에 대한 관심이 높아지고 있다. 보다 원활한 기술 구현을 위해서는 VoIP 트래픽에 대한 체계적인 분석과 위험성 검증을 할 수 있는 도구가 필요하다. 또한 기존의 트래픽 시뮬레이션 기법에서 실제 망에서의 자기유사성을 적용한 사례가 적다는 것 또한 본 연구가 행하여진 동기이다. 본 연구에서는 자기유사성을 반영하여 소량의 샘플을 갖고 전체 VoIP 망 트래픽을 생성할 수 있는 방법론을 개발하고자 시도하였다.

  • PDF

시간축 변환을 이용한 음성 인식기의 성능 향상에 관한 연구 (Study on the Improvement of Speech Recognizer by Using Time Scale Modification)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.462-472
    • /
    • 2004
  • 본 논문에서는 자동 음성 인식기의 성능 저하를 일으키는 요인으로서 발성 속도의 변동에 따를 성능 저하를 보상하기 위한 기법을 제안하였다. 새로운 기법의 제안에 앞서서. 먼저 발성 속도의 변화에 따른 기존의 은닉 마코프 모델을 이용한 음성 인식기의 성능을 정량적으로 분석하였다. 이러한 분석을 통해 발성 속도에 따른 유의한 성능 저하를 관찰하고, 주어진 음성으로부터 발성 속도를 정량적으로 나타낼 수 있는 변수를 도입하였다. 발성 속도를 학습 시 사용한 음성과 유사하게 변화시키기 위해 본 논문에서는 음성 신호에 대한 시간축 변환을 사용하였으며, 최종적으로 발성 속도에 따라 선택적으로 시간축 변환을 적용하여 발성 속도의 변동에 따른 음성 인식의 성능 저하를 보상할 수 있는 기법을 제안하였다. 10자리의 이동통신용 전화번호를 이용한 음성 인식의 실험을 통해, 제안된 기법은 빠르게 발성하는 음성에 대해 15.5%의 오류율 감소를 가져오는 것을 확인할 수 있었다.

Trainable TTS System을 위한 음운 지속시간 모델링 (An Analysis on the Phoneme Duration Modeling For the Trainable TTS System)

  • 서지인;이양희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.109-112
    • /
    • 2001
  • 본 논문에서는 한국어 Trainable TTS System의 자연스러운 음성 합성을 위해 400문장(어절수 : 6,220, 음운수: 총43,701: 자음 23,899,모음: 19,802)에 대하여 단일 남성화자가 발성한 문 음성 데이터를 음운레벨세그먼트, 음운 라벨링 ,어절간의 띄어쓰기 ,어절에 대한 음운별 품사가 태깅된 문 음성 코퍼스를 사용하여 음운 환경과 품사에 의하여 음운의 지속시간이 어떻게 변화하는가에 대하여 통계적으로 분석하였다. 그리고 음운 지속시간을 보다 정교하게 예측하기 위하여, 각 음운에 대한 고유 지속시간의 영향이 배제된 정규화 음운지속시간에 대한 회귀트리를 이용하여 정규화 지속시간에 영향을 미치는 특징요소들 간의 관계를 통계적인 방법으로 분석하였다. 그 결과 문법적인 특징요소를 나타내는 요소들간에 서로 상관이 높게 나타나는 것을 알 수 있었다 그리고 이러한 경우 유사한 특징 요소들간에 상관이 1에 가까울 정도로 상관이 높은 요소들의 경우 예측지수가 낮은 요소들을 제거하여도 지속시간변화에 영향을 미치지 못하는 것으로 나타났다. 그 결과 문법적 성질이 유사한 특징 요소들을 회귀트리를 통해 모델링할 경우에 요소들간의 상관정도를 분석하여 최소한의 특징요소들을 선택 할 수 있는 방법을 제시하였다 그리고 이를 토대로 한 정규화 회귀트리의 모델링이 지속시간 회귀트리 모델링보다 우수함을 입증하였다.

  • PDF