• 제목/요약/키워드: 연속음성인식

검색결과 259건 처리시간 0.023초

차량 항법용 음성인식 시스템의 구현 (Implementation of a Speech Recognition System for a Car Navigation System)

  • 이태한;양태영;박상택;이충용;윤대희;차일환
    • 전자공학회논문지S
    • /
    • 제36S권9호
    • /
    • pp.103-112
    • /
    • 1999
  • 본 논문에서는 차량 항법영 음성 인식을 위한 화자 독립 단독음 인식 시스템을 범용 DSP를 사용하여 구현하였으며, 잡음 처리 기술로 SNR 정규화와 RAS를 결합한 방법을 제안하여 인식 시스템의 성능을 개선시켰다. 인식 알고리즘으로서 반연속 HMM을 사용하였으며, TMS320C31을 이용하여 구현하였다. 실험에서 사용된 인식 단어는 차량 항법 시스템을 위한 명령어 69단어이며, 구현된 인식 시스템은 자동차 환경에서 녹음된 음성 데이터에 의한 인식 결과와 하드웨어 구현에 따르는 제약 조건을 동시에 고려하여 구현되었다. 주행 중에 녹음된 데이터에 대한 컴퓨터 시뮬레이션 상에서 특징 벡터 중 MFCC-CMS를 이용하고, 잡음 처리 방법으로 SNR 정규화와 스펙트럼 차감법을 결합하여 실험한 경우 최고 93.62%의 인식 성능을 보였으며, 89.93%의 인식률을 갖는 기존 방법보다 3.69%의 인식 성능 향상을 가져왔다. 제안된 잡음 처리 방법은 자동차 안에서의 SNR이 5dB이하에서 좋은 인식 성능을 보이는 것으로 나타났다.

  • PDF

호텔예약을 위한 음성번역시스템 (A Speech Translation System for Hotel Reservation)

  • 구명완;김재인;박상규;김우성;장두성;홍영국;장경애;김응인;강용범
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.24-31
    • /
    • 1996
  • 이 논문에서는 호텔예약을 위한 음성번역시스템(KT-STS:Korea Telecom Speech Translation System)에 대해 기술한다. KT-STS는 한국손님이 일본의 호텔을 예약하고자 할 때 사용할 수 있는 시스템으로 한국어 음성을 인식하여 일본어로 번역을 해주는 시스템이다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 그리고 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 HMM(Hidden Markov Model)에 근거한 화자독립, 300 단어급 연속음성인식시스템이다. 언어모델은 바이그램(bigram)을 전향 언어모델로, 의존문법을 후향 언어모델로 사용한다. 기계번역부에서는 의존문법과 직적 번역 방식을 사용하였다. 음성합성부에서 합성단위로 반음소를 사용하며 합성방식은 주기파형분해 및 재배치 방식을 이용한다. KT-STS는 TMS320C30 DSP 보드를 장착한 SPARC20 위크스테이션 상에서 거의 실시간으로 동작한다. 음성인식 실험결과 94.68%의 단어인식률과 82.42%의 문장인식률을 얻었으며, 한일 번역기만의 번역 성공률은 100%였다. 우리는 이 시스템과 일본 KDD에서 개발한 시스템을 전용선으로 연결하여 한일간 자동통역 국제시연을 가진 바 있다.

  • PDF

낭독속도에 따른 강세구 경계 검출에 관한 연구 (A Study on Detection of Accentual Phrase's Boundaries according to Reading Speeds)

  • 주장규;이기영;송민석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.91-94
    • /
    • 2000
  • 최근 운율 구조와 문장구조 및 음운규칙과 관련 된 많은 언어학적 연구가 이루어져, 언어 이해 차원에서 의미 정보, 문장 구조 정보, discourse structure 등을 위한 운율 정보의 유용성이 입증되었으나, 이러한 결과가 최근의 음성인식 시스템에는 거의 적용되지 못하고 있다. 본 연구에서는 계층적인 방법을 기초로 하여 한국어의 연속음성으로부터 운율구를 검출하는 세그멘테이션법을 제안하였다. 우선, 입력된 음성으로부터 문장단위의 경계를 검출하기 위하여 휴지기를 이용하였으며 에너지, 휴지기의 지속시간 및 피치궤적을 참조하여 강세구의 경계를 검출하였다. 실험음성의 텍스트는 "만물상"이며, 남녀 각 2명의 표준어 화자가 빠른 속도와 보통 속도로 낭독한 음성데이터를 대상으로 비교하였다.

  • PDF

음성파형의 비대칭율을 이용한 음소의 전이구간 검출 (On Detecting the Transition Regions of Phonemes by Using the Asymmetrical Rate of Speech Waveforms)

  • 배명진;이을재;안수길
    • 한국음향학회지
    • /
    • 제9권4호
    • /
    • pp.55-65
    • /
    • 1990
  • 연속음 인식을 위해서는 음성신호의 음성학적 경계를 결정짓는 분할과정이 필요하다. 본 논문에서는 음성신호의 전이구간을 결정하기 위한 파라미터로 한 프레임 내의 비대칭율을 제안하였다. 제안된 그 프레임에서 음성진폭의 변화율을 대별하며, 인근 프레임의 비대칭율과 비교하면 현재의 프레임이 정상상태 혹은 전이영역에 있는지를 구별할 수 있게 해 준다.

  • PDF

규준화된 AMDF 이용한 음성파형의안정상태 구간검출 (On Detcdting the Steady State Segments of Speech Waveform by using the Normalized AMDF)

  • 배명진;김을제;안수길
    • 한국음향학회지
    • /
    • 제10권3호
    • /
    • pp.44-50
    • /
    • 1991
  • 연속음 인식을 위해서는 음성신호의 음성학적 경계를 결정짓는 분할과정이 필요하다. 본 논문에서는 음성신호의 전이구간을 결정하기 위한 퍼래미터로 한 프레임내의 규준화된 AMDF을 제안하였다. 제안된 규준화된 AMDF은 그 프레임에서 음성진폭의 변화율을 대별하며, 인근 프레임의 규준화된 AMDF와 비교하면 현재의 프레임이 정상상태 혹은 전이영역에 있는지를 구별할 수 있게 해준다.

  • PDF

음향학적 파라미터의 변화 및 반복학습으로 작성한 언어모델에 대한 고찰 (Language Models constructed by Iterative Learning and Variation of the Acoustical Parameters)

  • 오세진;황철준;김범국;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.35-38
    • /
    • 2000
  • 본 연구에서는 연속음성인식 시스템의 성능 향상을 위한 기초 연구로서 시스템에 적합한 음향모델과 언어모델을 작성하고 항공편 예약 태스크를 대상으로 인식실험을 실시한 결과 그 유효성을 확인하였다. 이를 위하여 먼저 HMM의 출력확률분포의 mixture와 파라미터의 차원에 대한 정확한 분석을 통한 음향모델을 작성하였다. 또한 반복학습법으로 특정 태스크를 대상으로 N-gram 언어모델을 적용하여 인식 시스템에 적합한 모델을 작성하였다. 인식실험에 있어서는 3인의 화자가 발성한 200문장에 대해 파라미터 차원 및 mixture의 변화에 따른 음향모델과 반복학습에 의해 작성한 언어모델에 대해 multi-pass 탐색 알고리즘을 이용하였다. 그 결과, 25차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균 $81.0\%$의 인식률을 얻었으며, 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균 $90.2\%$의 인식률을 보여 인식률 제고를 위해서는 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복학습으로 작성한 언어모델을 이용한 경우가 매우 효과적임을 알 수 있었다.

  • PDF

PTM 모델을 사용한 HMM 음성인식기에서 효율적인 디코딩을 위한 가우시안 선택기법 (Gaussian Selection in HMM Speech Recognizer with PTM Model for Efficient Decoding)

  • 손종목;정성윤;배건성
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.75-81
    • /
    • 2004
  • 가우시안 선택기법은 연속 확률분포를 갖는 HMM음성인식기에서 인식성능을 저하시키지 않으면서 관측확률을 구할 때 계산되는 가우시안의 수를 줄여 효율적인 디코딩을 하기 위해 많이 이용되는 방법이다. 본 논문에서는 PTM 구조를 갖는 HMM에서 관측확률을 계산하는데 필요한 가우시안 함수의 부분집합을 구하는 새로운 가우시안 선택기법을 제안한다. PTM 모델에서는 음성신호의 음향특성에 따라 구분되는 클래스별 가중치와 공통적인 가우시안 집합을 이용하여 각 상태를 나타내는데, 제안한 방법에서는 PTM 구조가 갖는 이러한 특성을 이용하여 인식성능의 저하없이 관측확률 계산에 소요되는 적은 수의 가우시안 부분집합을 구한다. 실험결과 기존의 가우시안 선택기법이 가우시안 선택기법을 적용하지 않았을 경우에 비해 20∼30% 계산량을 필요로 하는데, 제안한 기법은 16.41%의 가우시안 함수 계산만으로도 별다른 인식성능 저하없이 인식 과정을 수행할 수 있었다.

클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화 (Lip-Synch System Optimization Using Class Dependent SCHMM)

  • 이성희;박준호;고한석
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.312-318
    • /
    • 2006
  • 기존의 립싱크 시스템은 음소 분할 후, 각각의 음소를 인식하는 2단계의 과정을 거쳤다. 하지만, 정확한 음소 분할의 부재와 음성이 끊긴 분할 된 음소로 이루어진 훈련 데이터들은 시스템의 전체 성능을 크게 떨어뜨렸다. 이런 문제를 해결하기 위해 Head-Body-Tail (HBT) 모델을 이용한 단모음 연속어 인식 기술을 제안한다. 주로 소규모 어휘를 다루는데 적합한 HBT 모델은 Head 와 Tail 부분에 문맥 종속 정보를 포함하여 앞 뒤 문맥에 따른 조음효과를 최대한 반영한다. 또한, 7개의 단모음을 입모양이 비슷한 세 개의 클래스로 분류하여, 클래스에 종속적인 코드북 3개를 가진 반연속HMM (Hidden Markov Model)을 적용하여 시스템을 최적화하고, 변이 부분이 큰 단어의 처음과 끝은 연속HMM의 8 믹스쳐 가우시안 구조를 사용하여 모델링하였다. 제안한 방법은 HBT구조의 연속HW과 대등한 성능을 보이지만, 파라미터 수는 33.92% 감소하였다. 파라미터 감소는 계산 양을 줄여주므로, 시스템이 실시간으로 동작 가능하게 한다.

FIR-STREAK 디지털 필터를 사용한 피치추출 방법에 관한 연구 (A Study on Pitch Extraction Method using FIR-STREAK Digital Filter)

  • 이시우
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.247-252
    • /
    • 1999
  • 낮은 Bit Rate의 음성부호화 방식을 구현하기 위해 필요한 파라메터로서 피치정보가 있다. 연속음성에서 정규화 된 피치정보를 추출하는 방법에서는 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서 피치추출 오류가 발생한다. 이러한 오류를 억제하기 위하여 본 연구에서는 FIR-STREAK 필터의 출력 잔차신호에서 피치정보를 얻는 개별 피치추출법을 제안하였다. 이 방법은 피치정보를 정규화하지 않고 연속적으로 변위하는 피치간격을 적절하게 나타낼 수 있다. 실험결과, 개별 피치추출법은 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서도 유효한 피치정보를 얻을 수 있음을 알 수 있었다. 이 방법은 음성부호화방식, 음성분석, 음성합성, 음성인식등에 응용할 수 있을 것으로 기대된다.

  • PDF

은닉 마르코프 모델을 이용한 음성에서의 감정인식 (Emotion recognition in speech using hidden Markov model)

  • 김성일;정현열
    • 융합신호처리학회논문지
    • /
    • 제3권3호
    • /
    • pp.21-26
    • /
    • 2002
  • 본 논문은 분노, 행복, 평정, 슬픔, 놀람 등과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과로서, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.

  • PDF