• 제목/요약/키워드: 연속음성인식

검색결과 259건 처리시간 0.021초

가중 투영 우도 측정 및 병렬 모델 결합을 이용한 잡음 환경에서의 음성 인식 (Speech Recognition in the Noisy Environment using Weighted Projection-Based Likelihood Measure and Parallel Model Combination)

  • 신원호;양태영;김원구;윤대희;차일환
    • 한국음향학회지
    • /
    • 제17권1호
    • /
    • pp.49-54
    • /
    • 1998
  • 본 논문에서는 잡음이 존재하는 환경에 강인한 것으로 알려져 있는 투영 방법을 우 도 측정에 가중 함수와 결합하여 사용하는 방법을 제안하였다. 반연속 HMM을 이용한 고립 단어의 인식 실험 결과, 제안한 방법이 실험에 사용된 잡음의 환경들에서 모두 좋은 성능을 나타내었다. 아울러 병렬 모델 결합 방법을 반연속 HMM에 적용하였는데 이는 코드북의 변 환반으로 쉽게 잡음의 특성을 반영할 수 있다. 가중 투영 우도 측정 방법을 병렬 모델 결합 방법에 적용한 경우에도 우수한 성능을 거둘 수 있었다.

  • PDF

반복학습법에 의해 작성한 N-gram 언어모델을 이용한 연속음성인식에 관한 연구 (Continuous Speech Recognition Using N-gram Language Models Constructed by Iterative Learning)

  • 오세진;황철준;김범국;정호열;정현열
    • 한국음향학회지
    • /
    • 제19권6호
    • /
    • pp.62-70
    • /
    • 2000
  • 일반적으로 통계적 언어모델의 확률을 추정하는 방법은 대량의 텍스트 데이터로부터 출현빈도가 높은 단어를 선택하여 사용하고 있다. 하지만 특정 태스크에서 적용할 언어모델의 경우 시간적, 비용적 측면을 고려할 때 대용량의 텍스트의 사용은 비효율적일 것이다. 본 논문에서는 특정 태스크에서 사용하기 위해 소량의 텍스트 데이터로부터 효율적인 언어모델을 작성하는 방법을 제안한다. 즉, 언어모델을 작성할 때 출현빈도가 낮은 단어의 빈도를 개선하기 위해 같은 문장을 반복하여 학습에 참가시키므로 단어의 발생확률을 좀 더 강건하게 하였으며 제안된 언어모델을 이용하여 3명이 발성한 항공편 예약관련 200문장에 대하여 연속음성인식 실험을 수행하였다. 인식실험 결과, 반복학습에 의해 작성한 언어모델을 이용한 경우가 반복학습 적용 전에 비하여 평균 20.4%의 인식률 향상을 보였다. 또한 기존의 문맥자유문법을 이용한 시스템과 비교하여 인식률이 평균 13.4% 향상되어 제안한 방법이 시스템에 유효함을 확인하였다.

  • PDF

FSN을 이용한 금액 인식 시스템 (Price Recognition System using FSN)

  • 함정표
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.331.1-334
    • /
    • 1998
  • 본 논문에서는 금액을 인식 대상으로 하는 음성 인식 시스템의 성능 향상을 위하여 프레임 동기 네트워크(Frame Synchronous Network)을 이용하였다. 연속음 인식에서 인식 대상이 가지는 규칙을 적용했을 경우 성능 향상을 가져올 수 있다. 금액이 가지는 반복적인 특성과 자릿수의 상하 관계가 인식 성능에 미치는 효과를 이용하여 다양한 수준의 제약을 갖는 FSN을 제안하였다. 제안된 FSN의 성능을 다양한 환경과 특징 벡터에 대하여 이산 hidden Markov model[5]을 이용하여 실험을 수행하였다. 인식 결과 제안된 FSN을 이용하여 금액 어휘의 인식 성능을 향상시킬 수 있었다.

  • PDF

연속분포 HMM에 의한 실시간 Word Spotting 에 관한 연구 (A Study on the Real-time Word Spotting by Continuous density HMM)

  • 서상원
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.92-95
    • /
    • 1995
  • 연속분포 HMM을 사용한 실시간 로봇 암 제어 시스템에 대해 기술하고 있다. 본 시스템은 자연스러운 문장의 로봇 암 제어 명령 발성을 받아 핵심단어 인식의 framework을 통한 명령 인식 및 로봇 제어를 구현하고 있다. 로봇 몸체의 부분, 방향, 각도, 동작명령들에 대해 각기 우향 HMM, 이외의 비 핵심어들에 대해서는 이들을 한데 모아 ergodic형 상태천이를 모델링하는 garbage HMM을 형성했는데, 조사, 감탄사 등을 따로 모은 garbage 모델과, silence 및 배경 잡음에 대한 garbage 모델을 형성, 학습 및 인식에 포함시켜 연결단어 인식을 수행함으로써 핵심단어 인식의 효과를 얻었다. 이때 핵심단어들의 사용에 있어 간단한 문법적 제약을 가정하였다. 남성화자 35명을 대상으로 30개 문형에 대해 데이터 수집용 개념적 문장을 구성하여 음성 데이터를 수집하였다. 학습 화자에 대한 제어 명령 인식률은 95% 이상을 나타내고 있으며, 비 학습화자에 대한 인식율은 90% 이상이다. 또한 학습된 단어외의 비 핵심단어들의 사용에 대해서도 긍정적인 인식 성능을 보였다.

  • PDF

잡음에 강한 음성 인식에서 SNR 기준 함수를 사용한 가우시안 함수 변형 및 결정에 관한 연구 (A Study on Variation and Determination of Gaussian function Using SNR Criteria Function for Robust Speech Recognition)

  • 전선도;강철호
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.112-117
    • /
    • 1999
  • 잡음에 강한 음성인식시스템을 위하여 주파수 차감법을 사용할 경우 음성 신호마저 차감하여 신호를 더욱 부식시키는 경우가 존재한다. 본 연구에서는 이러한 경우를 위해서 프레임 마다 추정 잡음과 차감 신호의 SNR(Signal to Noise Ratio) 함수로부터 반연속 HMM(Hidden Markov Model)의 가우시안 함수를 변형 및 결정하는 방법을 제안한다. 이 방법의 타당성을 위해 프레임마다 추정 잡음의 오류 정도가 추정 잡음의 크기와 관계함을 신호 파형 형태로써 보였으며, 이러한 이유에서 SNR을 기준으로 가우시안 함수를 변형 및 결정하게 된다. 실험에서 80㎞/h 이상의 속도로 달리는 차량 내에서 배경 잡음과 음성이 혼합되었을 때의 음성 인식율을 평가하였다. 그 결과 주파수 차감한 경우와 차감하지 않은 경우에 비해 본 논문에서 제안한 SNR에 의한 가우시안 결정 방법이 더욱 향상된 인식율을 보였다.

  • PDF

한국어 연속음인식에 관한 연구(유성음 분류 및 단모음 인식 ) (On the Classification of Voice Sound and the Recognition of Vowels for Korean Continuous Speech)

  • 하판봉;이철희;방승찬;안수길
    • 한국음향학회지
    • /
    • 제5권3호
    • /
    • pp.28-35
    • /
    • 1986
  • 우리나라 음성의 유성음을 모음, 비음 및 유성화 자음으로 분류하는 알고리즘을 기술하였다. 먼 저 기존의 PITCH 검출 알고리즘에 의하여 음성을 유성음과 무성음으로 나눈 뒤, 단지 정규화된 1차 상 관계수, 영교차율, LOG 에너지 및 LPG 에너지의 골짜기 검출만을 이용하여, 유성음은 모음, 비음 및 유 성화자음으로 분류하고 무성음은 실제의 무성음과 묵음으로 분류하였다. 그리고 이렇게 분류된 모음에 대하여 단모음 인식을 행하였다. 단지 한 FRAME으로 모음을 대표하였기 때문에 메모리 크기와 인식 시간을 줄였다. 여기서 UP & DOWN 및 수정된 영교차율을 새로이 정의하여 적용한 결과 만족한 결과 를 얻을 수 있었다. LPC 매개변수 및 전력 스펙트럼도 단모음 인식의 FEATURE로 사용하였다. 그리고 각 FEATURE 의 성능을 비교하였다. 이들 FEATURE을 잘 조합하여 2단계 인식을 행한 결과 92%의 높은 인식율을 얻을 수 있었다.

  • PDF

HMM의 교정 학습과 후처리를 이용한 연결 숫자음 인식에 관한 연구 (A Study on the Recognition of the Connected Digits Using CorrectIve Trammg WIth HMM and Post Processing)

  • 우인봉
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.161-165
    • /
    • 1994
  • HMM은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, 이 HMM의 학습방법인 maimum like-ihood estimation 은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 있다. 이러한 문제점을 보와하기 위하여 연결어 인식 알고리즘인 Segmental K-means의 학습과정에 교정 학습법을 도입하여 모델 파라메터 값을 재조정 해 준다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가했다. 이렇게 추가된 단어 모델들에 대한 몇가지 규픽을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시스템은 TMS320C30 프로세서 내장한 DSP 보드와 IBM PC 사엥서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성화자 3명을 대상으로 작성하였다. 인식 결과 21종 전화번호 252개 데이터에 대하여 화자 종속으로 92.1% 인식률을 나타내었다.

  • PDF

Discriminant 학습을 이용한 전화 숫자음 인식 (Telephone Digit Speech Recognition using Discriminant Learning)

  • 한문성;최완수;권현직
    • 대한전자공학회논문지TE
    • /
    • 제37권3호
    • /
    • pp.16-20
    • /
    • 2000
  • 대부분의 음성인식 시스템이 확률 모델을 기반으로 한 HMM 방법을 가장 많이 사용하고 있다. 한국어 고립 전화 숫자음 인식인 경우에 만약 충분한 학습 데이터가 주어지면 HMM 방법을 사용해도 높은 인식률을 얻는다 그러나 한국어 연속 전화 숫자음 인식인 경우에 비슷하게 발음되는 전화 숫자음들에 대해서는 HMM방법이 한계를 가지고 있다. 본 논문에서는 한국어 연속 전화 숫자음 인식에서 HMM 방법의 한계를 극복하기 위해 discriminant 학습 방법을 제시한다. 실험결과는 우리가 제시한 discriminant 학습 방법이 비슷하게 발음되는 전화 숫자음들에 대해서 높은 인식률을 갖는 것을 보여준다.

  • PDF

K-L 동적 계수를 이용한 단어 인식 (Word Recognition Using K-L Dynamic Coefficients)

  • 김주곤
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.103-106
    • /
    • 1998
  • 본 논문에서는 음성인식 시스템의 인식 정도의 향상을 위해서 동적 특징으로서 K-L(Karhanen-Loeve)계수를 이용하여 음소모델을 구성하는 방법을 제안하고, 음소, 단어, 숫자음 인식 실험을 통하여 그 유효성을 검토하였다. 인식 실험을 위한 음성자료는 한국 전자통신 연구소에서 채록한 445단어와 국어정보공학연구소에서 채록한 4연속 숫자음을 사용하였으며, K-L계수 동적 특징의 유효성을 확인하기 위해 정적 특징으로서 멜-켑스트럼과 동적 특징으로서 K-L계수 및 회귀계수를 추출한 후 음소, 단어, 숫자음 인식 실험을 수행하였다. 인식의 기본 단위로는 48개의 유사음소단위(Phoneme Likely Unite ; PLUs)를 음소모델로 사용하였으며, 단어와 숫자음 인식을 위해서는 유한상태 오토마타(Finite State Automata; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming)법을 이용하였다. 인식 실험 결과, 음소인식에 있어서는 정적특징인 멜-켑스트럼을 사용한 경우 39.8%, K-L 동적 계수를 사용한 경우가 52.4%로 12.6%의 향상된 인식률을 얻었다. 또한, 멜-켑스트럼과 회수계수를 사용한 경우 60.1%, K-L계수와 회귀계수를 결합한 경우에 있어서도 60.4%로 높은 인식률은 얻었다. 이 결과를 단어인식에 확장하여 인식 실험을 수행한 결과, 기존의 멜-켑스트럼 계수를 사용한 경우 65.5%, K-L계수를 사용한 경우 75.8%로 10.3% 향상된 인식률을 얻었으며, 멜-켑스트럼과 회귀계수를 결합한 경우 91.2%, K-L계수와 회귀계수를 결합한 경우 91.4%의 높은 인식률을 보였다. 도한, 4연속 숫자음에 적용한 경우에 있어서도 멜-켑스트럼을 사용한 경우 67.5%, K-L계수를 사용한 경우 75.3%로 7.8%의 향상된 인식률을 보였으며 K-L계수와 회귀계수를 결합한 경우에서도 비교적 높은 인식률을 보여 숫자음에 대해서도 K-L계수의 유효성을 확인할 수 있었다.

  • PDF

HMM을 이용한 음성에서의 감정인식 (Recognition of Emotional states in Speech using Hidden Markov Model)

  • Kim, Sung-Ill;Lee, Sang-Hoon;Shin, Wee-Jae;Park, Nam-Chun
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.560-563
    • /
    • 2004
  • 본 논문은 분노, 행복, 평정, 슬픔, 놀람 둥과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의 한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.

  • PDF