• 제목/요약/키워드: 대용량 어휘 연속 음성인식

검색결과 8건 처리시간 0.022초

제한된 단어를 갖는 우리말 연속 음성 인식 (The Continuous Speech Recognition with Limited word)

  • 김석동
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.87-90
    • /
    • 1998
  • 이 논문에서 우리는 대규모 어휘를 갖는 연속 음성 인식을 위한 방법을 제시한다. 우리말은 영어와 구조적으로 달라서 대용량 어휘를 갖는 연속 음성을 인식하기 위한 언어모델을 만들기가 매우 어렵다. 언어 모델을 우리말 문장에 적용하기 위해 신문의 사설을 3-gram을 이용하여 처리하였다. 우리의 인식 시스템을 평가하기 위하여 시스템 공학 연구소에서 제공한 낭독 음성을 대상으로 인식률을 계산하였다. 589개의 문장을 대상으로 총 20명이 발음한 3,156개의 문장에 대하여 남자 92.2%, 여자 87.9%의 인식률을 얻었다. 발음사전은 낭독음성과 신문 사설에서 추출한 10K 크기이며 uniphone의 음성모델을 사용하였다.

  • PDF

어휘독립 환경에서의 가변어휘 음성인식에 관한 연구 (A Study on the Variable Vocabulary Speech Recognition in the Vocabulary-Independent Environments)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.369-372
    • /
    • 1998
  • 본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.

  • PDF

대용량 연속음성 인식을 위한 효율적인 탐색 알고리즘 (Efficient Search Algorithms for Continuous Speech Recognition)

  • 박형민
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.75-78
    • /
    • 1998
  • 이 논문에서는 대용량 연속음성 인식에서 인식 속도를 향상시키기 위한 방법들에 대해서 연구하였다. 음성인식에 있어서 많은 양의 계산을 요하는 부분은 관측 확률의 계산과 탐색에 필요한 계산이다. 탐색에 필요한 계산을 줄이기 위하여 빔 탐색법과 phoneme look-ahead기법을 통해 탐색 공간을 줄였으며, 관측 확률을 계산하는데 소요되는 시간을 줄이기 위하여 입력 특징 벡터와 이웃 관계에 있는 가우시안 성분들만 정확한 계산을 하는 VQ에 의한 계산량 감축 방법과 tree-structured pdf 방법을 구현하였다. 3천개의 어휘와 2천여개의 트라이폰 모델로 구성된 연속 음성인식 시스템에서 보통의 Viterbi 빔 탐색법을 적용한 경우에 실시간의 2.73배의 인식 속도로 93.39%의 단어 인식률을 얻을 수 있는데 phoneme look-ahead 기법과 tree-structured pdf 방법을 추가 적용함으로써 비슷한 인식 성능에서 1.55배의 인식 속도를 얻을 수 있었다.

  • PDF

SPHINX : Hidden Markov Model 기반 음성인식 시스템

  • 김명원;이영직;전인흥
    • 전자통신동향분석
    • /
    • 제5권2호
    • /
    • pp.63-77
    • /
    • 1990
  • HMM(Hidden Markov Model)은 음성을 기술하는데 적합한 model이다. 본 고는 최근 CMU에서 개발한 HMM에 기반을 둔 화자독립, 연속음성 system인 SPIHNX에 대하여 기술한다. SPHINX는 단순한 음소의 HMM model을 적용한 baseline SPHINX로부터 시작하여 새로운 지식의 추가 및 음성단위의 조정 등을 통하여 지속적으로 그 성능이 개선되어 왔다. SPHINX의 최종 version은 어휘 약 1000단어 정도의 재원 관리에 관한 질문 형태의 문장을 인식하는데 96%의 높은 인식율을 보인다. SPHINX는 가장 발전된 음성인식 시스템의 하나이며 이는 화자독립, 대용량어휘의 연속음성 인식 시스템의 실현 가능성을 제시한다.

연속 음성 인식 기법을 이용한 단어 음성 인식 (The recognition of word by continuous speech recognition technic)

  • 조영훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.91-94
    • /
    • 1998
  • 우리만은 영어와는 달리 단어를 공백으로만 구분할 수 없다. 그러므로 대용량 어휘를 갖는 연속 음성을 인식하기 위한 언어모델을 만들기가 매우 어렵다. N-gram의 언어 모델을 우리말 문장에 적용하기 위해 하나의 문장을 한 단어로 구성하여 처리하였다. 우리의 인식시스템을 평가하기 위하여 시스템 공학 연구소에서 제공한 음성을 대상으로 인식률을 계산하였다. 단어의 종류는 452개이며 한명이 이 단어들을 2번씩 발음하고 총70명이 발음한 총 63,280개의 단어에 대하여 92.8%의 인식률을 얻었다. 일간지 사설로부터 추출한 단어를 대상으로 발음 사전을 10K 크기로 만들었다. 음성 모델은 uniphone을 사용하였다.

  • PDF

대어휘 음성인식을 위한 의사형태소 분석 시스템의 구현 (Implementation of A Morphological Analyzer Based on Pseudo-morpheme for Large Vocabulary Speech Recognizing)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.102-108
    • /
    • 1999
  • 교착어인 한국어를 대상으로 대용량의 대화체 어휘를 포함하는 연속 음성을 인식하는 데에는 인식단위를 결정하는 것이 매우 중요하다. 본 논문에서는 어절이나 형태소를 사용하는 기존의 음성인식 시스템에서의 난점을 해소하고 새로운 인식단위인 의사형태소를 제안하고, 입력되는 문장을 의사 형태소 단위로 분석하는 형태소 분석기와 태거를 구현하였다. 의사형태소를 이용한 음성인식/합성은 어절이나 형태소단위의 음성인식/합성에서 보다 개선된 결과를 얻을 수 있게 해주며, 인식의 출력을 인식의 다음 단계인 언어처리부의 처리단위와 일치시킬 수 있으므로 전체적인 음성언어 번역시스템의 성능도 높일 수 있다. 본 논문에서 구현한 시스템은 일반 형태소를 대상으로 하는 시스템과 동일한 수준의 성능을 보였다.

  • PDF

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

인식 단위로서의 한국어 음절에 대한 연구 (A Study on the Korean Syllable As Recognition Unit)

  • 김유진;김회린;정재호
    • 한국음향학회지
    • /
    • 제16권3호
    • /
    • pp.64-72
    • /
    • 1997
  • 본 논문에서는 한국어 대용량 어휘 인식 시스템에 적합한 인식 단위에 대하여 연구 및 실험하였다. 특히 현재 인식 시스템의 인식 단위로 주로 사용되는 음소와 한국어의 특징을 잘 나타내는 음절을 선택하고, 인식 실험을 통해 음절이 한국어 인식 시스템의 인식 단위로서 적합한가를 음소와 비교하였다. 객관적인 비교 인식 실험 결과를 제시하기 위하여 동일한 남성 화자의 음성 데이터를 수집하고, 수작업 음소 경계 및 레이블링 과정을 거친 음성 데이터 베이스를 구축하였다. 또한 각 인식 단위에 동일한 HMM 기반의 훈련 및 인식 알고리즘을 적용하기 위해 Entropic사의 HTK (HMM Tool Kit) 2.0을 사용하였다. 각 인식 단위의 훈련을 위해 5상태 3출력, 8상태 6출력 HMM 모델의 연속 HMM (Continuous HMM)을 적용하였고, PBW 3회분, POW 1회분을 훈련에 사용하고 PBW 1회분을 각 인식 단위로서 인식하는 화자 종속 단어 인식 실험을 구성하였다. 실험 결과 8상태 6출력 모델을 사용한 경우 음소 단위는 95.65%, 음절 단위는 94.41%의 인식률을 나타내었다. 한편 인식 속도에서는 음절이 음소보다 약 25% 빠른 것으로 나타났다.

  • PDF