• 제목/요약/키워드: 연속음성인식

검색결과 259건 처리시간 0.025초

의사 형태소 단위의 음성언어 형태소 해석 (Morphological Analysis of Spoken Korean Based on Pseudo-Morphemes)

  • 이경님;정민화
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.396-404
    • /
    • 1998
  • 본 논문에서는 언어학적 단위인 형태소의 특성을 유지하면서 음성인식 과정에 적합한 분리 기준의 새로운 디코딩 단위인 의사형태소(Pseudo-Morpheme)를 정의 하였다. 이러한 필요성을 확인하기 위해 새로이 정의된 40개의 품사 태그를 갖는 의사 형태소를 표제어 단위로 삼아 발음사전 생성과 형태소 해석에 초점을 두고 한국어 연속음성 인식 시스템을 구성하였다.

  • PDF

CHMM을 이용한 전화번호 인식에 관한 연구 (A Study of Telephone Digit Recognition Using CHMM)

  • 이성권
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.31-34
    • /
    • 1998
  • 본 연구는 음소 단위의 CHMM을 이용한 연속어 숫자음 인식에 관한 내용이다. ETRI 445 데이터를 사용하여 초기의 모델은 ML 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 또한 한국어 숫자음 음성의 음향학적 특성을 고려하여 발성 사전을 작성하였고 음절 다누이로 되어있는 한국어 숫자음의 모든 경우를 고려하여 복수개의 단어를 사전에 등록하였다. 또한 적응화 학습에 있어서 숫자음의 앞 뒤 모든 경우를 고려하여 작성한 21 종류의 7자리 전화번호 숫자음 DB로 사용하였고 이의 효율성을 입증하기 위하여 ETRI에서 작성한 35종류의 4연속 숫자음 목록을 대상으로 인식실험을 수행하였다. 그 결과 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 또한 후처리를 두어 연음 현상으로 인한 오인식의 경우에 대해서도 약 2%의 인식률의 증가를 보여주었다.

  • PDF

한국어 연속음성 인식을 위한 단어 결합 모델링에 관한 연구 (A Study on Word Juncture Modeling for Continuous Speech Recognition of Korean Language)

  • 최인정;은종관
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 단어 조음결합의 음성학적 모델을 이용한 한국어 연속음성 인식에 관해 연구한다. 조음결합 현상에 의한 성능 감소를 줄이기 위해 단어내에서의 전이뿐만 아니라 단어간의 전이를 모델링하는 context-dependent (CD)단위를 사용한다. 모든 경우에서 각 단어의 첫 음소는 앞에 올 수 있는 모든 단어의 마지막 음소에 의해 지정되며, 각 단어의 마지막 음소도 유사한 방법으로 지정된다. Hidden Markov model (HMM) 파라미터들의 강인성을 개선하기 위해 공분산 행렬을 평활화한다. 또한 음성 단위들 사이의 분별력을 높이기 위해 position-dependent 단위를 사용한다. 실험 결과들은 개선된 조음결합 모델을 사용함으로서 intra-word 단위만을 사용하는 기본 인식 시스템에 비해 성능을 상당히 개선할 수 있음을 보여 주었다.

  • PDF

피치동기에 의한 음성신호의 전이구간 검출 (On Detecting the Transition Regions of Speech Signal by Pitch Synchronization)

  • 나덕수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.454-459
    • /
    • 1998
  • 연속된 음성의 인식을 위해서는 음성신호를 음성학적인 단위인 단어, 음절, 음소 등으로 분할하여야 한다. 이러한 분할을 위해서는 전이구간의 검출이 선행되어야 한다. 본 논문에서는 음성신호에서 전이구간을 검출하기 위해 피치동기로 된 상관관계 계수의 변화를 나타내는 파라미터를 새로이 제안하였다. 이 파라미터는 음성신호의 안정구간에서는 매우 작은 값을 나타내지만 음성의 시작이나 유성음과 무성음의 경계에서는 큰 값을 나타내어 전이구간검출용 파라미터로 매우 용이하다.

  • PDF

한국어 연속음성인식을 위한 발음사전 구축 (Pronunciation Dictionary For Continuous Speech Recognition)

  • 이경님;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.197-199
    • /
    • 2000
  • 연속음성인식을 수행하기 위해서는 발음사전과 언어모델이 필요하다. 이 둘 사이에는 디코딩 단위가 일치하여야 하므로 발음사전 구축시 디코딩 단위로 표제어 단위를 선정하며 표제어 사이의 음운변화 현상을 반영한 발음사전을 구축하여야 한다. 한국어에 부합하는 음운변화현상을 분석하여 학습용 자동 발음열을 생성하고, 이를 통하여 발음사전을 구축한다. 전처리 단계로 기호, 단위, 숫자 등 전처리 과정 및 형태소 분석 과정을 수행하며, 디코딩 단위인 의사 형태소 단위를 생성하기 위해 규칙을 이용한 태깅 과정을 거친다. 이를 통해 나온 결과를 발음열 생성기 입력으로 하며, 결과는 학습용 발음열 또는 발음사전 구성을 위한 형태로 출력한다. 표제어간 음운변화 현상이 반영된 상태의 표제어 단위이므로 실제 음운변화가 반영되지 않은 상태의 표제어와는 그 형태가 상이하다. 이는 연속 발음시 생기는 현상으로 실제 인식에는 이 음운변화 현상이 반영된 사전이 필요하게 된다. 생성된 발음사전의 효용성을 확인하기 위해 다음과 같은 실험을 통해 성능을 평가하였다. 음향학습을 위하여 PBS(Phonetically Balanced Sentence) 낭독체 17200문장을 녹음하고 그 전사파일을 사용하여 학습을 수행하였고, 발음사전의 평가를 위하여 이 중 각각 3100문장을 사용하여 다음과 같은 실험을 수행하였다. 형태소 태그정보를 이용하여 표제어간 음운변화 현상을 반영한 최적의 발음사전과 다중 발음사전, 언어학적 기준에 의한 수작업으로 생성한 표준 발음사전, 그리고 표제어간의 음운변화 현상을 고려하지 않고 독립된 단어로 생성한 발음사전과의 비교 실험을 수행하였다. 실험결과 표제어간 음운변화 현상을 반영하지 않은 경우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.

  • PDF

자동차 제어용 음성 인식시스템 구현 (An Implementation of Speech Recognition System for Car's Control)

  • 이광석;김현덕
    • 한국정보통신학회논문지
    • /
    • 제5권3호
    • /
    • pp.451-458
    • /
    • 2001
  • 본 연구는 자동차내의 각종 제어장치들을 음성으로 실시간 제어하기 위한 음성제어 시스템을 제안하고 실험적으로 검증하였다. 실시간 제어음성 인식시스템은 8bit-l0MHz로 A/D변환된 음성 데이터를 실시간으로 시작점과 끝점을 검출한 후, One Pass DP법으로 인식하였으며 그 결과를 모니터에 문장으로 출력하며 제어용 인터페이스에 제어데이터를 보내도록 구성하였다. HMM모델은 자동차내의 장치들을 제어하기 위한 제어음성 및 숫자음들로 구성되는 연속음성을 학습 및 모델링 하였다. 단어.제어문들의 인식률은 평균 97.3%, 숫자음의 경우는 평균 96.3% 정도의 인식률을 얻을 수 있었다.

  • PDF

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

  • 오세진;김광동;노덕규;위석오;송민규;정현열
    • 융합신호처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.30-39
    • /
    • 2003
  • 본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

  • PDF

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

KT 증권정보 서비스 이용 실태 및 인식 결과 조사 (A Research on the state of the utilization of the stock-information-retrieval-service)

  • 최영재
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.63-66
    • /
    • 1998
  • 한국통신에서는 PC로 된 프로토타입 시스템을 이용하여 음성인식 증권정보 서비스를 1995년 11월부터 1998년 초까지 5채널에 대해 시험운용을 해왔으며, 상용서비스를 위해 120명이 동시에 서비스 받을 수 있는 시스템을 개발하였다. 개발된 시스템의 전반적인 문제점을 파악하기 위하여 개발된 시스템을 사용하여 1998년 3월 16일부터 30 채널규모로 일반인들에게 시험서비스를 제공하고 있다. 음성인식 전화정보 서비스를 현재보다 훨씬 더 활성화시키기 위해서, 서비스의 이용 형태에 대한 분석을 통해, 어느 부분이 어떻게 개선되어야 할지를 연구하여, 초보 사용자라도 이용하기 쉬운 형태로 서비스를 시나리오를 개선해 나가고 있다. 본 논문에서는 사용자 특히, 처음 사용자의 여러 가지 이용 실태 요인을 분석하였다. 또한, 음성인식 증권 정보 서비스가 정식으로 서비스되기 이전과 그 이후의 일시별 인식률을 통해 조사하고, 이용자가 동일 대상 단어를 연속으로 발음하는 경우, 동일 대상 단어에 대한 인식률을 조사하였다. 조사결과 문제점은 4가지로 분류될 수 있었으며, 드러난 문제점을 해결하기 위하여 노력하고 있다.

  • PDF

발화속도 적응적인 한국어 연속음 인식기 (Adaptive Korean Continuous Speech Recognizer to Speech Rate)

  • 김재범;박찬규;한미성;이정현
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1531-1540
    • /
    • 1997
  • 본 논문에서는 발화속도 측정과 이를 통한 보상방법을 통하여 성능 향상된 한국어 연속음 인식 시스템을 제안한다. 연속음 인식은 다양한 조음화 현상과 발화속도의 변화로 인하여 고립단어 인식에 비하여 어렵다. 따라서, 연속음 인식을 위해서는 조음화 현상과 발화속도의 변화를 모델링할 수 있는 방법이 필요하다. 본 논문에서는 발화속도를 포만트의 변화율로서 측정하였고, 이 정보를 이용하여 빠른 발화에서는 상대적으로 많은 특징벡터를 발생시켜 보상을 시도하였다. 또한 조음화 현상을 모델링하기 위하여 한국어의 다이폰 집합을 514개로 정의하였고, 훈련을 위한 음성 DB론느 ETRI의 445 단어 DB를 사용하였다. 이러한 방법을 결합한 한국어 연속음 인식기를 DHMM (Discrete Hidden Markov Model)으로 구현하여 인식률이 향상됨을 보였다.

  • PDF