• 제목/요약/키워드: 연속음성인식

검색결과 259건 처리시간 0.027초

음성정보기술산업지원센터의 음성 코퍼스 구축 현황 및 계획 (Current States and Future Plans for Speech Corpora at SITEC)

  • 김봉완;이용주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.49-52
    • /
    • 2002
  • 최근 컴퓨터와 인간간의 대화 수단으로 음성을 활용하는 기술인 음성정보기술이 발달함에 따라 대어휘 연속 음성 인식 및 무제한 어휘 음성 합성의 고도화를 위한 연구가 진행되고 있다. 음성합성의 경우에도 최근 대형의 음성 데이터 베이스로부터 임의 길이의 음성 부분을 골라내어 접속함으로써 좋은 합성 품질을 얻고 있다. 따라서 이러한 연구에 사용될 음성 코퍼스에 관한 요구와 관심이 높아지고 있다. 본 논문에서는 음성정보기술산업지원센터(SITEC)에서 구축중인 음성 코퍼스의 현황과 향후 계획에 관하여 보고한다. 방음실환경에서의 인식 및 합성 연구용 코퍼스, 아동용 음성 코퍼스, Dictation용 음성 코퍼스, 자동차내 소음 및 음성 코퍼스 등의 구축 내용이 소개된다.

  • PDF

한국어 연속음성 인식을 위한 발음열 자동 생성 (Automatic Generation of Pronunciation Variants for Korean Continuous Speech Recognition)

  • 이경님;전재훈;정민화
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.35-43
    • /
    • 2001
  • 음성 인식이나 음성 합성시 필요한 발음열을 수작업으로 작성할 경우 작성자의 음운변화 현상에 대한 전문적 언어지식을 비롯하여 많은 시간과 노력이 요구되며 일관성을 유지하기도 쉽지 않다. 또한 한국어의 음운 변화 현상은 단일 형태소의 내부와 복합어에서 결합된 형태소의 경계점, 여러 형태소가 결합해서 한 어절을 이룰 경우 그 어절 내부의 형태소의 경계점, 여러 어절이 한 어절을 이룰 때 구성 어절의 경계점에서 서로 다른 적용 양상을 보인다. 본 논문에서는 이러한 문제를 해결하기 위해서 형태음운론적 분석에 기반하여 문자열을 자동으로 발음열로 변환하는 발음 생성 시스템을 제안하였다. 이 시스템은 한국어에서 빈번하게 발생하는 음운변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성한다. 각 음운변화 규칙을 포함하는 대표적인 언절 리스트를 이용하여 구성된 시스템의 안정성을 검증하였고, 발음사전 구성과 학습용 발음열의 유용성을 인식 실험을 통해 평가하였다. 그 결과 표제어 사이의 음운변화 현상을 반영한 발음사전의 경우 5-6% 정도 나은 단어 인식률을 얻었으며, 생성된 발음열을 학습에 사용한 경우에서도 향상된 결과를 얻을 수 있었다.

  • PDF

정보검색 시스템의 음성 인터페이스 구현 (Implementation of the Speech Interface for Information Retrieving System)

  • 김정철;배건성
    • 전자공학회논문지S
    • /
    • 제36S권5호
    • /
    • pp.104-111
    • /
    • 1999
  • 본 논문에서는 HMM 고립단어인식 기술을 이용하여 정보 사용자들이 윈도즈 환경에서 편리하게 정보를 검색할 수 있는 시스템을 구현하였다. 인식 시스템에서 인식단위로 유사음소모델을 이용하여 인식어의 확장성을 고려하였고 기본모델은 SPHINX 시스템에서 사용하는 형태의 음소모델을 연속분포 HMM으로 구현하였다. 정보검색 도구에서는 기능을 단순화하고 검색절차를 음성으로 출력하도록 하여 사용자의 편의성을 고려하였다.

  • PDF

음성 인식을 이용한 증권 정보 검색 시스템의 개발 (Development of a Stock Information Retrieval System using Speech Recognition)

  • 박성준;구명완;전주식
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권4호
    • /
    • pp.403-410
    • /
    • 2000
  • 본 논문에서는 음성 인식을 이용한 증권 정보 검색 시스템의 개발에 대하여 기술하고 시스템의 주요 특징을 설명한다. 이 시스템은 DHMM (discrete hidden Markov model)에 기반을 두고, 유사 음소를 기본 인식 단위로 사용하였다. 끝점 검출과 반향 제거 기능을 포함시켜 사용자의 음성 입력이 편리하도록 만들었으며, 한 번의 음성 입력이 하나만의 단어가 아닌 여러 개의 단어가 될 수 있도록 연속 음성 인식기를 구현하였다. 상용화 이후의 몇 개월에 걸친 데이터를 이용하여 운용 결과를 분석하였다.

  • PDF

시간 동기 비터비 빔 탐색을 위한 인식 시간 감축법 (Recognition Time Reduction Technique for the Time-synchronous Viterbi Beam Search)

  • 이강성
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.46-50
    • /
    • 2001
  • 본 논문은 HMM (Hidden Markov Model) 음성 인식 시스템에 적용할 수 있는 새로운 인식 시간 알고리즘인 스코아 캐쉬기법을 제안한다. 다른 많은 기법들이 인식 시간을 줄이면서 계산량을 줄이기 위하여 어느 정도의 인식율 저하를 감수하는 반면에 제안하는 스코아 캐쉬기법은 인식율 저하를 전혀 일으키지 않으면서 인식 시간을 상당량 줄일 수 있는 기법이다. 단독어 인식 시스템에 적용 가능할 뿐 아니라 연속어 인식에도 적용이 가능하며, 기존에 이미 설계된 인식 시스템의 구조를 전혀 흩트리지 않고 간단히 하나의 함수만 대치함으로서 인식시간을 크게 감축할 수 있다 또한 기존의 계산량 감축 알고리즘과 함께 적용 가능하므로 추가의 계산량 감소를 얻을 수 있다. 스코아 캐쉬 기법을 적용한 결과 최대 54% 만큼 계산량을 줄일 수 있었다.

  • PDF

연속 음성에서의 신경회로망을 이용한 화자 적응 (Speaker Adaptation Using Neural Network in Continuous Speech Recognition)

  • 김선일
    • 한국음향학회지
    • /
    • 제19권1호
    • /
    • pp.11-15
    • /
    • 2000
  • RM 음성 Corpus를 이용한 화자 적응 연속 음성 인식을 수행하였다. RM Corpus의 훈련용 데이터를 이용해서 기준화자에 대한 HMM 학습을 실시하고 평가용 데이터를 이용하여 화자 적응 인식에 대한 평가를 실시하였다. 화자 적응을 위해서는 훈련용 데이터의 일부가 사용되었다. DTW를 이용하여 인식 대상화자의 데이터를 기준화자의 데이터와 시간적으로 일치시키고 오차 역전파 신경회로망을 사용하여 인식 대상화자의 스펙트럼이 기준화자의 스펙트럼 특성을 지니도록 변환시켰다. 최적의 화자 적응이 이루어지도록 하기 위해 신경회로망의 여러 요소들을 변화시키면서 실험을 실시하고 그 결과를 제시하였다. 학습을 거쳐 적절한 가중치를 지닌 신경회로망을 이용하여 기준화자에 적응시킨 결과 단어 인식율이 최대 2.1배, 단어 정인식율이 최대 4.7배 증가하였다.

  • PDF

연속 음성 인식을 위한 PTM 음절 모델 (Phonetic Tied-Mixture Syllable Model for CSR)

  • 김봉완;이용주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.33-36
    • /
    • 2004
  • 최근 연속 음성 인식에서의 성능 향상을 위하여 음절을 인식 단위로 사용하고자 하는 노력들이 보고되고 있다. 그러나 음절의 경우 음소에 비해 학습성이 좋지 않고 모델의 수가 많으므로 음절 경계에서의 문맥 종속 모델링이 어렵다는 단점을 갖고 있다. 본 논문에서는 음절의 이러한 단점을 극복하기 위하여 모노폰과 트라이폰을 이용하여 음절 모델을 합성하는 방법을 제안한다. 제안된 모델은 트라이폰에 비하여 평균 $55\%$, PTM에 비하여 평균 $13\%$의 인식 속도 향상을 보이며, 동일한 속도일 경우 PTM, 트라이폰 모델 모두에 대하여 ERR이 약$8\%$ 향상됨을 볼 수 있었다.

  • PDF

텍스트 애니메이션을 위한 생략 정보 파악 및 복원 (Identification and Recovery of Elided Information for Text Animation)

  • 장은영;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.205-213
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로, 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는. 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

웹상에서의 HMM을 이용한 한국에 음성인식 (Speech Recognition using HMM over the WWW)

  • 최광국;이재왕;김철;최승호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.77-80
    • /
    • 1999
  • 본 논문에서는 웹상에서의 음성인식 시스템을 구현하기 위해 자바애플릿과 연속분포HMM을 이용하여 단어 단위 인식을 실행하였다. 이 시스템은 Browser-embedded 모델로 구성되었으며 클라이언트컴퓨터에서는 애플릿으로 음성을 처리하여 특징파라미터들을 인터넷을 통해 서버컴퓨터로 보내고, 서버의 음성인식기는 전향 알고리듬을 적용하여 인식된 결과를 클라이언트컴퓨터에게 보내어 문자로 출력하도록 설계하였다. 훈련DB는 자동차 항법시스템에서 사용되는 22개 단어로 구축되었다.

  • PDF

분산 메모리 다중프로세서 환경에서의 병렬 음성인식 모델 (A Parallel Speech Recognition Model on Distributed Memory Multiprocessors)

  • 정상화;김형순;박민욱;황병한
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.44-51
    • /
    • 1999
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬계산모델을 제안한다. 음소모델은 연속 Hidden Markov Model(HMM)에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 지식베이스를 기반으로 한다. 또한 지식베이스를 구성하기 위해 계층구조의 semantic network과 병렬 marker-passing을 추론 메카니즘으로 쓰는 memory-based parsing 기술을 사용한다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD(Multiple Instruction Multiple Data) 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험결과, 본 연구의 지식베이스 기반 음성인식 시스템의 인식률이 word network 기반 음성인식 시스템보다 높게 나타났으며 code-phoneme 통계정보를 활용하여 인식성능의 향상도 얻을 수 있었다. 또한, 성능향상도(speedup) 관련 실험들을 통하여 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.

  • PDF