• Title/Summary/Keyword: 연속음성

Search Result 420, Processing Time 0.027 seconds

Eigenvoice 병합을 이용한 연속 음성 인식 시스템의 고속 화자 적응 (Rapid Speaker Adaptation for Continuous Speech Recognition Using Merging Eigenvoices)

  • 최동진;오영환
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.143-156
    • /
    • 2005
  • Speaker adaptation in eigenvoice space is a popular method for rapid speaker adaptation. To improve the performance of the method, the number of speaker dependent models should be increased and eigenvoices should be re-estimated. However, principal component analysis takes much time to find eigenvoices, especially in a continuous speech recognition system. This paper describes a method to reduce computation time to estimate eigenvoices only for supplementary speaker dependent models and to merge them with the used eigenvoices. Experiment results show that the computation time is reduced by 73.7% while the performance is almost the same in case that the number of speaker dependent models is the same as used ones.

  • PDF

Aurora 특징파라미터 추출기법에 따른 한국어 연속숫자음 전화음성의 인식 성능 비교 (Performance Comparison of Korean Connected Digit Telephone Speech Recognition According to Aurora Feature Extraction)

  • 김민성;정성윤;손종목;배건성;김상훈
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.145-148
    • /
    • 2003
  • To improve the recognition performance of Korean connected digit telephone speech, in this paper, both Aurora feature extraction method that employs noise reduction 2-state Wiener filter and DWFBA method are investigated and used. CMN and MRTCN are applied to static features for channel compensation. Telephone digit speech database released by SITEC is used for recognition experiments with HTK system. Experimental results has shown that Aurora feature is slightly better than MFCC and DWFBA without channel compensation. And when channel compensation is included, Aurora feature is slightly better than DWFBA with MRTCN.

  • PDF

FSN 기반의 대어휘 연속음성인식 시스템 개발 (Development of FSN-based Large Vocabulary Continuous Speech Recognition System)

  • 박전규;이윤근
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.327-329
    • /
    • 2007
  • This paper presents a FSN-based LVCSR system and it's application to the speech TV program guide. Unlike the most popular statistical language model-based system, we used FSN grammar based on the graph theory-based FSN optimization algorithm and knowledge-based advanced word boundary modeling. For the memory and latency efficiency, we implemented the dynamic pruning scheduling based on the histogram of active words and their likelihood distribution. We achieved a 10.7% word accuracy improvement with 57.3% speedup.

  • PDF

SVAPI 1.0 환경에서의 어구 종속 화자 확인 시스템 (Text-dependent Speaker Verification System in SVAPI 1.0 Environment)

  • 김유진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.401-405
    • /
    • 1998
  • SVAPI 1.0 환경에서의 어구 종속 화자 확인 시스템에 대해 기술한다. 구현된 시스템은 궁극적으로 공중 전화망 응용이 가능한 실용 시스템을 목표로 개발되었으며 이를 위해 SVAPI 위원회에 의해 제안된 SVAPI 1.0을 개발 환경으로 사용하였다. SVAPI는 객체 지향 구조, 클라이언트-서버 및 telephony 환경의 지원등이 특징이며 어플리케이션과 엔진을 독립적으로 개발할 수 있는 이점을 제공한다. 구현된 데모 시스템은 펜티엄 프로세서와 Windows95/NT 4.0 운영체제 그리고 Win16/Win32 API를 통해 제어 가능하며 음성 입력이 가능한 디바이스를 장착한 IBM 호환 PC이다. 화자의 성문 등록은 화자가 동일한 어구를 3회 발성하여 이뤄지며 등록과 확인의 응답속도는 모두 1초 이내이다. 소프트웨어의 구성은 크게 어플리케이션과 어구 종속 화자 확인 엔진으로 구분할 수 있으며 엔진은 끝점 검출 알고리즘, 음성 특징 추출 알고리즘 그리고 연속 HMM 기반의 화자 성문 모델 등록 및 유사도 계산 등을 포함한 확인 알고리즘으로 구성되어 있다. 화자의 성문은이름과 같은 약 3음절 이상의 단어로 등록되고 테스트되었다. 엔진의 객관적인 평가를 위해 전화선을 통해 남자 6명, 여자 3명의 화자로부터 자신의 이름을 각각 40회 발성하여 구축된 음성 데이터 베이스를 사용하였으며 실험 결과 남자는 2.85%, 여자는 2.44%의 EER을 각각 얻었다.

  • PDF

텍스트 애니메이션을 위한 생략 정보 파악 및 복원 (Identification and Recovery of Elided Information for Text Animation)

  • 장은영;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.205-213
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로, 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는. 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

VoIP용 음성부호화기를 위한 패킷 손실 은닉 알고리즘에 대한 연구 (A Study on the Packet Loss Concealment Algorithm for Speech Coders in VoIP System)

  • 이승원;김시호;유승형;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.139-142
    • /
    • 2002
  • 본 연구에서는 VoIP와 같은 패킷망에서 G.729 CS-ACELP 음성부호화기에 패킷 손실 은닉 알고리즘을 적용하여, 패킷 손실로 인한 음질 저하의 완화에 관한 실험을 수행하였다. 패킷 손실 은닉은 수신된 패킷으로부터 복호된 파형을 저장해두었다가, 손실이 발생하면 피치 동기가 맞도록 선택한 파형을 손실된 패킷자리에 대체하는 방법과 연속적인 손실 이후에 음성부호화기의 메모리를 초기화하는 방법에 기반하고 있다. 실제 VoIP 통화 실험에서 측정한 패킷 손실 분포에 대해 패킷 손실로 인한 음질 저하를 완화할 수 있음을 확인하였다.

  • PDF

한국어 연속음성인식을 위한 형태소 경계에서의 발음 변화 현상 모델링 (Modeling Cross-morpheme Pronunciation Variation for Korean LVCSR)

  • 이경님;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.75-78
    • /
    • 2003
  • In this paper, we describe a cross-morpheme pronunciation variation model which is especially useful for constructing morpheme-based pronunciation lexicon for Korean LVCSR. There are a lot of pronunciation variations occurring at morpheme boundaries in continuous speech. Since phonemic context together with morphological category and morpheme boundary information affect Korean pronunciation variations, we have distinguished pronunciation variation rules according to the locations such as within a morpheme, across a morpheme boundary in a compound noun, across a morpheme boundary in an eojeol, and across an eojeol boundary. In 33K-morpheme Korean CSR experiment, an absolute improvement of 1.16% in WER from the baseline performance of 23.17% WER is achieved by modeling cross-morpheme pronunciation variations with a context-dependent multiple pronunciation lexicon.

  • PDF

대용량 연속 음성 인식 시스템에서의 코퍼스 선별 방법에 의한 언어모델 설계 (A Corpus Selection Based Approach to Language Modeling for Large Vocabulary Continuous Speech Recognition)

  • 오유리;윤재삼;김홍국
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.103-106
    • /
    • 2005
  • In this paper, we propose a language modeling approach to improve the performance of a large vocabulary continuous speech recognition system. The proposed approach is based on the active learning framework that helps to select a text corpus from a plenty amount of text data required for language modeling. The perplexity is used as a measure for the corpus selection in the active learning. From the recognition experiments on the task of continuous Korean speech, the speech recognition system employing the language model by the proposed language modeling approach reduces the word error rate by about 6.6 % with less computational complexity than that using a language model constructed with randomly selected texts.

  • PDF

미래 융합 서비스 표준 동향

  • 송진한;김기문;임종태
    • 정보와 통신
    • /
    • 제27권5호
    • /
    • pp.3-7
    • /
    • 2010
  • 본고에서는 3GPP에서 표준화가 진행되고 있는 기술을 중심으로 미래 융합 서비스의 동향을 살펴본다. 미래의 융합 서비스는 통신 서비스의 자유로운 이동성 연속성의 바탕위에, 통신의 대상이 사람 위주에서 사물로 확장될 것으로 보이며, 전달되는 컨텐츠 또한 음성과 멀티미디어에서 오감(五感)으로 그 폭이 넓어질 것으로 예상된다.

블록체인 상의 영장 전달을 통한 연속적인 합법적 감청 (Delivering Warrants Model using Blockchain for Seamless Lawful Interception)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.196-197
    • /
    • 2017
  • 합법적 감청(LI: Lawful Interception)이란, 합법적으로 음성 통신 내용 및 데이터와 그와 관련된 일련의 정보를 수집하는 활동을 말한다. 그러나 IP 기반의 4G-LTE 네트워크와 다수의 사업자망을 이동하는 과정에서 발생되는 반복적인 법원의 영장 재발부 절차는 합법적 감청의 연속성을 저해하는 요소가 되어왔다. 이러한 문제점을 해결하기 위해 재발부 과정을 생략하고, 기존 영장 그대로 다음 국가나 네트워크 사업자에게 전달하는 방식이 제안되었지만, 보안성에 대한 문제가 여전히 존재한다. 본 연구에서는 블록체인 기반의 분산 데이터베이스 상에서 디지털 영장을 발부함으로써 영장의 재발부 과정을 거치지 않으면서도 보안성이 높고 안전하게 연속적인 합법적 감청을 수행할 수 있는 모델을 제안한다.