• 제목/요약/키워드: 연속음성

검색결과 419건 처리시간 0.027초

연속 음성으로부터 추출한 CVC 음성세그먼트 기반의 음성합성 (Speech Synthesis Based on CVC Speech Segments Extracted from Continuous Speech)

  • 김재홍;조관선;이철희
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.10-16
    • /
    • 1999
  • 본 논문에서는 설계하지 않은 연속 음성 코퍼스로부터 추출된 CVC 음성 세그먼트를 사용하는 연결 기반 음성 합성기를 제안한다. 연속 음성은 각 음운간의 상호조음효과가 비교적 잘 반영되고, 자연스러운 억양 변화를 포함하고 있으므로 이를 적절하게 활용할 수 있는 합성 단위를 선택하면 자연스런 음성합성이 가능하다. 여러 가지 합성단위 가운데 CVC 합성 단위는 자음의 안정 부분에서 접속이 일어나므로 연결부에서의 음질 저하가 적고, 전후 자음과 모음간의 조음 현상을 잘 반영하는 장점이 있다. 본 논문에서는 CVC 합성 단위를 사용하는 경우 나타나는 문장 세그먼트들의 조합을 4가지로 분류하여 각각의 통계적 특성과 합성음성의 품질을 분석하고, CVC에 근거한 새로운 복합 합성 단위를 사용하는 방식을 제안한다. 제안된 방식을 사용하여 설계하지 않은 연속 음성 코퍼스로부터 CVC 음성 세그먼트를 추출하여 다양한 예제 문장을 합성하였다. 만일 필요한 CVC 음성 세그먼트가 음성 코퍼스에 존재하지 않는 경우 반음절 음성 세그먼트로 대치하여 합성하였다. 실험 결과 약 100 Mbytes의 연속 음성 코퍼스로 비교적 자연스러운 음성합성이 가능함을 알 수 있었다.

  • PDF

64kbit/s(7 kHz) Codec을 경유한 연속음성의 인식 (Recognition of Continuous speech via 64kbit/s(7 kHz) Codec)

  • 정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.125-127
    • /
    • 1993
  • 오디오 혹은 비디오화의, 방송 고품질전화 등의 음성신호의 전송을 위해 마련된 CCITT Recommendation G.722에 의거 Codec을 구성하고 이를 통과한 연속음성을 CMU의 불특정 화자 연속음성인식 시스템인 SPHINX에 입력하여 인식률을 조사 한 후 CODING전의 인식결과와 비교하였다. 이때 CODEC은 크게 네 부분(Trans Quarature Mirror Filter, Encoder, Decoder, Receive QMF)으로 구성하고 입력음성 데이터는 150화자에 의한 1018문장을 훈련용으로, 140문장을 테스트용으로 하였을 때의 단어 인식률을 인식률로 하였다. 또 이때 특징벡터로는 12차 Melcepstrum 계수를 사용하였다. 인식결과 코딩전(close talk Mic를 이용하여 직접입력)의 단어 인식률이 86.7%인데 비해 코딩후의 인식률은 85.6%로 나타나 약 1%의 인식률 저하를 가져와 코딩으로 인한 Error에 비해 비교적 양호한 결과를 얻을 수 있었다. 인식률 저하의 원인으로서는 코딩시의 BER(Bit Error Rate)에 의한 것으로 생각된다.

  • PDF

HMM을 이용한 연속음성인식 시스템의 화자적응화에 관한 연구 (A Study on Speaker Adaptation of HMM in a Continous Speech Recognition System)

  • 김상범
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.100-104
    • /
    • 1995
  • 일반적으로 화자적응화는 이미 학습되어 있는 불특정 화자 모델을 표준모델로 하고 소량의 적응화용 발화로 추가적인 학습을 실시하여 특정화자 모델의 성능에 가깝게 하는 기술로서 연속음성 인식에 있어서 매우 중요하다. ML 추정법을 이용한 화자적응화는 카테고리마다 모델의 학습패턴들을 다수개 준비한 후 학습시에 일괄적으로 적용시켜 모델 파라메터를 추정 갱신하므로 추가되는 화자데이터에 대해 데이터를 모두 공급하여야 한다. 본 연구에서는 문발화 데이터의 음절단위를 자동추출한 후 추가되는 화자데이터가 주어질 때 마다 적응화할 수 있는 화자적응화 방법을 검토하였다. 이 방법은 문발화 데이터를 잘라내지 않고 음절 단위를 자동추출시켜 추가 데이터마다 최대 사후확률 추정법을 이용하여 적응화 시키는 것으로 수소의 데이터로서도 적응화를 가능하게 하는 것이다. 본 연구에서 사용되는 음성데이터는 신문사설에서 발췌한 연속음성 10문장을 사용하고, 이 음성 데이터중 6명분은 HMM 학습용으로 하고 나머지 3명분은 적응화용 및 평가용 데이터로 사용하였다. 6명의 화자를 DDCHMM으로 학습하고 나머지 3명분을 MAP법으로 적응화시켰다. 그 결과 적응전과 비교해 볼 때 약 32%의 인식율 향상을 얻을 수 있었다.

  • PDF

연속 음성 인식 향상을 위해 LMS 알고리즘을 이용한 CHMM 모델링 (CHMM Modeling using LMS Algorithm for Continuous Speech Recognition Improvement)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.377-382
    • /
    • 2012
  • 본 논문은 반향 제거 평균 예측 LMS 알고리즘을 이용하여 반향 잡음에 강인한 연속 음성 인식 모델인 CHMM 모델을 구성하는 방법을 제안하였다. 변화하는 반향 잡음에 적응하고 연속 음성 인식 성능 향상을 위한 반향 잡음 제거 평균 예측 LMS 알고리즘을 이용하여 CHMM 모델을 구성하였다. 제안한 알고리즘에 의해 구성된 CHMM 모델에 대하여 연속 인식 성능을 평가하였다. 실험 결과 변화하는 환경 잡음을 제거하여 얻은 음성의 SNR은 평균 1.93dB이 향상되었고 연속 음성의 인식률은 2.1% 향상되었다.

대화체 연속음성인식을 위한 확장 다중발음 사전에 관한 연구 (A Study on the Multiple Pronunciation Dictionary for Spontaneous Speech Recognition)

  • 강병옥
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.65-68
    • /
    • 2003
  • 본 논문에서는 대화체 연속음성인식 과정에서 사용되는 다중발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 한 확장된 발음사전의 방법을 적용하여 대화체 연속음성인식에서 인식성능의 향상을 가져오게 됨을 실험을 통해 보여준다. 대화체 음성에서 빈번하게 나타나는 음운축약 및 음운탈락, 전형적인 오발화, 양성음의 음성음화 등의 발음변이는 언어모델의 효율성을 떨어뜨리고 어휘 수를 증가시켜 음성인식의 성능을 저하시키고, 또한 음성인식 결과로 나타나는 출력형태가 정형화되지 못하는 단점을 가지고 있다. 이에 이러한 발음변이들을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고, 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 한다. 그리고, 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 하여 결과적으로 인식성능을 향상시키고, 정형화된 출력패턴을 얻도록 한다. 본 연구에서는 어절단위 뿐 아니라 의사형태소[2] 단위의 발음사전에도 발음변이를 포용하도록 하여 실험을 하였다. 실험을 통해 어절단위의 다중발음사전 구성을 통해 ERR 10.9%, 의사형태소 단위의 다중발음 사전의 구성을 통해 ERR 4.3%의 성능향상을 보였다.

  • PDF

음성학적 특징을 이용한 연속 숫자음인식 (Connected Digit Recognition Using Phonetical Features)

  • 김민정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제5권
    • /
    • pp.72-75
    • /
    • 1998
  • 본 논문에서는 숫자음 인식시스템의 인식률 향상을 위한 연구로서 4연속 숫자음을 대상으로 연음 현상 및 경음화 현상등과 같은 음성학적 특징을 고려하여 숫자음에 강건한 모델을 작성하는 방법을 제안하고 인식실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로서는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서 음향학적 특징을 고려한 19개의 연속분포 HMM을 유사음소 단위(Phoneme Like Units ; PLUS) 로 사용한다. 또한 , 인식실험에 있어서는 기존의 방법으로 모델을 작성한 경우와 연음 현상과 경음화 현상 등과 같은 음성학적 특징을 고려하여 모델을 작성한 경우에 대해서 유한상태 오토마타(finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming)법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 기존이 방법의 경우 64.6%, 음성학적 특징을 고려한 경우 68.6%의 인식률을 보여, 음성학적 특징을 고려한 경우가 4.0% 향상된 인식률을 얻어 제안한 방법의 유효성을 확인하였다.

  • PDF

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

문형정보와 N-gram 단어정보를 이용한 연속음성인식 후처리 (A post processing of continuous speech recognition using N-gram words and sentence patterns)

  • 엄한용;황도삼
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.324-326
    • /
    • 2000
  • 본 논문에서는 항공편 예약이라는 제한 영역에서의 연속음성인식 시스템을 위한 후처리 본 논문에서는 항공편 예약이라는 제한 영역에서의 연속음성인식 시스템을 위한 후처리 방안을 제시한다. 제안하는 후처리 방안은 200 문장의 항공편 예약 텍스트 데이터를 이용하여 문형 정보를 추출한 뒤 특정 문형별로 분류하였다. 분류된 문형과 음성인식 후의 문장을 비교하여 가장 유사한 문형을 추론한다. 추론한 특정 문형에서 나올 수 있는 형태소를 형태소들간의 N-gram 정보가 수록된 데이터베이스를 이용하여 형태소를 수정하고 보완한 결과를 최종 문장으로 출력한다.

  • PDF

분별학습에 기반한 전화 숫자음 음성인식

  • 한문성
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제5권2호
    • /
    • pp.7-17
    • /
    • 2001
  • 음성인식 시스템이 있어서 현재 가장 널리 사용되고 있는 Hidden Markov Model(HMM)은 확률 모델을 기반한 것으로 데이터에 대한 통계처리를 학습과정으로 하고 있다. 한국어 연속 숫자음에 대한 음성인식은 고립 숫자음 인식과는 달리 충분한 학습데이터만으로는 만족할 만한 결과를 가져오지 못한다. 이 논문에서는 연속 숫자음 음성인식에 잇어서 비슷하게 발음되는 숫자음과 같은 숫자에 대해 다양하게 발음되는 숫자음에 대해 HMM의 한계를 제시하고 그 해결채으로 Discriminant 학습의 적용방법을 제시한다. 연속 숫자음의 인식 시스템을 구현하는 데 있어서 인식률 낮은 부분에 Discriminant 학습을 적용하여 인식률을 대폭 향상시킨 실험결과를 제시한다.

  • PDF

음성 인식 후처리를 위한 연속 음절 문장의 키워드 추출 알고리즘 (Keyword Spotting Algorithm within a Continuous Syllable Sentence for the Post-Processing of Speech Recognition)

  • 조시원;이동욱
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.170-171
    • /
    • 2008
  • 연속적인 음성 인식 결과는 띄어쓰기를 하지 않은 연속 음절 문장들로 이루어져 있다. 본 논문은 음성 인식 후처리 단계에서 연속 음절 문장을 조사/어미 사전을 이용한 어절 생성 과정과 형태소 분석기를 이용하여 어절을 생성한 후 키워드를 추출한다. 실험 결과, 어절 생성기만 적용한 방식보다 제안된 알고리즘의 인식률이 향상되는 것을 확인하였다.

  • PDF