• 제목/요약/키워드: 음소

검색결과 529건 처리시간 0.023초

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 (UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS)

  • 이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.91-98
    • /
    • 2010
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

  • 손현수;박호성;김규진;조은수;김지환
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.530-536
    • /
    • 2021
  • 최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.

음질, 운율, 발음 특징을 이용한 마비말장애 중증도 자동 분류 (Automatic severity classification of dysarthria using voice quality, prosody, and pronunciation features)

  • 여은정;김선희;정민화
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.57-66
    • /
    • 2021
  • 본 논문은 말 명료도 기준의 마비말장애 중증도 자동 분류 문제에 초점을 둔다. 말 명료도는 호흡, 발성, 공명, 조음, 운율 등 다양한 말 기능 특징의 영향을 받는다. 그러나 대부분의 선행연구는 한 개의 말 기능 특징만을 중증도 자동분류에 사용하였다. 본 논문에서는 음성의 장애 특성을 효과적으로 포착하기 위해 마비말장애 중증도 자동 분류에서 음질, 운율, 발음의 다양한 말 기능 특징을 반영하고자 하였다. 음질은 jitter, shimmer, HNR, voice breaks 개수, voice breaks 정도로 구성된다. 운율은 발화 속도(전체 길이, 말 길이, 말 속도, 조음 속도), 음높이(F0 평균, 표준편차, 최솟값, 최댓값, 중간값, 25 사분위값, 75 사분위값), 그리고 리듬(% V, deltas, Varcos, rPVIs, nPVIs)을 포함한다. 발음에는 음소 정확도(자음 정확도, 모음 정확도, 전체 음소 정확도)와 모음 왜곡도[VSA(vowel space area), FCR (formant centralized ratio), VAI(vowel articulatory index), F2 비율]가 있다. 본 논문에서는 다양한 특징 조합을 사용하여 중증도 자동 분류를 시행하였다. 실험 결과, 음질, 운율, 발음 특징 세 가지 말 기능 특징 모두를 분류에 사용했을 때 F1-score 80.15%로 가장 높은 성능이 나타났다. 이는 마비말장애 중증도 자동 분류에는 음질, 운율, 발음 특징이 모두 함께 고려되어야 함을 시사한다.

이집트인 학습자의 한국어 모음 지각과 산출 (The perception and production of Korean vowels by Egyptian learners)

  • 사라 벤자민;이호영
    • 말소리와 음성과학
    • /
    • 제13권4호
    • /
    • pp.23-34
    • /
    • 2021
  • 이 연구는 이집트인 한국어 학습자를 대상으로 하여 이들이 한국어 모음을 어떻게 지각하고 범주화하며, 이들이 발음한 한국어 모음을 한국인들이 어떻게 지각하는지 밝히고, 이를 토대로 이집트인 학습자들의 한국어 모음 범주화가 그들의 한국어 모음 지각과 산출에 어떤 영향을 미치는지 밝히는 것을 목적으로 한다. 실험 1에서는 이집트인 학습자가 한국어 모음을 어떻게 지각하는지 알아보기 위해 이집트인 학습자 53명을 대상으로 하여 한국인이 발음한 한국어 자극 단어를 듣고 어느 단어를 들었는지 객관식으로 고르는 과제를 수행하게 하였고, 실험 2에서는 이집트인 학습자들이 발음한 한국어 모음을 한국인들이 어떻게 지각하는지 밝히기 위해 이집트인 학습자 9명이 산출한 자극 단어 117(13개×9명)개를 한국인들에게 들려주고, 어느 단어를 들었는지 객관식으로 고르게 한 다음 모음의 발음이 원어민 수준에 얼마나 근접하는지 5점 척도로 평가하도록 하였다. 실험 결과 이집트어에 존재하지 않는 "새로운" 한국어 모음은 별도의 범주를 쉽게 형성하여 잘 지각된 반면 산출이 잘 되는 새로운 모음도 있었고, 산출에서 어려움을 겪는 모음도 있었다. 반면에 이집트어 음소와 "비슷한" 한국어 음소는 비교적 잘 산출되지만 지각하는 데는 큰 어려움이 있다는 사실도 확인할 수 있었다. 이 연구 결과를 토대로 기존의 음성학습모델(speech learning model)과 지각동화모델(perceptual assimilation model)이 제2언어 학습자들의 제2언어 음성 지각을 잘 설명해 주지만 음성 산출을 설명하는 데 미흡함이 있어 이에 대한 보완이 필요함을 논의했다.

가변 Break를 이용한 코퍼스 기반 일본어 음성 합성기의 성능 향상 방법 (A Performance Improvement Method using Variable Break in Corpus Based Japanese Text-to-Speech System)

  • 나덕수;민소연;이종석;배명진
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.155-163
    • /
    • 2009
  • Text-to-speech 시스템에서 입력 텍스트로부터 운율 정보를 생성하기 위해서는 운율구 경계, 음소 지속시간, 기본주파수 포락선 설정의 3가지 기본적인 모듈이 필요하다. Break 인덱스 (BI; Break Index)는 합성기에서 운율구의 경계를 나타내고, 자연스러운 합성음을 생성하기 위해서는 BI를 정확히 예측하여야 한다. 그러나 BI는 문장의 의미나 화자의 읽기 습관(reading style)에 따라 임의적으로 결정되는 경우가 많아 정확한 예측이 매우 어렵다. 특히 일본어 합성기에서는 악센트 구 경계 (APB; Accentual Phrase Boundary)와 major phrase 경계 (MPB; Major Phrase Boundary)의 정확한 예측이 어렵다. 따라서 본 논문에서는 APB와 MPB 예측 오류를 보완할 수 있는 방법을 제안한다. BI를 고정 break (FB; Fixed Break)와 가변 break (VB; Variable Break)로 분류하여 합성단위 선택을 수행한다. 일반적으로 BI는 한번 생성되면 변하지 않는다. 따라서 BI가 잘못 생성된 경우 최적의 합성음을 생성할 수 없게 되는데, VB는 생성된 BI와 그것과 유사한 BI를 함께 이용하여 합성단위 선택을 수행함으로써 합성음의 BI가 생성된 BI와 다를 수 있는 것을 의미한다. APB와 MPB에 해당하는 BI에 대하여 VB인지 FB인지 CART(Classification and Regression Tree)를 이용하여 예측하고, VB인 경우 기본 주파수와 음소 지속시간에 대해 다중 운율 모델을 생성하여 합성단위 선택을 수행하였다. MOS 테스트 결과 원음이 4.99, 제안한 방법을 4.25, 기존의 방법은 4.01로 합성음의 자연성을 향상시킬 수 있었다.

대용량 복수후보 TTS 방식에서 합성용 DB의 감량 방법 (A DB Pruning Method in a Large Corpus-Based TTS with Multiple Candidate Speech Segments)

  • 이정철;강태호
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.572-577
    • /
    • 2009
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 중복되는 음편의 감량을 위해서 음성인식분야에서 사용되는 결정트리 기반의 트라이폰 군집화 알고리즘을 사용할 수 있지만 음편 내의 음향적 천이 특성을 반영하기가 어렵고 문맥질의 적용이 체계적이지 못하여 TTS에 바로 적용하기 어렵다. 본 논문에서는 DB감량을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 제안한다. 먼저 음편의 처음, 중간, 끝 3프레임의 각 13차 MFCC벡터를 통합한 39차의 벡터로 음편내의 변이성과 연결성을 표현한다. 결정 트리의 상위부분에서는 포괄적인 문맥질의를 하위부분에서는 세부적인 문맥질의를 적용시켰다. 그리고 기존 결정트리 시스템과 제안된 시스템과의 성능평가를 위하여 평가용 트라이폰 모델의 음편과 트리에서 탐색한 트라이폰 모델의 음편들 간의 음향적 유사도를 DTW를 적용하여 계산하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 음향적 유사도가 높은 음편을 선택함을 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

PC용 Text-to-Speech 시스템 개발 (Development of Text-to-Speech System for PC)

  • 최무열;황철규;김순태;김정곤;이서배;장석복;표경란;안혜선;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.41-44
    • /
    • 1999
  • 본 논문에서는 PC 응용을 위한 고음질의 한국어 text-to-speech(TTS) 합성 시스템을 개발하였다. 개발된 시스템의 합성방식으로는 음의 고저 조절, 인접음 사이의 연결 처리 및 음색제어 등에서 기존의 PSOLA 방식에 비해 장점을 가지는 정현파 모델 기반의 방식을 채택하였고, 자연스러운 운율 모델링을 위하여 통계적 기법중의 하나인 Classification and regression tree(CART) 방법을 사용하였다. 또한 음소 경계의 불연속성 문제를 줄이기 위한 합성단위로 초성-중성 및 종성 단위를 사용하였고, 다양한 음색표현이 가능하도록 음색제어 기능을 갖추었다. 그리고, 표준 Speech Application Program Interface(SAPI)를 준용한 TTS engine 형태로 구현함으로써 PC 상에서의 응용 프로그램 개발 편의성을 높였다. 합성음의 청취평가 결과 음질의 우수성 및 음색제어 기능의 유효성을 확인할 수 있었다.

  • PDF

음소 모델의 Back-Off 기법을 이용한 어휘독립 음성인식기의 성능개선 (Performance Improvement of Vocabulary Independent Speech Recognizer using Back-Off Method on Subword Model)

  • 구동욱;최준기;오영환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.19-22
    • /
    • 2000
  • 어휘독립 음성인식이란 음향학적 모델 훈련에 사용하지 않은 어휘들을 인식하는 것이다. 단어모델을 이용한 어휘독립 음성인식 시스템은 발음표기로 변환된 인식대상어휘에 대하여 문맥 종속형 부단어(context dependent subword) 단위로 훈련된 모델을 연결하여 단어 모델을 만들고 이 단어 모델로 인식을 수행한다. 이러한 시스템의 경우 훈련과정에서 나타나지 않는 문맥 종속형 부단어가 인식대상어휘에서 나타나게 되고, 따라서 정확한 단어모델을 구성할 수 없다는 문제점이 있다 본 논문에서는 문맥 종속형 부단어 구분의 계층화를 통한 back-off 선택 방법을 이용하여 새롭게 나타난 문맥 종속형 부단어 대신 연결될 부단어 모델을 찾아내는 방법을 제안한다 제안된 선택 방법은 새롭게 나타난 문맥 종속형 부단어를 포함하는 상위의 부단어를 찾아내는 방법이다. 실험 결과 10단어 세트에서 $97.5\%$ 50단어 세트에서$90.16\%$ 100 단어 세트에서 $82.08\%$의 인식률을 얻었다.

  • PDF

초등학교에서의 영어 발음 및 청취 교육

  • 정인교
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.248-248
    • /
    • 1997
  • 오늘날 영어교육은 교과과정령에 엄연히 명시된 네 가지 기능(four skills) 즉 듣기, 말하기, 원기, 쓰기라는 정당하고도 보편 타당성 있는 명분 하에 어떻게 가르쳐 왔는가 를 반문해 보면 많은 아쉬움이 남는다. 그간 6년간의 중등과정, 심지어는 대학에서 환 두해까지 영어를 이수한 사람틀 중에는 문자를 통해서는 상당한 수준, 그것도 영어 토박이들조차 놀랄 정도의 영어를 이해하지만, 소리를 통해 들을 때는 ---말하는 것은 두말 할 것도 없고---아주 간단한 내용의 영어조차 알아듣기 힘든 경험을 한 사람이 많다는 것은 부인할 수 없는 사실이다. 그 이유는 명백하다. 즉, 문자를 대할 때는 시각적 자극의 형태가 두뇌 속에 저장된 정보---가공할 문법적 지식---와 일치하기 때문에 쉽게 이해를 할 수 있는 반면, 소리를 들을 때는 청각적 자극의 형태가 두뇌 속에 저장된 정보---극히 불완전한 발음사전, 또는 모국어의 음운체계에 의한 영어발음--- 와 차이가 있기 때문일 것이다. 그러므로 적어도 말소리를 매체로 하는 의사소통에 있어서는 영어의 본토박이 발음을 정확히, 아니면 적어도 매우 근접하게 나마 터득하여(습관화하여)두뇌에 저장하는 일이 가장 중요한 일이다. 따라서 영어교사는 모국어의 음운체계에 대한 정확하고도 상세한 지식을 토대로 하여 영어의 음운체계와 '언어학적으로 의미 있는 (linguistically significant)' 대초분석의 방법으로 발음을 지도한다면 보다 나은 학습효과를 기대할 수 있을 것이다. 일반적으로 모국어의 발음이 외국어의 발음에 간섭을 유발하는 경우는 다음과 같다. 1. 분절음체계가 서로 다를 때 2. 한 언어의 음소가 다른 언어의 이음(allophone)일 때 3. 유사한 음의 조음장소와 방법 이 다를 때 4. 분절음의 분포 또는 배열이 다를 때 5. 음운현상이 다를 때 6. 언어의 리듬이 다를 때 위의 여섯 가지 경우를 중심으로 영어와 한국어의 발음특성을 대조하여 '낯선 말투(foreign accent)' 또는 발음오류를 최소로 줄이는 것이 영어교사의 일차적인 목표이다.

  • PDF

연속음에서의 각 음소의 대표구간 추출에 관한 연구 (A study on extraction of the frames representing each phoneme in continuous speech)

  • 박찬응;이쾌희
    • 전자공학회논문지B
    • /
    • 제33B권4호
    • /
    • pp.174-182
    • /
    • 1996
  • In continuous speech recognition system, it is possible to implement the system which can handle unlimited number of words by using limited number of phonetic units such as phonemes. Dividing continuous speech into the string of tems of phonemes prior to recognition process can lower the complexity of the system. But because of the coarticulations between neiboring phonemes, it is very difficult ot extract exactly their boundaries. In this paper, we propose the algorithm ot extract short terms which can represent each phonemes instead of extracting their boundaries. The short terms of lower spectral change and higher spectral chang eare detcted. Then phoneme changes are detected using distance measure with this lower spectral change terms, and hgher spectral change terms are regarded as transition terms or short phoneme terms. Finally lower spectral change terms and the mid-term of higher spectral change terms are regarded s the represent each phonemes. The cepstral coefficients and weighted cepstral distance are used for speech feature and measuring the distance because of less computational complexity, and the speech data used in this experimetn was recoreded at silent and ordinary in-dorr environment. Through the experimental results, the proposed algorithm showed higher performance with less computational complexity comparing with the conventional segmetnation algorithms and it can be applied usefully in phoneme-based continuous speech recognition.

  • PDF