• 제목/요약/키워드: Text-to-Speech (TTS)

검색결과 140건 처리시간 0.028초

서버 기반 웹 리더 kWebAnywhere의 설계 및 구현 (Design and Implementation of Server-Based Web Reader kWebAnywhere)

  • 윤영선
    • 말소리와 음성과학
    • /
    • 제5권4호
    • /
    • pp.217-225
    • /
    • 2013
  • This paper describes the design and implementation of the kWebAnywhere system based on WebAnywhere, which assists people with severely diminished eye sight and the blind people to access Internet information through Web interfaces. The WebAnywhere is a server-based web reader which reads aloud the web contents using TTS(text-to-speech) technology on the Internet without installing any software on the client's system. The system can be used in general web browsers using a built-in audio function, for blind users who are unable to afford to use a screen reader and for web developers to design web accessibility. However, the WebAnywhere is limited to supporting only a single language and cannot be applied to Korean web contents directly. Thus, in this paper, we modified the WebAnywhere to serve multiple language contents written in both English and Korean texts. The modified WebAnywhere system is called kWebAnywhere to differentiate it with the original system. The kWebAnywhere system is modified to support the Korean TTS system, VoiceText$^{TM}$, and to include user interface to control the parameters of the TTS system. Because the VoiceText$^{TM}$ system does not support the Festival API used in the WebAnywhere, we developed the Festival Wrapper to transform the VoiceText$^{TM}$'s private APIs to the Festival APIs in order to communicate with the WebAnywhere engine. We expect that the developed system can help people with severely diminished eye sight and the blind people to access the internet contents easily.

키프레임 얼굴영상을 이용한 시청각음성합성 시스템 구현 (Implementation of Text-to-Audio Visual Speech Synthesis Using Key Frames of Face Images)

  • 김명곤;김진영;백성준
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.73-88
    • /
    • 2002
  • In this paper, for natural facial synthesis, lip-synch algorithm based on key-frame method using RBF(radial bases function) is presented. For lips synthesizing, we make viseme range parameters from phoneme and its duration information that come out from the text-to-speech(TTS) system. And we extract viseme information from Av DB that coincides in each phoneme. We apply dominance function to reflect coarticulation phenomenon, and apply bilinear interpolation to reduce calculation time. At the next time lip-synch is performed by playing the synthesized images obtained by interpolation between each phonemes and the speech sound of TTS.

  • PDF

음성 합성기를 위한 문맥 적응 스무딩 필터의 구현 (Context-adaptive Smoothing for Speech Synthesis)

  • 이기승;김정수;이재원
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.285-292
    • /
    • 2002
  • 문자-음성 합성기 (Text-To-Speech, TTS)에서 해결되어야 할 문제점 중의 하나는 음소의 연결 부위에서 발생하는 불연속성이다. 이러한 문제점을 해결하기 위한 방안으로 본 논문에서는 저역 여파기를 이용한 스무딩 기법을 적용하였다. 제안된 스무딩 기법은 스무딩의 정도를 제어하는 필터 계수를 현재 합성하고자 하는 문맥에 따라 결정하여, 경계에서의 불연속성을 효과적으로 제거하고 스무딩으로 인하여 발생할 수 있는 음성의 왜곡을 억제하였다. 스무딩 정도는 현재 합성된 음성의 불연속 정도와 주어진 문맥으로부터 예측된 불연속 정도를 통해 결정하였으며, 문맥으로부터 불연속 정도의 예측은 음소 정보를 입력, 불연속 값을 출력으로 하는 CART(Classification And Regression Tree)를 통해 이루어진다. 제안된 기법의 성능 평가를 위해 코퍼스 기반 연결(corpus-based concatenative) 문자-음성 합성기를 기본 시스템으로 사용하였으며, 청취 테스트에서 60%이상 의 청취자가 제안된 스무딩 기법을 통해 합성된 음성이 스무딩 기법이 사용되지 않은 경우와 비교하여 명료성과 자연성 면에서 우수하다고 판단하였다.

자연어 처리 기반 한국어 TTS 시스템 구현 (Implementation of Korean TTS System based on Natural Language Processing)

  • 김병창;이근배
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.51-64
    • /
    • 2003
  • In order to produce high quality synthesized speech, it is very important to get an accurate grapheme-to-phoneme conversion and prosody model from texts using natural language processing. Robust preprocessing for non-Korean characters should also be required. In this paper, we analyzed Korean texts using a morphological analyzer, part-of-speech tagger and syntactic chunker. We present a new grapheme-to-phoneme conversion method for Korean using a hybrid method with a phonetic pattern dictionary and CCV (consonant vowel) LTS (letter to sound) rules, for unlimited vocabulary Korean TTS. We constructed a prosody model using a probabilistic method and decision tree-based method. The probabilistic method atone usually suffers from performance degradation due to inherent data sparseness problems. So we adopted tree-based error correction to overcome these training data limitations.

  • PDF

d-vector를 이용한 한국어 다화자 TTS 시스템 (A Korean Multi-speaker Text-to-Speech System Using d-vector)

  • 김광현;권철홍
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.469-475
    • /
    • 2022
  • 딥러닝 기반 1인 화자 TTS 시스템의 모델을 학습하기 위해서 수십 시간 분량의 음성 DB와 많은 학습 시간이 요구된다. 이것은 다화자 또는 개인화 TTS 모델을 학습시키기 위해서는 시간과 비용 측면에서 비효율적 방법이다. 음색 복제 방법은 새로운 화자의 TTS 모델을 생성하기 위하여 화자 인코더 모델을 이용하는 방식이다. 학습된 화자 인코더 모델을 통해 학습에 사용되지 않은 새로운 화자의 적은 음성 파일로부터 이 화자의 음색을 대표하는 화자 임베딩 벡터를 만든다. 본 논문에서는 음색 복제 방식을 적용한 다화자 TTS 시스템을 제안한다. 제안한 TTS 시스템은 화자 인코더, synthesizer와 보코더로 구성되어 있는데, 화자 인코더는 화자인식 분야에서 사용하는 d-vector 기법을 적용한다. 학습된 화자 인코더에서 도출한 d-vector를 synthesizer에 입력으로 추가하여 새로운 화자의 음색을 표현한다. MOS와 음색 유사도 청취 방법으로 도출한 실험 결과로부터 제안한 TTS 시스템의 성능이 우수함을 알 수 있다.

자연음 TTS(Text-To-Speech) 엔진 구현 (Implementation of TTS Engine for Natural Voice)

  • 조정호;김태은;임재환
    • 디지털콘텐츠학회 논문지
    • /
    • 제4권2호
    • /
    • pp.233-242
    • /
    • 2003
  • TTS(Text-To-Speech) 시스템은 텍스트 문장을 자연스러운 음성으로 출력하는 시스템이다. 자연스러운 음성을 출력하기 위해서 언어에 대한 전문적 지식을 비롯하여 많은 시간과 노력이 요구된다. 또한 영어의 음운 변환은 음소에 따라 형태소에 따라 의미에 따라 다양한 변환을 가진다. 이를 일괄적으로 처리하기란 매우 힘든 일이다. 이러한 문제들을 해결하기 위하여 모음과 자음의 변화의 규칙을 적용한 시스템을 구현한다. 이 시스템은 문장의 분석을 통해 분류하고 음소 규칙 데이터를 통해 자연스러운 음성을 출력하게 되는 이전 과정을 통해 특수문자나 숫자 등을 정규화하여 처리한다. 이렇게 처리된 문자 데이터를 운율규칙을 통해 최종 출력한다. 그 결과, 40개의 음소 규칙 데이터를 통해 보다. 정확한 음성을 출력할 수 있었으며, 시스템의 효율성도 높였다. 본 논문에서 제시한 시스템은 각종 통신장비와 자동화기기에 적용하여 다양한 분야에 활용될 수 있을 것이다.

  • PDF

웹상의 영상 내의 문자 인식과 음성 전환 시스템 (Text to Speech System from Web Images)

  • 안희임;정기철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.5-8
    • /
    • 2001
  • The computer programs based upon graphic user interface(GUI) became commonplace with the advance of computer technology. Nevertheless, programs for the visually-handicapped have still remained at the level of TTS(text to speech) programs and this prevents many visually-handicapped from enjoying the pleasure and convenience of the information age. This paper is, paying attention to the importance of character recognition in images, about the configuration of the system that converts text in the image selected by a user to the speech by extracting the character part, and carrying out character recognition.

  • PDF

시각장애인의 정보 접근성 향상을 위한 모바일 신문 어플리케이션 인터페이스 (A Mobile Newspaper Application Interface to Enhance Information Accessibility of the Visually Impaired)

  • 이승환;홍성호;고승희;최희연;황성수
    • 한국HCI학회논문지
    • /
    • 제11권3호
    • /
    • pp.5-12
    • /
    • 2016
  • 최근 TTS(Text-to-Speech)기능을 활용한 시각 장애인의 스마트폰 사용이 계속 증가하고 있다. TTS기능은 어플리케이션 내부의 문자 정보를 음성정보로 전환하며, 어플리케이션 내 정보를 순차적으로만 접근할 수 있다. 이러한 이유로 어플리케이션 내부의 버튼 및 콘텐츠의 배치가 효과적으로 이루어져야 한다. 그러나 기존에 제안된 모바일 어플리케이션, 특히 다양한 콘텐츠가 포함된 신문 어플리케이션의 경우 TTS 사용 환경을 고려하지 않았다. 따라서 시각 장애인들이 이용하기에 매우 어려운 상황이다. 또한 전맹인 이외에도 저시력 장애인을 고려한 인터페이스가 필요한 상황이다. 따라서 본 논문은 다양한 시각장애인의 접근성과 요구를 반영한 모바일 신문 어플리케이션 인터페이스를 제안한다. 제안하는 인터페이스는 TTS 사용 환경을 고려한 버튼 배치 및 검색 기능 및 이미 읽은 기사 분류 기능을 통해 빠르게 어플리케이션을 사용할 수 있게 하였다. 또한 잘못 발음되는 단어를 필터링하고 버튼에 대한 충분한 설명을 통해 어플리케이션을 원활하게 사용할 수 있게 하였다. 마지막으로 저시력 장애인을 위해 글자 크기 확대, 화면 반전 기능 등을 구현하였다. 실험 결과 제안하는 인터페이스가 일반 신문 어플리케이션 및 기존에 제안된 시각장애인용 인터페이스보다 기사 검색 속도 및 어플리케이션 사용성 측면에서 높은 성능을 나타내는 것을 확인하였다.

한국어 음성합성기의 운율 예측을 위한 의사결정트리 모델에 관한 연구 (A Study of Decision Tree Modeling for Predicting the Prosody of Corpus-based Korean Text-To-Speech Synthesis)

  • 강선미;권오일
    • 음성과학
    • /
    • 제14권2호
    • /
    • pp.91-103
    • /
    • 2007
  • The purpose of this paper is to develop a model enabling to predict the prosody of Korean text-to-speech synthesis using the CART and SKES algorithms. CART prefers a prediction variable in many instances. Therefore, a partition method by F-Test was applied to CART which had reduced the number of instances by grouping phonemes. Furthermore, the quality of the text-to-speech synthesis was evaluated after applying the SKES algorithm to the same data size. For the evaluation, MOS tests were performed on 30 men and women in their twenties. Results showed that the synthesized speech was improved in a more clear and natural manner by applying the SKES algorithm.

  • PDF

코퍼스 방식 음성합성에서의 개선된 운율구 경계 예측 (AP, IP Prediction For Corpus-based Korean Text-To-Speech)

  • 권오일;홍문기;강선미;신지영
    • 음성과학
    • /
    • 제9권3호
    • /
    • pp.25-34
    • /
    • 2002
  • One of the most important factor in the performance of Korean text-to-speech system is the prediction of accentual and intonational phrase boundary. The previous method of prediction shows only the 75-85% which is not proper in the practical and commercial system. Therefore, more accurate prediction must be needed in the practical system. In this study, we propose the simple and more accurate method of the prediction of AP, IP.

  • PDF