• 제목/요약/키워드: TTS(Text-to-Speech)

검색결과 139건 처리시간 0.027초

Decision-Tree-Based Markov Model for Phrase Break Prediction

  • Kim, Sang-Hun;Oh, Seung-Shin
    • ETRI Journal
    • /
    • 제29권4호
    • /
    • pp.527-529
    • /
    • 2007
  • In this paper, a decision-tree-based Markov model for phrase break prediction is proposed. The model takes advantage of the non-homogeneous-features-based classification ability of decision tree and temporal break sequence modeling based on the Markov process. For this experiment, a text corpus tagged with parts-of-speech and three break strength levels is prepared and evaluated. The complex feature set, textual conditions, and prior knowledge are utilized; and chunking rules are applied to the search results. The proposed model shows an error reduction rate of about 11.6% compared to the conventional classification model.

  • PDF

시각장애인을 위한 네비게이션 시스템 설계 및 구현 (Design and Implementation of a Navigation System for Visually Impaired Persons)

  • 장수민;황동교;강수;김은주;박준호;장기훈;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제12권1호
    • /
    • pp.38-47
    • /
    • 2012
  • 본 논문은 시각장애인들의 활동 범위를 확대하기 위해서 주변 시설물 검색서비스와 길안내 서비스를 제공하는 시각장애인을 위한 네비게이션 시스템을 설계하고 구현한다. 제안하는 네비게이션 시스템은 시각 장애인을 위한 경로 생성 모듈 및 저장 모듈로 구성된다. 특히, 제안하는 네비게이션 시스템은 시각 장애인을 위한 인터페이스로 TTS(Text-to-Speech) 프로그램을 이용하여 음성을 통한 안내서비스를 위한 음성 모듈과 촉각을 이용하여 점자를 출력하는 점자모듈을 통하여 구현한다. 또한 최신 지도정보를 서비스하기 위해서 구글 맵 API들을 사용한다.

Development of technology to improve information accessibility of information vulnerable class using crawling & clipping

  • Jeong, Seong-Bae;Kim, Kyung-Shin
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.99-107
    • /
    • 2018
  • This study started from the public interest purpose to help accessibility for the information acquisition of the vulnerable groups due to visual difficulties such as the elderly and the visually impaired. In this study, the server resources are minimized and implemented in most of the user smart phones. In addition, we implement a method to gather necessary information by collecting only pattern information by utilizing crawl & clipping without having to visit the site of the information of the various sites having the data necessary for the user, and to have it in the server. Especially, we applied the TTS(Text-To-Speech) service composed of smart phone apps and tried to develop a unified customized information collection service based on voice-based information collection method.

안전성 확보를 위한 손동작 전화 다이얼링 시스템 (Hand-Gesture Dialing System for Safe Driving)

  • 장원앙;김준호;이도훈;김민정
    • 한국산학기술학회논문지
    • /
    • 제13권10호
    • /
    • pp.4801-4806
    • /
    • 2012
  • 각종 첨단장비로 구성된 자동차는 편의성에 비해 안전성은 크게 강조하지 못하고 있다. 교통사고의 직접적인 원인이라고 할 수 있는 운전 중 딴 짓은 대부분 첨단장비의 인터페이스 조작에 있으며 운전자의 주의를 분산시켜 사고를 야기한다. 스마트 자동차에 대한 관심이 높아지면서 운전자 안전에 대한 다양한 연구가 모색되고 있다. 순간의 시선이동으로 인해 판단력과 조작능력을 상실 할 수 있는 현재의 인터페이스는 안전성이 보장되지 못한다. 본 논문에서는 이러한 운전자의 주의를 분산시키는 요소로 부터 안전성을 확보하기 위해서 차량 내 카메라를 이용하여 손동작을 인식하여 직관적인 제스처로 전화번호를 입력하거나 검색할 수 있는 안전한 다이얼링 시스템을 제안한다. 제안한 시스템은 직관적 동작과 TTS(Text To Speech)를 활용하여 사용자 편의성과 안전성을 높였다.

빅데이터 분석을 활용한 음성 인식 스피치 교정 애플리케이션 (Voice Recognition Speech Correction Application Using Big Data Analysis)

  • 김한결;김도우;임세명;홍두표
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.533-535
    • /
    • 2019
  • 최근 청년 실업률의 증가에 따른 취업 경쟁이 날이 갈수록 심해지고 있다. 채용과정에서 면접의 비중을 높이는 기업도 갈수록 증가하고 있다. 또한 대기업에서는 면접의 객관성을 확보하기 위해 AI 면접을 도입했다. 이러한 면접의 도입으로 인해 취업 준비생들의 면접 준비에 드는 비용 부담이 증가하였다. 최근 AI분야에서 음성 인식과 자연어 처리에 대한 개발이 활발히 이루어지고 있다. 본 논문은 녹음된 면접 음성을 음성 인식 기술 중 STT(Speech To Text) 와 TTS(Text To Speech)를 활용하여 면접의 음성을 문자로, 면접 질문의 문장을 음성으로 변환한다. 또한 자연어 처리 및 감성어 사전(KNU)을 활용하여 면접 문장의 형태소 분석하고 긍정 및 부정 단어별 정보를 시각화 하여 나타낼 수 있게 구현하였다.

음질 및 속도 향상을 위한 선형 스펙트로그램 활용 Text-to-speech (Text-to-speech with linear spectrogram prediction for quality and speed improvement)

  • 윤혜빈
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.71-78
    • /
    • 2021
  • 인공신경망에 기반한 대부분의 음성 합성 모델은 고음질의 자연스러운 발화를 생성하기 위해 보코더 모델을 사용한다. 보코더 모델은 멜 스펙트로그램 예측 모델과 결합하여 멜 스펙트로그램을 음성으로 변환한다. 그러나 보코더 모델을 사용할 경우에는 많은 양의 컴퓨터 메모리와 훈련 시간이 필요하며, GPU가 제공되지 않는 실제 서비스 환경에서 음성 합성이 오래 걸린다는 단점이 있다. 기존의 선형 스펙트로그램 예측 모델에서는 보코더 모델을 사용하지 않으므로 이 문제가 발생하지 않지만, 대신에 고품질의 음성을 생성하지 못한다. 본 논문은 뉴럴넷 기반 보코더를 사용하지 않으면서도 양질의 음성을 생성하는 Tacotron 2 & Transformer 기반의 선형 스펙트로그램 예측 모델을 제시한다. 본 모델의 성능과 속도 측정 실험을 진행한 결과, 보코더 기반 모델에 비해 성능과 속도 면에서 조금 더 우세한 점을 보였으며, 따라서 고품질의 음성을 빠른 속도로 생성하는 음성 합성 모델 연구의 발판 역할을 할 것으로 기대한다.

HMM 기반의 한국어 음성합성에서 음색변환에 관한 연구 (A Study on the Voice Conversion with HMM-based Korean Speech Synthesis)

  • 김일환;배건성
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.65-74
    • /
    • 2008
  • A statistical parametric speech synthesis system based on the hidden Markov models (HMMs) has grown in popularity over the last few years, because it needs less memory and low computation complexity and is suitable for the embedded system in comparison with a corpus-based unit concatenation text-to-speech (TTS) system. It also has the advantage that voice characteristics of the synthetic speech can be modified easily by transforming HMM parameters appropriately. In this paper, we present experimental results of voice characteristics conversion using the HMM-based Korean speech synthesis system. The results have shown that conversion of voice characteristics could be achieved using a few sentences uttered by a target speaker. Synthetic speech generated from adapted models with only ten sentences was very close to that from the speaker dependent models trained using 646 sentences.

  • PDF

경증 자폐성 장애인을 위한 보완·대체의사소통 지원프로그램 (Individual with mild autistic disorder Augmentative and alternative communication Training Program)

  • 유성령;박정화;박수현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.507-509
    • /
    • 2013
  • 본 논문에서는 최근 많은 관심을 받고 있는 안드로이드를 활용한 경증 자폐성장애인을 위한 보완대체의사소통 지원프로그램을 구현하였다. 보완대체의사소통이란 구어 및 비구어적 의사표현하기 어려운 사람들을 위해 사용하는 의사소통체계로서, 본 프로그램에서는 자폐장애인의 의사소통과 의사소통 언어의 선택적 빈도를 측정하는 방법과 자폐 아등의 지적 장애인의 언어에 대한 기본적인 훈련을 하는 방법을 소개한다. 본 논문에서는 보완대체 의사소통에서의 언어표상기법을 활용하여 여러 의사소통의 자유가 없는 사용자들이 효과적인 의사소통 및 학습을 할 수 있도록 개발하였으며, TTS(Text to Speech)를 사용하여 사용자의 의사를 육성으로 전달할 수 있도록 하였다. 그림판기능을 제공하여 사용자의 의사전달의 폭을 넓히고 언어빈도 측정을 통한 사용자의 언어사용빈도 그리고 자폐아의 경우 의식적 무의식 의사전달에 따른 백분율 수치를 두어 도움을 주도록 구현하였다.

  • PDF

한국어 음성 합성을 이용한 이메일 매니저 (Using of The Korean Language Voice Synthesis For E-Mail Manager System)

  • 조규상;이영훈;이병렬;서대영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.266-270
    • /
    • 2009
  • IT 관련 산업의 발전에 의한 저변의 확대로 장애우들의 IT 사용 수요가 늘고 있다. 본 논문에서는 IT분야에서 가장 기초적으로 활용되는 E-Mail을 시각 장애우가 활용 하는 데에 불편함이 없도록 하는 이메일 매니저 개발에 관련된 기법에 대해 논하고자 한다. TTS(Text-To Speech : 문자 텍스트를 음성으로 전환하여 들려줌)와 음성키보드(키보드 입력 시 입력한 문자를 음성으로 알려줌) 기능으로 시각 장애우가 이메일을 사용함에 있어 불편함을 느끼지 않도록 하였으며 본 시스템의 TTS 알고리즘은 국어 표준발음법을 참고로 하여 자바로 구현 하였다.

  • PDF

포만트 분석/합성 시스템 구현 (Implementation of Formant Speech Analysis/Synthesis System)

  • 이준우;손일권;배건성
    • 음성과학
    • /
    • 제1권
    • /
    • pp.295-314
    • /
    • 1997
  • In this study, we will implement a flexible formant analysis and synthesis system. In the analysis part, the two-channel (i.e., speech & EGG signals) approach is investigated for accurate estimation of formant information. The EGG signal is used for extracting exact pitch information that is needed for the pitch synchronous LPC analysis and closed phase LPC analysis. In the synthesis part, Klatt formant synthesizer is modified so that the user can change synthesis parameters arbitarily. Experimental results demonstrate the superiority of the two-channel analysis method over the one-channel(speech signal only) method in analysis as well as in synthesis. The implemented system is expected to be very helpful for studing the effects of synthesis parameters on the quality of synthetic speech and for the development of Korean text-to-speech(TTS) system with the formant synthesis method.

  • PDF