• 제목/요약/키워드: TTS system

검색결과 145건 처리시간 0.024초

Development of IoT System Based on Context Awareness to Assist the Visually Impaired

  • Song, Mi-Hwa
    • International Journal of Advanced Culture Technology
    • /
    • 제9권4호
    • /
    • pp.320-328
    • /
    • 2021
  • As the number of visually impaired people steadily increases, interest in independent walking is also increasing. However, there are various inconveniences in the independent walking of the visually impaired at present, reducing the quality of life of the visually impaired. The white cane, which is an existing walking aid for the visually impaired, has difficulty in recognizing upper obstacles and obstacles outside the effective distance. In addition, it is inconvenient to cross the street because the sound signal to help the visually impaired cross the crosswalk is lacking or damaged. These factors make it difficult for the visually impaired to walk independently. Therefore, we propose the design of an embedded system that provides traffic light recognition through object recognition technology, voice guidance using TTS, and upper obstacle recognition through ultrasonic sensors so that blind people can realize safe and high-quality independent walking.

인공 신경망의 한국어 운율 발생에 관한 연구 (The Study on Korean Prosody Generation using Artificial Neural Networks)

  • 민경중;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.337-340
    • /
    • 2004
  • 한국어 문-음성 합성 시스템(TTS: Text-To-Speech)은 합성음의 자연스러움을 증가시키기 위해 운율 발생 알고리듬을 만들어 시스템에 적용하고 있다. 운율 법칙은 각국의 언어에 대한 언어학적 정보나 자연음에서 구한 운율에 대한 지식을 기반으로 음성 합성 시스템에 적용하고 있다. 그러나 이렇게 구한 운율 법칙이 자연음에 존재하는 모든 운율 법칙을 포함할 수도 없고, 또 추출한 운율 법칙이 틀린 법칙이라면, 합성음의 자연감이나 이해도는 떨어질 것이므로, TTS의 실용화에 장애가 될 수 있다. 이러한 점을 감안하여 본 논문에서는 자연음에 내재하는 운율을 학습할 수 있는 인공 신경망을 이용한 운율발생 신경망을 제안하였다. 훈련단계에서 인공 신경망의 입력 단에 한국어 문장의 음소 열을 차례로 이동시켜 인가하면 입력 단의 중앙에 해당하는 음소의 운율 정보가 출력되도록 훈련시킬 때, 목표 패턴을 이용한 감독학습을 통해, 자연음에 내재하는 운율을 학습하도록 하였다. 평가 단계에서 문장의 음소 열을 입력하고, 추정율을 측정하여 인공 신경망이 한국어 문장에 내재하는 운율을 학습하여 발생시킬 수 있음을 살펴보았다.

  • PDF

문자-음성 합성기의 데이터 베이스를 위한 문맥 적응 음소 분할 (Context-adaptive Phoneme Segmentation for a TTS Database)

  • 이기승;김정수
    • 한국음향학회지
    • /
    • 제22권2호
    • /
    • pp.135-144
    • /
    • 2003
  • 본 논문에서는 문-음성 합성기에서 사용되는 대용량 데이터 베이스의 구성을 목적으로 하는 음성 신호의 자동 분할기법을 기술하였다. 주된 내용은 은닉 마코프 모델에 기반을 둔 음소 분할과 여기서 얻어진 결과를 초기 음소 경계로 사용하여 이를 자동으로 수정하는 방법으로 구성되어 있다. 다층 퍼셉트론이 음성 경계의 검출기로 사용되었으며, 음소 분할의 성능을 증가시키기 위해, 음소의 천이 패턴에 따라 다층 퍼셉트론을 개별적으로 학습시키는 방법이 제안되었다. 음소 천이 패턴은 수작업에 의해 생성된 레이블 정보를 기준 음소 경계로 사용하여, 기준 음소 경계와 추정된 음소 경계간의 전체 오차를 최소화하는 관점에서 분할되도록 하였다. 단일 화자를 대상으로 하는 실험에서 제안된 기법을 통해 생성된 음소 경계는 기준 경계와 비교하여 95%의 음소가 20 msec 이내의 경계 오차를 갖는 것으로 나타났으며, 평균 자승 제곱근 오차면에서 수정 작업을 통해 25% 향상된 결과를 나타내었다.

지능형 로봇 아이로비큐(IrobiQ)를 활용한 학교폭력 예방 프로그램 개발 (Contents Development of IrobiQ on School Violence Prevention Program for Young Children)

  • 현은자;이하원;연혜민
    • 한국콘텐츠학회논문지
    • /
    • 제13권9호
    • /
    • pp.455-466
    • /
    • 2013
  • 본 연구의 목적은 지능형 로봇 IrobiQ를 활용한 유아용 학교폭력 예방교육 프로그램 [모두 지킴이]를 개발하는 것이다. 개발 내용은 첫째, 현장에서 실제 발생될 수 있는 폭력 유형인 집단 따돌림(왕따), 성폭력 그리고 기본 인성교육이다. 둘째, 각 주제에 적합한 활동형태는 대집단, 개별, 소집단, 자유선택활동 및 학교와 부모의 연계를 목적으로 하는 부모교육이다. 셋째, 활동유형은 동시, 동화, 동요, 미술, 이야기 나누기 등이다. 넷째, 콘텐츠는 이미지, TTS(text to speech), 터치기능, 음량인식기능 및 녹음기능 등을 활용하여 제작하였다. 본 콘텐츠를 유아에게 적용하고 30명의 전문가들을 대상으로 시연하여 수용성 설문을 실시한 결과, 긍정 반응을 보였다. 본 연구의 결과는 로봇을 활용한 학교 폭력 예방 프로그램의 효과를 최적화하기 위한 기초 자료로서 상호 작용성을 보다 증진시킬 수 있는 추후 연구를 제안한다.

시간영역에서의 파형분석에 의한 무제한 어휘 합성 및 음절 유형별 규칙합성음 음질평가 (Speech Synthesis for the Korean large Vocabulary Through the Waveform Analysis in Time Domains and Evauation of Synthesized Speech Quality)

  • 강찬희;진용옥
    • 한국음향학회지
    • /
    • 제13권1호
    • /
    • pp.71-83
    • /
    • 1994
  • 본 논문은 한국어 문어면환(TTS : Text-to-Speech) 시스템내에서의 음성합성시 음질 및 자연성 개선을 위한 연구 결과이다. 합성방법으로는 단음절단위의 파형을 시간영역에서 분석(표1)하여 규칙합성에 필요한 매개변수(표2)를 추출하여 규칙합성시켰다. 실험에 사용된 음절은 한국어 발음 대사전의 빈도순위에 따라 V형 19개, CV형 80개, VC형 30개, CVC형 100개등 총 229음절을 선정하여 규칙합성시켰다. 규칙합성음의 평가방법으로는 229개의 규칙합성음중 음절 유형별로 15개씩 무작위로 추출한 합성음을 사전지식이 없는 임의의 그룹을 선정하여 이해도, 명료도, 잡음감, 자연성등 4가지 항목에 대하여 주관적인 오피니온 평가를 수행하였다. 실험결과, 합성음의 음질은 대단히 명료한 수준이었으며, 운율요소의 제어결과는 지속시간(장단)과 악센트(강약)의 제어(그림 9, 그림 10)가 가능하였으며, 피치주기(억양)의 제어도 Lagrange 보간법을 사용함으로써 가능하였다(그림 11, 그림 12).

  • PDF

스마트폰용 영한, 한영 모바일 번역기 개발 (Development of Korean-to-English and English-to-Korean Mobile Translator for Smartphone)

  • 여상화;채흥석
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.229-236
    • /
    • 2011
  • 본 논문에서는 스마트폰용 경량화된 영한, 한영 모바일 번역기를 설계 및 구현한다. 번역 엔진은 자연스러운 번역과 높은 번역 품질을 위해 번역 메모리와 규칙기반의 번역 엔진으로 이중화를 한다. 개발된 번역 엔진의 사용자의 사용성 (Usability)을 극대화하기 위해 스마트폰에 내장된 카메라를 통한 문자인식(OCR; Optical Character Recognition) 엔진과 음성 합성 엔진(TTS; Text-to-Speech)을 각각 Front-End와 Back-end에 접목하였다. 실험결과 번역 품질은 BLEU와 NIST 평가치를 기준으로 구글번역기 대비 영한 번역은 72.4%, 한영 번역은 77.7%로 평가되었다. 이러한 평가결과는 본 논문에서 개발한 모바일 자동번역기가 서버 기반의 번역기의 성능에 근접하며 상업적으로 유용함을 보여준다.

가상현실 기반 고령자를 위한 기능성 낚시터 게임 개발 (Development of Functional Fishing Field Game for the Elderly Based on Virtual Reality)

  • 김민정;김영준;오하현;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.308-311
    • /
    • 2021
  • 본 논문은 가상현실을 기반으로 한 고령자용 치매 예방 기능성 게임 개발에 대해 기술한다. 게임의 개발에는 Unity 3D 엔진을 사용하였고, 가상현실 공간인 낚시터를 구현하였다. 게임의 대상자가 가상현실과는 상대적으로 친숙하지 않은 고령자인 점을 감안하여 VH HMD 장비에 쉽게 적응할 수 있도록 게임 내에서 플레이어의 움직임이 없도록 하였고, 조작에 있어서 어려움을 줄이기 위해 조작 버튼 개수를 최소화하였으며, 직관적인 게임 구성으로 거부감과 피로감을 줄였다. 또한, 게임 완료 후 별점을 부과하는 시스템으로 성취감을 주어 즐겁고 꾸준히 참여하도록 유도하였다. 개발된 게임은 전체적으로 메인, 인터페이스, 스테이지, 별점, TTS, 튜토리얼, 엔딩크레딧 등으로 이루어져 있다. 각 카테고리별 스테이지를 3단계로 나누어 하나의 통합 환경에서 구현하였고 VR HMD를 이용해 가상현실 내에서 기억력, 주의력, 판단력을 증진시킬 수 있는 게임을 진행할 수 있도록 되어 있다.

  • PDF

빅데이터를 이용한 독거노인 돌봄 AI 대화형 말동무 아가야(AGAYA) 로봇 시스템에 관한 연구 (A Study on Interactive Talking Companion Doll Robot System Using Big Data for the Elderly Living Alone)

  • 송문선
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.305-318
    • /
    • 2022
  • 본 연구는 4차 혁명기술의 핵심인 AI 기술을 활용한 대화형 AI 토이 로봇의 독거노인 돌봄에 대한 효과성에 주목하고, 보다 인간 중심적인 돌봄으로의 개인화, 맞춤화에 기여할 수 있도록 R&D를 통한 '아가야'라는 AI 토이 로봇을 개발하였다. R&D 작업은 활용 중인 AI 스피커와 AI 대화 인형의 기능을 고찰, 현재 AI 로봇을 사용 중인 총 6명의 독거노인과의 인터뷰, 독거노인의 AI 대화 로봇 사용 현황과 효과성, 한계성, 개선점 등을 파악한 후 진행되었다. 첫째, P-TTS 기술을 적용하여 듣고 싶은 사람의 음성을 자율적으로 선택하여 들음으로써 심리적 친밀감을 강화하고 둘째, 추억저장 및 소환기능으로 자신만의 심적 치유를 가능케 하며 셋째, 눈, 코, 입, 귀, 손의 5감의 다양한 역할을 추가하였고 넷째, 따뜻한 체온 유지, 아로마, 살균 및 미세먼지 제거부, 편리한 충전방식 등의 기술을 개발하였다. 이러한 기술들은 친밀감, 개인화 지향을 통한 독거노인의 대화형 로봇에 대한 사용을 확대하고, 돌봄의 수혜자라는 수동적인 프레임에서 벗어나 스스로 남은 노후를 생산적이고 독립적으로 기획할 수 있는 긍정적 이미지의 독거 노인상을 구축하는데 기여한다.

운율 경계 정보를 이용한 HMM 기반의 한국어 음성합성 시스템 (An HMM-based Korean TTS synthesis system using phrase information)

  • 주영선;정치상;강홍구
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.89-91
    • /
    • 2011
  • In this paper, phrase boundaries in sentence are predicted and a phrase break information is applied to an HMM-based Korean Text-to-Speech synthesis system. Synthesis with phrase break information increases a naturalness of the synthetic speech and an understanding of sentences. To predict these phrase boundaries, context-dependent information like forward/backward POS(Part-of-Speech) of eojeol, a position of eojeol in a sentence, length of eojeol, and presence or absence of punctuation marks are used. The experimental results show that the naturalness of synthetic speech with phrase break information increases.

  • PDF

기본주파수와 성도길이의 상관관계를 이용한 HTS 음성합성기에서의 목소리 변환 (Voice transformation for HTS using correlation between fundamental frequency and vocal tract length)

  • 유효근;김영관;서영주;김회린
    • 말소리와 음성과학
    • /
    • 제9권1호
    • /
    • pp.41-47
    • /
    • 2017
  • The main advantage of the statistical parametric speech synthesis is its flexibility in changing voice characteristics. A personalized text-to-speech(TTS) system can be implemented by combining a speech synthesis system and a voice transformation system, and it is widely used in many application areas. It is known that the fundamental frequency and the spectral envelope of speech signal can be independently modified to convert the voice characteristics. Also it is important to maintain naturalness of the transformed speech. In this paper, a speech synthesis system based on Hidden Markov Model(HMM-based speech synthesis, HTS) using the STRAIGHT vocoder is constructed and voice transformation is conducted by modifying the fundamental frequency and spectral envelope. The fundamental frequency is transformed in a scaling method, and the spectral envelope is transformed through frequency warping method to control the speaker's vocal tract length. In particular, this study proposes a voice transformation method using the correlation between fundamental frequency and vocal tract length. Subjective evaluations were conducted to assess preference and mean opinion scores(MOS) for naturalness of synthetic speech. Experimental results showed that the proposed voice transformation method achieved higher preference than baseline systems while maintaining the naturalness of the speech quality.