• Title/Summary/Keyword: text-to-speech

Search Result 503, Processing Time 0.034 seconds

Text-to-Speech Synthesizer with the Process of Minimizing Concatenation Distortion (접합 왜곡의 최소화 과정이 포함된 음성합성기)

  • 박훈재;김상훈;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.4
    • /
    • pp.38-44
    • /
    • 1998
  • 대용량의 음성합성용 데이터베이스를 용이하게 구축하기 위해 음성인식 시스템을 이용한 음소 경계 분할이 이루어지고 있다. 그러나 자동 분할 결과를 직접 이용하여 합성음 을 생성할 경우 음소 경계 에러로 인하여 접합 왜곡이 많이 발생하게 된다. 이러한 문제를 해결하기 위해서, 본 연구에서는 단위 접합시 경계 에러를 고려하여 적합한 접합 위치를 찾 고자 하였다. 여기서 적합한 접합 위치는 스펙트럼의 불연속이 최소화된 접합점을 의미한다. 합성음에 대한 MOS(Mean Opinion Score) 테스트와 스펙트로그램(spectrogram)의 모양을 비교하므로써 제안된 방법의 성능을 평가하였다. 제안된 방법은 두 단계로 이루어져 있다. 첫째, 레퍼런스 패턴(reference pattern)과 두 개의 테스트 패턴(test pattern)을 선택하는 단 계와, 둘째, 앞과 뒤 테스트 패턴 사이의 적합한 접합위치를 찾는 단계이다. 본 연구에서는 패턴 사이의 스펙트로그램 비교를 위해 켑스트럼(cepstrum) 피라미터와 패턴 분류기 (pattern classifier)인 DTW(Dynamic Time Warping) 알고리즘을 사용하였다. 제안된 알고 리즘을 평가한 청취 테스트의 결과에서 제안된 알고리즘을 적용하여 합성된 합성음의 음질 이 자동 분절로 생성된 단위를 그대로 이용한 경우의 음질보다 우수함을 보였다.

  • PDF

Using of The Korean Language Voice Synthesis For E-Mail Manager System (한국어 음성 합성을 이용한 이메일 매니저)

  • Jo, Gyu-Sang;Lee, Young-Hoon;Lee, Byeong-Ryeol;Seo, Dae-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.266-270
    • /
    • 2009
  • IT 관련 산업의 발전에 의한 저변의 확대로 장애우들의 IT 사용 수요가 늘고 있다. 본 논문에서는 IT분야에서 가장 기초적으로 활용되는 E-Mail을 시각 장애우가 활용 하는 데에 불편함이 없도록 하는 이메일 매니저 개발에 관련된 기법에 대해 논하고자 한다. TTS(Text-To Speech : 문자 텍스트를 음성으로 전환하여 들려줌)와 음성키보드(키보드 입력 시 입력한 문자를 음성으로 알려줌) 기능으로 시각 장애우가 이메일을 사용함에 있어 불편함을 느끼지 않도록 하였으며 본 시스템의 TTS 알고리즘은 국어 표준발음법을 참고로 하여 자바로 구현 하였다.

  • PDF

Contents Navigation System using Speech Recognition (음성인식 기반 컨텐츠 네비게이션 시스템)

  • Kim, Kee-Beak;Choi, Jong-Ho
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.99-102
    • /
    • 2007
  • 최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.

  • PDF

Attached Communication Device for the Hearing-Impaired (청각장애인용 부착형 커뮤니케이션 디바이스)

  • Byeon, Hye-Sung;Oh, Tae-Jin;Jung, Min-Gyu;Jung, Yeong-Jin;Kim, Woongsup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.338-341
    • /
    • 2019
  • 본 설계는 청각장애인을 위한 기술이다. 청각장애인은 일상생활에서 음성을 통한 의사소통이 어렵기 때문에, 비장애인과의 정보 격차를 줄이기 위한 '안경 부착형 커뮤니케이션 디바이스'를 개발하였다. Speech-To-Text 기술을 적용하여 음성이 인식되면 텍스트로 변환하여 출력한다. 따라서 음성에 대한 정보를 텍스트로 볼 수 있게끔 구현하였다. 또한 청각장애인은 소리로 파악할 수 있는 위험 요소에 노출되어 있다. 혹시 모를 안전사고에 빠르게 대처하고자 현재 위치 정보를 보호자에게 전송하는 기능을 구현하였다.

User Evaluation of the Real-Time Mobile Learning System with Improved Student Instructor Interaction (개선된 학생 강사간의 상호작용을 지원하는 실시간 모바일 원격교육 시스템의 사용자 평가)

  • Hwang, Haedong;Lee, Jang Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.562-565
    • /
    • 2015
  • 최근 모바일 기기의 사용이 급증하면서 모바일 단말기를 기반으로 하는 모바일 원격교육 시스템이 연구되고 있다. 우리는 태블릿 기반의 실시간 원격교욱 시스템을 개발한 경험이 있다. 이 시스템은 학생이 실시간으로 강사의 강의를 보고 들으며 슬라이드 및 애노테이션을 볼 수 있게 해준다. 또한 이 시스템은 학생이 채팅기능을 통해 강사에게 질문을 허용함으로써 강사 학생간의 상호작용을 지원한다. 그러나 이 시스템은 학생들이 채팅창에 가상키보드를 통해서만 입력하는 것을 허용하였기 때문에 입력 속도가 떨어지고 편의성이 저하되는 문제점이 있었다. 따라서 본 연구에서는 채팅기능의 Speech to Text 기능을 추가하여 학생들의 음성입력을 지원하도록 시스템의 강사 학생간의 상호작용 부분을 개선하였다. 그리고 강사 학생간의 상호작용에 대한 사용자 평가를 통하여 개선된 시스템이 기존의 시스템에 비하여 입력 속도 및 편의성 면에서 어느 정도 개선되었음을 알 수 있었다.

Tree-Structured IVR Interface in IP-PBX for ZigBee Device Monitoring and Control (ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX IVR 트리 구조 인터페이스)

  • Kim, Jiyong;Kim, Jiho;Kim, Hyung-Guk;Song, Ohyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1150-1153
    • /
    • 2012
  • 전화를 이용하여 원격의 장치를 모니터링하고 제어하는 시스템 중 본 논문에서는 IP-PBX(private branch exchange)기반 서비스 플랫폼을 응용서비스를 실제 구현하여 전화응용서비스 개발의 필수적인 몇 가지 요소로써 IP-PBX, 서비스 서버, TTS(Text to Speech) 서버 등을 선정하며 IVR(Interactive Voice Response)시스템을 설정하기에 많은 시간과 비용이 들기에 ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX 트리 구조 인터페이스를 제안한다.

Dialing Interface Design for Safe Driving using Hand Gesture (손동작을 이용한 운전 안전성을 높이기 위한 전화 다이얼 인터페이스 설계)

  • Jang, WonAng;Lee, DoHoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.449-452
    • /
    • 2012
  • 운전 중에 주의를 분산시키는 요소는 대부분 인터페이스 조작에 있으며 교통사고의 직접적인 원인이 된다. 스마트 자동차에 대한 관심이 높아지면서 운전자 안전에 대한 다양한 연구가 모색되고 있다. 순간의 시선이동으로 인해 판단력과 조작능력을 상실 할 수 있는 현재의 인터페이스는 안전성이 보장 되지 못한다. 본 논문에서는 이러한 운전자의 주의를 분산시키는 요소로 부터 안전성을 확보하기 위해서 차량 내 카메라를 이용하여 손동작을 인식하여 직관적인 제스처로 전화번호를 입력하거나 검색할 수 있는 안전한 인터페이스를 제안한다. 제안한 시스템은 직관적 동작과 TTS(Text To Speech)를 활용하여 사용자 편의성과 안전성을 높였다.

Voice-based Control System Using Standard-based IoT Platforms (표준 사물인터넷 플랫폼을 활용한 음성 제어 시스템)

  • Jeong, Isu;Baek, Seungwoo;Lee, Sungchan;Yun, Jaeseok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.454-455
    • /
    • 2019
  • 본 논문에서는 표준 기반 사물인터넷 (IoT: Internet of Things) 플랫폼을 활용한 음성 제어 시스템을 구현하고 그 성능을 검증한다. 사물인터넷 산업 표준인 원엠투엠 (oneM2M) 오픈 소스 플랫폼을 활용하여 음성으로 댁내 기기를 제어할 수 있는 프로토타입 시스템을 구현하였다. 음성 기반 제어를 위해 구글의 Speech-to-Text API를 활용하고 오픈 소스 하드웨어에 원엠투엠 플랫폼을 탑재하여 어디서든지 서버 플랫폼에 연결된 댁내 가전기기들을 제어할 수 있음을 보였다. 본 논문에서 구현한 시스템을 통해 표준화된 오픈 소스 플랫폼과 클라우드 음성 인식 API를 활용하여 확장성과 연결성을 갖춘 커넥티드 홈을 구현할 수 있음을 알 수 있다.

  • PDF

Design of Augmentative and Alternative Communication MLS System for Language Disabilities Persons Based on TTS (TTS기반 언어장애인을 위한 보완·대체 의사소통 MLS 시스템 설계)

  • Oh, Seung-Hun;Oh, Jin-Il;Park, Seong-Jun;Park, Seok-Cheon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1238-1240
    • /
    • 2013
  • 본 논문에서는 AAC기술과 TTS기술을 조사 및 분석하여 스마트폰의 가장기본적인 기능인 전화와 문자전달 기능을 일반적으로 의사소통이 어려운 언어장애인들에게 보완 대체 의사소통의 수단을 제공하는 MLS시스템을 제안하고, Text to Speech기능과 의사소통기능, TTS전화기능, 설정기능을 설계하였다.

Minimization of Prediction System of Prosodic Phrase Boundaries (경량화 운율구 경계 예측 시스템 개발)

  • Kim, Minho;Jung, Youngim;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.744-747
    • /
    • 2010
  • 운율구 경계 예측은 TTS(Text-To-Speech) 엔진이 정확하고 자연스러운 음성합성을 하기 위해 꼭 필요한 기술이다. 하지만, 소프트웨어나 하드웨어적 자원을 많이 요구하는 기술이기 때문에 실행 환경의 제약을 많이 받는다. 본 논문에서는 소형 전자제품과 같이 제한된 환경에서도 안정적으로 실현되는 경량화 운율구 경계 예측 시스템의 개발 과정과 결과에 대하여 설명한다. 운율구 경계 예측 시스템의 필수 요소인 형태소 분석기의 경량화와 전통적인 규칙 기반 운율구 경계 예측 기술과 달리 품사 분석과 구문 분석이 필요하지 않은 운율구 경계 예측 기술을 소개한다.