• Title/Summary/Keyword: Text-to-Speech (TTS)

Search Result 140, Processing Time 0.03 seconds

Emotion Transfer with Strength Control for End-to-End TTS (감정 제어 가능한 종단 간 음성합성 시스템)

  • Jeon, Yejin;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.423-426
    • /
    • 2021
  • 본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.

  • PDF

A Neural Network Based Korean Segmental Duration Modeling Using Tonal Information of Phonemes (음소별 성조 정보를 이용한 신경망 기반의 한국어 음소 지속시간 모델링)

  • 김은경;이상호;오영환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.6
    • /
    • pp.84-88
    • /
    • 1999
  • The accurate estimation of segmental duration is crucial for natural-sounding text-to-speech synthesis. For predicting Korean segmental durations, conventional methods utilized phonemic context, part-of-speech context and locational information in prosodic phrase. In this paper, the tonal information of phonemes is employed for more accurate prediction. After defining two non-boundary tones and six boundary tones, we annotated the tonal label on each syllable of 400 sentences. To predict segmental duration using tonal information, we constructed neural networks with a real-valued output node predicting phonemic duration and trained them by backpropagation algorithm. Experimental results showed that the proposed features are effective for predicting Korean segmental durations, and we got 0.863 correlation coefficient of the observed durations and predicted ones.

  • PDF

The Modeling of Pause Duration For Text-To-Speech Synthesis System (TTS 시스템을 위한 휴지기간 모델링)

  • Chung Jihye;Lee Yanhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

Tree-Structured IVR Interface in IP-PBX for ZigBee Device Monitoring and Control (ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX IVR 트리 구조 인터페이스)

  • Kim, Jiyong;Kim, Jiho;Kim, Hyung-Guk;Song, Ohyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1150-1153
    • /
    • 2012
  • 전화를 이용하여 원격의 장치를 모니터링하고 제어하는 시스템 중 본 논문에서는 IP-PBX(private branch exchange)기반 서비스 플랫폼을 응용서비스를 실제 구현하여 전화응용서비스 개발의 필수적인 몇 가지 요소로써 IP-PBX, 서비스 서버, TTS(Text to Speech) 서버 등을 선정하며 IVR(Interactive Voice Response)시스템을 설정하기에 많은 시간과 비용이 들기에 ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX 트리 구조 인터페이스를 제안한다.

Dialing Interface Design for Safe Driving using Hand Gesture (손동작을 이용한 운전 안전성을 높이기 위한 전화 다이얼 인터페이스 설계)

  • Jang, WonAng;Lee, DoHoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.449-452
    • /
    • 2012
  • 운전 중에 주의를 분산시키는 요소는 대부분 인터페이스 조작에 있으며 교통사고의 직접적인 원인이 된다. 스마트 자동차에 대한 관심이 높아지면서 운전자 안전에 대한 다양한 연구가 모색되고 있다. 순간의 시선이동으로 인해 판단력과 조작능력을 상실 할 수 있는 현재의 인터페이스는 안전성이 보장 되지 못한다. 본 논문에서는 이러한 운전자의 주의를 분산시키는 요소로 부터 안전성을 확보하기 위해서 차량 내 카메라를 이용하여 손동작을 인식하여 직관적인 제스처로 전화번호를 입력하거나 검색할 수 있는 안전한 인터페이스를 제안한다. 제안한 시스템은 직관적 동작과 TTS(Text To Speech)를 활용하여 사용자 편의성과 안전성을 높였다.

Minimization of Prediction System of Prosodic Phrase Boundaries (경량화 운율구 경계 예측 시스템 개발)

  • Kim, Minho;Jung, Youngim;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.744-747
    • /
    • 2010
  • 운율구 경계 예측은 TTS(Text-To-Speech) 엔진이 정확하고 자연스러운 음성합성을 하기 위해 꼭 필요한 기술이다. 하지만, 소프트웨어나 하드웨어적 자원을 많이 요구하는 기술이기 때문에 실행 환경의 제약을 많이 받는다. 본 논문에서는 소형 전자제품과 같이 제한된 환경에서도 안정적으로 실현되는 경량화 운율구 경계 예측 시스템의 개발 과정과 결과에 대하여 설명한다. 운율구 경계 예측 시스템의 필수 요소인 형태소 분석기의 경량화와 전통적인 규칙 기반 운율구 경계 예측 기술과 달리 품사 분석과 구문 분석이 필요하지 않은 운율구 경계 예측 기술을 소개한다.

Stretching Morning Call App Based on Motion Recognition (모션인식 기반 스트레칭 모닝콜 앱)

  • Jin-Woo Jung;Kang-Woo Kim;Jae-Ik Han;Min-seo Kim;Jun-Ho Park
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.429-430
    • /
    • 2023
  • 본 논문에서는 사용자들의 면역력 향상과 체력 증진을 목적으로, 아침에 스트레칭을 실행하는 기능을 모닝콜 앱에 도입하였다. 이 앱은 사용자가 원하는 스트레칭과 횟수를 설정할 수 있으며, 모닝콜이 활성화되면 사용자가 알람을 강제로 종료할 수 없는 알고리즘을 적용했다. 해당 앱에 TTS를 적용하여 알람 활성화 시 안내 음성이 나오도록 설계하였다. 주 기능으로 설정된 목표 횟수만큼 적절한 자세로 스트레칭을 수행해야만 모닝콜이 종료되도록 구현하여, 사용자의 건강증진에 기여할 것이다.

  • PDF

Designing and Evaluating an Audiobook Service Model on Android Platform for the Visually-Impaired (안드로이드 플랫폼 기반 시각장애인용 음성도서 서비스 모델 구축 및 평가)

  • Jang, Won-Hong;Oh, Sam-Gyun
    • Journal of the Korean Society for information Management
    • /
    • v.32 no.2
    • /
    • pp.221-236
    • /
    • 2015
  • This paper describes the process and methodology followed in developing the Android-based LG Sangnam Audiobook service and an evaluation of its usefulness to the public. The methods included a survey of user needs, analysis of usage statistics, and user interviews. The study found that visually impaired users: 1) were greatly interested and willing to use smartphones if there were no barrier in cost and access; 2) preferred downloads to streaming services; 3) did not mind performance differences between real and TTS (text-to-speech) voices; 4) showed marked differences in book preferences according to age, 5) made about 14,000 downloads in 2014; and 6) indicated bookmarking and moving between pages and tables of content as the most important functions in using audiobooks.

Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network (유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용)

  • Kim, Yung-Bok
    • The KIPS Transactions:PartC
    • /
    • v.12C no.7 s.103
    • /
    • pp.1067-1074
    • /
    • 2005
  • The mobile user interface becomes important to access information fast and conveniently, especially in the ubiquitous computing environment. Among many new services in the mobile computing environment, ubiquitous information networking service was studied using korean alphabet (consonant or vowel) domain-names including Korean single-character domain-names. Instead of handling long English/Korean URL-strings, as convenient user interface for information access, the Korean single-character/alphabet domain names are more convenient than long URL strings to retrieve information and to send information in the wired Internet as well as in the mobile Internet. We studied the convenience of Korean alphabet domain names with PCs as well as with mobile phones. We introduce the Implementation and the application of ubiquitous information portal, which has the functionality of Text to Speech (TTS) and is accessible with Korean single - character/alphabet domain - names.

Expiration Date Notification System Based on YOLO and OCR algorithms for Visually Impaired Person (YOLO와 OCR 알고리즘에 기반한 시각 장애우를 위한 유통기한 알림 시스템)

  • Kim, Min-Soo;Moon, Mi-Kyung;Han, Chang-Hee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.6
    • /
    • pp.1329-1338
    • /
    • 2021
  • There are rarely effective methods to help visually impaired people when they want to know the expiration date of products excepted to only Braille. In this study, we developed an expiration date notification system based on YOLO and OCR for visually impaired people. The handicapped people can automatically know the expiration date of a specific product by using our system without the help of a caregiver, fast and accurately. The proposed system is worked by four different steps: (1) identification of a target product by scanning its barcode; (2) segmentation of an image area with the expiration date using YOLO; (3) classification of the expiration date by OCR: (4) notification of the expiration date by TTS. Our system showed an average classification accuracy of about 86.00% when blindfolded subjects used the proposed system in real-time. This result validates that the proposed system can be potentially used for visually impaired people.