• Title/Summary/Keyword: TTS(Text-to-Speech)

Search Result 139, Processing Time 0.028 seconds

A Neural Network Based Korean Segmental Duration Modeling Using Tonal Information of Phonemes (음소별 성조 정보를 이용한 신경망 기반의 한국어 음소 지속시간 모델링)

  • 김은경;이상호;오영환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.6
    • /
    • pp.84-88
    • /
    • 1999
  • The accurate estimation of segmental duration is crucial for natural-sounding text-to-speech synthesis. For predicting Korean segmental durations, conventional methods utilized phonemic context, part-of-speech context and locational information in prosodic phrase. In this paper, the tonal information of phonemes is employed for more accurate prediction. After defining two non-boundary tones and six boundary tones, we annotated the tonal label on each syllable of 400 sentences. To predict segmental duration using tonal information, we constructed neural networks with a real-valued output node predicting phonemic duration and trained them by backpropagation algorithm. Experimental results showed that the proposed features are effective for predicting Korean segmental durations, and we got 0.863 correlation coefficient of the observed durations and predicted ones.

  • PDF

The Modeling of Pause Duration For Text-To-Speech Synthesis System (TTS 시스템을 위한 휴지기간 모델링)

  • Chung Jihye;Lee Yanhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

Tree-Structured IVR Interface in IP-PBX for ZigBee Device Monitoring and Control (ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX IVR 트리 구조 인터페이스)

  • Kim, Jiyong;Kim, Jiho;Kim, Hyung-Guk;Song, Ohyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1150-1153
    • /
    • 2012
  • 전화를 이용하여 원격의 장치를 모니터링하고 제어하는 시스템 중 본 논문에서는 IP-PBX(private branch exchange)기반 서비스 플랫폼을 응용서비스를 실제 구현하여 전화응용서비스 개발의 필수적인 몇 가지 요소로써 IP-PBX, 서비스 서버, TTS(Text to Speech) 서버 등을 선정하며 IVR(Interactive Voice Response)시스템을 설정하기에 많은 시간과 비용이 들기에 ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX 트리 구조 인터페이스를 제안한다.

Dialing Interface Design for Safe Driving using Hand Gesture (손동작을 이용한 운전 안전성을 높이기 위한 전화 다이얼 인터페이스 설계)

  • Jang, WonAng;Lee, DoHoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.449-452
    • /
    • 2012
  • 운전 중에 주의를 분산시키는 요소는 대부분 인터페이스 조작에 있으며 교통사고의 직접적인 원인이 된다. 스마트 자동차에 대한 관심이 높아지면서 운전자 안전에 대한 다양한 연구가 모색되고 있다. 순간의 시선이동으로 인해 판단력과 조작능력을 상실 할 수 있는 현재의 인터페이스는 안전성이 보장 되지 못한다. 본 논문에서는 이러한 운전자의 주의를 분산시키는 요소로 부터 안전성을 확보하기 위해서 차량 내 카메라를 이용하여 손동작을 인식하여 직관적인 제스처로 전화번호를 입력하거나 검색할 수 있는 안전한 인터페이스를 제안한다. 제안한 시스템은 직관적 동작과 TTS(Text To Speech)를 활용하여 사용자 편의성과 안전성을 높였다.

Minimization of Prediction System of Prosodic Phrase Boundaries (경량화 운율구 경계 예측 시스템 개발)

  • Kim, Minho;Jung, Youngim;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.744-747
    • /
    • 2010
  • 운율구 경계 예측은 TTS(Text-To-Speech) 엔진이 정확하고 자연스러운 음성합성을 하기 위해 꼭 필요한 기술이다. 하지만, 소프트웨어나 하드웨어적 자원을 많이 요구하는 기술이기 때문에 실행 환경의 제약을 많이 받는다. 본 논문에서는 소형 전자제품과 같이 제한된 환경에서도 안정적으로 실현되는 경량화 운율구 경계 예측 시스템의 개발 과정과 결과에 대하여 설명한다. 운율구 경계 예측 시스템의 필수 요소인 형태소 분석기의 경량화와 전통적인 규칙 기반 운율구 경계 예측 기술과 달리 품사 분석과 구문 분석이 필요하지 않은 운율구 경계 예측 기술을 소개한다.

Stretching Morning Call App Based on Motion Recognition (모션인식 기반 스트레칭 모닝콜 앱)

  • Jin-Woo Jung;Kang-Woo Kim;Jae-Ik Han;Min-seo Kim;Jun-Ho Park
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.429-430
    • /
    • 2023
  • 본 논문에서는 사용자들의 면역력 향상과 체력 증진을 목적으로, 아침에 스트레칭을 실행하는 기능을 모닝콜 앱에 도입하였다. 이 앱은 사용자가 원하는 스트레칭과 횟수를 설정할 수 있으며, 모닝콜이 활성화되면 사용자가 알람을 강제로 종료할 수 없는 알고리즘을 적용했다. 해당 앱에 TTS를 적용하여 알람 활성화 시 안내 음성이 나오도록 설계하였다. 주 기능으로 설정된 목표 횟수만큼 적절한 자세로 스트레칭을 수행해야만 모닝콜이 종료되도록 구현하여, 사용자의 건강증진에 기여할 것이다.

  • PDF

Designing and Evaluating an Audiobook Service Model on Android Platform for the Visually-Impaired (안드로이드 플랫폼 기반 시각장애인용 음성도서 서비스 모델 구축 및 평가)

  • Jang, Won-Hong;Oh, Sam-Gyun
    • Journal of the Korean Society for information Management
    • /
    • v.32 no.2
    • /
    • pp.221-236
    • /
    • 2015
  • This paper describes the process and methodology followed in developing the Android-based LG Sangnam Audiobook service and an evaluation of its usefulness to the public. The methods included a survey of user needs, analysis of usage statistics, and user interviews. The study found that visually impaired users: 1) were greatly interested and willing to use smartphones if there were no barrier in cost and access; 2) preferred downloads to streaming services; 3) did not mind performance differences between real and TTS (text-to-speech) voices; 4) showed marked differences in book preferences according to age, 5) made about 14,000 downloads in 2014; and 6) indicated bookmarking and moving between pages and tables of content as the most important functions in using audiobooks.

Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network (유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용)

  • Kim, Yung-Bok
    • The KIPS Transactions:PartC
    • /
    • v.12C no.7 s.103
    • /
    • pp.1067-1074
    • /
    • 2005
  • The mobile user interface becomes important to access information fast and conveniently, especially in the ubiquitous computing environment. Among many new services in the mobile computing environment, ubiquitous information networking service was studied using korean alphabet (consonant or vowel) domain-names including Korean single-character domain-names. Instead of handling long English/Korean URL-strings, as convenient user interface for information access, the Korean single-character/alphabet domain names are more convenient than long URL strings to retrieve information and to send information in the wired Internet as well as in the mobile Internet. We studied the convenience of Korean alphabet domain names with PCs as well as with mobile phones. We introduce the Implementation and the application of ubiquitous information portal, which has the functionality of Text to Speech (TTS) and is accessible with Korean single - character/alphabet domain - names.

Expiration Date Notification System Based on YOLO and OCR algorithms for Visually Impaired Person (YOLO와 OCR 알고리즘에 기반한 시각 장애우를 위한 유통기한 알림 시스템)

  • Kim, Min-Soo;Moon, Mi-Kyung;Han, Chang-Hee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.6
    • /
    • pp.1329-1338
    • /
    • 2021
  • There are rarely effective methods to help visually impaired people when they want to know the expiration date of products excepted to only Braille. In this study, we developed an expiration date notification system based on YOLO and OCR for visually impaired people. The handicapped people can automatically know the expiration date of a specific product by using our system without the help of a caregiver, fast and accurately. The proposed system is worked by four different steps: (1) identification of a target product by scanning its barcode; (2) segmentation of an image area with the expiration date using YOLO; (3) classification of the expiration date by OCR: (4) notification of the expiration date by TTS. Our system showed an average classification accuracy of about 86.00% when blindfolded subjects used the proposed system in real-time. This result validates that the proposed system can be potentially used for visually impaired people.

Research on Developing a Conversational AI Callbot Solution for Medical Counselling

  • Won Ro LEE;Jeong Hyon CHOI;Min Soo KANG
    • Korean Journal of Artificial Intelligence
    • /
    • v.11 no.4
    • /
    • pp.9-13
    • /
    • 2023
  • In this study, we explored the potential of integrating interactive AI callbot technology into the medical consultation domain as part of a broader service development initiative. Aimed at enhancing patient satisfaction, the AI callbot was designed to efficiently address queries from hospitals' primary users, especially the elderly and those using phone services. By incorporating an AI-driven callbot into the hospital's customer service center, routine tasks such as appointment modifications and cancellations were efficiently managed by the AI Callbot Agent. On the other hand, tasks requiring more detailed attention or specialization were addressed by Human Agents, ensuring a balanced and collaborative approach. The deep learning model for voice recognition for this study was based on the Transformer model and fine-tuned to fit the medical field using a pre-trained model. Existing recording files were converted into learning data to perform SSL(self-supervised learning) Model was implemented. The ANN (Artificial neural network) neural network model was used to analyze voice signals and interpret them as text, and after actual application, the intent was enriched through reinforcement learning to continuously improve accuracy. In the case of TTS(Text To Speech), the Transformer model was applied to Text Analysis, Acoustic model, and Vocoder, and Google's Natural Language API was applied to recognize intent. As the research progresses, there are challenges to solve, such as interconnection issues between various EMR providers, problems with doctor's time slots, problems with two or more hospital appointments, and problems with patient use. However, there are specialized problems that are easy to make reservations. Implementation of the callbot service in hospitals appears to be applicable immediately.