• Title/Summary/Keyword: 모델 발화

Search Result 207, Processing Time 0.024 seconds

One-shot multi-speaker text-to-speech using RawNet3 speaker representation (RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템)

  • Sohee Han;Jisub Um;Hoirin Kim
    • Phonetics and Speech Sciences
    • /
    • v.16 no.1
    • /
    • pp.67-76
    • /
    • 2024
  • Recent advances in text-to-speech (TTS) technology have significantly improved the quality of synthesized speech, reaching a level where it can closely imitate natural human speech. Especially, TTS models offering various voice characteristics and personalized speech, are widely utilized in fields such as artificial intelligence (AI) tutors, advertising, and video dubbing. Accordingly, in this paper, we propose a one-shot multi-speaker TTS system that can ensure acoustic diversity and synthesize personalized voice by generating speech using unseen target speakers' utterances. The proposed model integrates a speaker encoder into a TTS model consisting of the FastSpeech2 acoustic model and the HiFi-GAN vocoder. The speaker encoder, based on the pre-trained RawNet3, extracts speaker-specific voice features. Furthermore, the proposed approach not only includes an English one-shot multi-speaker TTS but also introduces a Korean one-shot multi-speaker TTS. We evaluate naturalness and speaker similarity of the generated speech using objective and subjective metrics. In the subjective evaluation, the proposed Korean one-shot multi-speaker TTS obtained naturalness mean opinion score (NMOS) of 3.36 and similarity MOS (SMOS) of 3.16. The objective evaluation of the proposed English and Korean one-shot multi-speaker TTS showed a prediction MOS (P-MOS) of 2.54 and 3.74, respectively. These results indicate that the performance of our proposed model is improved over the baseline models in terms of both naturalness and speaker similarity.

A Name Recognition Based Call-and-Come Service for Home Robots (가정용 로봇의 호출음 등록 및 인식 시스템)

  • Oh, Yoo-Rhee;Yoon, Jae-Sam;Park, Ji-Hun;Kim, Min-A;Kim, Hong-Kook;Kong, Dong-Geon;Myung, Hyun;Bang, Seok-Won
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.360-365
    • /
    • 2008
  • We propose an efficient robot name registration and recognition method in order to enable a Call-and-Come service for home robots. In the proposed method for the name registration, the search space is first restricted by using monophone-based acoustic models. Second, the registration of robot names is completed by using triphone-based acoustic models in the restricted search space. Next, the parameter for the utterance verification is calculated to reduce the acceptance rate of false calls. In addition, acoustic models are adapted by using a distance speech database to improve the performance of distance speech recognition, Moreover, the location of a user is estimated by using a microphone array. The experimental result on the registration and recognition of robot names shows that the word accuracy of speech recognition is 98.3%.

  • PDF

Multicontents Integrated Image Animation within Synthesis for Hiqh Quality Multimodal Video (고화질 멀티 모달 영상 합성을 통한 다중 콘텐츠 통합 애니메이션 방법)

  • Jae Seung Roh;Jinbeom Kang
    • Journal of Intelligence and Information Systems
    • /
    • v.29 no.4
    • /
    • pp.257-269
    • /
    • 2023
  • There is currently a burgeoning demand for image synthesis from photos and videos using deep learning models. Existing video synthesis models solely extract motion information from the provided video to generate animation effects on photos. However, these synthesis models encounter challenges in achieving accurate lip synchronization with the audio and maintaining the image quality of the synthesized output. To tackle these issues, this paper introduces a novel framework based on an image animation approach. Within this framework, upon receiving a photo, a video, and audio input, it produces an output that not only retains the unique characteristics of the individuals in the photo but also synchronizes their movements with the provided video, achieving lip synchronization with the audio. Furthermore, a super-resolution model is employed to enhance the quality and resolution of the synthesized output.

A study on recognition improvement of velopharyngeal insufficiency patient's speech using various types of deep neural network (심층신경망 구조에 따른 구개인두부전증 환자 음성 인식 향상 연구)

  • Kim, Min-seok;Jung, Jae-hee;Jung, Bo-kyung;Yoon, Ki-mu;Bae, Ara;Kim, Wooil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.38 no.6
    • /
    • pp.703-709
    • /
    • 2019
  • This paper proposes speech recognition systems employing Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) structures combined with Hidden Markov Moldel (HMM) to effectively recognize the speech of VeloPharyngeal Insufficiency (VPI) patients, and compares the recognition performance of the systems to the Gaussian Mixture Model (GMM-HMM) and fully-connected Deep Neural Network (DNNHMM) based speech recognition systems. In this paper, the initial model is trained using normal speakers' speech and simulated VPI speech is used for generating a prior model for speaker adaptation. For VPI speaker adaptation, selected layers are trained in the CNN-HMM based model, and dropout regulatory technique is applied in the LSTM-HMM based model, showing 3.68 % improvement in recognition accuracy. The experimental results demonstrate that the proposed LSTM-HMM-based speech recognition system is effective for VPI speech with small-sized speech data, compared to conventional GMM-HMM and fully-connected DNN-HMM system.

Development of Korean Dialogue Dataset for Restaurant Reservation System (식당 예약 대화 시스템 개발을 위한 한국어 데이터셋 구축)

  • Kim, GyeongMin;Lee, DongYub;Hur, YunA;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.267-269
    • /
    • 2017
  • 대화 시스템(dialogue system)은 사용자의 언어를 이해하고 그 의도를 분석하여 사용자가 원하는 목적을 달성할 수 있게 도와주는 시스템이다. 인간과 비슷한 수준의 대화를 위해서는 대량의 데이터가 필요하며 데이터의 양질에 따라 그 결과가 달라진다. 최근 페이스북에서 End-to-end learning 방식을 기반으로 한 영어로 구성된 식당 예약 학습 대화 데이터셋(The 6 dialog bAbI tasks)을 구축하여 해당 모델에 적용한 연구가 있다. 대화 시스템에서 활용 가능한 연구가 활발히 진행되고 있지만 영어 기반의 데이터와는 다르게 식당 예약 시스템에서 다른 연구자들의 연구 목적으로 공유한 한국어 데이터셋은 아직까지도 미흡하다. 본 논문에서는 페이스북에서 구축한 영어로 구성된 식당 예약 학습 대화 데이터셋을 이용하여 한국어 기반의 식당 예약 대화 시스템에서 활용 가능한 한국어 데이터셋을 구축하고, 일상생활에서 발생 가능한 발화(utterance)에 따른 형태 변화를 통해 한국어 식당 예약 시스템 데이터셋 구축 방법을 제안한다.

  • PDF

Thermal Fluid Flow Analysis of Environment-Friendly Power Transformer Using CFD (CFD를 이용한 환경친화형 전력용 변압기의 열유동해석)

  • Kim, Ji-Ho;Kim, Jong-Wang;Kweon, Dong-Jin;Woo, Jung-Wook;Koo, Kyo-Sun;Lee, Hyang-Beom
    • Proceedings of the KIEE Conference
    • /
    • 2011.07a
    • /
    • pp.924-925
    • /
    • 2011
  • 본 논문에서는 환경친화적이고, 인화점 및 발화점이 높아 화재의 위험도가 낮은 식물성 절연우를 기존 변압기의 광유를 대체로 사용하기 위한 열적 특성을 열유동해석을 이용하여 온도분포를 수치해석을 통하여 예측하였다. 해석모델로는 154kV 급 단상 내철형 유입자냉식 변압기를 대상으로 CFD 해석을 수행하였으며, 광유와 식물성 절연유는 부하의 변화에 따른 온도특성을 파악하는 동시에 핫스팟(hot spot)을 예측하였다. 본 논문은 변압기를 3차원 모델링하여 유동 및 온도 분포를 해석한 결과, 변압기의 내부 온도 및 핫스팟 추적에 대하여 변압기의 수명에 대한 예측이 가능하며, 식물성 절연유를 사용한 전력용 변압기 온도 분포 해석결과는 식물성 절연유의 적용 및 냉각 설계 변경에 기초자료롤 활용될 것이다.

  • PDF

Development of Korean Dialogue Dataset for Restaurant Reservation System (식당 예약 대화 시스템 개발을 위한 한국어 데이터셋 구축)

  • Kim, GyeongMin;Lee, DongYub;Hur, YunA;Lim, HeuiSeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.267-269
    • /
    • 2017
  • 대화 시스템(dialogue system)은 사용자의 언어를 이해하고 그 의도를 분석하여 사용자가 원하는 목적을 달성할 수 있게 도와주는 시스템이다. 인간과 비슷한 수준의 대화를 위해서는 대량의 데이터가 필요하며 데이터의 양질에 따라 그 결과가 달라진다. 최근 페이스북에서 End-to-end learning 방식을 기반으로 한 영어로 구성된 식당 예약 학습 대화 데이터셋(The 6 dialog bAbI tasks)을 구축하여 해당 모델에 적용한 연구가 있다. 대화 시스템에서 활용 가능한 연구가 활발히 진행되고 있지만 영어 기반의 데이터와는 다르게 식당 예약 시스템에서 다른 연구자들의 연구 목적으로 공유한 한국어 데이터셋은 아직까지도 미흡하다. 본 논문에서는 페이스북에서 구축한 영어로 구성된 식당 예약 학습 대화 데이터셋을 이용하여 한국어 기반의 식당 예약 대화 시스템에서 활용 가능한 한국어 데이터셋을 구축하고, 일상생활에서 발생 가능한 발화(utterance)에 따른 형태 변화를 통해 한국어 식당 예약 시스템 데이터셋 구축 방법을 제안한다.

  • PDF

A Fire Test Measuring the Heat Release Rate of Railway Car Interior Materials Satisfying the Korean Safety Guideline (안전기준을 만족하는 철도차량 내장재의 화재 열방출율 측정시험)

  • Park, Won-Hee;Lee, Duck-Hee;Jung, Woo-Sung
    • Fire Science and Engineering
    • /
    • v.23 no.4
    • /
    • pp.40-49
    • /
    • 2009
  • A large-scale fire test was conducted for interior materials from a vehicle installed within a fire test room (ISO 9705). The interior materials are satisfying the Korean guideline for the safety of rail vehicles, where the guideline has taken effect since December 2004 in Korea. The output of ignition source (gas burner) was increased in several controlled steps. The objectives of this test are to assess the fire performance in terms of ignition and flame spread on interior lining materials and to provide data on an enclosure fires involving train interior materials that grow to flashover. These data will be used to develop and calibrate models for fire growth on the interiors of the railway vehicle.

The combined system of consciousness and unconsciousness using Fuzzy Petri net and Neural Network (퍼지페트리네트와 신경망을 이용한 의식.무의식 통합 시스템)

  • 박경숙;박민용
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.311-321
    • /
    • 2000
  • 본 논문에서는 정신분석과 두 종류의 정서이론, 인공지능과 신경회로망 그리고 퍼지 페트리 네트 등을 사용하여 사람의 인지과정을 모방한 인지모형시스템을 개발하였다. 먼저 프로이트의 정신분석을 사용하여 정신의 구조를 그래프로 표현한 후 이것을 '마음의 지도'라 명명하였다. 인지모형시스템을 구현하기 위한 첫 번째 작업으로 동적인 추론을 할 수 있는 지능 모델인 KNBN(Kohonen Network based Belief Network)을 제안하였다. KNBN으로 표현한 마음의 약도 내에서 연결강도 값으로 사용할 상대적 데이터를 만들기 위한 근거로서는 '정서'를 사용하였는데, 플라칙의 진화론에 근거한 정서이론과 오토니의 인지적 정서이론을 결합하여 데이터로 만든후 이 수치를 연결강도로 사용하였다. 이 두 개의 정서이론을 결합하는 알고리즘을 만들기 위해 페트리네트를 변형한 퍼지 페트리네트를 제안하였다. 또한 오토니가 주장하는 정서의 인지구조를 사람들이 그대로 이해하는지 여부를 알기 위해 대학생 100명을 대상으로 설문지를 사용해 정서의 인지구조에 대해 조사하였고 그 결과 값에 근거하여 두 개의 정서이론 결합 알고리즘을 만들었다. 이것으로 정서 발화에 대한 상대적인 수치가 산출되었고, 이것을 KNBN으로 표현한 마음의 약도에 결합하기 위해 0과 1사이의 수치로 정규화 하였다. 이렇게 정규화된 데이터를 이용해 인지 모형 시스템을 개발하였다.

  • PDF

Chemical Reactions in the Coal-Methane-Air Flame (석탄화염내 화학반응에 관한 연구)

  • 박호영;안달홍;김종진
    • Journal of Energy Engineering
    • /
    • v.11 no.2
    • /
    • pp.166-177
    • /
    • 2002
  • The present study is described of the flame structure of one-dimensional, flat, premixed, laminar, coal-air flame with some addition of methane for the flame stability. A low pressure burner operating at a combustion pressure of 0.3 arm was employed in order to extend the reaction zone. Predicted results from the models considered in the present study are compared with experimental results. Comparisons are included gas temperatures, species concentrations, char analysis and measured burning velocity. Among the models, Model II $I^{*}$-d, which specified devolatilization rate constants and a char surface area factor S=4, resulted in good agreement within the present experimental ranges. The results of char analysis suggest that the extent of the reaction occurring on the panicle might be underestimated in the model so that the char surface area should be increased. A value of 4 for this factor was given by sensitivity analysis of change in char surface area. Again, model II $I^{*}$-d gave satisfactory predictions of burning velocities over most of the experimental range studied. It has been clearly shown that the particle diameter appreciably affects the rates of devolatilisation and char oxidation through the effects of thermal lag and volumetric reactive surface area, consequently laminar burning velocity.ity.