• 제목/요약/키워드: Voice Cloning

검색결과 2건 처리시간 0.014초

A Design and Implementation of The Deep Learning-Based Senior Care Service Application Using AI Speaker

  • Mun Seop Yun;Sang Hyuk Yoon;Ki Won Lee;Se Hoon Kim;Min Woo Lee;Ho-Young Kwak;Won Joo Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.23-30
    • /
    • 2024
  • 본 논문에서는 딥러닝 기반의 개인 맞춤형 실버세대 케어 서비스 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 사용자의 편의성을 고려하여 STT(Speech to Text) 기술을 사용해 사용자의 발화를 텍스트로 변환하고, 이를 Microsoft 사의 대화형 멀티 에이전트 거대 언어 모델인 Autogen의 입력으로 사용한다. Autogen은 사용자와 ChatBot의 대화 데이터를 활용하여 상대방의 의도를 파악하여 답변에 대하여 응답한다. 그리고 백엔드 에이전트를 활용하여 위시리스트, 공유 달력 그리고 보이스 클로닝을 위한 딥러닝 모델을 통해 상대방의 목소리가 담긴 안부 메시지 기능을 제공한다. 또한, 애플리케이션은 SKT 사의 인공지능 누구(NUGU) 스피커를 탑재하여 홈 IoT 서비스 기능을 제공한다. 이러한 기능을 통해 제안하는 지능형 애플리케이션은 향후 미래 인공지능 기반의 실버세대 케어 기술에 기여할 것이다.

d-vector를 이용한 한국어 다화자 TTS 시스템 (A Korean Multi-speaker Text-to-Speech System Using d-vector)

  • 김광현;권철홍
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.469-475
    • /
    • 2022
  • 딥러닝 기반 1인 화자 TTS 시스템의 모델을 학습하기 위해서 수십 시간 분량의 음성 DB와 많은 학습 시간이 요구된다. 이것은 다화자 또는 개인화 TTS 모델을 학습시키기 위해서는 시간과 비용 측면에서 비효율적 방법이다. 음색 복제 방법은 새로운 화자의 TTS 모델을 생성하기 위하여 화자 인코더 모델을 이용하는 방식이다. 학습된 화자 인코더 모델을 통해 학습에 사용되지 않은 새로운 화자의 적은 음성 파일로부터 이 화자의 음색을 대표하는 화자 임베딩 벡터를 만든다. 본 논문에서는 음색 복제 방식을 적용한 다화자 TTS 시스템을 제안한다. 제안한 TTS 시스템은 화자 인코더, synthesizer와 보코더로 구성되어 있는데, 화자 인코더는 화자인식 분야에서 사용하는 d-vector 기법을 적용한다. 학습된 화자 인코더에서 도출한 d-vector를 synthesizer에 입력으로 추가하여 새로운 화자의 음색을 표현한다. MOS와 음색 유사도 청취 방법으로 도출한 실험 결과로부터 제안한 TTS 시스템의 성능이 우수함을 알 수 있다.