• 제목/요약/키워드: Singing Voice Synthesis

검색결과 4건 처리시간 0.021초

HMM 기반 TTS와 MusicXML을 이용한 노래음 합성 (Singing Voice Synthesis Using HMM Based TTS and MusicXML)

  • 칸 나지브 울라;이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.53-63
    • /
    • 2015
  • 노래음 합성이란 주어진 가사와 악보를 이용하여 컴퓨터에서 노래음을 생성하는 것이다. 텍스트/음성 변환기에 널리 사용된 HMM 기반 음성합성기는 최근 노래음 합성에도 적용되고 있다. 그러나 기존의 구현방법에는 대용량의 노래음 데이터베이스 수집과 학습이 필요하여 구현에 어려움이 있다. 또한 기존의 상용 노래음 합성시스템은 피아노 롤 방식의 악보 표현방식을 사용하고 있어 일반인에게는 익숙하지 않으므로 읽기 쉬운 표준 악보형식의 사용자 인터페이스를 지원하여 노래 학습의 편의성을 향상시킬 필요가 있다. 이 문제를 해결하기 위하여 본 논문에서는 기존 낭독형 음성합성기의 HMM 모델을 이용하고 노래음에 적합한 피치값과 지속시간 제어방법을 적용하여 HMM 모델 파라미터 값을 변화시킴으로서 노래음을 생성하는 방법을 제안한다. 그리고 음표와 가사를 입력하기 위한 MusicXML 기반의 악보편집기를 전단으로, HMM 기반의 텍스트/음성 변환 합성기를 합성기 후단으로서 사용하여 노래음 합성시스템을 구현하는 방법을 제안한다. 본 논문에서 제안하는 방법을 이용하여 합성된 노래음을 평가하였으며 평가결과 활용 가능성을 확인하였다.

딥러닝 기반 가창 음성합성(Singing Voice Synthesis) 모델링 (Deep Learning based Singing Voice Synthesis Modeling)

  • 김민애;김소민;박지현;허가빈;최윤정
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.127-130
    • /
    • 2022
  • 본 논문은 생성자 손실함수를 이용한 가창 음성합성 모델링에 대한 연구로서 기존 이미지 생성에 최적화된 딥러닝 알고리즘 중 BEGAN모델을 오디오 생성모델(SVS모델)에 적용시킬 때 발생할 수 있는 여러 요인에 대해 분석하고 최적의 품질을 도출하기 위한 실험을 수행하였다. 특히 BEGAN 기반 모델에서 제안된 L1 loss가 어느 시점에서 감마(𝛾)파라미터의 역할을 상실하게 한다는 점을 개선하고자 알파(𝛼)파라미터를 추가한 후 각 파라미터 값들의 구간별 실험을 통해 최적의 값을 찾아냄으로써 가창합성 생성물의 품질향상에 기여할 수 있음을 확인하였다.

  • PDF

음악제작을 위한 음성합성엔진의 활용과 기술 (Application and Technology of Voice Synthesis Engine for Music Production)

  • 박병규
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권2호
    • /
    • pp.235-242
    • /
    • 2010
  • 음악제작에 쓰이는 음성합성엔진은 악기 소리와 음색의 합성에 머물던 과거의 신디사이저와는 달리, 인간의 목소리를 각 음소에 따라 샘플화하여 탑재함과 동시에 각 음소의 연결을 주파수 영역 내에서 자연스럽게 처리함으로써 실제 사람이 노래하는 것과 같은 수준까지 도달하게 되었다. 사용자들은 이러한 음성합성엔진을 음악제작에 국한하여 쓰지 않고 캐릭터를 활용한 콘서트, 영상제작, 음반, 모바일 서비스 등 2차 창작물로 새로운 음악의 형태를 창조하며 문화적 패러다임을 바꾸어 나가고 있다. 현재 음성합성엔진 기술은 악보 편집기를 통하여 사용자가 원하는 음과 가사, 그리고 음악적 표현 파라미터를 입력한 뒤, 실제 가성 샘플을 데이터베이스에서 가져와 합성엔진에서 발음들을 조합, 연결하여 노래하는 것을 가능하게 한다. 이러한 컴퓨터음악 기술의 발전으로 인해 파생된 새로운 음악 형태들은 문화적으로 큰 반향을 불러일으키고 있다. 이에 따라 본 논문은 구체적 활용 사례를 살펴보고 합성기술을 탐색함으로써, 사용자들이 음성합성엔진을 이해하고 습득하는 데 기여함과 동시에 그들의 다양한 음악제작에 도움이 되고자 한다.

멜-셉스트럴 왜곡(MCD)를 활용한 딥러닝 기반 목소리 합성 기술의 성능 평가 연구 (A performance evaluation study of a deep learning-based voice synthesis technique using Mel-Conceptual Distortion (MCD).)

  • 한재상;이하연;강윤서;나상우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.488-489
    • /
    • 2023
  • 노래 음성 변환(Singing Voice Conversion, SVC)은 오디오 처리 분야에서 최근 활발히 연구되는 분야 중 하나로, 원래의 멜로디와 가사를 유지하면서 소스 가수의 노래 음성을 대상 가수의 음성으로 변환하는 것을 목표로 한다. 본 논문에서는 딥러닝 기반 SVC 모델을 중심으로 멜 셉스트럴 왜곡 지표를 활용해 모델 간 성능 평가를 진행한다. 이를 통해 엔터테인먼트, 교육 등 분야에서 효율적인 SVC 모델을 찾아 활용할 수 있을 것이다.