통합 검색 | Korea Science

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

한소희;엄지섭;김회린
- 말소리와 음성과학
- /
- 제16권1호
- /
- pp.67-76
- /
- 2024
최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.
https://doi.org/10.13064/KSSS.2024.16.1.067 인용 PDF

GAT(Geometry Acoustic Theory)에 의한 표적신호 합성 (Target Scattering Echo Simulation by Geometry Acoustic Theory)

신기철
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
- /
- pp.473-476
- /
- 1998
본 연구에서는 GAT(Geometry Acoustic Theory)를 이용한 표적신호 합성모델의 이론적 배경을 제시하고, 수치모델의 결과를 음향수조에서 축소표적 실험자료 결과와 비교한다. GAT에 의한 표적신호 합성모델은 3차원 해양환경에서 음원과 표적에 의한 음장을 적절히 묘사할 뿐만 아니라 표적 형상에 의한 효과를 정밀하게 계산함으로써 고 정밀도의 표적신호 합성을 가능하게 한다.
PDF

모델합성 기법을 이용한 시뮬레이션 속도 개선 (Composition-based Simulation Speedup Methodology)

이완복;김탁곤
- 한국시뮬레이션학회:학술대회논문집
- /
- 한국시뮬레이션학회 2002년도 추계학술대회 논문집
- /
- pp.91-97
- /
- 2002
DEVS 형식론을 비롯한 모듈러한 시스템 모델링 방법은 복잡한 시스템을 모델링 할 때 유리하다. 반면에, 모듈러한 구성요소 모델들은 타 구성요소 모델의 상태 정보를 참조, 복사함으로써 빈번한 메시지 전달을 야기 시켜 시뮬레이션 속도가 저하되는 단점이 있다. 모델 합성법(Composition)은 여러 개의 요소모델들을 하나로 통합시키는 연산으로서 시스템 검증 분야에서 많이 사용되어져 왔다. 본 논문은 모델 합성법을 이용하여 구성요소 모델들 간에 주고받는 메시지 수를 줄이고 시뮬레이션 속도를 개선시키는 방법을 제안한다. 간단한 예제를 통하여 제안한 방법을 자세히 보여주고자 한다.
PDF

강재 골조의 비선형 지진해석을 위한 합성 보 요소 (Composite Beam Element for Nonlinear Seismic Analysis of Steel Frames)

김기동;고만기;이규세;황병국
- 한국강구조학회 논문집
- /
- 제14권5호통권60호
- /
- pp.577-591
- /
- 2002
지진 하중에 대한 강재 모멘트 골조의 합성 슬래브를 포함한 강재 보의 비탄성 거동을 모델하기 위한 합성 보 요소가 제안되고 강재 모멘트 골조의 지진 거동에 대한 합성 슬래브의 효과가 조사된다. 합성 보 요소는 단일 직렬 힌지 모델로 간주 될 수 있고, 그 해석 결과는 실험결과와 매우 합리적인 상관 관계를 보였다. 합성 보 요소는 기존의 강재 보 요소보다 상당히 좋은 거동을 보이고, 합성모델은 지진 하중 하에서의 구조물의 국부변형과 전체 응답을 기존의 강재 모델보다 정밀하게 예측할 수 있다. 합성 슬래브는 강재 모멘트 골조의 국부 및 전체 해석 응답에 상당히 큰 효과를 나타낸다.
PDF KSCI

수중 반사신호 합성을 위한 표적강도 예측모델 비교분석 (A Comparative Analysis of Target Strength Estimated Models for Underwater Echo Signal Synthesis)

김부일
- 한국군사과학기술학회지
- /
- 제4권1호
- /
- pp.93-103
- /
- 2001
고주파를 주로 사용하는 능동소나에서 반사신호는 물체표면의 거울면 반사와 내부의 여러 등가적인 산란자로 형성되며, 이는 물체에 공간적으로 분포된 하이라이트에 의해 특징 된다. 본 연구에서는 기존의 모의표적에 대한 반사신호 합성모델 즉, 랜덤분포 모델, 등간격분포 모델 및 MUTAHID 모델에 대하여 분석하고, 합성된 반사신호 결과특성을 여러 조건에서 비교하였다. 이러한 하이라이트 분포 모델들은 수중표적의 반사신호 합성을 필요로 하는 각종 실시스템의 모의표적 신호 합성에 유용하게 적용될 수 있으리라 생각된다.
PDF

부분 강합성보의 시간의존적 거동해석 (Time-Dependent Behavior of Partially Composite Beams)

곽효경;서영재
- 한국전산구조공학회논문집
- /
- 제13권4호
- /
- pp.461-473
- /
- 2000
이 논문은 콘크리트의 크리프와 건조수축 현상을 고려한 강재와 콘크리트의 부분 합성보의 거동의 해석을 위한 모델을 제안하고 있다. 부분합성 거동은 선형 부분전단 연결이론을 토대로 합성보를 일정한 수의 요소로 분할한 후 각 절점에서 평형조건과 적합조건을 기초로하여 구성 방정식을 구성하고 경계조건과 각 요소에 대한 구성 방정식을 순차적으로 적용하는 방법으로 해석모델이 구성되었다. 또한 콘크리트의 시간에 따른 현상인 크리프와 건조수축의 영향도 고려되었다. 제안된 해석모델은 다경간 연속 합성보의 슬립거동을 효과적으로 나타낼 수 있다. 제안된 해석 모델의 검증을 위해 기존 연구의 결과와 비교되었으며, 여러 조건에 대한 합성보의 해석을 통해 제안된 모델의 적용성을 입증하였다.
PDF

3차원 얼굴 모델 링 을 이 용한 표정 합성 (Facial Expression Synthesis Using 3D Facial Modeling)

심연숙;변혜란;정찬섭
- 한국감성과학회:학술대회논문집
- /
- 한국감성과학회 1998년도 추계학술발표 논문집
- /
- pp.40-44
- /
- 1998
사용자에 게 친근감 있는 인터페이스를 제공하기 위해 자연스러운 얼굴 애니메이션에 대한 연구가 활발히 진행 중이다.[5][6] 본 논문에서는 자연스러운 얼굴의 표정 합성을 위한 애니메이션 방법 을 제안하였다. 특정한 사람을 모델로 한 얼굴 애니메이션을 위하여 우선 3차원 메쉬로 구성된 일반 모델(generic model)을 특정 사람에게 정합 하여 특정인의 3차원 얼굴 모델을 얻을 수 있다 본 논문에서는 한국인의 자연스러운 얼굴 표정합성을 위하여, 한국인의 표준얼굴에 관한 연구결과를 토대로 한국인 얼굴의 특징을 반영한 일반모델을 만들고 이를 이용하여 특정인의 3차원 얼굴 모델을 얻을 수 있도록 하였다. 실제 얼굴의 근육 및 피부 조직 등 해부학적 구조에 기반 한 표정 합성방법을 사용하여 현실감 있고 자연스러운 얼굴 애니메이션이 이루어질 수 있도록 하였다.
PDF

구조물의 모델링 불확실성을 고려한 능동 제어기의 실험연구 (Experimental Study on the Active Controller of Structures Considering Modeling Uncertainty)

민경원;김성춘
- 한국지진공학회논문집
- /
- 제4권4호
- /
- pp.53-61
- /
- 2000
능동 제어기를 설계하기 위해서는 제어대상 구조물의 수학모델의 구해야한다. 그러나, 무한차원의 구조물에 대하여 정확한 모델을 구하는 것은 불가능하므로 유한차원인 저차원화된 모델을 사용하여 제어기를 설계한다. 그러나, 실제 구조물과 저차원화된 모델사이의 오차에 의하여 제어기의 성능이 저하가 되면 제어기와 구조물의 상호작용, 지진과 같은 오란 등의 불확실성, 지진시 구조물의 동적 특성 변화로 인하여 제어기의 성능이 더욱 저하가 된다. 이러한 저하 요인은 제어기 설계시 요구되는 구조물의 수학모델에 대한 불확실한 요소로 작용하기 때문에 제어성능의 저하를 일으키며 응답의 불안정을 유발하기로 한다. 본 연구에서는 질량형 능동제어기(AMD)가 설치된 3층 건물 모형의 모델 오차에 관한 불확실성을 반영한 강인제어기법을 적용하여 제어성능과 안정성을 실험을 통하여 분석하였다. 강인제어 기법인 $\mu$ 합성법에 요구되는 여러 가지 가중함수인 주파수필터는 건물과 AMD의 특성, 모델 오차, 제어율과 AMD 성능의 , 측정잡음 및 지진외란의 특성 등을 고려하여 정량적으로 선택되었다. $\mu$합성법에 의하여 제어기를 설계하였으며 강인성을 비교하기 위하여 불확실성이 고려되지 않는 LQG 기법에 의한 제어기를 선택하였다. $\mu$합성법은 규정된 불확성에 대하여 제어의 강인성을 가지므로 동적특성이 바뀐 건물모형에 관한 강인성을 LQG 기법에 의한 제어성능과 비교하였다. 그 결과 동적특성이 변화된 건물에 대하여 $\mu$합성법만이 제어의 효율성이 유지되는 강인성을 나타내었다.
PDF

고속 시뮬레이션을 위한 모델합성 방법 (Model Composition Methodology for High Speed Simulation)

이완복
- 한국콘텐츠학회논문지
- /
- 제6권11호
- /
- pp.258-265
- /
- 2006
DEVS 형식론은 이산사건 시스템의 구조를 계층적으로 나타낼 수 있기 때문에 복잡한 시스템을 모델링 하기에 적합하며, 가독성이 좋기 때문에 유지 보수에 유리한 장점이 있다. 반면에, 계층적인 모델의 구조는 시뮬레이션 실행 시에 빈번한 메시지 전달을 야기 시켜 시뮬레이션 속도가 저하되는 단점이 있다. 본 논문에서는 계층적인 DEVS 모델들을 하나로 합성하여 빈번한 메시지 전달을 방지하고 시뮬레이션 실행 속도를 개선할 수 있는 모델 합성법을 제안한다. 제안한 방법은 시뮬레이터 실행코드를 생성하기 이전에 구성 모델들 간의 메시지 전달 관계를 해석하여 실행시간에는 모델 해석과정을 생략하도록 하는 기법으로 기존의 모델 수평화 기법보다 훨씬 뛰어난 속도 향상 결과를 보인다. 제안한 방법의 효용성을 보이기 위해 실험을 통하여 시뮬레이션 속도가 18배 정도 개선될 수 있음을 보인다.
PDF

SKU-Net: Improved U-Net using Selective Kernel Convolution for Retinal Vessel Segmentation

Hwang, Dong-Hwan;Moon, Gwi-Seong;Kim, Yoon
- 한국컴퓨터정보학회논문지
- /
- 제26권4호
- /
- pp.29-37
- /
- 2021
본 논문에서는 안저영상의 다중 스케일 정보를 다루기 위한 딥러닝 기반의 망막 혈관 분할 모델을 제안한다. 제안 모델은 이미지 분할 딥러닝 모델인 U-Net과 선택적 커널 합성곱을 통합한 합성곱 신경망으로 안저영상에서 눈과 관련된 질병을 진단하는데 중요한 정보가 되는 망막 혈관의 다양한 모양과 크기를 갖는 특징 정보를 추출하고 분할한다. 제안 모델은 일반적인 합성곱과 선택적 커널 합성곱으로 구성된다. 일반적인 합성곱 층은 같은 크기 커널 크기를 통해 정보를 추출하는 반면, 선택적 커널 합성곱은 다양한 커널 크기를 갖는 브랜치들에서 정보를 추출하고 이를 분할 주의집중을 통해 적응적으로 조정하여 결합한다. 제안 모델의 성능 평가를 위해 안저영상 데이터인 DRIVE와 CHASE DB1 데이터셋을 사용하였으며 제안 모델은 두 데이터셋에 대하여 F1 점수 기준 82.91%, 81.71%의 성능을 보여 망막 혈관 분할에 효과적임을 확인하였다.
https://doi.org/10.9708/jksci.2021.26.04.029 인용 PDF KSCI HTML

검색결과 1,729건 처리시간 0.025초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)