• 제목/요약/키워드: 모델합성

검색결과 1,729건 처리시간 0.029초

Sine 파를 이용한 오디오 신호 분석 및 합성 (Analysis and Synthesis of Audio Signals using a Sinusoidal Model)

  • 남승현
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.255-258
    • /
    • 1998
  • Sine파를 이용한 오디오 분석과 합성은 고음질 저비트율 오디오 부호화에 매우 효율적인 방법의 하나로 알려져 있다. 본 논문은 sine파를 이용한 오디오 분석과 합성에 중요한 sine파 검출에 심리음향모델을 활용하는 방안을 제안하였다. 모의실험 결과, 심리음향모델을 사용한 경우 사용하지 않은 경우에 비해 합성에 사용되는 sine파의 개수를 약 50% 정도 줄일 수 있었음을 알 수 있었다. 한편 오디로 신호의 attack이나 nonstationarity를 처리할 수 있는 방법이 sine파를 이용한 오디오 부호화에 필수적이라는 사실을 확인하였고 그에 대한 대처 방안을 제시하였다.

  • PDF

다이폰단위의 합성방법을 이용한 오디오텍스 시스템의 구현에 관한 연구 (Development of a Diphone-Based Audiote System)

  • 이승훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.99-102
    • /
    • 1994
  • 당 연구실에서 개발했던 초기의 오디오텍스 시스템은 LSP 파라미터를 이용한 무제한 한국어 음성합성 장치로서 합성데이타베이스는 640개의 반음절로 구성되어 있었다. 그러나 이 시스템은 일반 사용자들에게 음성합성 서비스를 제공하기에는 damwlf이 너무 미흡하였으므로 음원모델의 수정, 에너지 contour의 조절등을 사용하여 어느 정도 음질개선을 꾀하였으나 만족할 만한 수준에는 도달하지 못했다. 그래서 합성단위를 다이폰단위로 수정한 새로운 오디오텍스 시스템을 ngus하였다. 다이폰단위의 오디오텍스시스템은 한국어의여러가지 음운환경을 고려하여 1228개의 합성단위로 구성되어 있으며 LSP 파라미터를 이용한 합성방식을 채택하고 있다. 또한 음원생성시 수정된 LF 모델에 자음의 명료도 및 자연성을 높이기 위해 TMS320C30 DSP chip, MC68020 CPU, 고속 메모리소자, 및 VRTOS를 사용하여 시스템을 구현하였으며, 청취실험결과 기존의 합성방법보다 자연성 및 명료도에서 개선된 음질을 얻을 수 있었다.

  • PDF

3차원 모델을 사용한 애니메이션 캐릭터 얼굴의 합성 (Synthesizing Faces of Animation Characters Using a 3D Model)

  • 장석우;김계영
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.31-40
    • /
    • 2012
  • 본 논문에서는 3차원의 얼굴모델을 생성하여 사용자의 얼굴을 애니메이션 캐릭터의 얼굴에 자연스럽게 합성하는 새로운 방법을 제안한다. 제안된 방법에서는 먼저 정면과 측면의 직교하는 2장의 2차원 얼굴영상을 입력 받아 얼굴의 주요 특징을 템플릿 스테이크를 이용하여 추출하고, 추출된 특징점에 맞게 일반적인 3차원 얼굴 모델을 변형시킴으로써 사용자의 얼굴 형태에 적합한 얼굴 모델을 생성한다. 그리고 2장의 얼굴 영상으로부터 얻어지는 텍스처 맵을 3차원의 얼굴 모델에 매핑하여 현실감 있는 개인화된 얼굴 모델을 생성한다. 그런 다음, 개인화된 3차원의 얼굴모델을 애니메이션 캐릭터 얼굴의 위치, 크기, 표정, 회전 정보를 반영하여 캐릭터 얼굴에 자연스럽게 합성함으로써 현실감 있는 사용자 맞춤형 애니메이션을 제작한다. 실험에서는 제안된 캐릭터 얼굴 합성 방법의 성능을 검증하기 위해서 수행한 여러 가지 실험결과를 보인다. 본 논문에서 제안된 방법은 애니메이션 영화, 게임, 캐릭터를 이용한 여러 가지 응용 분야에서 유용하게 활용될 것으로 기대된다.

자연스러운 표정 합성을 위한 3차원 얼굴 모델링 및 합성 시스템 (3D Facial Modeling and Synthesis System for Realistic Facial Expression)

  • 심연숙;김선욱;한재현;변혜란;정창섭
    • 인지과학
    • /
    • 제11권2호
    • /
    • pp.1-10
    • /
    • 2000
  • 최근 사용자에게 친근감있는 인터페이스를 제공하기 위해 자연스러운 얼굴 애니메이션에 대한 연구가 활발히 진행 중이다. 얼굴은 인간의 신체부위 중 가장 쉽게 개개인을 구분할 수 있고, 감정과 정서 등의 내적 상태를 명백하게 이해할 수 있도록 해주는 중요한 의사소통의 수단으로 여겨지고 있다. 이러한 얼굴은 이용하여 인간과 컴퓨터간의 의사 전달에 있어서 효율적으로 인간의 감정을 인식하고 전달하여 대화할 수 있도록 하기 위해서 컴퓨터상의 얼굴은 인간과 유사하게 대화할 수 있고, 감정을 표현할 수 있도록 친숙하고 현실감이 있어야 한다. 본 논문에서는 자연스러운 얼굴의 합성을 위한 얼굴 모델링 및 애니메이션 방법을 제안하였다. 특정한 사람을 모델로 한 얼굴 애니메이션을 위하여 우선 3차원 메쉬로 구성된 일반 모델(generic model)을 특성 사람에게 정합하여 특정인의 3차원 얼굴 모델을 얻을 수 있다. 본 논문에서는 기존 연구들과 다르게 표준 한국인 얼굴을 이용한 일반 모델을 생성하여, 임의의 얼굴에 대하여 좀 더 정확하고 자연스러운 3차원 모델이 이루어질 수 있도록 하였다. 그리고 얼굴 표정합성을 위하여, 실제 얼굴의 근육 및 피부 조직 등 해부학적 구조에 기반한 근육 기반 모델 방법을 사용하여 현실감 있고 자연스러운 얼굴 애니메이션이 이루어질 수 있도록 하였다. 이러한 얼굴 모델링 및 합성 기술은 화상회의, 가상현실, 교육, 영화 등 여러 분야에서 활용될 수 있다.

  • PDF

비지도 학습 깊이 예측 모델을 이용한 가상시점 합성 (Virtual view synthesis using unsupervised learning depth estimation model)

  • 송민기;양지희;황동호;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.155-157
    • /
    • 2019
  • 본 논문에서는 기존의 DERS, VSRS를 이용한 가상시점 합성이 가지고 있는 문제점을 해결하기 위해 비지도 학습 방식의 학습 모델을 이용하여 가상시점 합성에 적용하는 방식을 제안한다. 제안한 방식에서는 기존의 DERS와 달리 Disparity의 탐색범위를 지정하지 않고 Depth의 예측이 가능하며 단안의 영상에서 Depth를 예측하기 때문에 가상시점 합성 시 더 넓은 시점을 합성 할 수 있다. 또한 기존 방식은 Depth와 합성 영상을 각각 처리해야하지만 제안하는 방식은 한 번에 작업이 이루어지며, GPU를 기반으로 구현하였기 때문에 기존의 합성 방식 보다 처리 속도가 우수하다.

  • PDF

일한 음차 변환을 이용한 음성인식 및 합성기의 구현 (An Implementation of Speech Recognition and Synthesis System using Japanese-Korean Phonetic Transcription)

  • 이용주;이현구;윤재선;양원렬;홍광석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.401-403
    • /
    • 2000
  • 본 논문에서는 일한 음차 변환을 이용한 음성인식 및 합성기를 구현하였다. 음성인식의 경우 CV, VCCV, VCV, VV, VC 단위를 사용하였다. 이와 같이 단위별로 미리 구축된 모델을 결합함으로써 음성인식 시스템을 구축하였다. 따라서 일한 음차 변환을 적용하게 되면 인식 대상이 일어단어일 경우에도 이를 한글 발음으로 변환한 후 그에 해당하는 모델을 생성함으로써 인식이 가능하다. 음성 합성기의 경우 합성에 필요한 한국어 음성 데이터 베이스를 구축하고, 입력되는 텍스트에 따라 이를 연결하여 합성음을 생성한다. 일어가 입력될 경우 일한 음차 변환 규칙을 이용하여 입력된 일어 발음을 한글로 바꾸어 준 후 입력하게 되므로 별도의 일어 합성기 없이도 합성음을 생성할 수 있다.

  • PDF

영한 음차 변환을 이용한 무제한 음성인식 및 합성기의 구현 (An Implementation of Unlimited Speech Recognition and Synthesis System using Transcription of Roman to Hangul)

  • 양원렬;윤재선;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 하계종합학술대회논문집
    • /
    • pp.181-184
    • /
    • 2000
  • 본 논문에서는 영한 음차 변환을 이용한 음성인식 및 합성기를 구현하였다. 음성인식의 경우 CV(Consonant Vowel), VCCV, VCV, VV, VC 단위를 사용하였다. 위의 단위별로 미리 구축된 모델을 결합함으로써 무제한 음성인식 시스템을 구축하였다. 따라서 영한 음차 변환을 이용하게 되면 인식 대상이 영어단어일 경우에도 이를 한글 발음으로 변환한 후 그에 해당하는 모델을 생성함으로써 인식이 가능하다. 음성 합성기의 경우 합성에 필요한 한국어 음성 데이터 베이스를 구축하고, 입력되는 텍스트에 따라 이를 연결하여 합성음을 생성한다. 영어가 입력될 경우 영한 음차 변환을 이용하여 입력된 영어발음을 한글로 바꾸어 준 후 입력하게 되므로 별도의 영어 합성기 없이도 합성음을 생성할 수 있다.

  • PDF

저해상도 영상 자료를 사용하는 얼굴 표정 인식을 위한 소규모 심층 합성곱 신경망 모델 설계 (A Design of Small Scale Deep CNN Model for Facial Expression Recognition using the Low Resolution Image Datasets)

  • 살리모프 시로지딘;류재흥
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.75-80
    • /
    • 2021
  • 인공 지능은 놀라운 혜택을 제공하는 우리 삶의 중요한 부분이 되고 있다. 이와 관련하여 얼굴 표정 인식은 최근 수십 년 동안 컴퓨터 비전 연구자들 사이에서 뜨거운 주제 중 하나였다. 저해상도 이미지의 작은 데이터 세트를 분류하려면 새로운 소규모 심층 합성곱 신경망 모델을 개발해야 한다. 이를 위해 소규모 데이터 세트에 적합한 방법을 제안한다. 이 모델은 기존 심층 합성곱 신경망 모델에 비해 총 학습 가능 가중치 측면에서 메모리의 일부만 사용하지만 FER2013 및 FERPlus 데이터 세트에서 매우 유사한 결과를 보여준다.

강·콘크리트 경계면의 비선형성에 따른 합성구조체 거동(I) -비선형 경계면 모델에 따른 매개변수 연구- (Behavior of Composite Structure by Nonlinearity of Steel - concrete Interface (I) -Parametric Study for Nonlinear Model of Interface-)

  • 정연주;정광회;김병석
    • 한국강구조학회 논문집
    • /
    • 제15권5호통권66호
    • /
    • pp.499-507
    • /
    • 2003
  • 합성 구조체에서 강 콘크리트 경계면은 하중이 증가함에 따라 합성작용 저하, 미세균열, 슬립 및 분리등으로 나타내어 부분합성에 적합한 해석기법이 필요하다. 그러나 경계면을 고려하는 해식방법과 경계면 비선형 해석 모델 구성의 어려움으로 지금까지 합성 구조체에 대한 해석적 연구는 경계면 거동을 완전합성, 또는 선형-탄생으로 가정하여 정확한 거동 규명이 어려웠다. 따라서 합성 구조체의 설계는 대부분 실험적 방법에 의존하였지만 이것은 사용환경에 따라 매번 실험을 수행해야 하는 비효율성이 있다. 본 논문에서는 합성작용의 변화에 따른 다양한 강-콘크리트 경계면의 비선형 해석 모델을 바탕으로 하여 최대 접선응력과 슬립-연화 현상에 따르는 보다 정밀한 구조성능과 거동 특성을 규명하였다. 연구결과 경계면에 대한 비선형 모델은 최대하중 등과 같은 행복 이후의 거동을 보다 정확하게 나타내며, 이때 인터페이스의 초기 접선강성은 부재의 항복하중에, 최대 접선응력과 슬립-연화 합성 구조체의 최대하중과 같은 항복이후 거동에 주로 영향을 미치는 것으로 나타났다. 따라서 협성 구조체의 구조성능은 강-콘크리트 경계면의 합성작용, 즉 인터페이스 요소의 초기 접선강성, 최대 접선응력과 슬립-연화현상에 크게 의존적인 것으로 나타났다.

음질 및 속도 향상을 위한 선형 스펙트로그램 활용 Text-to-speech (Text-to-speech with linear spectrogram prediction for quality and speed improvement)

  • 윤혜빈
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.71-78
    • /
    • 2021
  • 인공신경망에 기반한 대부분의 음성 합성 모델은 고음질의 자연스러운 발화를 생성하기 위해 보코더 모델을 사용한다. 보코더 모델은 멜 스펙트로그램 예측 모델과 결합하여 멜 스펙트로그램을 음성으로 변환한다. 그러나 보코더 모델을 사용할 경우에는 많은 양의 컴퓨터 메모리와 훈련 시간이 필요하며, GPU가 제공되지 않는 실제 서비스 환경에서 음성 합성이 오래 걸린다는 단점이 있다. 기존의 선형 스펙트로그램 예측 모델에서는 보코더 모델을 사용하지 않으므로 이 문제가 발생하지 않지만, 대신에 고품질의 음성을 생성하지 못한다. 본 논문은 뉴럴넷 기반 보코더를 사용하지 않으면서도 양질의 음성을 생성하는 Tacotron 2 & Transformer 기반의 선형 스펙트로그램 예측 모델을 제시한다. 본 모델의 성능과 속도 측정 실험을 진행한 결과, 보코더 기반 모델에 비해 성능과 속도 면에서 조금 더 우세한 점을 보였으며, 따라서 고품질의 음성을 빠른 속도로 생성하는 음성 합성 모델 연구의 발판 역할을 할 것으로 기대한다.