• 제목/요약/키워드: 얼굴 동영상 합성

검색결과 15건 처리시간 0.023초

적대적 생성 신경망을 통한 얼굴 비디오 스타일 합성 연구 (Style Synthesis of Speech Videos Through Generative Adversarial Neural Networks)

  • 최희조;박구만
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.465-472
    • /
    • 2022
  • 본 연구에서는 기존의 동영상 합성 네트워크에 스타일 합성 네트워크를 접목시켜 동영상에 대한 스타일 합성의 한계점을 극복하고자 한다. 본 논문의 네트워크에서는 동영상 합성을 위해 스타일갠 학습을 통한 스타일 합성과 동영상 합성 네트워크를 통해 스타일 합성된 비디오를 생성하기 위해 네트워크를 학습시킨다. 인물의 시선이나 표정 등이 안정적으로 전이되기 어려운 점을 개선하기 위해 3차원 얼굴 복원기술을 적용하여 3차원 얼굴 정보를 이용하여 머리의 포즈와 시선, 표정 등의 중요한 특징을 제어한다. 더불어, 헤드투헤드++ 네트워크의 역동성, 입 모양, 이미지, 시선 처리에 대한 판별기를 각각 학습시켜 개연성과 일관성이 더욱 유지되는 안정적인 스타일 합성 비디오를 생성할 수 있다. 페이스 포렌식 데이터셋과 메트로폴리탄 얼굴 데이터셋을 이용하여 대상 얼굴의 일관된 움직임을 유지하면서 대상 비디오로 변환하여, 자기 얼굴에 대한 3차원 얼굴 정보를 이용한 비디오 합성을 통해 자연스러운 데이터를 생성하여 성능을 증가시킴을 확인했다.

표정짓고 말하는 가상 얼굴의 실시간 합성 (Realtime Synthesis of Virtual Faces with Facial Expressions and Speech)

  • 송경준;이기영;최창석;민병의
    • 한국음향학회지
    • /
    • 제17권8호
    • /
    • pp.3-11
    • /
    • 1998
  • 본 논문에서는 고품질의 얼굴 동영상과 운율이 첨가된 음성을 통합하여 자연스런 가상얼굴을 실시간으로 합성하는 방법을 제안한다. 이 방법에서는 한글 텍스트를 입력하여, 텍스트에 따라 입모양과 음성을 합성하고, 얼굴 동영상과 음성의 동기를 맞추고 있다. 먼저, 텍스트를 음운 변화한 후, 문장을 분석하고 자모음사이의 지속시간을 부여한다. 자모음과 지 속시간에 따라 입모양을 변화시켜 얼굴 동영상을 생성하고 있다. 이때, 텍스트에 부합한 입 모양 변화뿐만 아니라, 두부의 3차원 동작과 다양한 표정변화를 통하여 자연스런 가상얼굴 을 실시간으로 합성하고 있다. 한편, 음성합성에서는 문장분석 결과에 따라 강세구와 억양구 를 정하고 있다. 강세구와 억양구를 이용하여 생성된 운율모델이 고품질의 음성합성에 필요 한 지속시간, 억양 및 휴지기를 제어한다. 합성단위는 무제한 어휘가 가능한 반음절과 triphone(VCV)의 조합이며, 합성방식은 TD-PSOLA를 사용한다.

  • PDF

Optical flow를 이용한 얼굴요소 및 얼굴의 움직임 측정값에 따른 3차원 얼굴모델의 움직임 합성 (Motions syntheses 0in 3D facial model using features and motion parameters estimated through optical flow)

  • 박도영;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.408-410
    • /
    • 1998
  • 동영상에서 얼굴의 움직임을 이해하는 것은 인간과 컴퓨터간의 상호작용을 이루는 분야에서 중요한 문제이다. 본 논문에서는 2차원 동영상에서 얼굴요소 및 얼굴의 움직임을 측정하기 위해 optical flow를 통해 매개변수화된 움직임 벡터를 추출한다. 그리고 나서, 이를 소수의 매개변수들의 조합으로 만들어 얼굴의 움직임에 대한 정보를 묘사할 수 있게 하였다. 매개변수화된 움직임 벡터는 얼굴 및 얼굴 요소의 특징에 따라 다른 벡터 모델을 사용한다. 2차원 동영상에서 매개변수화된 움직임 벡터는 매 프레임마다 갱신되어 각 프레임에서 얼굴 및 얼굴 요소의 위치를 파악한다. 또한, 갱신된 벡터의 매개변수 조합으로 만들어 확인된 움직임에 대한 정보가 3차원 얼굴모델에 전달되며 3차원 얼굴 모델의 단위행위(Action Unit)와 연결되어 2차원 동영상에서의 얼굴 움직임을 합성할 수 있게 하였다.

  • PDF

얼굴의 움직임 추적에 따른 3차원 얼굴 합성 및 애니메이션 (3D Facial Synthesis and Animation for Facial Motion Estimation)

  • 박도영;심연숙;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.618-631
    • /
    • 2000
  • 본 논문에서는 2차원 얼굴 영상의 움직임을 추출하여 3차원 얼굴 모델에 합성하는 방법을 연구하였다. 본 논문은 동영상에서의 움직임을 추정하기 위하여 광류를 기반으로 한 추정방법을 이용하였다. 2차원 동영상에서 얼굴요소 및 얼굴의 움직임을 추정하기 위해 인접한 두 영상으로부터 계산된 광류를 가장 잘 고려하는 매개변수화된 움직임 벡터들을 추출한다. 그리고 나서, 이를 소수의 매개변수들의 조합으로 만들어 얼굴의 움직임에 대한 정보를 묘사할 수 있게 하였다. 매개변수화 된 움직임 벡터는 눈 영역, 입술과 눈썹 영역, 그리고 얼굴영역을 위한 서로 다른 세 종류의 움직임을 위하여 사용하였다. 이를 얼굴 모델의 움직임을 합성할 수 있는 단위행위(Action Unit)와 결합하여 2차원 동영상에서의 얼굴 움직임을 3 차원으로 합성한 결과를 얻을 수 있다.

  • PDF

가상대학에서 교수자와 학습자간 상호작용을 위한 지식기반형 문자-얼굴동영상 변환 시스템 (Knowledge based Text to Facial Sequence Image System for Interaction of Lecturer and Learner in Cyber Universities)

  • 김형근;박철하
    • 정보처리학회논문지B
    • /
    • 제15B권3호
    • /
    • pp.179-188
    • /
    • 2008
  • 본 논문에서는 가상대학에서 교수자와 학습자간 상호작용을 위한 지식기반형 문자-얼굴동영상 변환(TTFSI : Text to Facial Sequence Image) 시스템에 관해 연구하였다. TTFSI 시스템의 구현을 위해, 한글의 문법적 특징을 기반으로 가상강의에 사용된 자막정보에 립싱크된 얼굴 동영상 합성하기 위하여 자막정보를 음소코드로 변환하는 방법, 음소코드별 입모양의 변형규칙 작성법, 입모양 변형규칙에 의한 얼굴 동영상 합성법을 제안한다. 제안된 방법에서는 한글의 구조분석을 통해 기본 자모의 발음을 나타내는 10개의 대표 입모양과 조음결합에서 나타나는 78개의 혼합 입모양으로 모든 음절의 입모양을 표현하였다. 특히 PC환경에서의 실시간 영상을 합성하기 위해서 매 프레임마다 입모양을 합성하지 않고, DB에서 88개의 해당 입모양을 불러오는 방법을 사용하였다. 제안된 방법의 유용성을 확인하기 위하여 텍스트 정보에 따른 다양한 얼굴 동영상을 합성하였으며, PC환경에서 구현 가능한 TTFSI 시스템을 구축하였다.

실시간 아바타 표정 제어를 위한 SVM 기반 실시간 얼굴표정 인식 (SVM Based Facial Expression Recognition for Expression Control of an Avatar in Real Time)

  • 신기한;전준철;민경필
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.1057-1062
    • /
    • 2007
  • 얼굴표정 인식은 심리학 연구, 얼굴 애니메이션 합성, 로봇공학, HCI(Human Computer Interaction) 등 다양한 분야에서 중요성이 증가하고 있다. 얼굴표정은 사람의 감정 표현, 관심의 정도와 같은 사회적 상호작용에 있어서 중요한 정보를 제공한다. 얼굴표정 인식은 크게 정지영상을 이용한 방법과 동영상을 이용한 방법으로 나눌 수 있다. 정지영상을 이용할 경우에는 처리량이 적어 속도가 빠르다는 장점이 있지만 얼굴의 변화가 클 경우 매칭, 정합에 의한 인식이 어렵다는 단점이 있다. 동영상을 이용한 얼굴표정 인식 방법은 신경망, Optical Flow, HMM(Hidden Markov Models) 등의 방법을 이용하여 사용자의 표정 변화를 연속적으로 처리할 수 있어 실시간으로 컴퓨터와의 상호작용에 유용하다. 그러나 정지영상에 비해 처리량이 많고 학습이나 데이터베이스 구축을 위한 많은 데이터가 필요하다는 단점이 있다. 본 논문에서 제안하는 실시간 얼굴표정 인식 시스템은 얼굴영역 검출, 얼굴 특징 검출, 얼굴표정 분류, 아바타 제어의 네 가지 과정으로 구성된다. 웹캠을 통하여 입력된 얼굴영상에 대하여 정확한 얼굴영역을 검출하기 위하여 히스토그램 평활화와 참조 화이트(Reference White) 기법을 적용, HT 컬러모델과 PCA(Principle Component Analysis) 변환을 이용하여 얼굴영역을 검출한다. 검출된 얼굴영역에서 얼굴의 기하학적 정보를 이용하여 얼굴의 특징요소의 후보영역을 결정하고 각 특징점들에 대한 템플릿 매칭과 에지를 검출하여 얼굴표정 인식에 필요한 특징을 추출한다. 각각의 검출된 특징점들에 대하여 Optical Flow알고리즘을 적용한 움직임 정보로부터 특징 벡터를 획득한다. 이렇게 획득한 특징 벡터를 SVM(Support Vector Machine)을 이용하여 얼굴표정을 분류하였으며 추출된 얼굴의 특징에 의하여 인식된 얼굴표정을 아바타로 표현하였다.

  • PDF

휴먼인터페이스를 위한 한글음절의 입모양합성 (Lip Shape Synthesis of the Korean Syllable for Human Interface)

  • 이용동;최창석;최갑석
    • 한국통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.614-623
    • /
    • 1994
  • 얼굴을 마주보며 인간끼리 대화하는 것처럼 인간과 자연스럽게 대화할 수 있는 휴먼인터페이스를 실현하기 위해서는 임성의 합성과 얼굴영상의 합성이 필요하다. 본 논문은 얼굴영상의 합성을 대상으로 한다. 얼굴영상의 합성에서는 표정변화와 입모양의 변화를 3차원적으로 실현하기 위하여 얼굴의 3차원 형상모델을 이용한다. 얼굴의 3차원 모델을 얼굴 근육의 움직임에 따라 변형하므로서 다양한 얼굴표정과 음절에 어울리는 입모양을 합성한다. 우리말에서 자모의 결합으로 조합가능한 음절은 14,364자에 이른다. 이 음절에 대한 입모양의 대부분은 모음에 따라 형성되고, 일부가 자음에 따라 달라진다. 그러므로, 음절에 어울리는 입모양의 변형규칙을 정하기 위해, 이들을 모두 조사하여 모든 음절을 대표할 수 있는 입모양패턴을 모음과 자음에 따란 분류한다. 그 결과, 자음에 영향을 받는 2개의 패턴과 모음에 의한 8개의 패턴, 총 10개의 패턴으로 입모양을 분류할 수 있었다. 나아가서, 분류된 입모양패턴의 합성규칙을 얼굴근육의 움직임을 고려하여 정한다. 이와같이 분류된 10개의 입모양패턴으로 모든 음절에 대한 입모양을 합성할 수 있고, 얼굴근육의 움직임을 이용하므로써 다양한 표정을 지으면서 말하는 자연스런 얼굴영상을 합성할 수 있었다.

  • PDF

딥러닝 기반 얼굴 위변조 검출 기술 동향

  • 김원준
    • 방송과미디어
    • /
    • 제25권2호
    • /
    • pp.52-60
    • /
    • 2020
  • 최근 생체 정보를 이용한 사용자 인증 기술이 발전하면서 이를 모바일 기기에 적용하는 사례가 크게 증가하고 있다. 특히, 얼굴 기반 인증 방식은 비접촉식이며 사용이 편리하여 적용 범위가 점점 확대되고 있는 추세이다. 그러나, 사용자의 얼굴 사진이나 동영상 등을 이용한 위변조가 용이하기 때문에 모바일 기기 내 보안 유지에 어려움을 야기한다. 본 고에서는 이러한 문제를 해결하기 위해 최근 활발히 연구되고 있는 심층신경망 기반 얼굴 위변조 검출 연구의 최신 동향을 소개하고자 한다. 먼저, 기본 합성곱 신경망 구조부터 생성모델 기반의 위변조 검출 방법까지 다양한 신경망 구조를 이용한 위변조 검출 방법에 대해 설명한다. 또한, 심층신경망 학습을 위해 사용되는 얼굴 위변조 데이터셋에 대해서도 간략히 살펴보고자 한다.

빅데이터와 딥페이크 기반의 헤어스타일 추천 시스템 구현 (Implementation of Hair Style Recommendation System Based on Big data and Deepfakes)

  • 김태국
    • 사물인터넷융복합논문지
    • /
    • 제9권3호
    • /
    • pp.13-19
    • /
    • 2023
  • 본 논문에서는 빅데이터와 딥페이크 기반의 헤어스타일 추천 시스템 구현에 관해 연구하였다. 제안한 헤어스타일 추천 시스템은 사용자의 사진(이미지)을 바탕으로 얼굴형을 인식한다. 얼굴형은 타원형, 둥근형, 장방형으로 구분하며, 얼굴형에 잘 어울리는 헤어스타일을 딥페이크를 통해 합성하여 동영상으로 제공한다. 헤어스타일은 빅데이터를 바탕으로 최신 트랜드(trend)와 얼굴형에 어울리는 스타일을 적용하여 추천한다. 이미지의 분할 맵과 Motion supervised Co-Part Segmentation 알고리즘으로 같은 카테고리(머리, 얼굴 등)를 가지는 이미지들 간 요소를 합성할 수 있다. 다음으로 헤어스타일이 합성된 이미지와 미리 지정해둔 동영상을 Motion Representations for Articulated Animation 알고리즘에 적용하여 동영상 애니메이션을 생성한다. 제안한 시스템은 가상 피팅 등 전반적인 미용산업에 활용될 수 있을 것으로 기대한다. 향후 연구에서는 거울에 사물인터넷 기능 등을 적용하여 헤어스타일등을 추천해주는 스마트 거울을 연구할 예정이다.

MPEG-4 SNHC을 위한 3차원 얼굴 모델링 및 근육 모델을 이용한 표정합성 (3D Facial Modeling and Expression Synthesis using muscle-based model for MPEG-4 SNHC)

  • 김선욱;심연숙;변혜란;정찬섭
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 1999년도 추계학술대회 논문집
    • /
    • pp.368-372
    • /
    • 1999
  • 새롭게 표준화된 멀티미디어 동영상 파일 포맷인 MPEG-4에는 자연영상과 소리뿐만 아니라 합성된 그래픽과 소리를 포함하고 있다. 특히 화상회의나 가상환경의 아바타를 구성하기 위한 모델링과 에니메이션을 위한 FDP, FAP에 대한 표준안을 포함하고 있다. 본 논문은 MPEG-4에서 정의한 FDP와 FAP를 이용하여 화상회의나 가상환경의 아바타로 자연스럽고 현실감 있게 사용할 수 있는 얼굴 모델 생성을 위해서 보다 정교한 일반모델을 사용하고, 이에 근육 모델을 사용하여 보다 정밀한 표정 생성을 위해서 임의의 위치에 근육을 생성 할 수 있도록 근육 편집기를 작성하여, 표정 에니메이션을 수행할 수 있도록 에니메이션 편집 프로그램을 구현하였다.

  • PDF