• 제목/요약/키워드: lip synchronization

검색결과 15건 처리시간 0.024초

초저지연 비디오 통신을 위한 RTP 기반 립싱크 제어 기술에 관한 연구 (A Study on RTP-based Lip Synchronization Control for Very Low Delay in Video Communication)

  • 김병용;이동진;권재철;심동규
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.1039-1051
    • /
    • 2007
  • 본 논문은 비디오통신 시스템에서 초저지연을 달성하면서 립싱크 제어하는 방법을 제안한다. 초저지연 비디오 통신에서 핵심적인 기술은 종단간 지연시간을 줄이는 기술과 립싱크 제어 기술이다. 특히 서비스관점에서 립싱크 제어 기술이 중요한 요인으로 작용하고 있다. 오디오와 비디오의 데이터를 RTP/RTCP 기반으로 패킷을 구성하여 전송하고, 이 패킷을 이용하여 오디오와 비디오의 재생시간을 계산한 후 립싱크 제어를 한다. 본 논문에서는 오디오 데이터가 일정한 간격으로 재생되도록 하고, 오디오가 재생되는 시점에서 가장 근접한 재생시간을 가진 비디오 데이터를 찾아서 재생하는 방법으로 오디오와 비디오간의 립싱크 제어하는 방법을 제안한다. 그리고 종단간 지연시간이 100 ms이하인 초저지연 비디오 통신을 하기 위해서는 송신단의 인코딩 버퍼 제거하여 지연시간을 줄이고, 수신단의 재정렬버퍼 (Reordering Buffer)와 립싱크 버퍼의 크기를 3 프레임으로 처리하여 종단간 지연시간을 최소로 하였다. 실험결과에서 종단간 지연시간이 100 ms이하를 유지하고 오디오와 비디오의 립싱크 제어를 하였다.

  • PDF

Text-driven Speech Animation with Emotion Control

  • Chae, Wonseok;Kim, Yejin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3473-3487
    • /
    • 2020
  • In this paper, we present a new approach to creating speech animation with emotional expressions using a small set of example models. To generate realistic facial animation, two example models called key visemes and expressions are used for lip-synchronization and facial expressions, respectively. The key visemes represent lip shapes of phonemes such as vowels and consonants while the key expressions represent basic emotions of a face. Our approach utilizes a text-to-speech (TTS) system to create a phonetic transcript for the speech animation. Based on a phonetic transcript, a sequence of speech animation is synthesized by interpolating the corresponding sequence of key visemes. Using an input parameter vector, the key expressions are blended by a method of scattered data interpolation. During the synthesizing process, an importance-based scheme is introduced to combine both lip-synchronization and facial expressions into one animation sequence in real time (over 120Hz). The proposed approach can be applied to diverse types of digital content and applications that use facial animation with high accuracy (over 90%) in speech recognition.

시각적 어텐션을 활용한 입술과 목소리의 동기화 연구 (Lip and Voice Synchronization Using Visual Attention)

  • 윤동련;조현중
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.166-173
    • /
    • 2024
  • 본 연구에서는 얼굴 동영상에서 입술의 움직임과 음성 간의 동기화 탐지 방법을 제안한다. 기존의 연구에서는 얼굴 탐지 기술로 얼굴 영역의 바운딩 박스를 도출하고, 박스의 하단 절반 영역을 시각 인코더의 입력으로 사용하여 입술-음성 동기화 탐지에 필요한 시각적인 특징을 추출하였다. 본 연구에서는 입술-음성 동기화 탐지 모델이 음성 정보의 발화 영역인 입술에 더 집중할 수 있도록 사전 학습된 시각적 Attention 기반의 인코더 도입을 제안한다. 이를 위해 음성 정보 없이 시각적 정보만으로 발화하는 말을 예측하는 독순술(Lip-Reading)에서 사용된 Visual Transformer Pooling(VTP) 모듈을 인코더로 채택했다. 그리고, 제안 방법이 학습 파라미터 수가 적음에도 불구하고 LRS2 데이터 세트에서 다섯 프레임 기준으로 94.5% 정확도를 보임으로써 최근 모델인 VocaList를 능가하는 것을 실험적으로 증명하였다. 또, 제안 방법은 학습에 사용되지 않은 Acappella 데이터셋에서도 VocaList 모델보다 8% 가량의 성능 향상이 있음을 확인하였다.

가상현실을 위한 합성얼굴 동영상과 합성음성의 동기구현 (Synchronizationof Synthetic Facial Image Sequences and Synthetic Speech for Virtual Reality)

  • 최장석;이기영
    • 전자공학회논문지S
    • /
    • 제35S권7호
    • /
    • pp.95-102
    • /
    • 1998
  • This paper proposes a synchronization method of synthetic facial iamge sequences and synthetic speech. The LP-PSOLA synthesizes the speech for each demi-syllable. We provide the 3,040 demi-syllables for unlimited synthesis of the Korean speech. For synthesis of the Facial image sequences, the paper defines the total 11 fundermental patterns for the lip shapes of the Korean consonants and vowels. The fundermental lip shapes allow us to pronounce all Korean sentences. Image synthesis method assigns the fundermental lip shapes to the key frames according to the initial, the middle and the final sound of each syllable in korean input text. The method interpolates the naturally changing lip shapes in inbetween frames. The number of the inbetween frames is estimated from the duration time of each syllable of the synthetic speech. The estimation accomplishes synchronization of the facial image sequences and speech. In speech synthesis, disk memory is required to store 3,040 demi-syllable. In synthesis of the facial image sequences, however, the disk memory is required to store only one image, because all frames are synthesized from the neutral face. Above method realizes synchronization of system which can real the Korean sentences with the synthetic speech and the synthetic facial iage sequences.

  • PDF

멀티미디어 서비스를 위한 IEEE 802.11 WLANs 기반의 무선 네트워크 동기화 알고리즘 (Wireless Network Synchronization Algorithm based on IEEE 802.11 WLANs (Wireless Local Area Networks) for Multimedia Services)

  • 윤종원;정진우
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.225-232
    • /
    • 2008
  • 단일 멀티미디어 컨텐츠 소스가 다양한 분산된 무선 디바이스에서 재생될 때, 오디오와 비디오 컨텐츠는 멀티 채널 스테레오 사운드와 립싱크 (lip-sync)를 위한 동시적인 플레이가 요구된다. 특히 차량 내의 멀티미디어 시스템은 기존의 유선 환경에서 최근 무선 환경으로의 이전에 대한 연구가 활발히 진행되고 있는 상황이다. 이에 본 논문은 IEEE 802.11 WLANs [1] 환경에서 실시간으로 멀티미디어 트래픽을 전송하기위해 필요한 동기화된 서비스 제공을 목적으로 하는 동기화 알고리즘을 제안한다. 이를 위해 기존의 IEEE 1588 [2]을 개선한 새로운 알고리즘을 구현하고 무선 랜 (WLANs) 환경의 시뮬레이션 환경을 구축하여 그 성능을 평가, 분석한 후 실제 무선 디바이스 (링크시스 wrt-350n AP 네트워크 디바이스)에 이를 포팅 하여 디바이스 간의 동기화 정확도를 실험, 분석하였다.

  • PDF

숨겨진 오디오 비디오 시간 인덱스 신호를 사용한 DTV 립싱크 테스트 (DTV Lip-Sync Test Using Embedded Audio-Video Time Indexed Signals)

  • 한찬호;송규익
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.155-162
    • /
    • 2004
  • 본 논문은 오디오 비디오 신호에 대한 유한한 DTV 디지털 스트림을 사용한 립싱크 테스트에 관한 것이다. 본 논문에서는 프로그램 시청이 가능하면서, 과도 효과 영역 테스트 신호(transient effect area test signals, TATS) 및 오디오 비디오 시간 인덱스 립싱크 테스트 신호를 이용한 새로운 립싱크 테스트 방법을 제안한다. 실험 결과에서 제안된 방법은 오실로스코프의 비디오 트리거 모드를 사용하여 오디오 및 비디오 신호간의 시간차를 쉽게 측정할 수 있음이 확인되었다.

실시간 음성인식 및 립싱크 구현에 관한 연구 (A Study on the Implementation of Realtime Phonetic Recognition and LIP-synchronization)

  • 이형호;최두일;조우연
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2000년도 추계학술대회 논문집 학회본부 D
    • /
    • pp.812-814
    • /
    • 2000
  • 본 논문에서는 실시간 음성 인식에 의한 립싱크(Lip-synchronization) 애니메이션 제공 방법에 관한 것으로서, 소정의 음성정보를 인식하여 이 음성 정보에 부합되도록 애니메이션의 입모양을 변화시켜 음성정보를 시각적으로 전달하도록 하는 립싱크 방법에 대한 연구이다. 인간의 실제 발음 모습에 보다 유사한 립싱크와 생동감 있는 캐릭터의 얼굴 형태를 실시간으로 표현할 수 있도록 마이크 등의 입력을 받고 신경망을 이용하여 실시간으로 음성을 인식하고 인식된 결과에 따라 2차원 애니메이션을 모핑 하도록 모델을 상고 있다.

  • PDF

고화질 멀티 모달 영상 합성을 통한 다중 콘텐츠 통합 애니메이션 방법 (Multicontents Integrated Image Animation within Synthesis for Hiqh Quality Multimodal Video)

  • 노재승;강진범
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.257-269
    • /
    • 2023
  • 최근 딥러닝 모델을 통해 사진이나 영상을 활용하여 영상 합성을 수행하는 것에 대한 요구가 높아지고 있다. 기존 영상 합성 모델의 경우 주어진 영상으로부터 모션 정보만을 전이하여 사진에 대한 애니메이션 효과를 생성하였다. 하지만 이러한 합성 모델의 경우 음성에 따른 립싱크가 불가능하다는 문제와 함께 합성 결과물의 화질이 떨어진다는 문제점이 있다. 문제를 해결하기 위해 본 논문에서는 이미지 애니메이션 기법을 기반으로 한 새로운 프레임워크에 대해 설명한다. 본 프레임워크에서는 합성하려는 사진과 영상, 그리고 오디오를 제공하면 사진의 인물 특징을 유지한 채 주어진 영상의 행동을 따라 움직이는 것뿐만 아니라 음성에 맞게 발화하는 모습도 함께 합성하여 모션 전이와 함께 립싱크를 수행한 합성 결과물을 생성한다. 또한 초해상화 기법을 영상 합성물에도 활용하여 더욱 고화질, 고해상도의 합성 결과물을 제공하도록 구성하였다.

발화속도를 고려한 3차원 얼굴 모형의 퍼지 모델 기반 립싱크 구현 (Human-like Fuzzy Lip Synchronization of 3D Facial Model Based on Speech Speed)

  • 박종률;최철완;박민용
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.416-419
    • /
    • 2006
  • 본 논문에서는 음성 속도를 고려한 새로운 립싱크 방법에 대해서 제안한다. 실험을 통해 구축한 데이터베이스로부터 음성속도와 입모양 및 크기와의 관계를 퍼지 알고리즘을 이용하여 정립하였다. 기존 립싱크 방법은 음성 속도를 고려하지 않기 때문에 말의 속도와 상관없이 일정한 입술의 모양과 크기를 보여준다. 본 논문에서 제안한 방법은 음성 속도와 입술 모양의 관계를 적용하여 보다 인간에 근접한 립싱크의 구현이 가능하다. 또한 퍼지 이론을 사용함으로써 수치적으로 정확하게 표현할 수 없는 애매한 입 크기와 모양의 변화를 모델링 할 수 있다. 이를 증명하기 위해 제안된 립싱크 알고리즘과 기존의 방법을 비교하고 3차원 그래픽 플랫폼을 제작하여 실제 응용 프로그램에 적용한다.

  • PDF

SMS 메시지에 따른 모바일 3D 아바타의 입술 모양과 음성 동기화 (Lip and Voice Synchronization with SMS Messages for Mobile 3D Avatar)

  • 윤재홍;송용규;김은석;허기택
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.682-686
    • /
    • 2006
  • 모바일 3D 엔진을 탑재한 단말기의 등장과 모바일 콘텐츠 시장의 성장에 따라 3D 모바일 콘텐츠 서비스에 대한 관심이 고조되고 있다. 모바일 3D 아바타는 개인화된 모바일 기기 사용자의 개성을 표출할 수 있는 가장 효과적인 상품이다. 그러나 3D 아바타 표현 방법은 PC기반의 가상환경에서 캐릭터의 얼굴 표정 및 입술 모양 변화에 따른 자연스럽고 사실적인 표현에 대한 연구들이 주로 이루어 졌다. 본 논문에서는 모바일 환경에서 수신된 SMS 메시지를 3D 모바일 아바타에 적용하여 입술 모양 및 음성과 동기화 시키는 방법을 제안한다. 제안된 방법은 수신된 메시지 문장을 음절단위로 분해하여 모바일 3D 아바타의 입술 모양과 해당 음성을 동기화 시킴으로써, 모바일 아바타의 자연스럽고 효과적인 SMS 메시지 읽기 서비스를 구현할 수 있도록 해준다.

  • PDF