통합 검색 | Korea Science

MPEG-4TTS 현황 및 전망

한민수
- 전자공학회지
- /
- 제24권9호
- /
- pp.91-98
- /
- 1997
Text-to-Speech(WS) technology has been attracting a lot of interest among speech engineers because of its own benefits. Namely, the possible application areas of talking computers, emergency alarming systems in speech, speech output devices for speech-impaired, and so on. Hence, many researchers have made significant progresses in the speech synthesis techniques in the sense of their own languages and as a result, the quality of current speech synthesizers are believed to be acceptable to normal users. These are partly why the MPEG group had decided to include the WS technology as one of its MPEG-4 functionalities. ETRI has made major contributions to the current MPEG-4 775 appearing in various MPEG-4 documents with relatively minor contributions from AT&T and NW. Main MPEG-4 functionalities presently available are; 1) use of original prosody for synthesized speech output, 2) trick mode functions for general users without breaking synthesized speech prosody, 3) interoperability with Facial Animation(FA) tools, and 4) dubbing a moving/anlmated picture with lip-shape pattern informations.
PDF

MPEG-4 TTS (Text-to-Speech)

한민수
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 1999년도 하계종합학술대회 논문집
- /
- pp.699-707
- /
- 1999
It cannot be argued that speech is the most natural interfacing tool between men and machines. In order to realize acceptable speech interfaces, highly advanced speech recognizers and synthesizers are inevitable. Text-to-Speech(TTS) technology has been attracting a lot of interest among speech engineers because of its own benefits. Namely, the possible application areas of talking computers, emergency alarming systems in speech, speech output devices fur speech-impaired, and so on. Hence, many researchers have made significant progresses in the speech synthesis techniques in the sense of their own languages and as a result, the quality of currently available speech synthesizers are believed to be acceptable to normal users. These are partly why the MPEG group had decided to include the TTS technology as one of its MPEG-4 functionalities. ETRI has made major contributions to the current MPEG-4 TTS among various MPEG-4 functionalities. They are; 1) use of original prosody for synthesized speech output, 2) trick mode functions fer general users without breaking synthesized speech prosody, 3) interoperability with Facial Animation(FA) tools, and 4) dubbing a moving/animated picture with lib-shape pattern information.
PDF

워핑 기법에 의한 얼굴의 포즈 합성에 관한 연구 (A Study on the Synthesis of Facial Poses based on Warping)

오승택;서준원;전병환
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
- /
- pp.499-501
- /
- 2001
본 논문에서는 사실적인 아바타(avata) 구현의 핵심이라 할 수 있는 입체적인 얼굴 표현을 위해, (※원문참조) 기하학적인 정보를 사용하지 않고 중첩 메쉬를 허용하는 개선된 메쉬 워프 알고리즘(mesh warp algor※원문참조)을 이용하여 IBR(Image Based Rendering)을 구현하는 방법을 제안한다. 3차원 모델을 대신하기 위해 (※원문참조) 인물의 정면, 좌우 반측면, 좌우 측면의 얼굴 영상들에 대해 작성된 메쉬를 사용한다. 합성하고자 하는 (※원문참조) 정면 얼굴 영상에 대해서는 정면 메쉬만을 작성하고, 반측면이나 측면 메쉬는 표준 메쉬를 근거로 자(※원문참조)된다. 얼굴 포즈 합성의 성능을 펴가하기 위해, 얼굴을 수평으로 회전하는 실제 포즈 영상과 합성된 포(※원문참조)에 대해 주요 특징점 들을 정규화 한 위치 오차를 측정한 결과, 평균적으로 양 눈의 중심에서 입의 (※원문참조)리에 대해 약 5%의 위치 오차만이 발생한 것으로 나타났다.
PDF

표정짓고 말하는 가상 얼굴의 실시간 합성 (Realtime Synthesis of Virtual Faces with Facial Expressions and Speech)

송경준;이기영;최창석;민병의
- 한국음향학회지
- /
- 제17권8호
- /
- pp.3-11
- /
- 1998
본 논문에서는 고품질의 얼굴 동영상과 운율이 첨가된 음성을 통합하여 자연스런 가상얼굴을 실시간으로 합성하는 방법을 제안한다. 이 방법에서는 한글 텍스트를 입력하여, 텍스트에 따라 입모양과 음성을 합성하고, 얼굴 동영상과 음성의 동기를 맞추고 있다. 먼저, 텍스트를 음운 변화한 후, 문장을 분석하고 자모음사이의 지속시간을 부여한다. 자모음과 지 속시간에 따라 입모양을 변화시켜 얼굴 동영상을 생성하고 있다. 이때, 텍스트에 부합한 입 모양 변화뿐만 아니라, 두부의 3차원 동작과 다양한 표정변화를 통하여 자연스런 가상얼굴 을 실시간으로 합성하고 있다. 한편, 음성합성에서는 문장분석 결과에 따라 강세구와 억양구 를 정하고 있다. 강세구와 억양구를 이용하여 생성된 운율모델이 고품질의 음성합성에 필요 한 지속시간, 억양 및 휴지기를 제어한다. 합성단위는 무제한 어휘가 가능한 반음절과 triphone(VCV)의 조합이며, 합성방식은 TD-PSOLA를 사용한다.
PDF

3차원 모델 기반 영상전송 시스템에서의 특징점 추출과 영상합성 연구 (A Study on the Feature Point Extraction and Image Synthesis in the 3-D Model Based Image Transmission System)

배문관;김동호;정성환;김남철;배건성
- 한국통신학회논문지
- /
- 제17권7호
- /
- pp.767-778
- /
- 1992
3-D 모델 기반 부호화 시스템에서 특징점 추출과 영상합성에 대하여 연구하였다. 얼굴의 특징점들은 영상처리 기술들과 얼굴에 대한 사전지식을 이용하여 자동적으로 추출된다. 추출된 얼굴의 특징점들을 이용하여 얼굴에 정합된 철선 프레임을 특징점의 움직임에 따라 변형시킨다. 변형된 철선 프레임 위에 초기 정면 영상의 질감을 매핑함으로써 합성영상이 만들어진다. 실험결과, 합성영상은 부자연스러움이 거의 나타나지 않았다.
PDF

MPEG-4 SNHC을 위한 3차원 얼굴 모델링 및 근육 모델을 이용한 표정합성 (3D Facial Modeling and Expression Synthesis using muscle-based model for MPEG-4 SNHC)

김선욱;심연숙;변혜란;정찬섭
- 한국감성과학회:학술대회논문집
- /
- 한국감성과학회 1999년도 추계학술대회 논문집
- /
- pp.368-372
- /
- 1999
새롭게 표준화된 멀티미디어 동영상 파일 포맷인 MPEG-4에는 자연영상과 소리뿐만 아니라 합성된 그래픽과 소리를 포함하고 있다. 특히 화상회의나 가상환경의 아바타를 구성하기 위한 모델링과 에니메이션을 위한 FDP, FAP에 대한 표준안을 포함하고 있다. 본 논문은 MPEG-4에서 정의한 FDP와 FAP를 이용하여 화상회의나 가상환경의 아바타로 자연스럽고 현실감 있게 사용할 수 있는 얼굴 모델 생성을 위해서 보다 정교한 일반모델을 사용하고, 이에 근육 모델을 사용하여 보다 정밀한 표정 생성을 위해서 임의의 위치에 근육을 생성 할 수 있도록 근육 편집기를 작성하여, 표정 에니메이션을 수행할 수 있도록 에니메이션 편집 프로그램을 구현하였다.
PDF

FACS 기반 GAN 기술을 이용한 가상 영상 아바타 합성 기술 (Video Synthesis Method for Virtual Avatar Using FACS based GAN)

김건형;박수현;이상호
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2021년도 춘계학술발표대회
- /
- pp.340-342
- /
- 2021
흔히 DeepFake로 불리는 GAN 기술은 소스 영상과 타겟 이미지를 합성하여 타겟 이미지 내의 사람이 소스 영상에서 나타나도록 합성하는 기술이다. 이러한 GAN 기반 영상 합성 기술은 2018년을 기점으로 급격한 성장세를 보이며 다양한 산업에 접목되어지고 있으나 학습 모델을 얻는 데 걸리는 시간이 너무 오래 소요되고, 감정 표현을 인지하는 데 어려움이 있었다. 본 논문에서는 상기 두가지 문제를 해결하기 위해 Facial Action Coding System(FACS) 및 음성 합성 기술[4]을 적용한 가상 아바타 생성 방법에 대해 제안하고자 한다.
https://doi.org/10.3745/PKIPS.y2021m05a.340 인용 PDF

피부 미세 요소가 포함된 분할 맵을 이용한 얼굴 영상 합성 모델 분석 (Analysis of Facial Image Synthesis Models using Segmentation Maps including Skin Microelements)

김유진;박인규
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2022년도 하계학술대회
- /
- pp.1256-1257
- /
- 2022
분할 맵 기반 얼굴 합성 분야의 기존 연구들은 피부 영역을 하나의 라벨로 취급한다. 이는 피부 내 미세한 요소를 표현하지 못하며 고해상도 영상 합성 성능 부족이라는 결과를 초래한다. 본 논문에서는 이러한 문제점을 극복하고자 분할 맵에 주름, 모공, 홍조와 같은 피부 요소를 추가하여 이로부터 얼굴 영상을 합성하는 기법을 제안한다. 기존 분할 맵 기반 영상 합성 연구에 제안하는 기법을 적용하여 정량적 및 정성적 비교를 통해 성능이 개선됨을 보인다.
PDF

3차원 모델을 사용한 애니메이션 캐릭터 얼굴의 합성 (Synthesizing Faces of Animation Characters Using a 3D Model)

장석우;김계영
- 한국컴퓨터정보학회논문지
- /
- 제17권8호
- /
- pp.31-40
- /
- 2012
본 논문에서는 3차원의 얼굴모델을 생성하여 사용자의 얼굴을 애니메이션 캐릭터의 얼굴에 자연스럽게 합성하는 새로운 방법을 제안한다. 제안된 방법에서는 먼저 정면과 측면의 직교하는 2장의 2차원 얼굴영상을 입력 받아 얼굴의 주요 특징을 템플릿 스테이크를 이용하여 추출하고, 추출된 특징점에 맞게 일반적인 3차원 얼굴 모델을 변형시킴으로써 사용자의 얼굴 형태에 적합한 얼굴 모델을 생성한다. 그리고 2장의 얼굴 영상으로부터 얻어지는 텍스처 맵을 3차원의 얼굴 모델에 매핑하여 현실감 있는 개인화된 얼굴 모델을 생성한다. 그런 다음, 개인화된 3차원의 얼굴모델을 애니메이션 캐릭터 얼굴의 위치, 크기, 표정, 회전 정보를 반영하여 캐릭터 얼굴에 자연스럽게 합성함으로써 현실감 있는 사용자 맞춤형 애니메이션을 제작한다. 실험에서는 제안된 캐릭터 얼굴 합성 방법의 성능을 검증하기 위해서 수행한 여러 가지 실험결과를 보인다. 본 논문에서 제안된 방법은 애니메이션 영화, 게임, 캐릭터를 이용한 여러 가지 응용 분야에서 유용하게 활용될 것으로 기대된다.
https://doi.org/10.9708/jksci.2012.17.8.031 인용 PDF KSCI

독립 요소 분석을 이용한 얼굴 표정의 매개변수화 (On Parameterizing of Human Expression Using ICA)

송지혜;신현준
- 한국컴퓨터그래픽스학회논문지
- /
- 제15권1호
- /
- pp.7-15
- /
- 2009
본 논문에서는 표정을 매개변수 공간에서 표현하고 응용하기 위한 새로운 방법을 제안한다. 컴퓨터 애니메이션 분야에서 복잡한 얼굴 표정을 보다 간단하게 표현하기 위해 표정을 매개변수화 하기 위한 다양한 연구들이 이루어졌다. 본 논문에서는 사람의 얼굴 표정을 포착한 데이터를 이용하여 표정을 구성하는 간단한 몇 개의 주요 움직임을 분석한다. 이를 위해 먼저 표정 매개 변수화를 애니메이션에 효과적으로 적용하기 위해 필요한 요구사항을 정리하고, 기존 연구들의 제한점을 파악한다. 본 논문에서는 많은 양의 표정 데이터에 독립 요소 분석(independent component analysis)기법을 적응함으로써 사람의 표정을 나타내는 독립적인 움직임을 추출하고 표정의 매개변수 공간을 구성한다. 또한 얼굴의 비선형적 움직임을 보다 정확하게 근사하기 위한 변형 모델과 데이터를 기반으로 변형 모델을 학습하기 위한 방법을 제안한다. 이러한 과정을 통하여 직관적으로 일반 사용자도 쉽게 표정을 제어할수 있는 매개변수 집합과 변형 모델을 얻을 수 있다.
PDF

검색결과 76건 처리시간 0.026초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)