• 제목/요약/키워드: Video Synthesis

검색결과 116건 처리시간 0.026초

European Experience in Implementing Innovative Educational Technologies in the Field of Culture and the Arts: Current Problems and Vectors of Development

  • Kdyrova, I.O.;Grynyshyna, M.O.;Yur, M.V.;Osadcha, O.A.;Varyvonchyk, A.
    • International Journal of Computer Science & Network Security
    • /
    • 제22권5호
    • /
    • pp.39-48
    • /
    • 2022
  • The main purpose of the work is to analyze modern innovative educational practices in the field of culture and art and their effectiveness in the context of the spread of digitalization trends. The study used general scientific theoretical methods of analysis, synthesis, analogy, comparative, induction, deduction, reductionism, and a number of others, allowing you to fully understand the pattern of modern modernization processes in a long historical development and demonstrate how the rejection of the negativity of progress allows talented artists to realize their own potential. The study established the advantages and disadvantages of involving innovative technologies in the educational process on the example of European experience and outlined possible ways of implementing digitalization processes in Ukrainian institutions of higher education, formulated the main difficulties encountered by teachers and students in the use of technological innovation in the pandemic. The rapid development of digital technologies has had a great impact on the sphere of culture and art, both visual, scenic, and musical in all processes: creation, reproduction, perception, learning, etc. In the field of art education, there is a synthesis of creative practices with digital technologies. In terms of music education, these processes at the present stage are provided with digital tools of specially developed software (music programs for composition and typing of musical text, recording, and correction of sound, for quality listening to the whole work or its fragments) for training programs used in institutional education and non-institutional learning as a means of independent mastering of the theory and practice of music-making, as well as other programs and technical tools without which contemporary art cannot be imagined. In modern stage education, the involvement of video technologies, means of remote communication, allowing realtime adjustment of the educational process, is actualized. In the sphere of fine arts, there is a transformation of communicative forms of interaction between the teacher and students, which in the conditions of the pandemic are of two-way communication with the help of information and communication technologies. At this stage, there is an intensification of transformation processes in the educational industry in the areas of culture and art.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

DirectX를 이용한 실시간 영상 모자익 (Real-Time Image Mosaic Using DirectX)

  • 정민영;최승현;배기태;이칠우
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.803-810
    • /
    • 2003
  • 본 논문에서는 일반 PC에서 방사형으로 배치된 카메라를 통해 획득되는 비디오 영상을 하나의 대형 고해상도 영상으로 만드는 실시간 영상모자익 기법에 관해 기술한다. 제안된 방법은 먼저 위상 상관 알고리즘을 사용하여 인접하는 두 영상간의 수평 및 수직 이동거리를 산출한 다음, Levenberg-Marquardt 방법을 사용하여 카메라 사이의 정확한 변환 행렬을 계산한다. 마지막으로 DirectX의 텍스처 매핑 함수에 변환행렬을 적용하여 입력영상들을 하나의 대형 영상으로 합성한다. 이 방법은 특징은 일반 개인용 컴퓨터에서 널리 사용되고 있는 그래픽 API DirectX를 영상 합성과정에 이용하기 때문에 특별한 장치와 기계어 수준의 프로그래밍 없이도 실시간 영상 모자익을 구현할 수 있다는 것이다.

A Vision-based Approach for Facial Expression Cloning by Facial Motion Tracking

  • Chun, Jun-Chul;Kwon, Oryun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제2권2호
    • /
    • pp.120-133
    • /
    • 2008
  • This paper presents a novel approach for facial motion tracking and facial expression cloning to create a realistic facial animation of a 3D avatar. The exact head pose estimation and facial expression tracking are critical issues that must be solved when developing vision-based computer animation. In this paper, we deal with these two problems. The proposed approach consists of two phases: dynamic head pose estimation and facial expression cloning. The dynamic head pose estimation can robustly estimate a 3D head pose from input video images. Given an initial reference template of a face image and the corresponding 3D head pose, the full head motion is recovered by projecting a cylindrical head model onto the face image. It is possible to recover the head pose regardless of light variations and self-occlusion by updating the template dynamically. In the phase of synthesizing the facial expression, the variations of the major facial feature points of the face images are tracked by using optical flow and the variations are retargeted to the 3D face model. At the same time, we exploit the RBF (Radial Basis Function) to deform the local area of the face model around the major feature points. Consequently, facial expression synthesis is done by directly tracking the variations of the major feature points and indirectly estimating the variations of the regional feature points. From the experiments, we can prove that the proposed vision-based facial expression cloning method automatically estimates the 3D head pose and produces realistic 3D facial expressions in real time.

다중 마스터를 위한 고성능의 범용 메모리 제어기의 구조 (VLSI Architecture of General-purpose Memory Controller with High-Performance for Multiple Master)

  • 최현준;서영호;김동욱
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.175-182
    • /
    • 2011
  • 본 논문은 비디오 처리를 위한 SoC 내에서 다수 개의 프로세싱 블록(마스터)들을 처리할 수 있는 고성능의 메모리 제어기를 설계하였다. 메모리 제어기는 마스터 중재기에 의해 중재되며 이것은 메모리 접근을 요구하는 마스터들의 요구 신호를 받아 데이터를 전송하는 역할을 해주게 된다. 구현된 메모리 제어기는 마스터 선택기, 마스터 중 재기, 메모리 신호 생성기, 명령어 디코더, 데이터 버스, 그리고 메모리 신호 생성기로 구성된다. 제안한 메모리 제어기는 VHDL을 이용하여 설계하였고, 삼성의 메모리 모델을 이용하여 동작을 검증하였다. FPGA 합성 및 검증을 위해서는 ATERA사의 Quartus II를 이용하였고, 구현된 하드웨어는 Cyclone II 칩을 사용하였다. 시뮬레이션을 위해서는 Cadence사의 ModelSim을 이용하였고, FPGA 환경에서 174.28MHz의 주파수로 동작하여, SDRAM의 규격을 모두 만족할 수 있었다.

H.264/AVC 기반의 스테레오 영상 디스플레이 시스템 (Stereoscopic Video Display System Based on H.264/AVC)

  • 김태준;김지홍;윤정환;배병규;김동욱;유지상
    • 한국통신학회논문지
    • /
    • 제33권6C호
    • /
    • pp.450-458
    • /
    • 2008
  • 본 논문에서는 양안시차를 이용한 스테레오 영상의 부호화 기법을 H.264/AVC 기반으로 스테레오 영상을 실시간으로 전송하기 위한 효과적인 시스템을 제안한다. OpenCV를 이용하여 스테레오 웹캠으로부터 영상을 획득하고, 전처리 과정으로 입력 시스템을 통해 획득한 스테레오 영상을 YUV 4:2:0 파일 포맷으로 변환한다. 변환된 파일은 스테레오 부호화기로 입력되고 제안된 예측구조에 의해 부호화기의 복잡도를 감소시킴으로써 초당 30프레임 이상의 부호화 속도로 부호화 된다. 부호화된 비트스트림 파일은 복호화기에 입력되어 좌, 우 스테레오 영상으로 재 생성된다. 재 생성된 스테레오 영상은 입체영상으로 합성되어 3D 디스플레이 장치를 통해 사용자에게 보여지게 된다. 제안된 시스템은 기존의 스테레오 코덱을 사용했을 때 보다 최소 1.5dB에서 최대 3dB의 압축효율이 뛰어남을 본 실험을 통하여 검증 및 확인하였다. 본 연구는 저 대역폭, 저 전력의 실시간 전송을 위한 모바일환경에 응용이 가능할 것으로 기대된다.

실감형 화상 회의를 위해 깊이정보 혼합을 사용한 시선 맞춤 시스템 (Eye Contact System Using Depth Fusion for Immersive Videoconferencing)

  • 장우석;이미숙;호요성
    • 전자공학회논문지
    • /
    • 제52권7호
    • /
    • pp.93-99
    • /
    • 2015
  • 본 논문에서는 실감형 원격 영상회의를 위한 시스템을 제안한다. 원격 영상회의에서 카메라는 보통 디스플레이의 중앙이 아닌 측면에 설치가 된다. 이는 시선 불일치를 만들고, 사용자들의 몰입도를 떨어뜨린다. 따라서 실감형 영상회의에 있어서 시선 맞춤은 중요한 부분을 차지한다. 제안하는 방법은 스테레오 카메라와 깊이 카메라를 사용하여 시선 맞춤을 시도한다. 깊이 카메라는 비교적 적은 비용으로 효율적으로 깊이 정보를 생성할 수 있는 키넥트 카메라를 선택하였다. 하지만 키넥트 카메라는 비용적인 장점에도 불구하고 단독으로 사용하기에는 내제하는 단점이 많다. 따라서 스테레오 카메라를 더하여 각 깊이 센서 간의 단점을 보완하는 방법을 개발하였고, 이는 각 깊이 정보 간의 혼합 및 정제 과정을 통해서 실현된다. 시선 맞춤 영상 생성은 후처리를 통한 보완된 깊이 정보를 이용하여 3차원 워핑 기술을 이용하여 구현된다. 실험결과를 보면 제안한 시스템이 자연스러운 시선 맞춤 영상을 제공하는 것을 알 수 있다.

연소 화염법에 의해 합성된 다이아몬드형상에 미치는 탄화수소량과 온도분포의 영향 (The Effect of Hydrocarbon Content and Temperature Distribution on The Morphology of Diamond Film Synthesized by Combustion Flame Method)

  • 김성영;고명완;이재성
    • 한국재료학회지
    • /
    • 제4권5호
    • /
    • pp.566-573
    • /
    • 1994
  • 연소화염법을 이용한 다이아몬드 박막합성시 기판표면온도 및 온도분포에 가장 크게 작용하는 공정변수는 탄화수소량을 결정하는 산소/아세틸렌 가스의 혼합비(R=O/sub 2/C/sub 2/H/sub 2/)이다. 본 연구에서는 혼합가스비율 변화 (R=0.87-0.98)에 따른 기판표면온도 및 온도분포를 측정하고, 이들 변수에 따른 다이아몬드 박막의 생성 및 결정형상의 변화과정을 SEM관찰, Raman 분광분석 및 X-선 회절 분석을 통해 조사하였다. 혼합가스비율의 증가에 따라 다이아몬드의 생성입자 수밀도는 감소하였고, 이와 동시에 결정형상도 (111)면과 (100)면이 혼재된 cobo octahedron형에서 octahedron인 (111)면으로 변화되었다. 한편, 기판온도증가에 따라 생성입자의 수밀도가 증가하고 성장속도도 빨라져 조대한 결정을 얻었으며, 생성된 입자형성은 (111)면애 지배적이다가 (100)결정면이 점차 많아지는 양상을 나타내었다.

  • PDF

인터랙티브 미디어 플랫폼 콕스에 제공될 4가지 얼굴 변형 기술의 비교분석 (Comparison Analysis of Four Face Swapping Models for Interactive Media Platform COX)

  • 전호범;고현관;이선경;송복득;김채규;권기룡
    • 한국멀티미디어학회논문지
    • /
    • 제22권5호
    • /
    • pp.535-546
    • /
    • 2019
  • Recently, there have been a lot of researches on the whole face replacement system, but it is not easy to obtain stable results due to various attitudes, angles and facial diversity. To produce a natural synthesis result when replacing the face shown in the video image, technologies such as face area detection, feature extraction, face alignment, face area segmentation, 3D attitude adjustment and facial transposition should all operate at a precise level. And each technology must be able to be interdependently combined. The results of our analysis show that the difficulty of implementing the technology and contribution to the system in facial replacement technology has increased in facial feature point extraction and facial alignment technology. On the other hand, the difficulty of the facial transposition technique and the three-dimensional posture adjustment technique were low, but showed the need for development. In this paper, we propose four facial replacement models such as 2-D Faceswap, OpenPose, Deekfake, and Cycle GAN, which are suitable for the Cox platform. These models have the following features; i.e. these models include a suitable model for front face pose image conversion, face pose image with active body movement, and face movement with right and left side by 15 degrees, Generative Adversarial Network.

Bidirectional Convolutional LSTM을 이용한 Deepfake 탐지 방법 (A Method of Detection of Deepfake Using Bidirectional Convolutional LSTM)

  • 이대현;문종섭
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1053-1065
    • /
    • 2020
  • 최근 하드웨어의 성능과 인공지능 기술이 발달함에 따라 육안으로 구분하기 어려운 정교한 가짜 동영상들이 증가하고 있다. 인공지능을 이용한 얼굴 합성 기술을 딥페이크라고 하며 약간의 프로그래밍 능력과 딥러닝 지식만 있다면 누구든지 딥페이크를 이용하여 정교한 가짜 동영상을 제작할 수 있다. 이에 무분별한 가짜 동영상이 크게 증가하였으며 이는 개인 정보 침해, 가짜 뉴스, 사기 등에 문제로 이어질 수 있다. 따라서 사람의 눈으로도 진위를 가릴 수 없는 가짜 동영상을 탐지할 수 있는 방안이 필요하다. 이에 본 논문에서는 Bidirectional Convolutional LSTM과 어텐션 모듈(Attention module)을 적용한 딥페이크 탐지 모델을 제안한다. 본 논문에서 제안하는 모델은 어텐션 모듈과 신경곱 합성망 모델을 같이 사용되어 각 프레임의 특징을 추출하고 기존의 제안되어왔던 시간의 순방향만을 고려하는 LSTM과 달리 시간의 역방향도 고려하여 학습한다. 어텐션 모듈은 합성곱 신경망 모델과 같이 사용되어 각 프레임의 특징 추출에 이용한다. 실험을 통해 본 논문에서 제안하는 모델은 93.5%의 정확도를 갖고 기존 연구의 결과보다 AUC가 최대 50% 가량 높음을 보였다.