• Title/Summary/Keyword: 디코더

Search Result 332, Processing Time 0.028 seconds

Improved Multi-modal Network Using Dilated Convolution Pyramid Pooling (팽창된 합성곱 계층 연산 풀링을 이용한 멀티 모달 네트워크 성능 향상 방법)

  • Park, Jun-Young;Ho, Yo-Sung
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.84-86
    • /
    • 2018
  • 요즘 자율주행과 같은 최신 기술의 발전과 더불어 촬영된 영상 장면에 대한 깊이있는 이해가 필요하게 되었다. 특히, 기계학습 기술이 발전하면서 카메라로 찍은 영상에 대한 의미론적 분할 기술에 대한 연구도 활발히 진행되고 있다. FuseNet은 인코더-디코더 구조를 이용하여 장면 내에 있는 객체에 대한 의미론적 분할 기술을 적용할 수 있는 신경망 모델이다. FuseNet은 오직 RGB 입력을 받는 기존의 FCN보다 깊이정보까지 활용하여 RGB 정보를 기반으로 추출한 특징지도와의 요소합 연산을 통해 멀티 모달 구조를 구현했다. 의미론적 분할 연구에서는 객체의 전역 컨텍스트가 고려되는 것이 중요한데, 이를 위해 여러 계층을 깊게 쌓으면 연산량이 많아지는 단점이 있다. 이를 극복하기 위해서 기존의 합성곱 방식을 벗어나 새롭게 제안된 팽창 합성곱 연산(Dilated Convolution)을 이용하면 객체의 수용 영역이 효과적으로 넓어지고 연산량이 적어질 수 있다. 본 논문에서는 컨볼루션 연산의 새로운 방법론적 접근 중 하나인 팽창된 합성곱 연산을 이용해 의미론적 분할 연구에서 새로운 멀티 모달 네트워크의 성능 향상 방법을 적용하여 계층을 더 깊게 쌓지 않더라도 파라미터의 증가 없이 해상도를 유지하면서 네트워크의 전체 성능을 향상할 수 있는 최적화된 방법을 제안한다.

  • PDF

Motion Style Transfer using Variational Autoencoder (변형 자동 인코더를 활용한 모션 스타일 이전)

  • Ahn, Jewon;Kwon, Taesoo
    • Journal of the Korea Computer Graphics Society
    • /
    • v.27 no.5
    • /
    • pp.33-43
    • /
    • 2021
  • In this paper, we propose a framework that transfers the information of style motions to content motions based on a variational autoencoder network combined with a style encoding in the latent space. Because we transfer a style to a content motion that is sampled from a variational autoencoder, we can increase the diversity of existing motion data. In addition, we can improve the unnatural motions caused by decoding a new latent variable from style transfer. That improvement was achieved by additionally using the velocity information of motions when generating next frames.

Unpaired Korean Text Style Transfer with Masked Language Model (마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환)

  • Bae, Jangseong;Lee, Changki;Noh, Hyungjong;Hwang, Jeongin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.391-395
    • /
    • 2021
  • 텍스트 스타일 변환은 입력 스타일(source style)로 쓰여진 텍스트의 내용(content)을 유지하며 목적 스타일(target style)의 텍스트로 변환하는 문제이다. 텍스트 스타일 변환을 시퀀스 간 변환 문제(sequence-to-sequence)로 보고 기존 기계학습 모델을 이용해 해결할 수 있지만, 모델 학습에 필요한 각 스타일에 대응되는 병렬 말뭉치를 구하기 어려운 문제점이 있다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행하는 방법들이 연구되고 있다. 이 연구들은 주로 인코더-디코더 구조의 생성 모델을 사용하기 때문에 입력 문장이 가지고 있는 내용이 누락되거나 다른 내용의 문장이 생성될 수 있는 문제점이 있다. 본 논문에서는 마스크 언어 모델(masked language model)을 이용해 입력 텍스트의 내용을 유지하면서 원하는 스타일로 변경할 수 있는 텍스트 스타일 변환 방법을 제안하고 한국어 긍정-부정, 채팅체-문어체 변환에 적용한다.

  • PDF

Semi-supervised GPT2 for News Article Recommendation with Curriculum Learning (준 지도 학습과 커리큘럼 학습을 이용한 유사 기사 추천 모델)

  • Seo, Jaehyung;Oh, Dongsuk;Eo, Sugyeong;Park, Sungjin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.495-500
    • /
    • 2020
  • 뉴스 기사는 반드시 객관적이고 넓은 시각으로 정보를 전달하지 않는다. 따라서 뉴스 기사를 기존의 추천 시스템과 같이 개인의 관심사나 사적 정보를 바탕으로 선별적으로 추천하는 것은 바람직하지 않다. 본 논문에서는 최대한 객관적으로 다양한 시각에서 비슷한 사건과 인물에 대해서 판단할 수 있도록 유사도 기반의 기사 추천 모델을 제시한다. 길이가 긴 문서 사이의 유사도를 측정하기 위해 GPT2 [1]언어 모델을 활용했다. 이 과정에서 단방향 디코더 모델인 GPT2 [1]의 단점을 추가 학습으로 개선했으며, 저장 공간의 효율과 핵심 문단 추출을 위해 BM25 [2]함수를 사용했다. 그리고 준 지도 학습 [3]을 통해 유사도 레이블링이 되어있지 않은 최신 뉴스 기사에 대해서도 자가 학습을 진행했으며, 이와 함께 길이가 긴 문단에 대해서도 효과적으로 학습할 수 있도록 문장 길이를 기준으로 3개의 단계로 나누어진 커리큘럼 학습 [4]방식을 적용했다.

  • PDF

U-net with vision transformer encoder for polyp segmentation in colonoscopy images (비전 트랜스포머 인코더가 포함된 U-net을 이용한 대장 내시경 이미지의 폴립 분할)

  • Ayana, Gelan;Choe, Se-woon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.97-99
    • /
    • 2022
  • For the early identification and treatment of colorectal cancer, accurate polyp segmentation is crucial. However, polyp segmentation is a challenging task, and the majority of current approaches struggle with two issues. First, the position, size, and shape of each individual polyp varies greatly (intra-class inconsistency). Second, there is a significant degree of similarity between polyps and their surroundings under certain circumstances, such as motion blur and light reflection (inter-class indistinction). U-net, which is composed of convolutional neural networks as encoder and decoder, is considered as a standard for tackling this task. We propose an updated U-net architecture replacing the encoder part with vision transformer network for polyp segmentation. The proposed architecture performed better than the standard U-net architecture for the task of polyp segmentation.

  • PDF

Joint Training of Neural Image Compression and Super Resolution Model (신경망 이미지 부호화 모델과 초해상화 모델의 합동훈련)

  • Cho, Hyun Dong;Kim, YeongWoong;Cha, Junyeong;Kim, DongHyun;Lim, Sung Chang;Kim, Hui Yong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1191-1194
    • /
    • 2022
  • 인터넷의 발전으로 수많은 이미지와 비디오를 손쉽게 이용할 수 있게 되었다. 이미지와 비디오 데이터의 양이 기하급수적으로 증가함에 따라, JPEG, HEVC, VVC 등 이미지와 비디오를 효율적으로 저장하기 위한 부호화 기술들이 등장했다. 최근에는 인공신경망을 활용한 학습 기반 모델이 발전함에 따라, 이를 활용한 이미지 및 비디오 압축 기술에 관한 연구가 빠르게 진행되고 있다. NNIC (Neural Network based Image Coding)는 이러한 학습 가능한 인공신경망 기반 이미지 부호화 기술을 의미한다. 본 논문에서는 NNIC 모델과 인공신경망 기반의 초해상화(Super Resolution) 모델을 합동훈련하여 기존 NNIC 모델보다 더 높은 성능을 보일 수 있는 방법을 제시한다. 먼저 NNIC 인코더(Encoder)에 이미지를 입력하기 전 다운 스케일링(Down Scaling)으로 쌍삼차보간법을 사용하여 이미지의 화소를 줄인 후 부호화(Encoding)한다. NNIC 디코더(Decoder)를 통해 부호화된 이미지를 복호화(Decoding)하고 업 스케일링으로 초해상화를 통해 복호화된 이미지를 원본 이미지로 복원한다. 이때 NNIC 모델과 초해상화 모델을 합동훈련한다. 결과적으로 낮은 비트량에서 더 높은 성능을 볼 수 있는 가능성을 보았다. 또한 합동훈련을 함으로써 전체 성능의 향상을 보아 학습 시간을 늘리고, 압축 잡음을 위한 초해상화 모델을 사용한다면 기존의 NNIC 보다 나은 성능을 보일 수 있는 가능성을 시사한다.

  • PDF

A group-wise attention based decoder for lightweight salient object detection on edge-devices (엣지 디바이스에서 객체 탐지를 위한 그룹별 어탠션 기반 경량 디코더 연구)

  • Thien-Thu Ngo;Md Delowar Hossain;Eui-Nam Huh
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.30-33
    • /
    • 2023
  • The recent scholarly focus has been directed towards the expeditious and accurate detection of salient objects, a task that poses considerable challenges for resource-limited edge devices due to the high computational demands of existing models. To mitigate this issue, some contemporary research has favored inference speed at the expense of accuracy. In an effort to reconcile the intrinsic trade-off between accuracy and computational efficiency, we present novel model for salient object detection. Our model incorporate group-wise attentive module within the decoder of the encoder-decoder framework, with the aim of minimizing computational overhead while preserving detection accuracy. Additionally, the proposed architectural design employs attention mechanisms to generate boundary information and semantic features pertinent to the salient objects. Through various experimentation across five distinct datasets, we have empirically substantiated that our proposed models achieve performance metrics comparable to those of computationally intensive state-of-the-art models, yet with a marked reduction in computational complexity.

Establishment of DNN and Decoder models to predict fluid dynamic characteristics of biomimetic three-dimensional wavy wings (DNN과 Decoder 모델 구축을 통한 생체모방 3차원 파형 익형의 유체역학적 특성 예측)

  • Minki Kim;Hyun Sik Yoon;Janghoon Seo;Min Il Kim
    • Journal of the Korean Society of Visualization
    • /
    • v.22 no.1
    • /
    • pp.49-60
    • /
    • 2024
  • The purpose of this study establishes the deep neural network (DNN) and Decoder models to predict the flow and thermal fields of three-dimensional wavy wings as a passive flow control. The wide ranges of the wavy geometric parameters of wave amplitude and wave number are considered for the various the angles of attack and the aspect ratios of a wing. The huge dataset for training and test of the deep learning models are generated using computational fluid dynamics (CFD). The DNN and Decoder models exhibit quantitatively accurate predictions for aerodynamic coefficients and Nusselt numbers, also qualitative pressure, limiting streamlines, and Nusselt number distributions on the surface. Particularly, Decoder model regenerates the important flow features of tiny vortices in the valleys, which makes a delay of the stall. Also, the spiral vortical formation is realized by the Decoder model, which enhances the lift.

Design and Implementation of Hybrid Network Associated 3D Video Broadcasting System (이종망 연동형 3D 비디오 방송시스템 설계 및 구현)

  • Yun, Kugjin;Cheong, Won-Sik;Lee, Jinyoung;Kim, Kyuheon
    • Journal of Broadcast Engineering
    • /
    • v.19 no.5
    • /
    • pp.687-698
    • /
    • 2014
  • ATSC is currently working on standardization of hybrid 3DTV broadcasting service in heterogenous network environment after completion of service-compatible 3DTV broadcasting service standard based on broadcasting channel. This paper proposes a convergence 3D video broadcasting method on broadcasting and IP network while guaranteeing a Full-HD 3D quality without degrading the image quality of legacy DTV. Specifically, this paper describes transmission of the 3D additional video using the ISO/IEC 23009-1 DASH, robust synchronization method under heterogenous network environments and system target decoder model for hybrid 3DTV receiver. Based on experimental results, we confirm that proposed technologies can be used as a core technology in the hybrid 3DTV standardization and a reference model for a development of hybrid 3DTV encoder and receiver.

Design of 8bit current steering DAC for stimulating neuron signal (뉴런 신호 자극을 위한 8비트 전류 구동형 DAC)

  • Park, J.H.;Shi, D.;Yoon, K.S.
    • Journal of rehabilitation welfare engineering & assistive technology
    • /
    • v.7 no.2
    • /
    • pp.13-18
    • /
    • 2013
  • In this paper design a 8 bit Current Steering D/A Converter for stimulating neuron signal. Proposed circuit in paper shows the conversion rate of 10KS/s and the power supply of 3.3V with 0.35um Magna chip CMOS process using full custom layout design. It employes segmented structure which consists of 3bit thermometer decoders and 5bit binary decoder for decreasing glitch noise and increasing resolution. So glitch energy is down by $10nV{\bullet}sec$ rather than binary weighted type DAC. And it makes use of low power current stimulator because of low LSB current. And it can make biphasic signal by connecting with Micro Controller Unit which controls period and amplitude of signal. As result of measurement INL is +0.56/-0.38 LSB and DNL is +0.3/-0.4 LSB. It shows great linearity. Power dissipation is 6mW.

  • PDF