• 제목/요약/키워드: deep learning framework

검색결과 259건 처리시간 0.03초

실시간 백엔드 딥러닝 영상분석 서비스 프레임워크 (Real-Time Back-end Deep Learning Video Service Framework)

  • 이정훈;이승수;정영빈;황광일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1112-1115
    • /
    • 2019
  • 최근 딥러닝의 급격한 발전에 따라, 다양한 영상처리에 기반한 새로운 어플리케이션과 서비스가 개발되어지고 있다. 이러한 다양한 서비스들이 동작되는 플랫폼이 다양하고, 리소스에 제약이 많은 경우가 있어 일반적으로 이러한 딥러닝 기반 영상처리 서비스에서는 클라우드를 이용한 백엔드 서비스를 이용하는 경우가 많다. 그러나, 알고리즘 개발단계에서는 클라우드 백엔드 서비스가 적절하지만, 실제로 제품 및 서비스의 필드 적용에 있어서는 클라우드 사용에 따른 제약이 상당한 걸림돌로 작용한다. 그리하여 본 논문에서는 다양한 디바이스의 영상 데이터를 로컬 또는 기관에 있는 충분한 자원 활용이 가능한 서버로 전송하여 프로세싱 후 실시간 결과를 feedback받을 수 있는 효율적인 back-end 딥러닝 영상분석 서비스 프레임워크를 제안한다.

GAN 신경망을 통한 자각적 사진 향상 (Perceptual Photo Enhancement with Generative Adversarial Networks)

  • 궐월;이효종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.522-524
    • /
    • 2019
  • In spite of a rapid development in the quality of built-in mobile cameras, their some physical restrictions hinder them to achieve the satisfactory results of digital single lens reflex (DSLR) cameras. In this work we propose an end-to-end deep learning method to translate ordinary images by mobile cameras into DSLR-quality photos. The method is based on the framework of generative adversarial networks (GANs) with several improvements. First, we combined the U-Net with DenseNet and connected dense block (DB) in terms of U-Net. The Dense U-Net acts as the generator in our GAN model. Then, we improved the perceptual loss by using the VGG features and pixel-wise content, which could provide stronger supervision for contrast enhancement and texture recovery.

RAVIP: Real-Time AI Vision Platform for Heterogeneous Multi-Channel Video Stream

  • Lee, Jeonghun;Hwang, Kwang-il
    • Journal of Information Processing Systems
    • /
    • 제17권2호
    • /
    • pp.227-241
    • /
    • 2021
  • Object detection techniques based on deep learning such as YOLO have high detection performance and precision in a single channel video stream. In order to expand to multiple channel object detection in real-time, however, high-performance hardware is required. In this paper, we propose a novel back-end server framework, a real-time AI vision platform (RAVIP), which can extend the object detection function from single channel to simultaneous multi-channels, which can work well even in low-end server hardware. RAVIP assembles appropriate component modules from the RODEM (real-time object detection module) Base to create per-channel instances for each channel, enabling efficient parallelization of object detection instances on limited hardware resources through continuous monitoring with respect to resource utilization. Through practical experiments, RAVIP shows that it is possible to optimize CPU, GPU, and memory utilization while performing object detection service in a multi-channel situation. In addition, it has been proven that RAVIP can provide object detection services with 25 FPS for all 16 channels at the same time.

단안 비디오로부터의 5D 라이트필드 비디오 합성 프레임워크 (Deep Learning Framework for 5D Light Field Synthesis from Single Video)

  • 배규호;;박인규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.150-152
    • /
    • 2019
  • 본 논문에서는 기존의 연구를 극복하여 단일 영상이 아닌 단안 비디오로부터 5D 라이트필드 영상을 합성하는 딥러닝 프레임워크를 제안한다. 현재 일반적으로 사용 가능한 Lytro Illum 카메라 등은 초당 3프레임의 비디오만을 취득할 수 있기 때문에 학습용 데이터로 사용하기에 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 가상 환경 데이터를 구성하며 이를 위해 UnrealCV를 활용하여 사실적 그래픽 렌더링에 의한 데이터를 취득하고 이를 학습에 사용한다. 제안하는 딥러닝 프레임워크는 두 개의 입력 단안 비디오에서 $5{\times}5$의 각 SAI(sub-aperture image)를 갖는 라이트필드 비디오를 합성한다. 제안하는 네트워크는 luminance 영상으로 변환된 입력 영상으로부터 appearance flow를 추측하는 플로우 추측 네트워크(flow estimation network), appearance flow로부터 얻어진 두 개의 라이트필드 비디오 프레임 간의 optical flow를 추측하는 광학 플로우 추측 네트워크(optical flow estimation network)로 구성되어있다.

  • PDF

A Survey on Image Emotion Recognition

  • Zhao, Guangzhe;Yang, Hanting;Tu, Bing;Zhang, Lei
    • Journal of Information Processing Systems
    • /
    • 제17권6호
    • /
    • pp.1138-1156
    • /
    • 2021
  • Emotional semantics are the highest level of semantics that can be extracted from an image. Constructing a system that can automatically recognize the emotional semantics from images will be significant for marketing, smart healthcare, and deep human-computer interaction. To understand the direction of image emotion recognition as well as the general research methods, we summarize the current development trends and shed light on potential future research. The primary contributions of this paper are as follows. We investigate the color, texture, shape and contour features used for emotional semantics extraction. We establish two models that map images into emotional space and introduce in detail the various processes in the image emotional semantic recognition framework. We also discuss important datasets and useful applications in the field such as garment image and image retrieval. We conclude with a brief discussion about future research trends.

Respiratory Motion Correction on PET Images Based on 3D Convolutional Neural Network

  • Hou, Yibo;He, Jianfeng;She, Bo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2191-2208
    • /
    • 2022
  • Motion blur in PET (Positron emission tomography) images induced by respiratory motion will reduce the quality of imaging. Although exiting methods have positive performance for respiratory motion correction in medical practice, there are still many aspects that can be improved. In this paper, an improved 3D unsupervised framework, Res-Voxel based on U-Net network was proposed for the motion correction. The Res-Voxel with multiple residual structure may improve the ability of predicting deformation field, and use a smaller convolution kernel to reduce the parameters of the model and decrease the amount of computation required. The proposed is tested on the simulated PET imaging data and the clinical data. Experimental results demonstrate that the proposed achieved Dice indices 93.81%, 81.75% and 75.10% on the simulated geometric phantom data, voxel phantom data and the clinical data respectively. It is demonstrated that the proposed method can improve the registration and correction performance of PET image.

물리 기반 수문모형과 딥러닝 기반 모형을 결합한 하이브리드 수문 모델링 프레임워크: 댐 운영을 고려한 접근 (A hybrid hydrological modeling framework combining physically-based and deep-learning-based hydrologic models: an approach considering dam operation)

  • 김용찬;김동균
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.66-66
    • /
    • 2023
  • 대규모 댐의 운영으로 인한 인위적인 유량 교란은 물리 기반 수문모형의 정확한 하천유량 모의를 어렵게 만든다. 이러한 한계를 극복하기 위해, 상류의 자연형 유역 모의를 위한 물리 기반 수문모형 Variable Infiltration Capacity model과 댐 운영 모의를 위한 딥러닝 기반 모델을 결합한 하이브리드 모델링 프레임워크를 개발하였다. 본 연구는 수도권의 주요 상수원이자 대규모 댐들이 존재하는 팔당댐 유역을 대상으로, 물리 기반 수문모형만을 기반으로 구축한 단일 및 계단식 구조의 모델과 하이브리드 모델의 예측 성능을 비교하였다. 2015년부터 2019년까지의 검증 기간 동안, 하이브리드 모델, 단일 및 계단식 구조 모델의 Nash-Sutcliffe Efficiency는 각각 0.6410, -0.1054 그리고 0.2564로 하이브리드 모델의 성능이 가장 높은 것으로 나타났다. 이는 머신러닝 알고리즘을 이용한 댐 운영 고려가 정확한 하천유량 평가를 위해서 필수적임을 시사한다. 이러한 결과는 수자원 관리, 홍수 예측 등 다양한 분야에서 활용될 수 있으며, 특히 미래의 지속 가능한 물 관리를 위해 실무자에게 정확한 자료를 제공하는 데 기여할 수 있다.

  • PDF

산업용 로봇 팔 최적 경로 계획을 위한 심층강화학습 프레임워크 (A Deep Reinforcement Learning Framework for Optimal Path Planning of Industrial Robotic Arm)

  • 권준형;조든솔;김원태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.75-76
    • /
    • 2022
  • 현재 산업용 로봇 팔의 경로 계획을 생성할 때, 로봇 팔 경로 계획은 로봇 엔지니어가 수동으로 로봇을 제어하며 최적 경로 계획을 탐색한다. 미래에 고객의 다양한 요구에 따라 공정을 유연하게 변경하는 대량 맞춤 시대에는 기존의 경로 계획 수립 방식은 부적합하다. 심층강화학습 프레임워크는 가상 환경에서 로봇 팔 경로 계획 수립을 학습해 새로운 공정으로 변경될 때, 최적 경로 계획을 자동으로 수립해 로봇 팔에 전달하여 빠르고 유연한 공정 변경을 지원한다. 본 논문에서는 심층강화학습 에이전트를 위한 학습 환경 구축과 인공지능 모델과 학습 환경의 연동을 중심으로, 로봇 팔 경로 계획 수립을 위한 심층강화학습 프레임워크 구조를 설계한다.

건설공사 실내 Digital Twin 구축을 위한 기초연구 (Basic Research for Construction Indoor Digital Twin Construction)

  • 김영현
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2023년도 봄 학술논문 발표대회
    • /
    • pp.349-350
    • /
    • 2023
  • In the field of domestic construction, 3D modeling mainly targets outdoor construction sites, and acquires outdoor spatial information by operating UAVs and UGVs equipped with cameras. 3D modeling of construction sites tends to expand its scope to indoors along with the increasing demand for site monitoring and management through indoor spatial information. In the case of indoors, it is impossible to shoot with a drone after the framework and outer walls of the building are completed, so it is necessary to collect indoor spatial information and 3D modeling using a 360 camera. The purpose of this study is limited to basic research to establish a process that can obtain simple and high-quality indoor 3D modeling results using indoor data collected from 360 cameras.

  • PDF

딥러닝을 활용한 말 개체 식별 프레임워크 (Horse Entity Identification Framework using Deep Learning)

  • 김서윤;서보산;정승진;장기영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.910-912
    • /
    • 2023
  • 본 논문은 말의 개체 식별 과정에 딥러닝을 활용하여 객관적으로 식별 가능한 개체의 특징을 획득할 수 있는 영상처리 기반의 말 개체 식별 자동화 프레임워크를 제안한다. 제안하는 프레임워크는 말의 개체 식별을 위한 이미지 촬영 방법, 딥러닝을 활용한 말의 특징 추출 방법, 말 객체에 대한 식별 가능 정보의 변환 방법으로 구성되어 있으며, 본 논문에서 제시하는 방법론을 바탕으로 말 개체 식별 과정을 자동화하여 말의 특징을 객관적이고 효율적으로 추출하여 말 개체 관리를 하고자 한다.