• Title/Summary/Keyword: 학습영상

Search Result 2,574, Processing Time 0.036 seconds

Semantic Segmentation of Drone Images Based on Combined Segmentation Network Using Multiple Open Datasets (개방형 다중 데이터셋을 활용한 Combined Segmentation Network 기반 드론 영상의 의미론적 분할)

  • Ahram Song
    • Korean Journal of Remote Sensing
    • /
    • v.39 no.5_3
    • /
    • pp.967-978
    • /
    • 2023
  • This study proposed and validated a combined segmentation network (CSN) designed to effectively train on multiple drone image datasets and enhance the accuracy of semantic segmentation. CSN shares the entire encoding domain to accommodate the diversity of three drone datasets, while the decoding domains are trained independently. During training, the segmentation accuracy of CSN was lower compared to U-Net and the pyramid scene parsing network (PSPNet) on single datasets because it considers loss values for all dataset simultaneously. However, when applied to domestic autonomous drone images, CSN demonstrated the ability to classify pixels into appropriate classes without requiring additional training, outperforming PSPNet. This research suggests that CSN can serve as a valuable tool for effectively training on diverse drone image datasets and improving object recognition accuracy in new regions.

Reconstruction of High-Resolution Facial Image Based on Recursive Error Back-Projection of Top-Down Machine Learning (하향식 기계학습의 반복적 오차 역투영에 기반한 고해상도 얼굴 영상의 복원)

  • Park, Jeong-Seon;Lee, Seong-Whan
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.3
    • /
    • pp.266-274
    • /
    • 2007
  • This paper proposes a new reconstruction method of high-resolution facial image from a low-resolution facial image based on top-down machine learning and recursive error back-projection. A face is represented by a linear combination of prototypes of shape and that of texture. With the shape and texture information of each pixel in a given low-resolution facial image, we can estimate optimal coefficients for a linear combination of prototypes of shape and those that of texture by solving least square minimizations. Then high-resolution facial image can be obtained by using the optimal coefficients for linear combination of the high-resolution prototypes. In addition, a recursive error back-projection procedure is applied to improve the reconstruction accuracy of high-resolution facial image. The encouraging results of the proposed method show that our method can be used to improve the performance of the face recognition by applying our method to reconstruct high-resolution facial images from low-resolution images captured at a distance.

An Auto-Labeling based Smart Image Annotation System (자동-레이블링 기반 영상 학습데이터 제작 시스템)

  • Lee, Ryong;Jang, Rae-young;Park, Min-woo;Lee, Gunwoo;Choi, Myung-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.6
    • /
    • pp.701-715
    • /
    • 2021
  • The drastic advance of recent deep learning technologies is heavily dependent on training datasets which are essential to train models by themselves with less human efforts. In comparison with the work to design deep learning models, preparing datasets is a long haul; at the moment, in the domain of vision intelligent, datasets are still being made by handwork requiring a lot of time and efforts, where workers need to directly make labels on each image usually with GUI-based labeling tools. In this paper, we overview the current status of vision datasets focusing on what datasets are being shared and how they are prepared with various labeling tools. Particularly, in order to relieve the repetitive and tiring labeling work, we present an interactive smart image annotating system with which the annotation work can be transformed from the direct human-only manual labeling to a correction-after-checking by means of a support of automatic labeling. In an experiment, we show that automatic labeling can greatly improve the productivity of datasets especially reducing time and efforts to specify regions of objects found in images. Finally, we discuss critical issues that we faced in the experiment to our annotation system and describe future work to raise the productivity of image datasets creation for accelerating AI technology.

Night to day image translation with Generative Adversarial Network (Generative Adversarial Network 를 이용한 야간 도로 영상 보정 시스템)

  • Ahn, Namhyun;Kang, Suk-Ju
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.347-348
    • /
    • 2018
  • 본 논문에서는 야간 도로 영상을 보정하여 주간 영상으로 변환하는 알고리즘을 제안한다. 영상 변환 딥러닝 알고리즘인 Generative Adversarial Network(GAN)를 기반으로 주야간 도로 영상을 학습시켜 주야간 상호 변환이 가능한 시스템을 구현한다. 우선, 입력 영상에 대해 변환된 영상을 출력하는 generative network 를 정의한다. 또한, 변환된 영상을 다시 본래 영상으로 변환하는 inverse network 를 정의한다. Generative network 와 inverse network 를 모두 통과한 결과 영상과 본래 영상의 차 영상을 통해 손실 함수를 정의함으로써 파라미터를 목적에 맞게 학습시킬 수 있다. 또한, generative network 를 통과한 결과 영상과 목적하는 영상을 구분하는 discrimination network 를 정의하여 discrimination network 와 generative network 의 minimax two- player game 을 통해 변환된 영상이 실제 목적 영상과 유사하도록 유도한다. 제안하는 알고리즘을 적용하여 야간 도로 영상의 보정을 수행하면 주변 물체 인식이 어려운 야간 영상을 물체 인식이 용이한 주간 영상으로 변환 할 수 있다.

  • PDF

Education of Spoken English by using internet video database systems (인터넷 환경에서 동영상 데이터베이스 시스템을 이용한 영어 학습)

  • Hwang, In-Jae;Hong, Dong-Kweon
    • Journal of The Korean Association of Information Education
    • /
    • v.3 no.1
    • /
    • pp.65-74
    • /
    • 1999
  • People in the world can send and get useful information from anywhere via internet. Using the internet for educational purposes has been studied for several years. In this paper, we have been designed and implemented video database systems for English education. In the system we have studied ways to build and retrieve useful information from video database systems. By using our system we can easily find required video segment and can play it in real-time way by using streaming techniques.

  • PDF

Designand Implementation of Web-Based Blood-Cell Analysis System for Pathology Diagnosis (병리진단을 위한 웹기반 혈액영상 분석시스템의 설계 및 구현)

  • 김경수;이영신;김용국;이윤배;김판구
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.333-337
    • /
    • 1998
  • 의학분야에서 컴퓨터 활용은 단순히 처리할 데이터의 자동화뿐만 아니라 각종 의학영상들을 자동으로 처리함으로서 의사의 진단을 도와주는 형태로 발전되어 가고 있다. 본 논문에서는 병원의 임상병리과에서 번번히 수행하는 혈액검사를 자동화하기 위한 것으로 혈액을 자동 분석하는 웹 기반 분석시스템을 구축하였다. 이를 위해 본 논문에서는 혈액 영상으로부터 특징을 추출하기 위한 단계를 서술하고 세포분류를 위한 다층 신경망을 이용해 구현한 내용을 보인다. 또한 본 연구의 결과로 신경망의 학습 효율을 높이기 위한 전처리로서 학습 데이터에 대해 러프 집합 이론을 적용하여 학습 데이터의 차원을 효과적으로 줄일 수 있었다.

  • PDF

영상 분류를 위한 준지도 학습 기법의 분류와 동작 원리의 이해

  • Chae, Mun-Ju;Park, Jae-Hyeon;Jo, Seong-In
    • Broadcasting and Media Magazine
    • /
    • v.27 no.2
    • /
    • pp.10-18
    • /
    • 2022
  • 본 고에서는 준지도 학습의 개념과 목표 그리고 대표 기법들의 동작 원리에 대해서 알아본다. 구체적으로, 영상 분류를 위한 준지도 학습 기법을 크게 label propagation 기반 기법과 representation learning 기반 기법으로 나누고, 이 두 가지 기법들의 특성을 분석하고, 대표 기법들의 동작 원리에 대해서 설명한다. 또한, 영상 분류 문제에서 위 두 가지 접근법들의 대표 기법들의 성능을 평가한다.

Multi-Modal based ViT Model for Video Data Emotion Classification (영상 데이터 감정 분류를 위한 멀티 모달 기반의 ViT 모델)

  • Yerim Kim;Dong-Gyu Lee;Seo-Yeong Ahn;Jee-Hyun Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.9-12
    • /
    • 2023
  • 최근 영상 콘텐츠를 통해 영상물의 메시지뿐 아니라 메시지의 형식을 통해 전달된 감정이 시청하는 사람의 심리 상태에 영향을 주고 있다. 이에 따라, 영상 콘텐츠의 감정을 분류하는 연구가 활발히 진행되고 있고 본 논문에서는 대중적인 영상 스트리밍 플랫폼 중 하나인 유튜브 영상을 7가지의 감정 카테고리로 분류하는 여러 개의 영상 데이터 중 각 영상 데이터에서 오디오와 이미지 데이터를 각각 추출하여 학습에 이용하는 멀티 모달 방식 기반의 영상 감정 분류 모델을 제안한다. 사전 학습된 VGG(Visual Geometry Group)모델과 ViT(Vision Transformer) 모델을 오디오 분류 모델과 이미지 분류 모델에 이용하여 학습하고 본 논문에서 제안하는 병합 방법을 이용하여 병합 후 비교하였다. 본 논문에서는 기존 영상 데이터 감정 분류 방식과 다르게 영상 속에서 화자를 인식하지 않고 감정을 분류하여 최고 48%의 정확도를 얻었다.

  • PDF

A real-time, morphology-based algorithm for glasses-wearing eye detection (안경착용 얼굴영상을 위한 모폴로지 기반 실시간 눈 인식 알고리즘)

  • Ryu, Jiwoo;Lee, Jaechan;Shin, Hyungchul;Sim, Donngyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.11a
    • /
    • pp.43-45
    • /
    • 2013
  • 본 논문은 안경착용 얼굴영상을 위한 실시간 눈 인식 알고리즘을 제안한다. 학습 알고리즘에 기반한 기본의 눈 인식 방법은 안경을 착용한 얼굴영상이 입력으로 주어질 경우 안경의 다양한 크기와 색깔, 형태로 인해 알고리즘의 학습 효율이 크게 떨어져 낮은 눈 인식 성능을 갖게 된다. 제안하는 방법은 모폴로지 연산을 통해 얼굴영상에서 안경이 포함된 부분을 검출하여, 안경으로 인한 눈 인식 알고리즘의 성능저하를 막는다. 성능평가를 위해 제안하는 방법을 Viola & Jones의 눈 인식 학습 기반 눈 인식 알고리즘에 적용하였으며 Spacek의 얼굴영상 데이터베이스를 실험 영상으로 사용하였다. 실험 결과, 제안하는 방법은 기존 눈 인식 알고리즘의 처리속도를 15fps (frames per second)에서 14.2fps로 하락시키면서 인식률을 75%에서 96.3%로 향상하였다.

  • PDF

Training Set Optimize for Face Detection by Appearance-based Model (외형 기반의 얼굴 검출을 위한 학습 데이터의 최적화)

  • 이재훈;조병모;이필규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.523-525
    • /
    • 2002
  • 얼굴 검출은 하나의 영상으로부터 얼굴 존재 유무를 판단하고 그 위치와 방향, 크기 등을 알아내는 기술로 정의된다. 그러나 영상내의 특정 위치에 대한 얼굴 여부의 판단은 여러 가지 환경 변화와 매우 다양한 종류의 얼굴로 인해 정확하고 빠른 검출이 어렵다. 따라서 본 논문에서는 얼굴여부를 판단하기 위한 학습 데이터를 최적화하여 일반적인 외형기반의 알고리즘에 적용할 수 있는 방법을 제안한다. 제안된 방법은 영상에 대한 기본적인 전처리부터 입력으로 사용될 데이터의 추출에 이르기까지 최대한의 환경변화를 고려함으로써실제 적용 시 정확하고 빠른 판단이 가능하도록 하였다. 영상의 전처리로는 조명의 보상과 히스토그램 평활화가 사용되었고, 입력으로 사용하기 위한 학습 데이터의 정렬과 영상 샘플링 방법이 제안되었다. 얼굴 여부의 판단 실험은 각각 역전파 신경망, 마할라노비스 거리를 사용하여 영상의 얼굴 여부를 판정하고, 성공률을 측정하였다. 실험 결과 최적화 방법을 적용했을 때 적용하기 전보다 높은 성능의 성공률을 보였다.

  • PDF