• 제목/요약/키워드: learning through the image

검색결과 951건 처리시간 0.03초

Lightweight multiple scale-patch dehazing network for real-world hazy image

  • Wang, Juan;Ding, Chang;Wu, Minghu;Liu, Yuanyuan;Chen, Guanhai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4420-4438
    • /
    • 2021
  • Image dehazing is an ill-posed problem which is far from being solved. Traditional image dehazing methods often yield mediocre effects and possess substandard processing speed, while modern deep learning methods perform best only in certain datasets. The haze removal effect when processed by said methods is unsatisfactory, meaning the generalization performance fails to meet the requirements. Concurrently, due to the limited processing speed, most dehazing algorithms cannot be employed in the industry. To alleviate said problems, a lightweight fast dehazing network based on a multiple scale-patch framework (MSP) is proposed in the present paper. Firstly, the multi-scale structure is employed as the backbone network and the multi-patch structure as the supplementary network. Dehazing through a single network causes problems, such as loss of object details and color in some image areas, the multi-patch structure was employed for MSP as an information supplement. In the algorithm image processing module, the image is segmented up and down for processed separately. Secondly, MSP generates a clear dehazing effect and significant robustness when targeting real-world homogeneous and nonhomogeneous hazy maps and different datasets. Compared with existing dehazing methods, MSP demonstrated a fast inference speed and the feasibility of real-time processing. The overall size and model parameters of the entire dehazing model are 20.75M and 6.8M, and the processing time for the single image is 0.026s. Experiments on NTIRE 2018 and NTIRE 2020 demonstrate that MSP can achieve superior performance among the state-of-the-art methods, such as PSNR, SSIM, LPIPS, and individual subjective evaluation.

Deep Learning-based Pes Planus Classification Model Using Transfer Learning

  • Kim, Yeonho;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.21-28
    • /
    • 2021
  • 본 연구는 기존 편평발 측정을 위해 사용되던 다양한 방법의 한계를 보완할 수 있는 새로운 측정 방법으로 전이학습을 적용한 딥러닝 기반 편평발 분류 방법론을 제안한다. 편평발 88장, 정상발 88장으로 이루어진 총 176장의 이미지 데이터를 활용하여, 적은 데이터로도 우수한 예측 모델을 생성할 수 있는 데이터 증폭 기술과 사전학습 모델인 VGG16 구조를 활용하는 전이학습 기술을 적용하여 제안 모델의 학습을 진행하였다. 제안 모델의 우수성을 확인하기 위하여 기본 CNN 기반 모델과 제안 방법론의 예측 정확도를 비교하는 실험을 수행하였다. 기본 CNN 모델의 경우 훈련 정확도는 77.27%, 검증 정확도는 61.36%, 그리고 시험 정확도는 59.09%로 나타났으며, 제안 모델의 경우 훈련 정확도는 94.32%, 검증 정확도는 86.36%, 그리고 시험 정확도는 84.09%로 나타나 기본 CNN 모델에 비해 제안 모델의 정확도가 큰 폭으로 향상된 것을 확인하였다.

GAN 알고리즘을 이용하여 증식된 화재 영상의 적합성 평가 (Evaluation of Suitability of Fire Images augmented using GAN Algorithm)

  • 손성혁;최동규;장시웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.77-79
    • /
    • 2022
  • 형태가 가변적인 영상을 감지하기 위해서는 많은 양의 관련 영상이 필요하다. 따라서 본 논문에서는 형태가 가변적인 영상 중 화재 영상을 GAN 알고리즘을 통해 증식시키고 이 영상을 이용해 AI 학습을 수행할 때의 검출률을 비교하여 GAN 알고리즘을 사용하여 증식된 이미지가 학습 데이터에 적합한지 분석하였다.

  • PDF

주의 집중 기법을 활용한 객체 검출 모델 (Object Detection Model Using Attention Mechanism)

  • 김근식;배정수;차의영
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1581-1587
    • /
    • 2020
  • 기계 학습 분야에 합성 곱 신경망이 대두되면서 이미지 처리 문제를 해결하는 모델은 비약적인 발전을 맞이했다. 하지만 그만큼 요구되는 컴퓨팅 자원 또한 상승하여 일반적인 환경에서 이를 학습해보기는 쉽지 않은 일이다. 주의 집중 기법은 본래 순환 신경망의 기울기 소실 문제를 방지하기 위해 제안된 기법이지만, 이는 합성 곱 신경망의 학습에도 유리한 방향으로 활용될 수 있다. 본 논문에서는 합성 곱 신경망에 주의 집중 기법을 적용하고, 이때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다. 제안하는 모델은 YOLO를 기반으로 한 객체 검출에서 주의 집중 기법을 적용하지 않은 모델에 비해 학습 시간, 성능 모두 우수한 것으로 나타났으며, 특히 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였다. 또한, 이를 통해 일반 사용자의 기계 학습에 대한 접근성 증대가 기대된다.

CNN 기술을 적용한 침수탐지 학습모델 개발 (Development of a Flooding Detection Learning Model Using CNN Technology)

  • 김동준;최유진;박경민;박상준;이재문;황기태;정인환
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.1-7
    • /
    • 2023
  • 본 논문은 인공지능 기술을 활용하여 일반 도로와 침수 도로를 분류하는 학습모델을 개발하였다. 다양한 데이터 증강기법을 사용하여 학습 데이터의 다양성을 확장하며, 여러 환경에서도 좋은 성능을 보이는 모델을 구현하였다. CNN 기반의 Resnet152v2 모델을 사전 학습모델로 활용하여, 전이 학습을 진행하였다. 모델의 학습 과정에서 다양한 파라미터 튜닝 및 최적화 과정을 거쳐 최종 모델의 성능을 향상하였다. 학습은 파이선으로 Google Colab NVIDIA Tesla T4 GPU를 사용하여 구현하였고, 테스트 결과 시험 데이터 세트에서 매우 높은 정확도로 침수상황을 탐지함을 알 수 있었다.

3차원 영상복원 데이터를 이용한 HMM 기반 의도인식 시스템 (HMM-based Intent Recognition System using 3D Image Reconstruction Data)

  • 고광은;박승민;김준엽;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.135-140
    • /
    • 2012
  • 대뇌 상의 mirror neuron system은 시각 정보에 기반한 모방학습 기능을 담당한다. 관측자의 mirror neuron system 영역을 관찰할 때, 행위자가 수행하는 목적성 행위의 전체가 아닌, 부분적으로 가려지거나 보이지 않는 영역을 포함하는 경우에도 해당 영역의 뉴런이 발화되는 과정을 통해 전체 행동의 의도를 유추할 수 있다. 이러한 모방학습 기능을 3D 비전 기반 지능 시스템에 적용하는 것이 본 논문의 목표이다. 본 연구실에서 선행 연구된 스테레오 카메라를 기반으로 획득된 3차원 영상에 대한 복원을 수행한다. 이 때 3차원 입력영상은 부분적으로 가려진 영역을 포함하는 손동작의 순차적 연속영상이다. 복원 결과를 기반으로 가려진 영역을 내포한 행위에 대하여 LK optical flow, unscented Kalman filter를 이용한 특징검출을 수행하고 의도인식의 수행을 위해, Hidden Markov Model을 활용한다. 순차적 입력데이터에 대한 동적 추론 기능은 가려진 영역을 포함한 손동작 인식 수행에 있어 적합한 특성을 가진다. 본 논문에서 제안하는 의도 인식을 위해 선행 연구에서 복원 영상에서의 객체의 윤곽선 및 특징 검출을 시뮬레이션 하였으며, 검출 특징에 대한 시간적 연속 특징벡터를 생성하여 Hidden Markov Model에 적용함으로써, 의도 패턴에 따른 손동작 분류 시뮬레이션을 수행하였다. 사후 확률 값의 형태로 손 동작 분류 결과를 얻을 수 있었으며, 이를 통한 성능의 우수함을 입증하였다.

다목적실용위성 영상처리 및 활용 (KOMPSAT Image Processing and Application)

  • 이광재;김예슬;채성호;오관영;이선구
    • 대한원격탐사학회지
    • /
    • 제38권6_4호
    • /
    • pp.1871-1877
    • /
    • 2022
  • 과거 위성개발에는 막대한 예산과 시간이 소요됨에 따라 일부 선진국만 위성을 보유하였으나, 최근 초소형위성과 같은 저예산 위성이 등장함에 따라 전 세계 많은 국가들이 위성 개발에 참여하고 있다. 저궤도 및 정지궤도 위성은 환경 및 기상 감시, 정밀변화탐지, 재난 등 다양한 분야에서 활용되고 있으며, 최근에는 딥러닝 기반의 관심 객체탐지 등을 통한 모니터링에도 활발히 이용되고 있다. 우리나라는 지금까지 우주개발계획에 따라 국가 수요의 위성을 개발하여 왔으며, 이를 통해 획득한 위성영상은 공공 및 민간에서 다양한 목적으로 활용되고 있다. 국내에서 위성영상에 대한 관심은 지속적으로 증가하고 있으며, 각종 아이디어 발굴 및 기술개발 촉진을 위한 다양한 경진대회도 개최되고 있다. 본 특별호에서는 최근 개최된 2022 위성정보활용 경진대회에 참여한 주제와 다목적실용위성 영상자료 처리 및 활용 연구에 대해서 소개하고자 한다.

청각장애인의 수어 교육을 위한 MediaPipe 활용 수어 학습 보조 시스템 개발 (Development of a Sign Language Learning Assistance System using Mediapipe for Sign Language Education of Deaf-Mutility)

  • 김진영;심현
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1355-1362
    • /
    • 2021
  • 최근 선천적 청각장애 뿐만 아니라 후천적 요인으로 인해 청각장애를 가지게 되는 사람들도 증가하고 있지만, 수어를 익힐 수 있는 환경은 열악한 상황이다. 이에 본 연구에서는 수어를 배우는 수어 학습자를 위한 수어학습 보조도구로써 수어(지숫자/지문자) 평가 시스템을 제시하고자 한다. 이에 본 논문에서는 OpenCV 라이브러와 MediaPipe를 이용하여 손과 손가락을 추적하여 수어 동작을 인식하고 CNN기법을 이용하여 수어의 의미를 텍스트 형태의 데이터로 변환하여 학습자에게 제공하는 시스템을 연구한다. 이를 통해 수어를 배우는 학습자가 스스로 올바른 수형인지를 판단할 수 있도록 자기주도학습을 가능하게 하여 수어를 익히는데 도움이 되는 수어학습보조 시스템을 개발하고, 청각장애인들의 의사소통의 주언어인 수어학습을 지원하기 위한 방안으로 수어학습보조 시스템을 제안하는 데 목적이 있다.

A study on object distance measurement using OpenCV-based YOLOv5

  • Kim, Hyun-Tae;Lee, Sang-Hyun
    • International Journal of Advanced Culture Technology
    • /
    • 제9권3호
    • /
    • pp.298-304
    • /
    • 2021
  • Currently, to prevent the spread of COVID-19 virus infection, gathering of more than 5 people in the same space is prohibited. The purpose of this paper is to measure the distance between objects using the Yolov5 model for processing real-time images with OpenCV in order to restrict the distance between several people in the same space. Also, Utilize Euclidean distance calculation method in DeepSORT and OpenCV to minimize occlusion. In this paper, to detect the distance between people, using the open-source COCO dataset is used for learning. The technique used here is using the YoloV5 model to measure the distance, utilizing DeepSORT and Euclidean techniques to minimize occlusion, and the method of expressing through visualization with OpenCV to measure the distance between objects is used. Because of this paper, the proposed distance measurement method showed good results for an image with perspective taken from a higher position than the object in order to calculate the distance between objects by calculating the y-axis of the image.

퍼지분류기를 이용한 인간의 행동분류 (Behavior-classification of Human Using Fuzzy-classifier)

  • 김진규;주영훈
    • 전기학회논문지
    • /
    • 제59권12호
    • /
    • pp.2314-2318
    • /
    • 2010
  • For human-robot interaction, a robot should recognize the meaning of human behavior. In the case of static behavior such as face expression and sign language, the information contained in a single image is sufficient to deliver the meaning to the robot. In the case of dynamic behavior such as gestures, however, the information of sequential images is required. This paper proposes behavior classification by using fuzzy classifier to deliver the meaning of dynamic behavior to the robot. The proposed method extracts feature points from input images by a skeleton model, generates a vector space from a differential image of the extracted feature points, and uses this information as the learning data for fuzzy classifier. Finally, we show the effectiveness and the feasibility of the proposed method through experiments.