• 제목/요약/키워드: 3D ResNet

검색결과 31건 처리시간 0.031초

ResNet 알고리즘을 이용한 가로수 객체의 폐색영역 검출 및 해결 (A Study on Detection and Resolving of Occlusion Area by Street Tree Object using ResNet Algorithm)

  • 박홍기;배경호
    • 한국산학기술학회논문지
    • /
    • 제21권10호
    • /
    • pp.77-83
    • /
    • 2020
  • 국토를 효율적으로 관리하고 도시문제를 과학적으로 해결하기 위해 최근 스마트시티, 디지털트윈 등 3차원 공간정보 관련 기술이 급격하게 발전하고 있다. 이러한 3차원 공간정보 구축은 주로 영상정보를 이용하여 객체를 3차원 입체화하고 실감형 영상인 텍스처링 영상을 추출하여 객체벽면에 영상을 부여하는 방식으로 수행된다. 하지만 객체 주변의 다양한 요인으로 인해 텍스처링 영상에서는 필연적으로 폐색영역이 발생한다. 이에 본 연구에서는 최근 기술인 딥러닝 기술 중에서 ResNet 알고리즘을 이용하여 건물 폐색을 유발하는 가로수에 대한 데이터셋을 만들고 이에 대한 해결방안을 제시하고자 한다. 연구결과 ResNet 알고리즘의 공간정보 적용 가능성을 판단하고 이를 적용한 레이블링 생성 SW 개발하여 실제 가로수를 대상으로 데이터셋을 구축하였다. 구축된 데이터셋을 텍스처링 영상에 적용하여 정확도와 재현율로 검출능력을 분석하였다. 분석결과를 위해 딥러닝 분야에서 많이 사용되고 있는 정밀도와 재현율을 이용한 F값을 적용하였으며 가로수 단일 객체가 포함된 건물의 측면부 영상과 경사 영상에 대해서는 높은 F값을 도출하여 우수한 성과를 확인하였으나, 같은 해상도를 가진 건물 전면부 영상에서는 그림자 등의 요인으로 F값이 낮음을 확인하였다.

Optimization of 3D ResNet Depth for Domain Adaptation in Excavator Activity Recognition

  • Seungwon SEO;Choongwan KOO
    • 국제학술발표논문집
    • /
    • The 10th International Conference on Construction Engineering and Project Management
    • /
    • pp.1307-1307
    • /
    • 2024
  • Recent research on heavy equipment has been conducted for the purposes of enhanced safety, productivity improvement, and carbon neutrality at construction sites. A sensor-based approach is being explored to monitor the location and movements of heavy equipment in real time. However, it poses significant challenges in terms of time and cost as multiple sensors should be installed on numerous heavy equipment at construction sites. In addition, there is a limitation in identifying the collaboration or interference between two or more heavy equipment. In light of this, a vision-based deep learning approach is being actively conducted to effectively respond to various working conditions and dynamic environments. To enhance the performance of a vision-based activity recognition model, it is essential to secure a sufficient amount of training datasets (i.e., video datasets collected from actual construction sites). However, due to safety and security issues at construction sites, there are limitations in adequately collecting training dataset under various situations and environmental conditions. In addition, the videos feature a sequence of multiple activities of heavy equipment, making it challenging to clearly distinguish the boundaries between preceding and subsequent activities. To address these challenges, this study proposed a domain adaptation in vision-based transfer learning for automated excavator activity recognition utilizing 3D ResNet (residual deep neural network). Particularly, this study aimed to identify the optimal depth of 3D ResNet (i.e., the number of layers of the feature extractor) suitable for domain adaptation via fine-tuning process. To achieve this, this study sought to evaluate the activity recognition performance of five 3D ResNet models with 18, 34, 50, 101, and 152 layers, which used two consecutive videos with multiple activities (5 mins, 33 secs and 10 mins, 6 secs) collected from actual construction sites. First, pretrained weights from large-scale datasets (i.e., Kinetic-700 and Moment in Time (MiT)) in other domains (e.g., humans, animals, natural phenomena) were utilized. Second, five 3D ResNet models were fine-tuned using a customized dataset (14,185 clips, 60,606 secs). As an evaluation index for activity recognition model, the F1 score showed 0.881, 0.689, 0.74, 0.684, and 0.569 for the five 3D ResNet models, with the 18-layer model performing the best. This result indicated that the activity recognition models with fewer layers could be advantageous in deriving the optimal weights for the target domain (i.e., excavator activities) when fine-tuning with a limited dataset. Consequently, this study identified the optimal depth of 3D ResNet that can maintain a reliable performance in dynamic and complex construction sites, even with a limited dataset. The proposed approach is expected to contribute to the development of decision-support systems capable of systematically managing enhanced safety, productivity improvement, and carbon neutrality in the construction industry.

Spatio-Temporal Residual Networks for Slide Transition Detection in Lecture Videos

  • Liu, Zhijin;Li, Kai;Shen, Liquan;Ma, Ran;An, Ping
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권8호
    • /
    • pp.4026-4040
    • /
    • 2019
  • In this paper, we present an approach for detecting slide transitions in lecture videos by introducing the spatio-temporal residual networks. Given a lecture video which records the digital slides, the speaker, and the audience by multiple cameras, our goal is to find keyframes where slide content changes. Since temporal dependency among video frames is important for detecting slide changes, 3D Convolutional Networks has been regarded as an efficient approach to learn the spatio-temporal features in videos. However, 3D ConvNet will cost much training time and need lots of memory. Hence, we utilize ResNet to ease the training of network, which is easy to optimize. Consequently, we present a novel ConvNet architecture based on 3D ConvNet and ResNet for slide transition detection in lecture videos. Experimental results show that the proposed novel ConvNet architecture achieves the better accuracy than other slide progression detection approaches.

ATLAS V2.0 데이터에서 의료영상 분할 모델 성능 비교 (Comparison of Performance of Medical Image Semantic Segmentation Model in ATLASV2.0 Data)

  • 우소연;구영현;유성준
    • 방송공학회논문지
    • /
    • 제28권3호
    • /
    • pp.267-274
    • /
    • 2023
  • 의료영상 공개 데이터는 수집에 한계가 있어 데이터셋의 양이 부족하다는 문제점이 있다. 때문에 기존 연구들은 공개 데이터셋에 과적합 되었을 우려가 있다. 본 논문은 실험을 통해 8개의 (Unet, X-Net, HarDNet, SegNet, PSPNet, SwinUnet, 3D-ResU-Net, UNETR) 의료영상 분할 모델의 성능을 비교함으로써 기존 모델의 성능을 재검증하고자 한다. 뇌졸중 진단 공개 데이터 셋인 Anatomical Tracings of Lesions After Stroke(ATLAS) V1.2과 ATLAS V2.0에서 모델들의 성능 비교 실험을 진행한다. 실험결과 대부분 모델은 V1.2과 V2.0에서 성능이 비슷한 결과를 보였다. 하지만 X-net과 3D-ResU-Net는 V1.2 데이터셋에서 더 높은 성능을 기록했다. 이러한 결과는 해당 모델들이 V1.2에 과적합 되었을 것으로 해석할 수 있다.

3D Res-Inception Network Transfer Learning for Multiple Label Crowd Behavior Recognition

  • Nan, Hao;Li, Min;Fan, Lvyuan;Tong, Minglei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1450-1463
    • /
    • 2019
  • The problem towards crowd behavior recognition in a serious clustered scene is extremely challenged on account of variable scales with non-uniformity. This paper aims to propose a crowed behavior classification framework based on a transferring hybrid network blending 3D res-net with inception-v3. First, the 3D res-inception network is presented so as to learn the augmented visual feature of UCF 101. Then the target dataset is applied to fine-tune the network parameters in an attempt to classify the behavior of densely crowded scenes. Finally, a transferred entropy function is used to calculate the probability of multiple labels in accordance with these features. Experimental results show that the proposed method could greatly improve the accuracy of crowd behavior recognition and enhance the accuracy of multiple label classification.

Effective Hand Gesture Recognition by Key Frame Selection and 3D Neural Network

  • Hoang, Nguyen Ngoc;Lee, Guee-Sang;Kim, Soo-Hyung;Yang, Hyung-Jeong
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.23-29
    • /
    • 2020
  • This paper presents an approach for dynamic hand gesture recognition by using algorithm based on 3D Convolutional Neural Network (3D_CNN), which is later extended to 3D Residual Networks (3D_ResNet), and the neural network based key frame selection. Typically, 3D deep neural network is used to classify gestures from the input of image frames, randomly sampled from a video data. In this work, to improve the classification performance, we employ key frames which represent the overall video, as the input of the classification network. The key frames are extracted by SegNet instead of conventional clustering algorithms for video summarization (VSUMM) which require heavy computation. By using a deep neural network, key frame selection can be performed in a real-time system. Experiments are conducted using 3D convolutional kernels such as 3D_CNN, Inflated 3D_CNN (I3D) and 3D_ResNet for gesture classification. Our algorithm achieved up to 97.8% of classification accuracy on the Cambridge gesture dataset. The experimental results show that the proposed approach is efficient and outperforms existing methods.

CCTV 영상의 이상행동 다중 분류를 위한 결합 인공지능 모델에 관한 연구 (A Study on Combine Artificial Intelligence Models for multi-classification for an Abnormal Behaviors in CCTV images)

  • 이홍래;김영태;서병석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.498-500
    • /
    • 2022
  • CCTV는 위험 상황을 파악하고 신속히 대응함으로써, 인명과 자산을 안전하게 보호한다. 하지만, 점점 많아지는 CCTV 영상을 지속적으로 모니터링하기는 어렵다. 이런 이유로 CCTV 영상을 지속적으로 모니터링하면서 이상행동이 발생했을 때 알려주는 장치가 필요하다. 최근 영상데이터 분석에 인공지능 모델을 활용한 많은 연구가 이루어지고 있다. 본 연구는 CCTV 영상에서 관측할 수 있는 다양한 이상 행동을 분류하기 위해 영상데이터 사이의 공간적, 시간적 특성 정보를 동시에 학습한다. 학습에 이용되는 인공지능 모델로 End-to-End 방식의 3D-Convolution Neural Network(CNN)와 ResNet을 결합한 다중 분류 딥러닝 모델을 제안한다.

  • PDF

Respiratory Motion Correction on PET Images Based on 3D Convolutional Neural Network

  • Hou, Yibo;He, Jianfeng;She, Bo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2191-2208
    • /
    • 2022
  • Motion blur in PET (Positron emission tomography) images induced by respiratory motion will reduce the quality of imaging. Although exiting methods have positive performance for respiratory motion correction in medical practice, there are still many aspects that can be improved. In this paper, an improved 3D unsupervised framework, Res-Voxel based on U-Net network was proposed for the motion correction. The Res-Voxel with multiple residual structure may improve the ability of predicting deformation field, and use a smaller convolution kernel to reduce the parameters of the model and decrease the amount of computation required. The proposed is tested on the simulated PET imaging data and the clinical data. Experimental results demonstrate that the proposed achieved Dice indices 93.81%, 81.75% and 75.10% on the simulated geometric phantom data, voxel phantom data and the clinical data respectively. It is demonstrated that the proposed method can improve the registration and correction performance of PET image.

A Proposal of Sensor-based Time Series Classification Model using Explainable Convolutional Neural Network

  • Jang, Youngjun;Kim, Jiho;Lee, Hongchul
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.55-67
    • /
    • 2022
  • 센서 데이터를 활용하여 설비의 이상 진단이 가능해졌다. 하지만 설비 이상에 대한 원인 분석은 미비한 실정이다. 본 연구에서는 센서 기반 시계열 데이터 분류 모델을 위한 해석가능한 합성곱 신경망 프레임워크를 제안한다. 연구에서 사용된 센서 기반 시계열 데이터는 실제 차량에 부착된 센서를 통해 수집되었고, 반도체의 웨이퍼 데이터는 공정 과정에서 수집되었다. 추가로 실제 기계 설비에서 수집된 주기 신호 데이터를 이용 하였으며, 충분한 학습을 위해 Data augmentation 방법론인 Scaling과 Jittering을 적용하였다. 또한, 본 연구에서는 3가지 합성곱 신경망 기반 모델들을 제안하고 각각의 성능을 비교하였다. 본 연구에서는 ResNet에 Jittering을 적용한 결과 정확도 95%, F1 점수 95%로 가장 뛰어난 성능을 보였으며, 기존 연구 대비 3%의 성능 향상을 보였다. 더 나아가 결과의 해석을 위한 XAI 방법론으로 Class Activation Map과 Layer Visualization을 제안하였으며, 센서 데이터 분류에 중요 영향을 끼치는 시계열 구간을 시각적으로 확인하였다.

A Study on Recognition of Dangerous Behaviors using Privacy Protection Video in Single-person Household Environments

  • Lim, ChaeHyun;Kim, Myung Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.47-54
    • /
    • 2022
  • 최근 딥러닝 기술의 발달로 사람의 행동을 인식하는 연구가 진행 중에 있다. 본 논문에서는 딥러닝 기술을 활용하여 1인 가구 환경에서 발생할 수 있는 위험 행동을 인식하는 연구를 진행하였다. 1인 가구의 특성상 개인의 프라이버시 보호가 필요하다. 본 논문에서는 개인의 프라이버시 보호를 위해 가우시안 블러 필터가 적용된 프라이버시 보호 영상에서 사람의 위험 행동을 인식한다. 위험 행동 인식 방법은 객체 검출 모델인 YOLOv5 모델을 활용하여 영상에서 사람 객체 검출 및 전처리 방법을 적용한 후 행동 인식 모델의 입력값으로 활용하여 위험 행동을 인식한다. 실험에는 ResNet3D, I3D, SlowFast 모델을 사용하였고, 실험 결과 SlowFast 모델이 프라이버시 보호 영상에서 95.7%로 가장 높은 정확도를 달성하였다. 이를 통해 개인의 프라이버시를 보호하면서 1인 가구 환경에서 사람의 위험 행동을 인식하는 것이 가능하다.