• 제목/요약/키워드: instance segmentation

검색결과 73건 처리시간 0.028초

다시점 객체 공분할을 이용한 2D-3D 물체 자세 추정 (2D-3D Pose Estimation using Multi-view Object Co-segmentation)

  • 김성흠;복윤수;권인소
    • 로봇학회논문지
    • /
    • 제12권1호
    • /
    • pp.33-41
    • /
    • 2017
  • We present a region-based approach for accurate pose estimation of small mechanical components. Our algorithm consists of two key phases: Multi-view object co-segmentation and pose estimation. In the first phase, we explain an automatic method to extract binary masks of a target object captured from multiple viewpoints. For initialization, we assume the target object is bounded by the convex volume of interest defined by a few user inputs. The co-segmented target object shares the same geometric representation in space, and has distinctive color models from those of the backgrounds. In the second phase, we retrieve a 3D model instance with correct upright orientation, and estimate a relative pose of the object observed from images. Our energy function, combining region and boundary terms for the proposed measures, maximizes the overlapping regions and boundaries between the multi-view co-segmentations and projected masks of the reference model. Based on high-quality co-segmentations consistent across all different viewpoints, our final results are accurate model indices and pose parameters of the extracted object. We demonstrate the effectiveness of the proposed method using various examples.

Mask Region-Based Convolutional Neural Network (R-CNN) Based Image Segmentation of Rays in Softwoods

  • Hye-Ji, YOO;Ohkyung, KWON;Jeong-Wook, SEO
    • Journal of the Korean Wood Science and Technology
    • /
    • 제50권6호
    • /
    • pp.490-498
    • /
    • 2022
  • The current study aimed to verify the image segmentation ability of rays in tangential thin sections of conifers using artificial intelligence technology. The applied model was Mask region-based convolutional neural network (Mask R-CNN) and softwoods (viz. Picea jezoensis, Larix gmelinii, Abies nephrolepis, Abies koreana, Ginkgo biloba, Taxus cuspidata, Cryptomeria japonica, Cedrus deodara, Pinus koraiensis) were selected for the study. To take digital pictures, thin sections of thickness 10-15 ㎛ were cut using a microtome, and then stained using a 1:1 mixture of 0.5% astra blue and 1% safranin. In the digital images, rays were selected as detection objects, and Computer Vision Annotation Tool was used to annotate the rays in the training images taken from the tangential sections of the woods. The performance of the Mask R-CNN applied to select rays was as high as 0.837 mean average precision and saving the time more than half of that required for Ground Truth. During the image analysis process, however, division of the rays into two or more rays occurred. This caused some errors in the measurement of the ray height. To improve the image processing algorithms, further work on combining the fragments of a ray into one ray segment, and increasing the precision of the boundary between rays and the neighboring tissues is required.

Artificial intelligence in colonoscopy: from detection to diagnosis

  • Eun Sun Kim;Kwang-Sig Lee
    • The Korean journal of internal medicine
    • /
    • 제39권4호
    • /
    • pp.555-562
    • /
    • 2024
  • This study reviews the recent progress of artificial intelligence for colonoscopy from detection to diagnosis. The source of data was 27 original studies in PubMed. The search terms were "colonoscopy" (title) and "deep learning" (abstract). The eligibility criteria were: (1) the dependent variable of gastrointestinal disease; (2) the interventions of deep learning for classification, detection and/or segmentation for colonoscopy; (3) the outcomes of accuracy, sensitivity, specificity, area under the curve (AUC), precision, F1, intersection of union (IOU), Dice and/or inference frames per second (FPS); (3) the publication year of 2021 or later; (4) the publication language of English. Based on the results of this study, different deep learning methods would be appropriate for different tasks for colonoscopy, e.g., Efficientnet with neural architecture search (AUC 99.8%) in the case of classification, You Only Look Once with the instance tracking head (F1 96.3%) in the case of detection, and Unet with dense-dilation-residual blocks (Dice 97.3%) in the case of segmentation. Their performance measures reported varied within 74.0-95.0% for accuracy, 60.0-93.0% for sensitivity, 60.0-100.0% for specificity, 71.0-99.8% for the AUC, 70.1-93.3% for precision, 81.0-96.3% for F1, 57.2-89.5% for the IOU, 75.1-97.3% for Dice and 66-182 for FPS. In conclusion, artificial intelligence provides an effective, non-invasive decision support system for colonoscopy from detection to diagnosis.

데이터 증강을 이용한 혀 영역 분할 성능 개선 (Enhancement of Tongue Segmentation by Using Data Augmentation)

  • 진홍;정성태
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권5호
    • /
    • pp.313-322
    • /
    • 2020
  • 많은 양의 데이터는 딥 러닝 모델의 견고성을 향상시키고 과적합 문제를 방지할 수 있게 해준다. 자동 혀 분할에서, 혀 영상 데이터 세트를 실제로 수집하고 라벨링하는 데에는 많은 어려움이 수반되므로 많은 양의 혀 영상 데이터를 사용하기 쉽지 않다. 데이터 증강은 새로운 데이터를 수집하지 않고 레이블 보존 변환을 사용하여 학습 데이터 세트를 확장하고 학습 데이터의 다양성을 증가시킬 수 있다. 이 논문에서는 이미지 자르기, 회전, 뒤집기, 색상 변환과 같은 7 가지 데이터 증강 방법을 사용하여 확장된 혀 영상 학습 데이터 세트를 생성하였다. 데이터 증강 방법의 성능을 확인하기 위하여 InceptionV3, EfficientNet, ResNet, DenseNet 등과 같은 전이 학습 모델을 사용하였다. 실험 결과 데이터 증강 방법을 적용함으로써 혀 분할의 정확도를 5~20% 향상시켰으며 기하학적 변환이 색상 변환보다 더 많은 성능 향상을 가져올 수 있음을 보여주었다. 또한 기하학적 변환 및 색상 변환을 임의로 선형 조합한 방법이 다른 데이터 증강 방법보다 우수한 분할 성능을 제공하여 InveptionV3 모델을 사용한 경우에 94.98 %의 정확도를 보였다.

Instance segmentation with pyramid integrated context for aerial objects

  • Juan Wang;Liquan Guo;Minghu Wu;Guanhai Chen;Zishan Liu;Yonggang Ye;Zetao Zhang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권3호
    • /
    • pp.701-720
    • /
    • 2023
  • Aerial objects are more challenging to segment than normal objects, which are usually smaller and have less textural detail. In the process of segmentation, target objects are easily omitted and misdetected, which is problematic. To alleviate these issues, we propose local aggregation feature pyramid networks (LAFPNs) and pyramid integrated context modules (PICMs) for aerial object segmentation. First, using an LAFPN, while strengthening the deep features, the extent to which low-level features interfere with high-level features is reduced, and numerous dense and small aerial targets are prevented from being mistakenly detected as a whole. Second, the PICM uses global information to guide local features, which enhances the network's comprehensive understanding of an entire image and reduces the missed detection of small aerial objects due to insufficient texture information. We evaluate our network with the MS COCO dataset using three categories: airplanes, birds, and kites. Compared with Mask R-CNN, our network achieves performance improvements of 1.7%, 4.9%, and 7.7% in terms of the AP metrics for the three categories. Without pretraining or any postprocessing, the segmentation performance of our network for aerial objects is superior to that of several recent methods based on classic algorithms.

적외선 카메라 영상에서의 마스크 R-CNN기반 발열객체검출 (Object Detection based on Mask R-CNN from Infrared Camera)

  • 송현철;강민식;김태은
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권6호
    • /
    • pp.1213-1218
    • /
    • 2018
  • 최근 비전분야에 소개된 Mask R-CNN은 객체 인스턴스 세분화를위한 개념적으로 간단하고 유연하며 일반적인 프레임 워크를 제시한다. 이 논문에서는 열적외선 카메라로부터 획득한 열감지영상에서 발열체인 인스턴스에 대해 발열부위의 세그멘테이션 마스크를 생성하는 동시에 이미지 내의 오브젝트 발열부분을 효율적으로 탐색하는 알고리즘을 제안한다. Mask R-CNN 기법은 바운딩 박스 인식을 위해 기존 브랜치와 병렬로 객체 마스크를 예측하기 위한 브랜치를 추가함으로써 Faster R-CNN을 확장한 알고리즘이다. Mask R-CNN은 훈련이 간단하고 빠르게 실행하는 고속 R-CNN에 추가된다. 더욱이, Mask R-CNN은 다른 작업으로 일반화하기 용이하다. 본 연구에서는 이 R-CNN기반 적외선 영상 검출알고리즘을 제안하여 RGB영상에서 구별할 수 없는 발열체를 탐지하였다. 실험결과 Mask R-CNN에서 변별하지 못하는 발열객체를 성공적으로 검출하였다.

건설 현장 CCTV 영상을 이용한 작업자와 중장비 추출 및 다중 객체 추적 (Extraction of Workers and Heavy Equipment and Muliti-Object Tracking using Surveillance System in Construction Sites)

  • 조영운;강경수;손보식;류한국
    • 한국건축시공학회지
    • /
    • 제21권5호
    • /
    • pp.397-408
    • /
    • 2021
  • 건설업은 업무상 재해 발생빈도와 사망자 수가 다른 산업군에 비해 높아 가장 위험한 산업군으로 불린다. 정부는 건설 현장에서 발생하는 산업 재해를 줄이고 예방하기 위해 CCTV 설치 의무화를 발표했다. 건설 현장의 안전 관리자는 CCTV 관제를 통해 현장의 잠재된 위험성을 찾아 제거하고 재해를 예방한다. 하지만 장시간 관제 업무는 피로도가 매우 높아 중요한 상황을 놓치는 경우가 많다. 따라서 본 연구는 딥러닝 기반 컴퓨터 비전 모형 중 개체 분할인 YOLACT와 다중 객체 추적 기법인 SORT을 적용하여 다중 클래스 다중 객체 추적 시스템을 개발하였다. 건설 현장에서 촬영한 영상으로 제안한 방법론의 성능을 MS COCO와 MOT 평가지표로 평가하였다. SORT는 YOLACT의 의존성이 높아서 작은 객체가 적은 데이터셋을 학습한 모형의 성능으로 먼 거리의 물체를 추적하는 성능이 떨어지지만, 크기가 큰 객체에서 뛰어난 성능을 나타냈다. 본 연구로 인해 딥러닝 기반 컴퓨터 비전 기법들의 안전 관제 업무에 보조 역할로 업무상 재해를 예방할 수 있을 것으로 판단된다.

실시간 고해상도 동영상 스티칭을 위한 고속 콘텐츠 보존 시접선 추정 방법 (Fast Content-preserving Seam Estimation for Real-time High-resolution Video Stitching)

  • 김태하;양성엽;강병근;이희경;서정일;이의진
    • 방송공학회논문지
    • /
    • 제25권6호
    • /
    • pp.1004-1012
    • /
    • 2020
  • 본 논문은 실시간 고해상도 비디오 스티칭을 위한 새로운 콘텐츠 보존 시접선 추정 알고리즘을 제안한다. 시접선 추정은 영상 스티칭 후 중첩 영역에서의 시각적 왜곡을 최소화하기 위한 요소 기술 중 하나이다. 기존 시접선 추정 알고리즘들은 요구되는 연산량과 메모리 사용량이 높은 최적화 알고리즘에 기반을 두고 있음에도 불구하고, 추정된 시접선이 객체를 피하지 못해 객체를 자르거나 반복하는 현상을 유발한다. 또한, 프레임 간의 추정된 시접선의 시간적 일관성이 부족하여 불필요한 잦은 변동이 발생한다. 따라서, 본 논문에서는 직선의 시접선을 활용하여 효율적이고 시간적 일관성이 있으며, 심층신경망 기반 객체 세그먼테이션 알고리즘을 활용하여 객체를 피하여 시접선을 형성하는 시접선 추정 알고리즘을 제안하고자 한다. 고해상도 360° 다중 시점 동영상을 사용한 실험을 통해 제안하는 알고리즘이 기존 알고리즘보다 짧은 시간에 시각적으로 유사한 360VR 동영상을 생성하는 시접선을 추정함을 확인하였다.

멀티 테스크 CNN의 경량화 모델을 이용한 차량 및 차선의 동시 검출 (Concurrent Detection for Vehicles and Lanes Using Light-Weight Model of Multi-Task CNN)

  • 신현식;김형원;홍상욱
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.367-373
    • /
    • 2022
  • 딥러닝 기반 자율 주행 기술이 발전함에 따라 다양한 목적의 인공지능 모델이 연구되었다. 연구된 여러 모델들을 동시에 구동하여 자율주행 시스템을 개발한다. 그러나 동시에 인공지능 모델을 사용하면서 많은 하드웨어 자원 소비가 증가한다. 이를 해결하기 위해 본 논문은 백본 모델을 공유하며 다중 태스크를 고속으로 수행할 수 있는 Multi-Task CNN 모델을 제안한다. 이를 통해 AI모델을 사용하기 위한 백본 수의 증가를 해결할 수 있었습니다. 제안하는 CNN 모델은 기존 모델 대비 50% 이상 웨이트 파라미터 수를 감소시키며, 3배 이상의 FPS 속도를 향상시켰다. 또한, 차선인식은 Instance segmentation 기반으로 차선검출 및 차선별 Labeling을 모두 출력한다. 그러나 기존 모델에 비해 정확도가 감소하는 부분에 대해서는 추가적인 연구가 필요하다.

딥러닝을 이용한 열영상 기반 마스크 검출 시스템 설계 (Design of Face with Mask Detection System in Thermal Images Using Deep Learning)

  • 김용중;최병상;이기섭;정경권
    • 융합보안논문지
    • /
    • 제22권2호
    • /
    • pp.21-26
    • /
    • 2022
  • 마스크 착용은 COVID-19 감염을 예방하기 위한 효과적인 방안이다. 적외선 열화상 기반의 온도 측정과 신원 인식 시스템이 기업에서 널리 사용되고 있는 상황에서 마스크 감지를 위한 연구는 필수적이다. 최근 비전분야에 소개된 MTCNN은 객체 인스턴스 세분화를위한 개념적으로 간단하고 유연하며 일반적인 프레임 워크를 제시한다. 본 논문에서는 열적외선 카메라로부터 획득한 열감지영상에서 발열체인 인스턴스에 대해 발열부위의 세그멘테이션을 생성하는 동시에 이미지 내의 오브젝트 발열부분을 효율적으로 탐색하는 알고리즘을 제안한다. MTCNN(Multi-task Cascaded Convolutional Networks) 기법은 바운딩 박스 인식을 위해 기존 브랜치와 병렬로 객체 마스크를 예측하기 위한 브랜치를 추가한 알고리즘이다. MTCNN은 다른 작업으로 일반화하기 용이하다. 본 논문에서는 MTCNN기반 적외선 열영상 검출알고리즘을 제안하여 RGB영상에서 구별할 수 없는 마스크 착용 여부를 탐지하였다.