• 제목/요약/키워드: Mask R-CNN

검색결과 75건 처리시간 0.022초

Fourier Ptychographic Microscopy 영상에서의 딥러닝 기반 디지털 염색 방법 연구 (Deep Learning Based Digital Staining Method in Fourier Ptychographic Microscopy Image)

  • 황석민;김동범;김유정;김여린;이종하
    • 융합신호처리학회논문지
    • /
    • 제23권2호
    • /
    • pp.97-106
    • /
    • 2022
  • 본 연구에서 세포를 분별하기 위해 H&E 염색이 필요하다. 그러나 직접 염색하면 많은 비용과 시간이 필요하다. H&E 염색되지 않은 세포의 Phase image에서 H&E 염색이 된 세포의 Amplitude image로 변환 하는 것이 목적이다. FPM으로 촬영한 Image data를 가지고 Matlab을 이용해 매개변수를 변경해 Phase image와 Amplitude image를 만들었다. 정규화를 통해 육안으로 식별이 가능한 이미지를 얻었다. GAN 알고리즘을 이용해 Phase image를 기반으로 Real Amplitude image와 비슷한 Fake Amplitude image를 만들고 Fake Amplitude image를 가지고 MASK R-CNN을 이용하여 세포를 분별하여 객체화를 통해 구분했다. 연구 결과 D loss의 max는 3.3e-1, min은 6.8e-2, G loss max는 6.9e-2, min은 2.9e-2, A loss는 max 5.8e-1, min은 1.2e-1, Mask R-CNN max는 1.9e0, min은 3.2e-1이다.

Mask R-CNN에 의한 자동차 탐지에서 학습 영상 화면 축척과 촬영계절이 정확도에 미치는 영향 분석 (Analysis of the Effect of Learned Image Scale and Season on Accuracy in Vehicle Detection by Mask R-CNN)

  • 최주영;원태연;어양담
    • 한국측량학회지
    • /
    • 제40권1호
    • /
    • pp.15-22
    • /
    • 2022
  • 본 연구에서는 딥러닝 객체탐지 기법의 정확도 향상을 위해 항공사진과 드론 영상을 대상으로 확대율 조건과 계절요인이 탐지정확도에 미치는 영향을 실험을 통해 분석하였다. 딥러닝 객체탐지기법 중 빠른 학습 속도와 높은 정확도를 나타내는 Mask R-CNN을 사용하여 탐지대상인 자동차를 픽셀 단위로 탐지하고자 하였다. '서울시 항공사진서비스'를 통해 화면 확대 레벨을 달리하며 학습 영상을 캡처하고 각각을 학습하여 정확도를 분석하였다. 실험결과에 따르면 확대 레벨이 높아질수록 mAP 평균이 60%, 67%, 75%로 높아졌다. 데이터 세트의 train, test 데이터의 확대율을 엇갈려서 배치한 경우에는 확대율이 매우 낮은 경우를 제외하고 저배율의 데이터를 train 데이터로, 고배율의 데이터를 test 데이터로 배치하였을 때 높은 mAP로 반대의 경우보다 20% 이상 차이를 보였다. 그리고 4개월의 시차로 계절적 차이를 두고 촬영한 드론 영상의 경우, 같은 시기 영상자료 학습결과가 평균 93%로 높은 정확도를 나타내어 계절적 차이도 학습에 영향을 주는 것을 확인되었다.

영상기반 콘크리트 균열 탐지 딥러닝 모델의 유형별 성능 비교 (A Comparative Study on Performance of Deep Learning Models for Vision-based Concrete Crack Detection according to Model Types)

  • 김병현;김건순;진수민;조수진
    • 한국안전학회지
    • /
    • 제34권6호
    • /
    • pp.50-57
    • /
    • 2019
  • In this study, various types of deep learning models that have been proposed recently are classified according to data input / output types and analyzed to find the deep learning model suitable for constructing a crack detection model. First the deep learning models are classified into image classification model, object segmentation model, object detection model, and instance segmentation model. ResNet-101, DeepLab V2, Faster R-CNN, and Mask R-CNN were selected as representative deep learning model of each type. For the comparison, ResNet-101 was implemented for all the types of deep learning model as a backbone network which serves as a main feature extractor. The four types of deep learning models were trained with 500 crack images taken from real concrete structures and collected from the Internet. The four types of deep learning models showed high accuracy above 94% during the training. Comparative evaluation was conducted using 40 images taken from real concrete structures. The performance of each type of deep learning model was measured using precision and recall. In the experimental result, Mask R-CNN, an instance segmentation deep learning model showed the highest precision and recall on crack detection. Qualitative analysis also shows that Mask R-CNN could detect crack shapes most similarly to the real crack shapes.

Implementation of CNN-based Masking Algorithm for Post Processing of Aerial Image

  • CHOI, Eunsoo;QUAN, Zhixuan;JUNG, Sangwoo
    • 한국인공지능학회지
    • /
    • 제9권2호
    • /
    • pp.7-14
    • /
    • 2021
  • Purpose: To solve urban problems, empirical research is being actively conducted to implement a smart city based on various ICT technologies, and digital twin technology is needed to effectively implement a smart city. A digital twin is essential for the realization of a smart city. A digital twin is a virtual environment that intuitively visualizes multidimensional data in the real world based on 3D. Digital twin is implemented on the premise of the convergence of GIS and BIM, and in particular, a lot of time is invested in data pre-processing and labeling in the data construction process. In digital twin, data quality is prioritized for consistency with reality, but there is a limit to data inspection with the naked eye. Therefore, in order to improve the required time and quality of digital twin construction, it was attempted to detect a building using Mask R-CNN, a deep learning-based masking algorithm for aerial images. If the results of this study are advanced and used to build digital twin data, it is thought that a high-quality smart city can be realized.

ESRGAN과 Semantic Soft Segmentation을 이용한 객체 분할의 성능 개선 (Performance Improvement of Object Segmentation Using ESRGAN and Semantic Soft Segmentation)

  • 윤동식;곽노윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.468-471
    • /
    • 2020
  • 본 논문은 ESRGAN(Enhanced Super Resolution GAN)과 Semantic Soft Segmentation을 이용한 객체 분할의 성능 개선에 관한 것이다. 본 논문의 연구진이 이미 제안한 Mask R-CNN과 Semantic Soft Segmentation을 이용한 객체 분할 방법은 전반적으로 객체 분할 성능이 양호한 반면, 객체의 크기가 상대적으로 작으면 분할 성능이 저조해지는 문제점이 있었다. 본 논문은 이러한 문제점을 해결하기 위한 것으로, Mask R-CNN을 통해 검출된 객체의 크기가 일정 기준치 이하인 경우, ESRGAN을 통해 초해상화를 수행한 후, Semantic Soft Segmentation을 수행함으로써 소형 객체의 분할 성능을 개선함에 그 목적이 있다. 제안된 방법에 따르면, 기존의 방볍에 비해 크기가 작은 객체의 분할 특성을 좀 더 효과적으로 개선할 수 있음을 확인할 수 있었다.

Swin Transformer를 이용한 항공사진에서 다중클래스 차량 검출 (The Detection of Multi-class Vehicles using Swin Transformer)

  • 이기춘;정유석;이창우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.112-114
    • /
    • 2021
  • 도시 상태를 탐지하기 위해서는 운송 수단 수, 교통 흐름등이 필수적으로 파악되어야 할 요소이다. 본 논문에서는 기존의 Mask R-CNN을 이용하여 다양한 차량의 형태를 학습하고, 드론으로 촬영한 도시항공 영상에서 특정 유형의 차량 들을 검출하는 시스템을 오늘날 NLP 분야에서 널리 쓰이게 된 Transformer 모델을 컴퓨터 비전 문제에 도입하여 기존의 컨볼루션 신경망보다 높은 성능을 보여준 Swin Transformer 모델을 이용하여 기존의 연구에서 보여주었던 검출 시스템 능력을 향상시켰다.

  • PDF

Mask R-CNN 기반 Aspect Ratio를 활용한 이상행동 검출 및 영역화 방법 (Abnormal Behavior Detection and Localization Using Aspect Ratio Based on Mask R-CNN)

  • 임현석;후쉬펑;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.99-101
    • /
    • 2022
  • 이상 행동을 탐지하는 딥러닝 기반 검지 시스템은 동영상 기반 데이터로부터 움직임을 보이는 객체를 추적하고 그 객체의 행동을 분석하여 정상적인 행동 범위를 벗어나는 패턴을 보이는 영역을 이상으로 탐지한다. 특히 생성적 적대 신경망(GAN)과 광학 흐름 추정(Optical flow estimation) 기법을 활용하여 움직임에 대한 특징 정보를 추출하고 이를 학습하여 행동 패턴에 대한 모델링을 수행한다. 모델 학습 및 테스트에 활용되는 데이터셋의 해상도가 낮거나 이상 행동을 표현하는 특징 정보가 부족할 경우 최종 모델 성능에 부정적 영향을 미치게 되며, 특히 광학 흐름이 표현하는 이동량 측면에서 차이가 크게 나지 않는 이상 객체의 경우 탐지가 정확하게 이뤄지지 않는다. 본 연구에서는 동영상 프레임에서 나타나는 객체의 평균 종횡비를 구하고 정상적인 비율을 벗어나는 객체에 대해서 이상 행동을 취하는 샘플로 처리하는 후처리단 모듈을 제안하여 최종적인 모델 성능을 향상시키는 방법을 고안한다.

  • PDF

딥러닝 기반의 국토모니터링 웹 서비스 개발 (Development of Deep Learning-based Land Monitoring Web Service)

  • 공인학;정동훈;정구하
    • 산업경영시스템학회지
    • /
    • 제46권3호
    • /
    • pp.275-284
    • /
    • 2023
  • Land monitoring involves systematically understanding changes in land use, leveraging spatial information such as satellite imagery and aerial photographs. Recently, the integration of deep learning technologies, notably object detection and semantic segmentation, into land monitoring has spurred active research. This study developed a web service to facilitate such integrations, allowing users to analyze aerial and drone images using CNN models. The web service architecture comprises AI, WEB/WAS, and DB servers and employs three primary deep learning models: DeepLab V3, YOLO, and Rotated Mask R-CNN. Specifically, YOLO offers rapid detection capabilities, Rotated Mask R-CNN excels in detecting rotated objects, while DeepLab V3 provides pixel-wise image classification. The performance of these models fluctuates depending on the quantity and quality of the training data. Anticipated to be integrated into the LX Corporation's operational network and the Land-XI system, this service is expected to enhance the accuracy and efficiency of land monitoring.

감시 비디오에서 등록 및 미등록 물체의 실시간 도난 탐지 (Realtime Theft Detection of Registered and Unregistered Objects in Surveillance Video)

  • 박혜승;박승철;주영복
    • 한국정보통신학회논문지
    • /
    • 제24권10호
    • /
    • pp.1262-1270
    • /
    • 2020
  • 최근 관심이 높아지고 있는 스마트 감시 비디오에 관한 연구는 주로 침입자 탐지 및 추적과 유기 물체 탐지에 초점이 맞춰져 왔고, 도난 물체의 실시간 탐지에 대한 연구는 중요성에 비해 상대적으로 미흡한 상황이다. 본 논문은 스마트 감시 비디오 적용 환경을 고려하여 두 가지의 서로 다른 도난 물체 탐지 알고리즘을 제시한다. 먼저 이중 배경 차감 모델(dual background subtraction model)을 사용하여 사전에 정적 및 동적으로 등록된 감시 대상 물체의 도난을 탐지하는 알고리즘을 제시한다. 그리고 이중 배경 차감 모델과 Mask R-CNN 기반의 객체 세그멘테이션 기술을 통합적으로 적용하여 일반 감시 물체의 도난을 탐지하는 알고리즘을 제시한다. 전자의 알고리즘은 등록된 감시 물체를 대상으로 계산 능력이 높지 않은 환경에서 경제적인 도난 탐지 서비스를 제공할 수 있고, 후자의 알고리즘은 충분한 계산 능력을 제공할 수 있는 환경에서 보다 광범위한 일반 감시 물체의 도난 탐지에 적용할 수 있다.

통합 이미지 처리 기술을 이용한 콘크리트 교량 균열 탐지 및 매핑 (Crack Inspection and Mapping of Concrete Bridges using Integrated Image Processing Techniques)

  • 김병현;조수진
    • 한국안전학회지
    • /
    • 제36권1호
    • /
    • pp.18-25
    • /
    • 2021
  • In many developed countries, such as South Korea, efficiently maintaining the aging infrastructures is an important issue. Currently, inspectors visually inspect the infrastructure for maintenance needs, but this method is inefficient due to its high costs, long logistic times, and hazards to the inspectors. Thus, in this paper, a novel crack inspection approach for concrete bridges is proposed using integrated image processing techniques. The proposed approach consists of four steps: (1) training a deep learning model to automatically detect cracks on concrete bridges, (2) acquiring in-situ images using a drone, (3) generating orthomosaic images based on 3D modeling, and (4) detecting cracks on the orthmosaic image using the trained deep learning model. Cascade Mask R-CNN, a state-of-the-art instance segmentation deep learning model, was trained with 3235 crack images that included 2415 hard negative images. We selected the Tancheon overpass, located in Seoul, South Korea, as a testbed for the proposed approach, and we captured images of pier 34-37 and slab 34-36 using a commercial drone. Agisoft Metashape was utilized as a 3D model generation program to generate an orthomosaic of the captured images. We applied the proposed approach to four orthomosaic images that displayed the front, back, left, and right sides of pier 37. Using pixel-level precision referencing visual inspection of the captured images, we evaluated the trained Cascade Mask R-CNN's crack detection performance. At the coping of the front side of pier 37, the model obtained its best precision: 94.34%. It achieved an average precision of 72.93% for the orthomosaics of the four sides of the pier. The test results show that this proposed approach for crack detection can be a suitable alternative to the conventional visual inspection method.