• 제목/요약/키워드: Computer Vision

검색결과 2,208건 처리시간 0.04초

데이터 증강을 위한 순환 생성적 적대 신경망 기반의 아스팔트와 콘크리트 균열 영상 간의 변환 기법 (CycleGAN Based Translation Method between Asphalt and Concrete Crack Images for Data Augmentation)

  • 심승보
    • 한국ITS학회 논문지
    • /
    • 제21권5호
    • /
    • pp.171-182
    • /
    • 2022
  • 구조물을 안전하게 관리하기 위해서는 우선적으로 건전한 유지가 전제되어야 한다. 이 같은 구조물의 건전성을 결정하는 요인 중에서 가장 대표적인 예로는 균열을 들 수 있다. 여러 가지 원인에 의해 발생하는 균열은 다양한 종류와 형태로 구조물에 손상을 입힌다. 무엇보다 이러한 균열이 방치될 경우 위험도가 증가하여 안전사고로 이어질 수 있다. 이러한 문제점을 경감하기 위하여 최근 들어 딥러닝과 컴퓨터 비전 기술을 활용하여 손상을 점검하는 방법들이 소개되고 있다. 이 같은 방법들은 대체로 충분한 양의 학습 데이터가 필요한 것이 사실이다. 하지만, 학습을 위한 영상 데이터의 충분한 확보가 어렵다는 점은 딥러닝 균열 탐지 알고리즘의 성능에 부정적인 영향을 미친다. 따라서 본 논문에서는 이에 대한 문제의식을 바탕으로 영상 변환 기법을 활용하여 균열 영상 데이터를 증강하는 방법을 제시했다. 이는 아스팔트 균열 영상을 콘크리트 균열 영상으로 변환하거나 혹은 이와 반대로 콘크리트 균열 영상을 아스팔트 균열 영상으로 변환하여 딥러닝 신경망 모델을 학습하기 위한 영상 데이터를 확보하는 방법이다. 이를 통해 학습 데이터의 다양성을 향상시켜 강건한 균열 탐지 알고리즘 개발에 기여할 수 있기를 기대한다.

샴 네트워크를 사용하여 추적 레이블을 사용하지 않는 다중 객체 검출 및 추적기 학습에 관한 연구 (Training of a Siamese Network to Build a Tracker without Using Tracking Labels)

  • 강정규;송유승;민경욱;최정단
    • 한국ITS학회 논문지
    • /
    • 제21권5호
    • /
    • pp.274-286
    • /
    • 2022
  • 이동객체 추적은 컴퓨터 비전 분야에서 오랜 시간 동안 연구가 진행되어 온 분야로 자율주행이나 운전 보조 시스템 등의 시스템에서 아주 중요한 역할을 수행하고 있다. 이동객체 추적 기술은 일반적으로 객체를 검출하는 검출기와 검출된 객체를 추적하는 추적기의 결합으로 이루어져 있다. 검출기는 다양한 데이터셋이 공개되어 사용되고 있기 때문에 쉽게 좋은 모델을 학습할 수 있지만, 추적기의 경우 상대적으로 공개된 데이터셋도 적고 직접 데이터셋을 구성하는 것도 검출기 데이터셋에 비해 굉장히 오랜 시간을 소요한다. 이에 검출기를 따로 개발하고, 별도의 추적기를 학습 기반이 아닌 방식을 활용하여 개발하는 경우가 많은데 이런 경우 두 개의 시스템이 차례로 작동하게 되어 전체 시스템의 속도를 느리게 하고 앞단의 검출기의 성능이 변할 때마다 별도로 추적기 또한 조정해줘야 한다는 단점이 있다. 이에 본 연구는 검출용 데이터셋만을 사용하여 검출과 추적을 동시에 수행하는 모델을 구성하는 방법을 제안한다. 데이터 증강 기술과 샴 네트워크를 사용하여 단일 이미지에서 객체를 검출 및 추적하는 방법을 연구하였다. 공개 데이터셋에 실험을 진행하여 학습 결과 높은 속도로 작동하는 이동객체 검출 및 추적기를 학습할 수 있음을 검증하였다.

OPC UA를 활용한 이기종 로봇의 실시간 디지털 트윈 설계 및 구현 (Design and Implementation of Real-time Digital Twin in Heterogeneous Robots using OPC UA)

  • 김지형
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.189-196
    • /
    • 2023
  • 4차 산업혁명을 주도하는 기술로서 IoT, 빅데이터, 인공지능, CPS 등이 발전하면서 산업 현장에서 생산성과 효율성을 향상시키기 위한 디지털 트윈의 중요성이 부각되고 있다. 디지털 트윈은 실제 물리적 객체들의 디지털 복제로서, 객체의 속성과 상태를 유지하며 작동하는 가상 모델이다. CPS는 사이버 세계와 물리 세계의 상호작용을 위한 시스템으로, 디지털 트윈은 CPS의 고급형 기술로 볼 수 있다. 디지털 트윈은 AI, XR, 5G 등 다양한 요소 기술의 등장으로 구현 속도가 가속화되었다. 센서 기술의 발전과 IoT, 인공지능, 빅데이터, 클라우드 등의 관련 기술 발전으로 디지털 트윈 시장이 성장하고 있다. 이에 따라 기업들은 비즈니스 인텔리전스와 관련된 솔루션을 도입하여 프로세스 최적화, 비용 효율성, 생산성을 향상시키는 경향이 있다. 본 연구에서는 디지털 트윈 기술과 CPS를 결합하여 이기종 로봇의 실시간 3D 디지털 트윈을 구축하는 것이 목표이다. 이를 위해 유비씨의 FLEXING CPS와 FLEXING EDGE를 활용하여 데이터 수집과 관리를 수행한다. 프로젝트 구성원은 프로토콜 설정, 데이터 수집 및 전달, 3D 디지털 트윈 시뮬레이션을 담당한다. 이를 통해 CPS와 디지털 트윈을 통합한 기술의 가능성을 확인하고, 산업 현장에서 생산성과 효율성을 향상시킬 수 있다.

Inferring Pedestrian Level of Service for Pathways through Electrodermal Activity Monitoring

  • Lee, Heejung;Hwang, Sungjoo
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.1247-1248
    • /
    • 2022
  • Due to rapid urbanization and population growth, it has become crucial to analyze the various volumes and characteristics of pedestrian pathways to understand the capacity and level of service (LOS) for pathways to promote a better walking environment. Different indicators have been developed to measure pedestrian volume. The pedestrian level of service (PLOS), tailored to analyze pedestrian pathways based on the concept of the LOS in transportation in the Highway Capacity Manual, has been widely used. PLOS is a measurement concept used to assess the quality of pedestrian facilities, from grade A (best condition) to grade F (worst condition), based on the flow rate, average speed, occupied space, and other parameters. Since the original PLOS approach has been criticized for producing idealistic results, several modified versions of PLOS have also been developed. One of these modified versions is perceived PLOS, which measures the LOS for pathways by considering pedestrians' awareness levels. However, this method relies on survey-based measurements, making it difficult to continuously deploy the technique to all the pathways. To measure PLOS more quantitatively and continuously, researchers have adopted computer vision technologies to automatically assess pedestrian flows and PLOS from CCTV videos. However, there are drawbacks even with this method because CCTVs cannot be installed everywhere, e.g., in alleyways. Recently, a technique to monitor bio-signals, such as electrodermal activity (EDA), through wearable sensors that can measure physiological responses to external stimuli (e.g., when another pedestrian passes), has gained popularity. It has the potential to continuously measure perceived PLOS. In their previous experiment, the authors of this study found that there were many significant EDA responses in crowded places when other pedestrians acting as external stimuli passed by. Therefore, we hypothesized that the EDA responses would be significantly higher in places where relatively more dynamic objects pass, i.e., in crowded areas with low PLOS levels (e.g., level F). To this end, the authors conducted an experiment to confirm the validity of EDA in inferring the perceived PLOS. The EDA of the subjects was measured and analyzed while watching both the real-world and virtually created videos with different pedestrian volumes in a laboratory environment. The results showed the possibility of inferring the amount of pedestrian volume on the pathways by measuring the physiological reactions of pedestrians. Through further validation, the research outcome is expected to be used for EDA-based continuous measurement of perceived PLOS at the alley level, which will facilitate modifying the existing walking environments, e.g., constructing pathways with appropriate effective width based on pedestrian volume. Future research will examine the validity of the integrated use of EDA and acceleration signals to increase the accuracy of inferring the perceived PLOS by capturing both physiological and behavioral reactions when walking in a crowded area.

  • PDF

소셜미디어 사진 게시물의 딥러닝을 활용한 도시공원 이용자 활동 이미지 분류모델 개발 (Development of Image Classification Model for Urban Park User Activity Using Deep Learning of Social Media Photo Posts)

  • 이주경;손용훈
    • 한국조경학회지
    • /
    • 제50권6호
    • /
    • pp.42-57
    • /
    • 2022
  • 본 연구의 목적은 인공지능의 딥러닝을 활용하여 소셜미디어에서 공유되는 도시공원 이용자 활동사진을 분류하는 기초 모델을 만드는 것이다. 소셜미디어 데이터는 네이버 검색을 통해 수집된 도시공원 관련 사진들을 수집하여 분류모델에 활용하였다. 도시공원 특성 평가에 활용할 수 있는 지표인 자연성(naturalness), 잠재적 매력성(potential attraction), 활동(activity)을 기반으로 최종 21개의 분류 항목체계를 만들고, 항목별로 네이버에서 공유되는 실제 도시공원 사진을 수집하여 주석이 달린 데이터 세트를 구축했다. 수집한 사진 데이터 세트에 대해 커스텀(cuntom) CNN 모델과 사전 훈련된 CNN의 전이학습 모델을 설계하고 분석하였다. 연구결과, 가장 우수한 성능을 보였던 Xception 전이학습 모델이 최종적으로 도시공원 이용자 활동 이미지 분류모델로 선정되었으며, 그 외 다양한 평가 지표를 통해 모델을 평가했다. 본 연구는 소셜미디어에 공유되는 이용자 사진을 활용하여 도시공원 특성을 평가할 수 있는 지표로서 AI를 구축한 것에 의의가 있다. 딥러닝을 활용한 분류모델은 수동분류에 대한 한계를 보완하고, 대량의 도시공원 사진을 효율적으로 분류할 수 있어서 향후 도시공원의 모니터링 및 관리에 활용할 수 있는 유용한 방법이라고 할 수 있다.

데이터 증강 및 앙상블 기법을 이용한 딥러닝 기반 GPR 공동 탐지 모델 성능 향상 연구 (Improving the Performance of Deep-Learning-Based Ground-Penetrating Radar Cavity Detection Model using Data Augmentation and Ensemble Techniques)

  • 최용욱;서상진;장한길로;윤대웅
    • 지구물리와물리탐사
    • /
    • 제26권4호
    • /
    • pp.211-228
    • /
    • 2023
  • 방조제의 모니터링에는 지구물리학적 비파괴 검사인 GPR (Ground Penetrating Radar) 탐사가 주로 이용된다. GPR 반응은 상황에 따라 복잡한 양상을 보이므로 자료의 처리와 해석은 전문가의 주관적 판단에 의존하며, 이는 오 탐지의 가능성을 불러옴과 동시에 시간이 오래 걸린다는 단점이 있다. 따라서 딥 러닝을 이용하여 GPR 탐사자료의 공동을 탐지하는 다양한 연구들이 수행되고 있다. 딥 러닝 기반 방법은 데이터 기반 방법으로써 풍부한 자료가 필요하나 GPR 탐사의 경우 비용 등의 이유로 학습에 이용할 현장 자료가 부족하다. 따라서 본 논문에서는 데이터 증강 전략을 이용하여 딥 러닝 기반 방조제 GPR 탐사자료 공동 탐지 모델을 개발하였다. 다년간 동일한 방조제에서 탐사 자료를 사용하여 데이터 세트를 구축하였으며, 컴퓨터 비전 분야의 객체 탐지 모델 중 YOLO (You Look Only Once) 모델을 이용하였다. 데이터 증강 전략을 비교 및 분석함으로써 최적의 데이터 증강 전략을 도출하였고, 초기 모델 개발 후 앵커 박스 클러스터링, 전이 학습, 자체 앙상블, 모델 앙상블 기법을 단계적으로 적용하여 최종 모델 도출 후 성능을 평가하였다.

인공지능 기반 콩 생장분석 방법 연구 (A Study on the Artificial Intelligence-Based Soybean Growth Analysis Method)

  • 전문석;김영태;정유석;배효준;이채원;김송림;최인찬
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.1-14
    • /
    • 2023
  • 콩은 세계 5대 식량작물 중 하나로 식물성 단백질의 주요 공급원이다. 작물 특성상 기후변화에 따라 곡물 생산량에 큰 영향을 받기 때문에 국립농업과학원에서는 콩 품종별 생장 분석을 통해 작물표현형 연구를 진행중이다. 콩 품종별 생장 분석을 위한 생장 과정 사진 촬영은 자동화된 시스템으로 이루어지지만 생장 상태를 확인, 기록, 분석하는 과정은 수작업으로 진행되고 있다. 본 논문에서는 이러한 과정을 자동화 할 수 있도록 콩 작물의 영상 데이터에서 콩잎 객체를 검출하는 YOLOv5s 모델과 검출된 콩잎의 전개 여부를 판단하는 합성곱 신경망(Convolution Neural Network; CNN) 모델을 설계, 학습하였다. 두 모델을 결합하고 검출된 콩잎의 좌표데이터로 층을 구분하는 알고리즘을 구현하여 콩 작물의 시계열 데이터를 입력하여 생장을 분석하는 프로그램을 개발하였고, 그 결과 콩 작물의 제2~3복엽까지 생장 시기를 판단할 수 있었다.

균열 탐지의 의미론적 분할을 위한 Mean Teacher 학습 구조 최적화 (Mean Teacher Learning Structure Optimization for Semantic Segmentation of Crack Detection)

  • 심승보
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제27권5호
    • /
    • pp.113-119
    • /
    • 2023
  • 인프라 구조물은 대부분 경제 성장기에 완공되었다. 이러한 인프라 구조물은 최근 들어 공용연수가 점차 증가하고 있어 노후 구조물의 비중이 점차 증가하고 있다. 이러한 노후 구조물은 설계 당시의 기능과 성능이 저하될 수 있고 안전사고로까지 이어질 수 있다. 이를 예방하기 위해서는 정확한 점검과 적절한 보수가 필수적이다. 이를 위해서는 우선 미세한 균열까지 정확히 탐지할 수 있도록 컴퓨터 비전과 딥러닝 기술에 수요가 증가하고 있다. 하지만 딥러닝 알고리즘은 다수의 학습 데이터가 있어야 한다. 특히 영상 내 균열의 위치를 표시한 라벨 영상은 필수적이다. 이러한 라벨 영상을 다수 확보하기 위해서는 많은 노동력과 시간이 필요한 실정이다. 이러한 비용을 절감하고 탐지 정확도를 높이기 위해서 본 연구에서는 mean teacher 방식의 학습 구조를 제안하였다. 이 학습 구조는 900장의 라벨 영상 데이터 세트와 3000장의 비라벨 영상 데이터 세트로 훈련되었다. 학습된 균열 탐지 신경망 모델은 300여장의 실험용 데이터 세트를 통해 평가되었고 탐지 정확도는 89.23%의 mean intersection over union과 89.12%의 F1 score를 기록하였다. 이 설험을 통해 지도학습과 비교하여 탐지 성능이 향상된 것을 확인하였다. 향후에 이러한 방법은 라벨 영상을 확보하는데 필요한 비용을 절감하는데 활용될 것으로 기대한다.

얼굴 특징점을 활용한 영상 편집점 탐지 (Detection of video editing points using facial keypoints)

  • 나요셉;김진호;박종혁
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.15-30
    • /
    • 2023
  • 최근 미디어 분야에도 인공지능(AI)을 적용한 다양한 서비스가 등장하고 있는 추세이다. 하지만 편집점을 찾아 영상을 이어 붙이는 영상 편집은, 대부분 수동적 방식으로 진행되어 시간과 인적 자원의 소요가 많이 발생하고 있다. 이에 본 연구에서는 Video Swin Transformer를 활용하여, 발화 여부에 따른 영상의 편집점을 탐지할 수 있는 방법론을 제안한다. 이를 위해, 제안 구조는 먼저 Face Alignment를 통해 얼굴 특징점을 검출한다. 이와 같은 과정을 통해 입력 영상 데이터로부터 발화 여부에 따른 얼굴의 시 공간적인 변화를 모델에 반영한다. 그리고, 본 연구에서 제안하는 Video Swin Transformer 기반 모델을 통해 영상 속 사람의 행동을 분류한다. 구체적으로 비디오 데이터로부터 Video Swin Transformer를 통해 생성되는 Feature Map과 Face Alignment를 통해 검출된 얼굴 특징점을 합친 후 Convolution을 거쳐 발화 여부를 탐지하게 된다. 실험 결과, 본 논문에서 제안한 얼굴 특징점을 활용한 영상 편집점 탐지 모델을 사용했을 경우 분류 성능을 89.17% 기록하여, 얼굴 특징점을 사용하지 않았을 때의 성능 87.46% 대비 성능을 향상시키는 것을 확인할 수 있었다.

멀티-뷰 영상들을 활용하는 3차원 의미적 분할을 위한 효과적인 멀티-모달 특징 융합 (Effective Multi-Modal Feature Fusion for 3D Semantic Segmentation with Multi-View Images)

  • 배혜림;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권12호
    • /
    • pp.505-518
    • /
    • 2023
  • 3차원 포인트 클라우드 의미적 분할은 각 포인트별로 해당 포인트가 속한 물체나 영역의 분류 레이블을 예측함으로써, 포인트 클라우드를 서로 다른 물체들이나 영역들로 나누는 컴퓨터 비전 작업이다. 기존의 3차원 의미적 분할 모델들은 RGB 영상들에서 추출하는 2차원 시각적 특징과 포인트 클라우드에서 추출하는 3차원 기하학적 특징의 특성을 충분히 고려한 특징 융합을 수행하지 못한다는 한계가 있다. 따라서, 본 논문에서는 2차원-3차원 멀티-모달 특징을 이용하는 새로운 3차원 의미적 분할 모델 MMCA-Net을 제안한다. 제안 모델은 중기 융합 전략과 멀티-모달 교차 주의집중 기반의 융합 연산을 적용함으로써, 이질적인 2차원 시각적 특징과 3차원 기하학적 특징을 효과적으로 융합한다. 또한 3차원 기하학적 인코더로 PTv2를 채용함으로써, 포인트들이 비-정규적으로 분포한 입력 포인트 클라우드로부터 맥락정보가 풍부한 3차원 기하학적 특징을 추출해낸다. 본 논문에서는 제안 모델의 성능을 분석하기 위해 벤치마크 데이터 집합인 ScanNetv2을 이용한 다양한 정량 및 정성 실험들을 진행하였다. 성능 척도 mIoU 측면에서 제안 모델은 3차원 기하학적 특징만을 이용하는 PTv2 모델에 비해 9.2%의 성능 향상을, 2차원-3차원 멀티-모달 특징을 사용하는 MVPNet 모델에 비해 12.12%의 성능 향상을 보였다. 이를 통해 본 논문에서 제안한 모델의 효과와 유용성을 입증하였다.