• 제목/요약/키워드: Computer vision technology

검색결과 669건 처리시간 0.031초

사진 사용 이력을 이용한 이벤트 클러스터링 알고리즘 (Adaptive Event Clustering for Personalized Photo Browsing)

  • 김기응;박태서;박민규;이영범;김연배;김상룡
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.711-716
    • /
    • 2006
  • Since the introduction of digital camera to the mass market, the number of digital photos owned by an individual is growing at an alarming rate. This phenomenon naturally leads to the issues of difficulties while searching and browsing in the personal digital photo archive. Traditional approach typically involves content-based image retrieval using computer vision algorithms. However, due to the performance limitations of these algorithms, at least on the casual digital photos taken by non-professional photographers, more recent approaches are centered on time-based clustering algorithms, analyzing the shot times of photos. These time-based clustering algorithms are based on the insight that when these photos are clustered according to the shot-time similarity, we have "event clusters" that will help the user browse through her photo archive. It is also reported that one of the remaining problems with the time-based approach is that people perceive events in different scales. In this paper, we present an adaptive time-based clustering algorithm that exploits the usage history of digital photos in order to infer the user's preference on the event granularity. Experiments show significant performance improvements in the clustering accuracy.

  • PDF

Dynamic characteristics monitoring of wind turbine blades based on improved YOLOv5 deep learning model

  • W.H. Zhao;W.R. Li;M.H. Yang;N. Hong;Y.F. Du
    • Smart Structures and Systems
    • /
    • 제31권5호
    • /
    • pp.469-483
    • /
    • 2023
  • The dynamic characteristics of wind turbine blades are usually monitored by contact sensors with the disadvantages of high cost, difficult installation, easy damage to the structure, and difficult signal transmission. In view of the above problems, based on computer vision technology and the improved YOLOv5 (You Only Look Once v5) deep learning model, a non-contact dynamic characteristic monitoring method for wind turbine blade is proposed. First, the original YOLOv5l model of the CSP (Cross Stage Partial) structure is improved by introducing the CSP2_2 structure, which reduce the number of residual components to better the network training speed. On this basis, combined with the Deep sort algorithm, the accuracy of structural displacement monitoring is mended. Secondly, for the disadvantage that the deep learning sample dataset is difficult to collect, the blender software is used to model the wind turbine structure with conditions, illuminations and other practical engineering similar environments changed. In addition, incorporated with the image expansion technology, a modeling-based dataset augmentation method is proposed. Finally, the feasibility of the proposed algorithm is verified by experiments followed by the analytical procedure about the influence of YOLOv5 models, lighting conditions and angles on the recognition results. The results show that the improved YOLOv5 deep learning model not only perform well compared with many other YOLOv5 models, but also has high accuracy in vibration monitoring in different environments. The method can accurately identify the dynamic characteristics of wind turbine blades, and therefore can provide a reference for evaluating the condition of wind turbine blades.

휴대폰 상에서의 손동작 기반 증강현실 인터페이스 구현 (Implementation of Hand-Gesture-Based Augmented Reality Interface on Mobile Phone)

  • 최준영;박한훈;박정식;박종일
    • 방송공학회논문지
    • /
    • 제16권6호
    • /
    • pp.941-950
    • /
    • 2011
  • 최근 휴대폰의 발전과 더불어 휴대폰 환경에 적합한 인터페이스에 대한 연구가 많이 이루어지고 있다. 본 논문에서는 특히 사람에게 친숙한 손동작을 이용한 상호작용에 주목하여, 휴대폰 상에서 손동작을 이용한 비전 기반 인터페이스를 구현하였다. 사용자가 한손에 휴대폰을 들고 휴대폰의 카메라를 통해서 다른 손의 손바닥을 바라보면, 사용자의 손바닥 위에 가상 객체가 증강되고 사용자는 자신의 손과 손가락의 움직임을 통해서 가상 객체와 상호작용 할 수 있다. 구현된 인터페이스는 사람에게 친숙한 손동작을 기반으로 동작하기 때문에, 사용자는 별도의 훈련 과정 없이 친숙하게 사용가능하다. 또한, 추가적인 센서나 마커를 요구하지 않기 때문에, 사용자가 원하는 시간과 장소에서 자유롭게 가상 객체와 상호작용 할 수 있다. 일부 시간이 많이 걸리는 처리 과정을 휴대폰 환경에 적합하도록 최적화, 고속화함으로써, 구현된 인터페이스는 상용화된 휴대폰(Galaxy S2)에서 5 fps로 동작한다.

SRCNN과 VDSR의 구조와 방법 및 개선된 성능평가 함수 (Structure, Method, and Improved Performance Evaluation Function of SRCNN and VDSR)

  • 이광찬;왕광싱;신성윤
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.543-548
    • /
    • 2021
  • 이미지는 해상도가 높을수록 이미지를 시청하는 사람들의 만족도가 높아지며 초고해상도 이미지화는 컴퓨터 비전이나 영상처리 분야 중에서도 연구 가치가 꽤 높아지고 있다. 본 연구에서는 주로 딥 러닝 초 해상도 모델을 사용하여 저해상도 이미지 LR의 주요 특징을 추출한다. 추출된 특징을 학습 및 재구성하고, 고해상도 이미지 HR을 생성하는 재구성 기반 알고리즘에 중점을 둔다. 본 논문에서는 재구성에 기반을 둔 초 해상도 알고리즘 모델에서 SRCNN과 VDSR에 대하여 알아보도록 한다. SRCNN과 VDSR모델의 구조 및 알고리즘 프로세스를 간략하게 소개하고 개선된 성능평가 함수에서도 다중 채널과 특수한 형태에 대하여 알아보도록 하며, 실험을 통하여 각 알고리즘의 성능을 이해하도록 한다. 실험에서는 SRCNN 및 VDSR 모델의 결과와 피크 신호 대 잡음 비 및 이미지 구조 유사도를 비교하는 실험을 수행하여 결과를 한눈에 볼 수 있도록 하였다.

CNN기반의 온라인 수어통역 상담 시스템에 관한 연구 (CNN-based Online Sign Language Translation Counseling System)

  • 박원철;박구락
    • 융합정보논문지
    • /
    • 제11권5호
    • /
    • pp.17-22
    • /
    • 2021
  • 청각장애인들은 수어통역 없이 상담서비스를 이용하기에는 어려움이 있다. 수어 통역사 인력이 많이 부족하여 수어 통역사까지 상담이 연결되는데 많은 시간이 걸리거나 연결이 되지 않는 경우가 많이 발생하고 있다. 이에 본 논문에서는 OpenCV와 CNN(Convolutional Neural Network)을 이용하여 수어를 영상으로 촬영하고 수어 동작을 인식하여 수어가 뜻하는 의미를 텍스트 형태의 데이터로 변환하여 사용자에게 제공하는 시스템을 제안한다. 상담사는 저장된 수어번역 상담내용을 열람하여 상담을 진행할 수 있다. 전문 수어 통역사가 없어도 상담이 가능하여 수어 통역사를 기다려야 하는 부담을 줄일 수 있다. 제안 시스템을 청각장애인 상담서비스에 적용할 경우 상담 효과의 향상과 향후 청각장애인 상담에 관한 학문적 연구를 촉진하는 계기가 될 것으로 기대된다.

The Methodology of the Golf Swing Similarity Measurement Using Deep Learning-Based 2D Pose Estimation

  • Jonghyuk, Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.39-47
    • /
    • 2023
  • 본 논문에서는 골프 동영상 속 스윙 자세 사이의 유사도를 측정할 수 있는 방법을 제안한다. 딥러닝 기반 인공지능 기술이 컴퓨터 비전 분야에 효과적인 것이 알려지면서 동영상을 기반으로 한 스포츠 데이터 분석에 인공지능을 활용하기 위한 시도가 증가하고 있다. 본 연구에서는 딥러닝 기반의 자세 추정 모델을 사용하여 골프 스윙 동영상 속 사람의 관절 좌표를 획득하였고, 이를 바탕으로 각 스윙 구간별 유사도를 측정하였다. 제안한 방법의 평가를 위해 GolfDB 데이터셋의 Driver 스윙 동영상을 활용하였다. 총 36명의 선수에 대해 스윙 동영상들을 두 개씩 짝지어 스윙 유사도를 측정한 결과, 본인의 또 다른 스윙이 가장 유사하다고 평가한 경우가 26명이었으며, 이때의 유사도 평균 순위는 약 5위로 확인되었다. 이로부터 비슷한 동작을 수행하고 있는 경우에도 면밀히 유사도를 측정하는 것이 가능함을 확인할 수 있었다.

이미지 생성 모델을 이용한 패턴 결함 데이터 증강에 대한 연구 (A Study of Pattern Defect Data Augmentation with Image Generation Model)

  • 김병준;서용덕
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권3호
    • /
    • pp.79-84
    • /
    • 2023
  • 이미지 생성 모델은 다양한 분야에 적용되어 데이터 부족 문제와 시간 및 비용 문제를 극복하고 있다. 그러나 규칙적 패턴 이미지에서의 이미지 생성과 해당 데이터의 결함 검출에는 한계를 가진다. 본 논문에서는 이미지 생성 모델의 패턴 이미지 생성의 가능성을 확인하고 OLED 패널의 결함 검출을 위한 데이터 증강에 적용하였다. OLED 결함 검출 모델을 학습하기 위해 필요한 데이터는 OLED 패널의 높은 비용 문제로 실제 데이터 세트를 확보하기 어렵다. 그렇기 때문에 해당 데이터 세트를 확보한다 하더라도 여러가지 결함 유형을 정의하고 분류하는 작업이 필요하다. 이를 위한 가상의 기반 데이터 세트를 획득할 OLED 패널 결함 데이터 획득 시스템을 소개하고, 이미지 생성 모델로 해당 데이터를 증강한다. 또, 확산모델에서의 패턴 이미지 생성의 어려움을 확인하여 가능성을 제안하고, 이미지 생성 모델 이용한 데이터 증강 및 결함 검출 데이터 증강의 제한 사항을 개선하였다.

A Review on Detection of COVID-19 Cases from Medical Images Using Machine Learning-Based Approach

  • Noof Al-dieef;Shabana Habib
    • International Journal of Computer Science & Network Security
    • /
    • 제24권3호
    • /
    • pp.59-70
    • /
    • 2024
  • Background: The COVID-19 pandemic (the form of coronaviruses) developed at the end of 2019 and spread rapidly to almost every corner of the world. It has infected around 25,334,339 of the world population by the end of September 1, 2020 [1] . It has been spreading ever since, and the peak specific to every country has been rising and falling and does not seem to be over yet. Currently, the conventional RT-PCR testing is required to detect COVID-19, but the alternative method for data archiving purposes is certainly another choice for public departments to make. Researchers are trying to use medical images such as X-ray and Computed Tomography (CT) to easily diagnose the virus with the aid of Artificial Intelligence (AI)-based software. Method: This review paper provides an investigation of a newly emerging machine-learning method used to detect COVID-19 from X-ray images instead of using other methods of tests performed by medical experts. The facilities of computer vision enable us to develop an automated model that has clinical abilities of early detection of the disease. We have explored the researchers' focus on the modalities, images of datasets for use by the machine learning methods, and output metrics used to test the research in this field. Finally, the paper concludes by referring to the key problems posed by identifying COVID-19 using machine learning and future work studies. Result: This review's findings can be useful for public and private sectors to utilize the X-ray images and deployment of resources before the pandemic can reach its peaks, enabling the healthcare system with cushion time to bear the impact of the unfavorable circumstances of the pandemic is sure to cause

A reliable quasi-dense corresponding points for structure from motion

  • Oh, Jangseok;Hong, Hyunggil;Cho, Yongjun;Yun, Haeyong;Seo, Kap-Ho;Kim, Hochul;Kim, Mingi;Lee, Onseok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권9호
    • /
    • pp.3782-3796
    • /
    • 2020
  • A three-dimensional (3D) reconstruction is an important research area in computer vision. The ability to detect and match features across multiple views of a scene is a critical initial step. The tracking matrix W obtained from a 3D reconstruction can be applied to structure from motion (SFM) algorithms for 3D modeling. We often fail to generate an acceptable number of features when processing face or medical images because such images typically contain large homogeneous regions with minimal variation in intensity. In this study, we seek to locate sufficient matching points not only in general images but also in face and medical images, where it is difficult to determine the feature points. The algorithm is implemented on an adaptive threshold value, a scale invariant feature transform (SIFT), affine SIFT, speeded up robust features (SURF), and affine SURF. By applying the algorithm to face and general images and studying the geometric errors, we can achieve quasi-dense matching points that satisfy well-functioning geometric constraints. We also demonstrate a 3D reconstruction with a respectable performance by applying a column space fitting algorithm, which is an SFM algorithm.

High-Speed Maritime Object Detection Scheme for the Protection of the Aid to Navigation

  • Lee, Hyochan;Song, Hyunhak;Cho, Sungyoon;Kwon, Kiwon;Park, Sunghyun;Im, Taeho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권2호
    • /
    • pp.692-712
    • /
    • 2022
  • Buoys used for Aid to Navigation systems are widely used to guide the sea paths and are powered by batteries, requiring continuous battery replacement. However, since human labor is required to replace the batteries, humans can be exposed to dangerous situation, including even collision with shipping vessels. In addition, Maritime sensors are installed on the route signs, so that these are often damaged by collisions with small and medium-sized ships, resulting in significant financial loss. In order to prevent these accidents, maritime object detection technology is essential to alert ships approaching buoys. Existing studies apply a number of filters to eliminate noise and to detect objects within the sea image. For this process, most studies directly access the pixels and process the images. However, this approach typically takes a long time to process because of its complexity and the requirements of significant amounts of computational power. In an emergent situation, it is important to alarm the vessel's rapid approach to buoys in real time to avoid collisions between vessels and route signs, therefore minimizing computation and speeding up processes are critical operations. Therefore, we propose Fast Connected Component Labeling (FCCL) which can reduce computation to minimize the processing time of filter applications, while maintaining the detection performance of existing methods. The results show that the detection performance of the FCCL is close to 30 FPS - approximately 2-5 times faster, when compared to the existing methods - while the average throughput is the same as existing methods.