• 제목/요약/키워드: vision AI

검색결과 141건 처리시간 0.031초

멀티모달 정보를 이용한 잡음에 강인한 야구 이벤트 시점 검출 방법 (Noise Robust Baseball Event Detection with Multimodal Information )

  • 김영익 ;정현조 ;나민수;이영현 ;이준수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.136-138
    • /
    • 2022
  • 스포츠 방송/미디어 데이터에서 특정 이벤트 시점을 효율적으로 검출하는 방법은 정보 검색이나 하이라이트, 요약 등을 위해 중요한 기술이다. 이 논문에서는, 야구 중계 방송 데이터에서 투구에 대한 타격 및 포구 이벤트 시점을 강인하게 검출하는 방법으로, 음향 및 영상 정보를 융합하는 방법에 대해 제안한다. 음향 정보에 기반한 이벤트 검출 방법은 계산이 용이하고 정확도가 높은 반면, 영상 정보의 도움 없이는 모호성을 해결하기 힘든 경우가 많이 발생한다. 특히 야구 중계 데이터의 경우, 투수의 투구 시점에 대한 영상 정보를 활용하여 타격 및 포구 이벤트 검출의 정확도를 보다 향상시킬 수 있다. 이 논문에서는 음향 기반의 딥러닝 이벤트 시점 검출 모델과 영상 기반의 보정 방법을 제안하고, 실제 KBO 야구 중계 방송 데이터에 적용한 사례와 실험 결과에 대해 기술한다.

  • PDF

비전 AI의 객체 인식에 배경이 미치는 영향 (The Effect of Background on Object Recognition of Vision AI )

  • 왕인국;유정호
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2023년도 봄 학술논문 발표대회
    • /
    • pp.127-128
    • /
    • 2023
  • The construction industry is increasingly adopting vision AI technologies to improve efficiency and safety management. However, the complex and dynamic nature of construction sites can pose challenges to the accuracy of vision AI models trained on datasets that do not consider the background. This study investigates the effect of background on object recognition for vision AI in construction sites by constructing a learning dataset and a test dataset with varying backgrounds. Frame scaffolding was chosen as the object of recognition due to its wide use, potential safety hazards, and difficulty in recognition. The experimental results showed that considering the background during model training significantly improved the accuracy of object recognition.

  • PDF

마스크된 복원에서 질병 진단까지: 안저 영상을 위한 비전 트랜스포머 접근법 (From Masked Reconstructions to Disease Diagnostics: A Vision Transformer Approach for Fundus Images)

  • ;변규린;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.557-560
    • /
    • 2023
  • In this paper, we introduce a pre-training method leveraging the capabilities of the Vision Transformer (ViT) for disease diagnosis in conventional Fundus images. Recognizing the need for effective representation learning in medical images, our method combines the Vision Transformer with a Masked Autoencoder to generate meaningful and pertinent image augmentations. During pre-training, the Masked Autoencoder produces an altered version of the original image, which serves as a positive pair. The Vision Transformer then employs contrastive learning techniques with this image pair to refine its weight parameters. Our experiments demonstrate that this dual-model approach harnesses the strengths of both the ViT and the Masked Autoencoder, resulting in robust and clinically relevant feature embeddings. Preliminary results suggest significant improvements in diagnostic accuracy, underscoring the potential of our methodology in enhancing automated disease diagnosis in fundus imaging.

임베디드 엣지 플랫폼에서의 경량 비전 트랜스포머 성능 평가 (Performance Evaluation of Efficient Vision Transformers on Embedded Edge Platforms)

  • 이민하;이성재;김태현
    • 대한임베디드공학회논문지
    • /
    • 제18권3호
    • /
    • pp.89-100
    • /
    • 2023
  • Recently, on-device artificial intelligence (AI) solutions using mobile devices and embedded edge devices have emerged in various fields, such as computer vision, to address network traffic burdens, low-energy operations, and security problems. Although vision transformer deep learning models have outperformed conventional convolutional neural network (CNN) models in computer vision, they require more computations and parameters than CNN models. Thus, they are not directly applicable to embedded edge devices with limited hardware resources. Many researchers have proposed various model compression methods or lightweight architectures for vision transformers; however, there are only a few studies evaluating the effects of model compression techniques of vision transformers on performance. Regarding this problem, this paper presents a performance evaluation of vision transformers on embedded platforms. We investigated the behaviors of three vision transformers: DeiT, LeViT, and MobileViT. Each model performance was evaluated by accuracy and inference time on edge devices using the ImageNet dataset. We assessed the effects of the quantization method applied to the models on latency enhancement and accuracy degradation by profiling the proportion of response time occupied by major operations. In addition, we evaluated the performance of each model on GPU and EdgeTPU-based edge devices. In our experimental results, LeViT showed the best performance in CPU-based edge devices, and DeiT-small showed the highest performance improvement in GPU-based edge devices. In addition, only MobileViT models showed performance improvement on EdgeTPU. Summarizing the analysis results through profiling, the degree of performance improvement of each vision transformer model was highly dependent on the proportion of parts that could be optimized in the target edge device. In summary, to apply vision transformers to on-device AI solutions, either proper operation composition and optimizations specific to target edge devices must be considered.

지능형 엣지 컴퓨팅 기기를 위한 온디바이스 AI 비전 모델의 경량화 방식 분석 (Analysis on Lightweight Methods of On-Device AI Vision Model for Intelligent Edge Computing Devices)

  • 주혜현;강남희
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.1-8
    • /
    • 2024
  • 실시간 처리 및 프라이버시 강화를 위해 인공지능 모델을 엣지에서 동작시킬 수 있는 온디바이스 AI 기술이 각광받고 있다. 지능형 사물인터넷 기술이 다양한 산업에 적용되면서 온디바이스 AI 기술을 활용한 서비스가 크게 증가하고 있다. 그러나 일반적인 딥러닝 모델은 추론 및 학습을 위해 많은 연산 자원을 요구하고 있다. 따라서 엣지에 적용되는 경량 기기에서 딥러닝 모델을 동작시키기 위해 양자화나 가지치기와 같은 다양한 경량화 기법들이 적용되어야 한다. 본 논문에서는 다양한 경량화 기법 중 가지치기 기술을 중심으로 엣지 컴퓨팅 기기에서 딥러닝 모델을 경량화하여 적용할 수 있는 방안을 분석한다. 특히, 동적 및 정적 가지치기 기법을 적용하여 경량화된 비전 모델의 추론 속도, 정확도 그리고 메모리 사용량을 시험한다. 논문에서 분석된 내용은 실시간 특성이 중요한 지능형 영상 관제 시스템이나 자율 이동체의 영상 보안 시스템에 적용될 수 있다. 또한 사물인터넷 기술이 적용되는 다양한 서비스와 산업에 더욱 효과적으로 활용될 수 있을 것으로 기대된다.

로봇 비전의 영상 인식 AI를 위한 전이학습 정량 평가 (Quantitative evaluation of transfer learning for image recognition AI of robot vision)

  • 정재학
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.909-914
    • /
    • 2024
  • 본 연구에서는 로봇 비전용 영상 인식을 비롯한 다양한 AI 분야에서 널리 활용되는 전이학습에 대한 정량적 평가를 제시하였다. 전이학습을 적용한 연구 결과에 대한 정량적, 정성적 분석은 제시되나, 전이학습 자체에 대해서는 논의되지 않는다. 따라서 본 연구에서는 전이학습 자체에 대한 정량적 평가를 숫자 손글씨 데이터베이스인 MNIST를 기반으로 제안한다. 기준 네트워크를 대상으로 전이학습 동결층의 깊이 및 전이학습 데이터와 사전 학습 데이터의 비율에 따른 정확도 변화를 추적하였다. 이를 통해 첫번째 레이어까지 동결할 때 전이학습 데이터의 비율이 3% 이상일 경우, 90% 이상의 정확도를 안정적으로 유지할 수 있음이 확인되었다. 본 연구의 전이학습 정량 평가 방법은 향후 네트워크 구조와 데이터의 종류에 따라 최적화된 전이학습을 구현하는데 활용 가능하며, 다양한 환경에서 로봇 비전 및 이미지 분석 AI의 활용 범위를 확대할 것이다.

영상보안 구조 기반의 지능형 독거노인 모니터링 시스템 (Intelligent Monitoring System for Solitary Senior Citizens with Vision-Based Security Architecture)

  • 김수희;정영우;정유리;이승은
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.639-641
    • /
    • 2022
  • 사회적으로 고령화 문제가 심화되면서, 독거노인 모니터링 시스템에 관한 연구가 활발히 진행되고 있다. 일반적으로 모니터링 시스템은 영상, 센서, 계측값 등의 정보를 바탕으로 서버에서 연산을 수행하여, 사용자에게 모니터링 서비스를 제공한다. 서버를 이용하는 시스템의 구조상 데이터 유출의 위험이 존재하며, 데이터 보안을 고려한 설계가 필수적이다. 본 논문에서는 영상보안 구조 기반의 지능형 독거노인 모니터링 시스템을 제안한다. 제안하는 시스템은 Edge AI 모듈을 사용하여 카메라 모듈과 서버 간의 통신을 차단하는 구조를 통해 높은 보안성을 보장한다. Edge AI 모듈은 Verilog HDL로 설계되었으며, Field Programmable Gate Array (FPGA)를 통해 기능을 구현하였다. 본 시스템을 검증하기 위해 5,144개의 프레임 데이터에 대해 실험하였으며, 사람의 움직임이 일정 시간 감지되지 않았을 때 위험 감지 신호가 올바르게 발생하는 것을 확인하였다.

  • PDF

온디바이스 AI 비전 모델이 탑재된 지능형 엣지 컴퓨팅 기기 개발 (Development of an intelligent edge computing device equipped with on-device AI vision model)

  • 강남희
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.17-22
    • /
    • 2022
  • 본 논문에서는 지능형 엣지 컴퓨팅을 지원할 수 있는 경량 임베디드 기기를 설계하고, 영상 기기로부터 입력되는 이미지에서 객체를 실시간으로 빠르게 검출할 수 있음을 보인다. 제안하는 시스템은 산업 현장이나 군 지역과 같이 사전에 설치된 인프라가 없는 환경에 적용되는 지능형 영상 관제 시스템이나 드론과 같은 자율이동체에 탑재된 영상 보안 시스템에 적용될 수 있다. 지능형 비전 인지 시스템이 확산 적용되기 위해 온디바이스 AI(On-Device Artificial intelligence) 기술 적용 필요성이 증대되고 있다. 영상 데이터 취득 장치에서 가까운 엣지 기기로의 컴퓨팅 오프 로딩은 클라우드를 중심으로 수행되는 인공지능 서비스 대비 적은 네트워크 및 시스템 자원으로도 빠른 서비스 제공이 가능하다. 또한, 다양한 해킹 공격에 취약한 공격 표면의 감소와 민감한 데이터의 유출을 최소화 할 수 있어 다양한 산업에 안전하게 적용될 수 있을것으로 기대된다.

A Framework for Computer Vision-aided Construction Safety Monitoring Using Collaborative 4D BIM

  • Tran, Si Van-Tien;Bao, Quy Lan;Nguyen, Truong Linh;Park, Chansik
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.1202-1208
    • /
    • 2022
  • Techniques based on computer vision are becoming increasingly important in construction safety monitoring. Using AI algorithms can automatically identify conceivable hazards and give feedback to stakeholders. However, the construction site remains various potential hazard situations during the project. Due to the site complexity, many visual devices simultaneously participate in the monitoring process. Therefore, it challenges developing and operating corresponding AI detection algorithms. Safety information resulting from computer vision needs to organize before delivering it to safety managers. This study proposes a framework for computer vision-aided construction safety monitoring using collaborative 4D BIM information to address this issue, called CSM4D. The suggested framework consists of two-module: (1) collaborative BIM information extraction module (CBIE) extracts the spatial-temporal information and potential hazard scenario of a specific activity; through that, Computer Vision-aid Safety Monitoring Module (CVSM) can apply accurate algorithms at the right workplace during the project. The proposed framework is expected to aid safety monitoring using computer vision and 4D BIM.

  • PDF

K-Means Clustering으로 분류한 닭 깃털색 표현형의 분석 (Analysis of Chicken Feather Color Phenotypes Classified by K-Means Clustering using Reciprocal F2 Chicken Populations)

  • 박종호;허선영;김민준;조은진;차지혜;진대혁;고영준;이승환;이준헌
    • 한국가금학회지
    • /
    • 제49권3호
    • /
    • pp.157-165
    • /
    • 2022
  • RGB 조건에서 하나의 픽셀은 255의 세제곱 개 이상의 색상을 표현할 수 있다. 현재까지의 컴퓨터 비전 연구는 조류에서 나타나는 다양한 깃털색 표현형에 대해 세밀히 분석하여 종을 구분하였지만, GWAS에 이용될 목적을 위해 다양하게 유전되는 색상을 단순화하지 못하였다고 판단된다. 본 연구는 연산오계(YO)와 백색레그혼(WL) 상호역교배 F2 집단을 이용하였으며 이미지 양자화를 통하여 이미지의 크기를 줄이고 저장을 용이하게 하였으며 깃털색의 원인 유전자 탐색을 위한 기초 자료를 제공하기 위하여 육안으로 결정하였던 다양한 깃털색을 단순화하였다. 특히, GWAS 연구에 필요한 수치화된 표현형을 제시하였다는 측면에서 가치가 있다고 판단된다.