• 제목/요약/키워드: vision-based recognition

검색결과 633건 처리시간 0.029초

STAR-24K: A Public Dataset for Space Common Target Detection

  • Zhang, Chaoyan;Guo, Baolong;Liao, Nannan;Zhong, Qiuyun;Liu, Hengyan;Li, Cheng;Gong, Jianglei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권2호
    • /
    • pp.365-380
    • /
    • 2022
  • The target detection algorithm based on supervised learning is the current mainstream algorithm for target detection. A high-quality dataset is the prerequisite for the target detection algorithm to obtain good detection performance. The larger the number and quality of the dataset, the stronger the generalization ability of the model, that is, the dataset determines the upper limit of the model learning. The convolutional neural network optimizes the network parameters in a strong supervision method. The error is calculated by comparing the predicted frame with the manually labeled real frame, and then the error is passed into the network for continuous optimization. Strongly supervised learning mainly relies on a large number of images as models for continuous learning, so the number and quality of images directly affect the results of learning. This paper proposes a dataset STAR-24K (meaning a dataset for Space TArget Recognition with more than 24,000 images) for detecting common targets in space. Since there is currently no publicly available dataset for space target detection, we extracted some pictures from a series of channels such as pictures and videos released by the official websites of NASA (National Aeronautics and Space Administration) and ESA (The European Space Agency) and expanded them to 24,451 pictures. We evaluate popular object detection algorithms to build a benchmark. Our STAR-24K dataset is publicly available at https://github.com/Zzz-zcy/STAR-24K.

2D 영상센서 기반 6축 로봇 팔 원격제어 (A Remote Control of 6 d.o.f. Robot Arm Based on 2D Vision Sensor)

  • 현웅근
    • 한국전자통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.933-940
    • /
    • 2022
  • 2차원 영상 센서를 이용하여 조종자의 3차원 손 위치를 인식하고 이를 기반으로 원격으로 6축 로봇팔을 제어하는 시스템을 개발하였다. 시스템은 물체의 영상정보를 인식하는 2차원 영상 센서 모듈, 영상정보를 로봇팔 제어 명령어로 전환하는 알고리즘, 자체 제작한 6축 로봇팔 및 제어 시스템으로 구성된다. 영상 센서는 조종자가 착용한 장갑의 모양과 색을 인지하여 크기 및 위치정보를 출력하게 되며, 본 연구에서는 이러한 위치 및 물체를 둘러싼 크기 정보를 이용하여 로봇 선단의 속도를 제어한다. 연구 방법의 검증은 자체 제작된 6축 로봇으로 실행하였으며, 조종자의 손동작 조종에 의한 실험을 통해 제안한 영상정보 제어 및 로봇 선단 제어 방법이 성공적으로 동작함을 확인하였다.

적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 (Predicting Unseen Object Pose with an Adaptive Depth Estimator)

  • 송성호;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권12호
    • /
    • pp.509-516
    • /
    • 2022
  • 3차원 공간에서 물체들의 정확한 자세 예측은 실내외 환경에서 장면 이해, 로봇의 물체 조작, 자율 주행, 증강 현실 등과 같은 많은 응용 분야들에서 폭넓게 활용되는 중요한 시각 인식 기술이다. 물체들의 자세 예측을 위한 과거 연구들은 대부분 각 인식 대상 물체마다 정확한 3차원 CAD 모델을 요구한다는 한계점이 있었다. 이러한 과거 연구들과는 달리, 본 논문에서는 3차원 CAD 모델이 없어도 RGB 컬러 영상들만 이용해서 미지 물체들의 자세를 예측해낼 수 있는 새로운 신경망 모델을 제안한다. 제안 모델은 적응형 깊이 추정기인 AdaBins를 이용하여 스스로 미지 물체 자세 예측에 필요한 각 물체의 깊이 지도를 효과적으로 추정해낼 수 있다. 벤치마크 데이터 집합들을 이용한 다양한 실험들을 통해, 본 논문에서 제안한 모델의 유용성과 성능을 평가한다.

자율 주행을 위한 LED 색도 기반 실내 위치 인식 시스템 (LED Chromaticity-Based Indoor Position Recognition System for Autonomous Driving)

  • 조소현;우주;변기식;정재훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.603-605
    • /
    • 2021
  • 자동차의 전장화와 실내 서비스 제공 로봇 등의 산업화로 자율주행에 대한 연구가 활발히 진행되고 있다. 일반적으로 주변이 넓은 외부의 경우 주로 GPS나 라이다, 비전을 통해 위치를 인식하고, 실내에서는 WiFi, UWB(Ultra-Wide Band), VLP등의 기술로 위치 측위를 수행한다. 본 논문에서는 실내 환경에서 서로 다른 색온도를 가진 LED 조명을 이용한 자기 위치 측위에 대한 시스템을 소개한다. 터널과 같은 모의 실험 환경에서 LED 조명을 설치 한 후, 위치에 따른 색도값의 분석을 통해 현재 위치에 대한 정보를 얻을 수 있음을 보였다. 이를 통해 차량의 터널 내 위치, 창고나 공장과 같은 실내에서 기기의 움직임에 대한 정보를 얻을 수 있을 것으로 기대한다.

  • PDF

서비스 자동화 시스템을 위한 물체 자세 인식 및 동작 계획 (Object Pose Estimation and Motion Planning for Service Automation System)

  • 권영우;이동영;강호선;최지욱;이인호
    • 로봇학회논문지
    • /
    • 제19권2호
    • /
    • pp.176-187
    • /
    • 2024
  • Recently, automated solutions using collaborative robots have been emerging in various industries. Their primary functions include Pick & Place, Peg in the Hole, fastening and assembly, welding, and more, which are being utilized and researched in various fields. The application of these robots varies depending on the characteristics of the grippers attached to the end of the collaborative robots. To grasp a variety of objects, a gripper with a high degree of freedom is required. In this paper, we propose a service automation system using a multi-degree-of-freedom gripper, collaborative robots, and vision sensors. Assuming various products are placed at a checkout counter, we use three cameras to recognize the objects, estimate their pose, and create grasping points for grasping. The grasping points are grasped by the multi-degree-of-freedom gripper, and experiments are conducted to recognize barcodes, a key task in service automation. To recognize objects, we used a CNN (Convolutional Neural Network) based algorithm and point cloud to estimate the object's 6D pose. Using the recognized object's 6d pose information, we create grasping points for the multi-degree-of-freedom gripper and perform re-grasping in a direction that facilitates barcode scanning. The experiment was conducted with four selected objects, progressing through identification, 6D pose estimation, and grasping, recording the success and failure of barcode recognition to prove the effectiveness of the proposed system.

Deep-learning performance in identifying and classifying dental implant systems from dental imaging: a systematic review and meta-analysis

  • Akhilanand Chaurasia;Arunkumar Namachivayam;Revan Birke Koca-Unsal;Jae-Hong Lee
    • Journal of Periodontal and Implant Science
    • /
    • 제54권1호
    • /
    • pp.3-12
    • /
    • 2024
  • Deep learning (DL) offers promising performance in computer vision tasks and is highly suitable for dental image recognition and analysis. We evaluated the accuracy of DL algorithms in identifying and classifying dental implant systems (DISs) using dental imaging. In this systematic review and meta-analysis, we explored the MEDLINE/PubMed, Scopus, Embase, and Google Scholar databases and identified studies published between January 2011 and March 2022. Studies conducted on DL approaches for DIS identification or classification were included, and the accuracy of the DL models was evaluated using panoramic and periapical radiographic images. The quality of the selected studies was assessed using QUADAS-2. This review was registered with PROSPERO (CRDCRD42022309624). From 1,293 identified records, 9 studies were included in this systematic review and meta-analysis. The DL-based implant classification accuracy was no less than 70.75% (95% confidence interval [CI], 65.6%-75.9%) and no higher than 98.19 (95% CI, 97.8%-98.5%). The weighted accuracy was calculated, and the pooled sample size was 46,645, with an overall accuracy of 92.16% (95% CI, 90.8%-93.5%). The risk of bias and applicability concerns were judged as high for most studies, mainly regarding data selection and reference standards. DL models showed high accuracy in identifying and classifying DISs using panoramic and periapical radiographic images. Therefore, DL models are promising prospects for use as decision aids and decision-making tools; however, there are limitations with respect to their application in actual clinical practice.

금융 특화 딥러닝 광학문자인식 기반 문서 처리 플랫폼 구축 및 금융권 내 활용 (Deep Learning OCR based document processing platform and its application in financial domain)

  • 김동영;김두형;곽명성;손현수;손동원;임민기;신예지;이현정;박찬동;김미향;최동원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.143-174
    • /
    • 2023
  • 인공지능의 발전과 함께 딥러닝을 활용한 인공지능 광학문자인식 기법 (Artificial Intelligence powered Optical Character Recognition, AI-OCR) 의 등장은 기존의 이미지 처리 기반 OCR 기술의 한계를 넘어 다양한 형태의 이미지로부터 여러 언어를 높은 정확도로 읽어낼 수 있는 모델로 발전하였다. 특히, AI-OCR은 인력을 통해 대량의 다양한 서류 처리 업무를 수행하는 금융업에 있어 그 활용 잠재력이 크다. 본 연구에서는 금융권내 활용을 위한 AI-OCR 모델의 구성과 설계를 제시하고, 이를 효율적으로 적용하기 위한 플랫폼 구축 및 활용 사례에 대해 논한다. 금융권 특화 딥러닝 모델을 만듦에 있어 금융 도메인 데이터 사용은 필수적이나, 개인정보보호법 이하 실 데이터의 사용이 불가하다. 이에 본 연구에서는 딥러닝 기반 데이터 생성 모델을 개발하였고, 이를 활용하여 AI-OCR 모델 학습을 진행하였다. 다양한 서류 처리에 있어 유연한 데이터 처리를 위해 단계적 구성의 AI-OCR 모델들을 제안하며, 이는 이미지 전처리 모델, 문자 탐지 모델, 문자 인식 모델, 문자 정렬 모델 및 언어 처리 모델의 선택적, 단계적 사용을 포함한다. AI-OCR 모델의 배포를 위해 온프레미스(On-Premise) 및 프라이빗 클라우드(Private Cloud) 내 GPU 컴퓨팅 클러스터를 구성하고, Hybrid GPU Cluster 내 컨테이너 오케스트레이션을 통한 고효율, 고가용 AI-OCR 플랫폼 구축하여 다양한 업무 및 채널에 적용하였다. 본 연구를 통해 금융 특화 AI-OCR 모델 및 플랫폼을 구축하여 금융권 서류 처리 업무인 문서 분류, 문서 검증 및 입력 보조 시스템으로의 활용을 통해 업무 효율 및 편의성 증대를 확인하였다.

3차원 손 모델링 기반의 실시간 손 포즈 추적 및 손가락 동작 인식 (Real-Time Hand Pose Tracking and Finger Action Recognition Based on 3D Hand Modeling)

  • 석흥일;이지홍;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권12호
    • /
    • pp.780-788
    • /
    • 2008
  • 손 포즈 모델링 및 추적은 컴퓨터 시각 분야에서 어려운 문제로 알려져 있다. 손 포즈 3차원 복원을 위한 방법에는 사용되는 카메라의 수에 따라 다중 카메라 또는 스테레오 카메라 기반 방식과 단일카메라 기반 방식이 있다. 다중 카메라의 경우 여러 대의 카메라를 설치하거나 동기화를 시키는 등에 대한 제약사항이 따른다. 본 논문에서는 확률 그래프 모델에서 신뢰 전파 (Belief Propagation) 알고리즘을 이용하여 단안 카메라에서 획득된 2차원 입력 영상으로부터 3차원 손 포즈를 추정하는 방법을 제안한다. 또한, 은닉 마르코프 모델(Hidden Markov Model)을 인식기로 하여 손가락 클릭 동작을 인식한다. 은닉 노드로 손가락의 관절 정보를 표현하고, 2차원 입력 영상에서 추출된 특징을 관측 노드로 표현한 확률 그래프 모델을 정의한다. 3차원 손 포즈 추적을 위해 그래프 모델에서의 신뢰 전파 알고리즘을 이용한다. 신뢰 전파 알고리즘을 통해 3차원 손 포즈를 추정 및 복원하고, 복원된 포즈로부터 손가락의 움직임에 대한 특징을 추출한다. 추출된 정보는 은닉 마르코프 모델의 입력값이 된다. 손가락의 자연스러운 동작을 위해 본 논문에서는 한 손가락의 클릭 동작 인식에 여러 손가락의 움직임을 함께 고려한다. 제안한 방법을 가상 키패드 시스템에 적응한 결과 300개의 동영상 테스트 데이타에 대해 94.66%의 높은 인식률을 보였다.

CUDA와 OPenMP를 이용한 빠르고 효율적인 신경망 구현 (Fast and Efficient Implementation of Neural Networks using CUDA and OpenMP)

  • 박안진;장홍훈;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.253-260
    • /
    • 2009
  • 컴퓨터 비전이나 패턴 인식 분야에서 이용되고 있는 많은 알고리즘들이 최근 빠른 수행시간을 위해 GPU에서 구현되고 있지만, GPU를 이용하여 알고리즘을 구현할 경우 크게 두 가지 문제점을 고려해야 한다. 첫째, 컴퓨터 그래픽스 분야의 지식이 필요한 쉐이딩(shading) 언어를 알아야 한다. 둘째, GPU를 효율적으로 활용하기 위해 CPU와 GPU간의 데이터 교환을 최소화해야 한다. 이를 위해 CPU는 GPU에서 처리할 수 있는 최대 용량의 데이터를 생성하여 GPU에 전송해야 하기 때문에 CPU에서 많은 처리시간을 소모하며, 이로 인해 CPU와 GPU 사이에 많은 오버헤드가 발생한다. 본 논문에서는 그래픽 하드웨어와 멀티코어(multi-core) CPU를 이용한 빠르고 효율적인 신경망 구현 방법을 제안한다. 기존 GPU의 첫 번째 문제점을 해결하기 위해 제안된 방법은 복잡한 쉐이팅 언어 대신 그래픽스적인 기본지식 없이도 GPU를 이용하여 응용프로그램 개발이 가능한 CUDA를 이용하였다. 두 번째 문제점을 해결하기 위해 멀티코어 CPU에서 공유 메모리 환경의 병렬화를 수행할 수 있는 OpenMP를 이용하였으며, 이의 처리시간을 줄여 CPU와 GPU 환경에서 오버 헤드를 최소화할 수 있다. 실험에서 제안된 CUDA와 OpenMP기반의 구현 방법을 신경망을 이용한 문자영역 검출 알고리즘에 적용하였으며, CPU에서의 수행시간과 비교하여 약 15배, GPU만을 이용한 수행시간과 비교하여 약 4배정도 빠른 수행시간을 보였다.

Development of On-line Quality Sorting System for Dried Oak Mushroom - 3rd Prototype-

  • 김철수;김기동;조기현;이정택;김진현
    • Agricultural and Biosystems Engineering
    • /
    • 제4권1호
    • /
    • pp.8-15
    • /
    • 2003
  • In Korea, quality evaluation of dried oak mushrooms are done first by classifying them into more than 10 different categories based on the state of opening of the cap, surface pattern, and colors. And mushrooms of each category are further classified into 3 or 4 groups based on its shape and size, resulting into total 30 to 40 different grades. Quality evaluation and sorting based on the external visual features are usually done manually. Since visual features of mushroom affecting quality grades are distributed over the entire surface of the mushroom, both front (cap) and back (stem and gill) surfaces should be inspected thoroughly. In fact, it is almost impossible for human to inspect every mushroom, especially when they are fed continuously via conveyor. In this paper, considering real time on-line system implementation, image processing algorithms utilizing artificial neural network have been developed for the quality grading of a mushroom. The neural network based image processing utilized the raw gray value image of fed mushrooms captured by the camera without any complex image processing such as feature enhancement and extraction to identify the feeding state and to grade the quality of a mushroom. Developed algorithms were implemented to the prototype on-line grading and sorting system. The prototype was developed to simplify the system requirement and the overall mechanism. The system was composed of automatic devices for mushroom feeding and handling, a set of computer vision system with lighting chamber, one chip microprocessor based controller, and pneumatic actuators. The proposed grading scheme was tested using the prototype. Network training for the feeding state recognition and grading was done using static images. 200 samples (20 grade levels and 10 per each grade) were used for training. 300 samples (20 grade levels and 15 per each grade) were used to validate the trained network. By changing orientation of each sample, 600 data sets were made for the test and the trained network showed around 91 % of the grading accuracy. Though image processing itself required approximately less than 0.3 second depending on a mushroom, because of the actuating device and control response, average 0.6 to 0.7 second was required for grading and sorting of a mushroom resulting into the processing capability of 5,000/hr to 6,000/hr.

  • PDF