• Title/Summary/Keyword: 바운딩 박스

Search Result 41, Processing Time 0.028 seconds

Research on railroad track object detection and classification based on mask R-CNN (mask R-CNN 기반의 철도선로 객체검출 및 분류에 관한 연구)

  • Seung-Shin Lee;Jong-Won Choi;Ryum-Duck Oh
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.81-83
    • /
    • 2024
  • 본 논문에서는 mask R-CNN의 이미지 세그먼테이션(Image Segmentation) 기법을 이용하여 철도의 선로를 식별하고 분류하는 방법을 제안한다. mask R-CNN의 이미지 세그먼테이션은 바운딩 박스(Bounding Box)를 통해 이미지에서 객체를 식별하는 R-CNN 알고리즘과는 달리 픽셀 단위로 관심 있는 객체를 검출하고 분류하는 기법으로서 오브젝트 디텍션(Object Detection)보다 더욱 정교한 객체 식별이 가능하다. 본 연구에서는 Pascal VOC 형태의 고속철도 데이터 24,205셋의 데이터를 전처리하고 MS COCO 데이터셋으로 변환하여, MMDetection의 mask R-CNN을 통해 픽셀 단위로 철도선로를 식별하고 정상/불량 상태를 분류하는 연구를 수행하였다. 선행연구에서는 YOLO를 활용하여 Polygon형태의 좌표를 바운딩 박스로 분류하였는데, 본 연구에서는 mask R-CNN을 활용함으로써 철도 선로를 더욱 정교하게 식별하였으며 정상/불량의 상태 분류는 YOLO와 유사한 성능을 보였다.

  • PDF

Dance Posture Correction Method using DETR-based Object Detection (DETR 기반 객체탐지를 사용한 댄스 자세교정 방법)

  • Woo, Sangchul;Ji, Sumi;Sung, Yunsick
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.41-42
    • /
    • 2020
  • 전 세계적으로 코로나 바이러스가 확산되면서 언택트 시대가 되었다. 언택트 시대에서는 대부분의 대면활동이 비대면으로 전환되고 있다. 전 세계적으로 열광중인 케이팝 댄스의 대중화를 위해 우리는 비대면으로 댄스 학습이 가능한 DETR 기반 객체탐지를 사용한 댄스 자세교정 연구를 제안한다. 본 논문에서 제안한 댄스 자세교정은 객체탐지에 DETR을 적용한 방식이다. DETR은 기존 객체탐지 모델에서 앵커박스, 바운딩박스 중복처리를 제거하는 NMS같은 휴리스틱한 방법을 사용하지 않고 트랜스포머를 통해 자동으로 학습하도록 만든 모델이다. DETR로 객체탐지를 한 후 강사와 사용자의 동작유사성을 샴 뉴럴 네트워크를 통해 계산한다.

Volume Image Processing for Surface Based MRI-PET Registration (표면 정보 기반 MRI-PET 영상 정합을 위한 볼륨 영상 처리)

  • Jung, Myung-Jin;Choi, Yoo-Joo;Kim, Min-Jeong;Kim, Myoung-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.475-478
    • /
    • 2002
  • 영상 정합이란 영상들을 배열하여 대응되는 특성을 연관시키는 과정으로, 서로 다른 정보를 결합하여 상호 보완적이고 복합적인 새로운 정보를 생성한다는 점에서 유용하다. 본 논문에서는 MRI와 PET 뇌 영상을 표면 정보에 기반하여 정합하기 위한 영상 처리 방법에 대하여 연구하였다. 특히 정합을 위한 특징점 집합을 샘플링하는데 있어서 표면 곡률 정보를 사용한 샘플링 기법을 적용하고, 실 관심 객체의 볼륨 크기에 기반한 바운딩 박스를 생성하여 기하 변환을 수행함으로써 표면정보기반 다중모달리티 영상 정합을 위한 보다 효과적인 영상 처리 결과를 얻도록 하였다.

  • PDF

Performance Change accroding to Data Set Size Change in Semi-Supervised Learning based Object Detection (준지도 학습 기반 객체 탐지 모델에서 데이터셋 변화에 따른 성능 변화)

  • Seungsoo Yu;Wonjun Hwang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.88-90
    • /
    • 2022
  • Semi Supervised Learning 은 일부의 data 에는 labeling 을 하고 나머지 data 에는 labeling 을 안한채로 학습을 진행하는 방법이다. Object Detection 은 이미지에서 여러개의 객체들의 대한 위치를 여러개의 바운딩 박스로 지정해서 찾는 Computer Vision task 이다. 당연하게도, model training 단계에서 사용되는 data set 의 크기가 크고 객체가 많을 수록 일반적으로 model 의 성능이 좋아 질 것이다. 하지만 실험 환경에 따라 data set 을 잘 확보하지 못하던가, 실험 장치가 데이터 셋을 감당하지 못하는 등의 문제가 발생 할 수 있다. 그렇기에 본 논문에서는 semi supervised learning based object detection model 을 알아보고 data set 의 크기를 조절해가며 modle 을 training 시킨 뒤 data set 의 크기에 따라 성능이 어떻게 변화하는 지를 알아 볼 것이다.

  • PDF

Augmented Reality-Based First Person View RC Car Racing Game (증강현실 기반의 FPV(First Person View) RC 카 레이싱 게임)

  • Park, Seong-Eun;Kim, Jin-Hyun;Kim, Hak-Kyum
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.800-802
    • /
    • 2022
  • 최근 성인들을 위한 '키덜트 장난감'의 관심도가 증가하고 있다. 그중 높은 매출을 보이는 RC 카와 VR 의 콘텐츠 부족 및 대중화 문제를 해결하면 시장규모를 성장시킬 수 있다고 판단한다. 본 논문은 차별화된 RC 카 레이싱 게임 개발을 목표로 한다. 스마트폰용 VR 기기를 착용해 영상을 보며 컨트롤러로 RC 카를 조종한다. 또한 실시간 객체 검출이 가능한 YOLOv5 를 활용해 표지판 인식 및 바운딩 박스, 표지판 라벨, 라벨 음성 출력 기능과 오픈 소스 기반 실시간 컴퓨터 비전인 OpenCV 기반 알고리즘을 활용하여 차선을 인식해 이를 기반으로 영상 처리를 거쳐 가상 차선 및 가상 트랙을 출력한다. 결론적으로 RC 카와 VR 로 구현하여 이를 통해 부족한 VR 컨텐츠를 추가하고 접근성을 강화한다.

Study of Target Pose Estimation System: Distance Measurement Based Deep Learning Using Single Camera (딥러닝 단일카메라 거리 측정 기술 활용 구조대상자 위치추정시스템 연구)

  • Do-Yun Kim;Jong-In Choi ;Seo-Won Park ;Kwang-Young Park
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.560-561
    • /
    • 2023
  • 지진, 대형화재와 같은 많은 재해의 발생으로 인해 재난 안전 분야에 관심이 증가하고 있으며, 재난재해 시 신속하고 안전한 구조는 생존율에 영향을 준다. 기존 연구에서는 다양한 센서와 멀티카메라를 이용한 위치 추정 연구는 있으나, 가장 많이 설치된 단일카메라 기반의 위치 추정연구는 부족한 상태이다. 본 논문에서 단일카메라를 활용한 딥러닝 객체탐지와 거리측정 알고리즘을 이용하여 인명구조를 위한 구조대상자 위치추정시스템을 제안한다. 딥러닝을 활용한 객체탐지 기술을 이용하여 단일카메라 영상 내 객체와 해상도에 따른 바운딩 박스의 너비를 활용한 거리 계산식으로 거리를 추정하고, 객체의 위치좌표를 제공하여 신속한 재난 구조에 도움이 되는 시스템을 제안한다.

A Study on the Assault Detection using CCTV in Lockup (유치장 내 CCTV 를 활용한 폭행 탐지에 관한 연구)

  • Minseok Kim;Ahyun Kim;Yeji Kim;Jiyoon Jeong;Junho Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.601-602
    • /
    • 2023
  • 유치장은 피의자나 경범죄를 지은 사람 등을 잠시 수감하는 곳으로, 질서가 유지되어야 하는 공간이지만 수감자 간의 폭행과 같은 사건이 발생하는 문제가 있다. 따라서 유치장 내 폭행 사건의 신속한 대응은 질서를 유지하기 위한 핵심 과제 중 하나이다. 이 문제를 해결하기 위해 본 연구에서는 수감자들의 객체를 통합 바운딩박스의 변화율을 통해 격렬한 움직임을 포착하고 스켈레톤 키-포인트의 속도를 측정해 폭행인지 판단한다. 연구 결과, 제안하는 알고리즘의 정확도는 91%로 실시간 폭행 탐지에 유의미하다는 것을 확인할 수 있다.

The digital transformation of mask dance movement in intangible cultural asset based on human pose recognition (휴먼포즈 인식을 적용한 무형문화재 탈춤 동작 디지털전환)

  • SooHyuong Kang;SungGeon Park;KwangYoung Park
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.678-680
    • /
    • 2023
  • 본 연구는 2022년 유네스코 인류무형유산 대표목록에 등재된 탈춤 동작을 디지털화하여 후속 세대에게 정보를 제공하는 것을 목적으로 한다. 데이터 수집은 국가무형문화제로 지정된 탈춤 단체 13개, 시도무형문화재 단체 5개에 소속된 무형문화재, 전승자 39명이 관성식 모션 캡처 장비를 착용하고, 8대의 카메라를 이용하여 수집하였다. 데이터 가공은 바운딩박스를 수행하였고, 탈춤동작 추정은 YOLO v8을 사용하였고 탈춤 동작 분류는 YOLO v8에 CNN모델을 결합하여 130개의 탈춤을 분류하였다. 연구결과, mAP-50은 0.953, mAP50-95는 0.596, Accuracy 70%를 달성하였다. 향후 학습용 데이터셋 구축량이 늘어나고, 데이터 품질이 개선된다면 탈춤 분류 성능은 더욱 개선될 것이라 기대한다.

Tracking and Interpretation of Moving Object in MPEG-2 Compressed Domain (MPEG-2 압축 영역에서 움직이는 객체의 추적 및 해석)

  • Mun, Su-Jeong;Ryu, Woon-Young;Kim, Joon-Cheol;Lee, Joon-Hoan
    • The KIPS Transactions:PartB
    • /
    • v.11B no.1
    • /
    • pp.27-34
    • /
    • 2004
  • This paper proposes a method to trace and interpret a moving object based on the information which can be directly obtained from MPEG-2 compressed video stream without decoding process. In the proposed method, the motion flow is constructed from the motion vectors included in compressed video. We calculate the amount of pan, tilt, and zoom associated with camera operations using generalized Hough transform. The local object motion can be extracted from the motion flow after the compensation with the parameters related to the global camera motion. Initially, a moving object to be traced is designated by user via bounding box. After then automatic tracking Is performed based on the accumulated motion flows according to the area contributions. Also, in order to reduce the cumulative tracking error, the object area is reshaped in the first I-frame of a GOP by matching the DCT coefficients. The proposed method can improve the computation speed because the information can be directly obtained from the MPEG-2 compressed video, but the object boundary is limited by macro-blocks rather than pixels. Also, the proposed method is proper for approximate object tracking rather than accurate tracing of an object because of limited information available in the compressed video data.

Analysis System for Public Interest Report Video of Traffic Law Violation based on Deep Learning Algorithms (딥러닝 알고리즘 기반 교통법규 위반 공익신고 영상 분석 시스템)

  • Min-Seong Choi;Mi-Kyeong Moon
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.18 no.1
    • /
    • pp.63-70
    • /
    • 2023
  • Due to the spread of high-definition black boxes and the introduction of mobile applications such as 'Smart Citizens Report' and 'Safety Report', the number of public interest reports for violations of Traffic Law has increased rapidly, resulting in shortage of police personnel to handle them. In this paper, we describe the development of a system that can automatically detect lane violations which account for the largest proportion of public interest reporting videos for violations of traffic laws, using deep learning algorithms. In this study, a method for recognizing a vehicle and a solid line object using a YOLO model and a Lanenet model, a method for tracking an object individually using a deep sort algorithm, and a method for detecting lane change violations by recognizing the overlapping range of a vehicle object's bounding box and a solid line object are described. Using this system, it is expected that the shortage of police personnel in charge will be resolved.