Search | Korea Science

A Survey on Vision Transformers for Object Detection Task (객체 탐지 과업에서의 트랜스포머 기반 모델의 특장점 분석 연구)

Jungmin, Ha;Hyunjong, Lee;Jungmin, Eom;Jaekoo, Lee
- IEMEK Journal of Embedded Systems and Applications
- /
- v.17 no.6
- /
- pp.319-327
- /
- 2022
Transformers are the most famous deep learning models that has achieved great success in natural language processing and also showed good performance on computer vision. In this survey, we categorized transformer-based models for computer vision, particularly object detection tasks and perform comprehensive comparative experiments to understand the characteristics of each model. Next, we evaluated the models subdivided into standard transformer, with key point attention, and adding attention with coordinates by performance comparison in terms of object detection accuracy and real-time performance. For performance comparison, we used two metrics: frame per second (FPS) and mean average precision (mAP). Finally, we confirmed the trends and relationships related to the detection and real-time performance of objects in several transformer models using various experiments.
https://doi.org/10.14372/IEMEK.2022.17.6.319 인용 PDF KSCI

Development of Camera Module for Vehicle Safety Support (차량 안전 지원용 카메라 모듈 개발)

Shin, Seong-Yoon;Cho, Seung-Pyo;Shin, Kwang-Seong;Lee, Hyun-Chang
- Proceedings of the Korean Institute of Information and Commucation Sciences Conference
- /
- 2022.05a
- /
- pp.672-673
- /
- 2022
In this paper, we discuss a camera that is fixed in the same view as the TOF sensor and can be installed horizontally in the vehicle's moving direction. This camera applies 1280×720 resolution to improve object recognition accuracy, outputs images at 30fps, and can apply a wide-angle fisheye lens of 180° or more.
PDF

A Study on Optimizing of Lane Departure Warning Application on the iPhone (아이폰 기반의 차선이탈경보 어플리케이션 최적화에 관한 연구)

Yun, Ho-Young;Yi, Hoo-Rim;Ro, Kwang-Hyun
- Proceedings of the Korea Information Processing Society Conference
- /
- 2011.04a
- /
- pp.97-99
- /
- 2011
본 논문에서는 안전주행지원 솔루션인 스마트폰용 차선이탈경보 애플리케이션의 실행 속도 향상 방법을 연구하였다. 이전 연구에서 스마트폰(iPhone 3GS) 기반의 차선이탈경보 어플리케이션을 개발하였는데 입력 영상의 처리 속도가 1.52fps였다. 본 연구에서는 영상 처리 속도를 향상시키기 위한 최적화 작업을 진행하였으며 기존의 차선이탈경보 어플리케이션의 차선인식 속도보다 프레임당 평균 0.4초 정도 단축되어 약 4fps 속도로 성능을 보였다. 향후 추가 연구를 통해 처리 속도를 좀 더 향상시킬 것이다.
https://doi.org/10.3745/PKIPS.y2011m04a.97 인용 PDF

Design and Implementation of Free-view Player using OpenGL and Nvidia Video Codec (OpenGL과 Nvidia 영상코덱을 사용한 실시간 자유시점 재생기 설계 및 구현)

Gu, Dongjun;Ahn, Heejune
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2020.11a
- /
- pp.263-266
- /
- 2020
사용자에게 본인이 원하는 시점과 시각을 선택할 수 있도록 하는 자유시점 (Free Viewpoint) MPEG-I 과제를 통하여 3DOF, 3DOF+, 6DOF의 표준을 개발 중이다. 실사 영상의 자유시점 영상을 구현하는 방법으로는 깊이정보를 사용한 렌더링 기법을 사용하는데, 이를 실시간 재생할 수 있는 시스템은 개발되지 않았다. 본 논문에서는 PC 사양에서 NVIDIA 영상 코덱과 OpenGL사용하는 rtRVSlibrary를 바탕으로, 최대 8개의 HD급 다중 뷰 영상 입력 (컬러+깊이)을 자유 시점을 실시간 생성하여 디스플레이하는 재생기를 설계 및 개발하였다. 사용자는 원하는 시점으로 상하좌우앞뒤(회전)로 자유롭게 이동할 수 있으며, 계산양과 화질 효율성을 고려하여 디코딩한 입력영상 중에 두 개의 시점을 선별하는 알고리즘을 개발하여 실시간 동작 (25fps)을 검증하였다.
PDF

A Case Study on the Development of Game Play for Casual Sports Games : Focusing on "FreeStyle2," (캐쥬얼 스포츠게임 게임플레이 개발 사례 연구 : '프리스타일2'를 중심으로)

Kim, Jung-Sun
- Proceedings of the Korean Society of Computer Information Conference
- /
- 2021.07a
- /
- pp.617-620
- /
- 2021
우리나라는 온라인 게임 개발의 글로벌 리더로서 MMORPG 장르와 캐주얼 아케이드 장르를 중심으로 다양한 게임을 만들어왔다. 하지만 MMORPG와 캐주얼 아케이드 게임의 과도한 경쟁은 장르의 편중 현상을 가져오게 되었고, 신선하고 새로운 재미를 기대하는 플레이어들의 요구와 결합하여 FPS(First Person Shooting) 장르나 스포츠 게임 장르 등의 새로운 장르 게임에 대한 연구와 개발로 이어졌다. 이러한 시대적 흐름 속에 대한민국 스포츠게임 개발 선구자인 조이시티는 길거리 농구 게임인 '프리스타일'을 개발하여 엄청난 화제를 불러일으켰고, 많은 개발사 및 개발자들에게 큰 영감을 선사하였다. 프리스타일의 후속작인 프리스타일2는 길거리 농구 게임의 재미를 더욱 현실감 있게 제공하고자 개발된 캐주얼 스포츠 장르 게임으로, 본 논문에서는 프리스타일2의 게임플레이 개발 사례를 통해 캐주얼 스포츠 장르의 개발 방법에 대한 한 예를 제시하고자 한다.
PDF

Real-Time Detection of Large Objects using Image Pyramid (이미지 피라미드를 이용한 큰 객체 실시간 탐지)

Joo, Gwonil;Son, Seungwook;Ahn, Hanse;Chung, Yongwha;Park, Daihee
- Proceedings of the Korea Information Processing Society Conference
- /
- 2020.11a
- /
- pp.709-712
- /
- 2020
영상 처리 응용을 위해 개발된 대부분의 CNN 기반 객체 탐지 기법은 mAP 를 올리기 위해 작은 객체 탐지에 더 주력하는 경향이 있다. 본 연구에서는 이미지 피라미드를 통한 서로 다른 해상도의 탐지 결과를 앙상블을 하여 작은 객체의 탐지 성능은 유지하면서 큰 객체의 탐지 성능을 향상시키고자 한다. 또한, 기존 NMS 방식의 문제점을 파악하고 새로운 NMS 방식인 G-NMS 를 제안한다. COCO 데이터로 실험 결과 서로 다른 해상도의 탐지 결과 앙상블을 통하여 30fps 이상의 실시간 탐지를 만족하면서 큰 객체에 대한 AP 가 0.5~1.5% 상승되었음을 확인하였다. 제안한 G-NMS 방식 적용시 큰 객체에 대한 AR 이 2.6~3.8% 상승되었으며, 작은 객체를 포함한 전체 mAP 가 0.7~0.9% 상승되었음을 확인하였다.
https://doi.org/10.3745/PKIPS.y2020m11a.709 인용 PDF

Deep Learning-based Gaze Direction Vector Estimation Network Integrated with Eye Landmark Localization (딥러닝 기반의 눈 랜드마크 위치 검출이 통합된 시선 방향 벡터 추정 네트워크)

Joo, Hee Young;Ko, Min Soo;Song, Hyok
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2021.06a
- /
- pp.180-182
- /
- 2021
본 논문은 눈 랜드마크 위치 검출과 시선 방향 벡터 추정이 하나의 딥러닝 네트워크로 통합된 시선 추정 네트워크를 제안한다. 제안하는 네트워크는 Stacked Hourglass Network[1]를 백본(Backbone) 구조로 이용하며, 크게 랜드마크 검출기, 특징 맵 추출기, 시선 방향 추정기라는 세 개의 부분으로 구성되어 있다. 랜드마크 검출기에서는 눈 랜드마크 50개 포인트의 좌표를 추정하며, 특징 맵 추출기에서는 시선 방향 추정을 위한 눈 이미지의 특징 맵을 생성한다. 그리고 시선 방향 추정기에서는 각 출력 결과를 조합하고 이를 통해 최종 시선 방향 벡터를 추정한다. 제안하는 네트워크는 UnityEyes[2] 데이터셋을 통해 생성된 가상의 합성 눈 이미지와 랜드마크 좌표 데이터를 이용하여 학습하였으며, 성능 평가는 실제 사람의 눈 이미지로 구성된 MPIIGaze[3] 데이터 셋을 이용하였다. 실험을 통해 시선 추정 오차는 0.0396 MSE(Mean Square Error)의 성능을 보였으며, 네트워크의 추정 속도는 42 FPS(Frame Per Second)를 나타내었다.
PDF

A Study on Classification Network at Edge Device for Real-time Environment Recognition of Walking Assistant Robot (보행 보조 로봇의 실시간 환경 인식을 위한 엣지 디바이스에서의 분류 네트워크에 관한 연구)

Shin, Hye-Soo;Lee, Jongwon;Kim, KangGeon
- Proceedings of the Korea Information Processing Society Conference
- /
- 2022.11a
- /
- pp.435-437
- /
- 2022
보행 보조 로봇의 효과적인 보조를 위해서는 사용자의 보행 유형을 인식하는 것이 중요하다. 본 논문에서는 end-to-end 분류 네트워크 기반 보행 환경 인식 방법을 사용하여 사용자의 보행 유형을 강인하게 추정한다. 실외 보행 환경을 오르막길, 평지, 내리막길 3 가지로 분류하는 딥러닝 모델을 학습시켰으며, 엣지 디바이스에서 이를 사용하기 위해 네트워크 경량화를 진행하였다. 경량화 후 추론 속도는 약 47FPS 수준으로 실시간으로 보행 보조 로봇에 적용 가능한 것을 검증했으며, 정확도 측면에서도 97% 이상의 성능을 얻을 수 있었다.
https://doi.org/10.3745/PKIPS.y2022m11a.435 인용 PDF

Implementation and Performance Evaluation of a Point Cloud-based Volumetric Video Player (포인트 클라우드 기반의 볼류메트릭 비디오 플레이어 구현 및 성능평가)

Kim, A-Young;An, Eun-Bin;Seo, Kwang-Deok
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2022.06a
- /
- pp.1245-1248
- /
- 2022
본 논문에서는 사용자가 보다 간편하게 볼류메트릭 비디오를 소비할 수 있도록 볼류메트릭 비디오 기본 플레이어를 구현하고, 구현한 플레이어에 대하여 성능평가를 진행한다. 본 논문에서 구현한 볼류메트릭 비디오 플레이어는 Draco 와 V-PCC 를 복호화기로 지원하며, 압축 전의 포인트 클라우드 데이터와 Draco 와 V-PCC 로 압축한 비트스트림에 대하여 성능 평가를 진행하였다. 플레이어의 성능을 평가한 결과를 통해 초기 충분한 량의 프레임을 버퍼에 확보할 만큼의 초기 지연시간을 설정하지 않는 이상, 볼류메트릭 비디오를 30fps 이상으로 소비하기에는 어려움이 있음을 확인하였다. 이를 토대로 현재 볼류메트릭 비디오 재생을 위한 기술적 한계를 살펴보고, 볼류메트릭 비디오 플레이어의 성능 향상을 위한 향후 연구개발 방향에 대하여 논의한다.
PDF

Performance analysis of YOLOv5 and Faster R-CNN for real-time crosswalk pedestrian detection (심층 신경망을 이용한 실시간 횡단보도 보행자 검출 방법 분석)

Bang, Junho;Park, Min-Ki;Song, Chaeyong;Choi, Haechul
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2022.06a
- /
- pp.1184-1186
- /
- 2022
횡단보도에서의 보행자 교통사고 방지를 위한 다양한 방법들이 연구되고 있다. 본 논문에서는 점멸 신호등 상황에서 보행자 교통사고를 감소시키기 위해 영상을 이용한 심층 신경망 기반 횡단보도 보행자 검출 방법을 소개한다. YOLOv5 와 Faster R-CNN 각각을 기반으로 다양한 버전의 횡단보도 보행자 검출기를 구현하고, 이번 실험에서 중점이 되는 이들의 수행 시간을 비교 평가하고 mAP@0.5 가 어느 정도인지 판단하여 가장 적합한 모델을 판단한다. 실험 결과 실시간 처리 측면에서 YOLOs 모델이 84 fps 를 달성함으로써 실시간 보행자 검출에 가장 좋은 성능을 보였다. 횡단보도의 상황은 상시 빠르게 변하므로 가장 빠른 처리 성능을 기록한 YOLOv5s 모델이 실시간 횡단보도 보행자 검출 시스템에 가장 적합한 것으로 판단된다.
PDF

Search Result 515, Processing Time 0.029 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)