DOI QR코드

DOI QR Code

CMDNet: Single Shot Architecture for Clickable Mobile Screen Object Detection

CMDNet: 클릭 가능한 모바일 화면 객체 탐지를 위한 싱글 샷 아키텍처

  • Jo, Min-Seok (Dept. of Electrical and Engineering, Korea University) ;
  • Han, Seong-Soo (Dept. of Division of Liberal Studies, Kangwon National University) ;
  • Jeong, Chang-Sung (Dept. of Electrical and Engineering, Korea University)
  • 조민석 (고려대학교 전기전자공학과) ;
  • 한성수 (강원대학교 자유전공학부) ;
  • 정창성 (고려대학교 전기전자공학과)
  • Published : 2021.05.12

Abstract

모바일 디바이스 화면에 대하여 클릭 가능한 객체를 인식하기 위한 Object detection network architecture 를 제안한다. DSSD 를 Baseline 으로 SE block 이 추가된 Backbone network 와 SSD layer, FPN 구조를 사용한다. 기존의 1:1 비율의 네트워크의 Input resolution 을 모바일 화면과 유사한 1:2 비율로 변경하여 효율적으로 피처를 추출한다. 또한 해당 모델을 학습하기 위한 효율적인 데이터셋을 구축한다. 모바일 화면에서 클릭 가능한 객체를 기준으로 데이터를 수집하여 총 24,937 개의 Annotation data 를 Text, Image, Button, Region 등 8 개의 카테고리로 세분화하였다.

Keywords

Acknowledgement

이 논문은 2021년도 4단계 BK21 사업에 의하여 지원되었음.