Acknowledgement
이 논문은 2021년도 4단계 BK21 사업에 의하여 지원되었음.
DOI QR Code
모바일 디바이스 화면에 대하여 클릭 가능한 객체를 인식하기 위한 Object detection network architecture 를 제안한다. DSSD 를 Baseline 으로 SE block 이 추가된 Backbone network 와 SSD layer, FPN 구조를 사용한다. 기존의 1:1 비율의 네트워크의 Input resolution 을 모바일 화면과 유사한 1:2 비율로 변경하여 효율적으로 피처를 추출한다. 또한 해당 모델을 학습하기 위한 효율적인 데이터셋을 구축한다. 모바일 화면에서 클릭 가능한 객체를 기준으로 데이터를 수집하여 총 24,937 개의 Annotation data 를 Text, Image, Button, Region 등 8 개의 카테고리로 세분화하였다.
이 논문은 2021년도 4단계 BK21 사업에 의하여 지원되었음.