Synthetic Chemical Structure Documentation Dataset Proposal and Mask R-CNN Based Chemical Structure Segmentation

화학 구조 문서 합성 데이터셋 제안 및 Mask R-CNN 기반의 화학 구조 인식

  • 윤정환 (서울대학교 전기정보공학부) ;
  • 조남익 (서울대학교 전기정보공학부)
  • Published : 2022.06.20

Abstract

최근 인공지능 신경망에 대한 활발한 연구를 바탕으로 다양한 분야에서의 적용에 대해 많은 시도들이 이루어지고 있다. 이러한 흐름에 맞추어 화학 문서에서 화학 구조를 인식하는 문제 또한 딥러닝을 이용하여 해결하려는 시도들이 생겨나고 있다. 본 논문에서는 화학 문서에서 화학 구조를 인식하는 모델을 학습시키기 위한 합성 데이터셋을 제안하였다. 문서의 구조를 이용하여 정교하게 화학 구조들을 문서에 합성하여 데이터셋을 생성하였고, 이를 최신 딥러닝 모델 중 하나인 Mask R-CNN[7]에 학습시켜 제안한 데이터셋을 이용하여 문서에서 화학 구조를 인식할 수 있음을 보였다.

Keywords

Acknowledgement

이 논문은 2022 년도 BK21 FOUR 정보기술 미래인재 교육연구단에 의하여 지원되었음. 그리고 이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (2021R1A2C2007220).