For Automatic File Name Attachment Service Unsupervised Learning-based File Name Extraction Method

파일명 자동 부착 서비스를 위한 비지도 학습 기반 파일명 추출방법

  • Ju-oh Sun (Konkuk University Department of Artificial Intelligence) ;
  • Youngjin Jang (Konkuk University Department of Artificial Intelligence) ;
  • Harksoo Kim (Konkuk University Department of Artificial Intelligence)
  • 선주오 (건국대학교 인공지능학과) ;
  • 장영진 (건국대학교 인공지능학과) ;
  • 김학수 (건국대학교 인공지능학과)
  • Published : 2022.10.18

Abstract

심층 학습은 지속적으로 발전하고 있으며, 최근에는 실제 사용자에게 제공되는 애플리케이션까지 확장되고 있다. 특히 자연어처리 분야에서는 대용량 언어 말뭉치를 기반으로 한 언어모델이 등장하면서 사람보다 높은 성능을 보이는 시스템이 개발되었다. 그러나 언어모델은 높은 컴퓨팅 파워를 요구하기 때문에 독립적인 소형 디바이스에서 제공할 수 있는 서비스에 적용하기 힘들다. 예를 들어 스캐너에서 제공할 수 있는 파일명 자동 부착 서비스는 하드웨어의 컴퓨팅 파워가 제한적이기 때문에 언어모델을 적용하기 힘들다. 또한, 활용할 수 있는 공개 데이터가 많지 않기 때문에, 데이터 구축에도 높은 비용이 요구된다. 따라서 본 논문에서는 컴퓨팅 파워에 비교적 독립적이고 학습 데이터가 필요하지 않은 비지도 학습을 활용하여 파일명 자동 부착 서비스를 위한 파일명 추출 방법을 제안한다. 실험은 681건의 문서 OCR 결과에 정답을 부착하여 수행했으며, ROUGE-L 기준 0.3352의 성능을 보였다.

Keywords

Acknowledgement

본 연구는 HP Printing Korea 산학연구용역 과제의 지원을 받아 수행되었음