Character Extraction and Restoration in the Specified Cell of Form Document

형식문서에서 지정된 셀내의 문자추출 및 복원

  • Sim, Sang-Ok (Dept. of Computer Science and Engineering, Chungang University) ;
  • Yoo, Jin-Yong (Dept. of Computer Science and Engineering, Chungang University) ;
  • Kim, Min-Ki (Dept. of Computer Science and Engineering, Chungang University) ;
  • Kwon, Young-Bin (Dept. of Computer Science and Engineering, Chungang University)
  • 심상옥 (중앙대학교 컴퓨터공학과) ;
  • 유진용 (중앙대학교 컴퓨터공학과) ;
  • 김민기 (중앙대학교 컴퓨터공학과) ;
  • 권영빈 (중앙대학교 컴퓨터공학과)
  • Published : 1997.10.10

Abstract

세금계산서나 영수증등의 형식문서를 처리하기 위해서는 일반문서와는 달리 형식문서에서 인식의 대상이 되는 특정 셀에 대한 추출이 필요하다. 본 논문에서는 정형화된 형식문서에서 원하는 특정 셀의 내용만을 추출하는 방법을 제시하고자 한다. 제안된 방법은 지정된 셀을 이루고 있는 라인을 제거하는 것과, 라인제거시 손상된 문자를 복원하는 과정으로 나뉜다. 우선 라인들의 평균적인 두께를 구한 후 라인을 트레이스(trace)하면서 이 두께 범위내에 있는 라인은 지운다. 트레이스하는 과정에서 두께보다 큰 라인은 문자와 접촉된 것으로 판단하여 이 접촉된 좌표를 저장한 후 미리 정의된 접촉유형을 이용하여 문자의 복원 작업을 수행한다.

Keywords