고문서 전산화를 위한 문서 인식 기법

Recognition for Digitizing Historical Document Pages

  • 조규태 (한국과학기술원 전자전산학과) ;
  • 김진식 (한국과학기술원 전자전산학과) ;
  • 이성훈 (한국과학기술원 전자전산학과) ;
  • 김자환 (한국과학기술원 전자전산학과) ;
  • 김민수 (한국과학기술원 전자전산학과) ;
  • 김진형 (한국과학기술원 전자전산학과)
  • Cho Kyutae (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Kim Jinsik (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Lee Seonghun (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Kim Jahwan (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Kim Minsoo (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Kim JinHyung (Dept. of Electrical Engineering & Computer Science, KAIST)
  • 발행 : 2005.07.01

초록

역사적 가치가 높은 고문서의 훼손을 방지하고 접근을 용이하게 하기 위해서 고문서 전산화가 필요하다. 이를 위한 작업에서는 고문서의 방대한 양을 빠르고 정확하게 처리하는 기술이 필수적이다. 본 논문은 고문서 전산화를 위한 분할 방법과 인식 방법을 제안한다. 인식을 이용한 분할 방법을 통해 신속하면서도 정확하게 문서내의 문자영역을 찾아낸다. 또한 인식기로부터 생성된 점수를 확률화 하여 신뢰도를 높이고 이를 문자의 모양 및 문맥정보와 결합을 통해 분할과 후처리를 수행한다. 제안하는 방법은 고문서 전산화 과정에서 사람의 수작업을 최소화하기 위해 유용하다.

키워드