Character Segmentation with Segmentation Cost in Optical Character Recognition

문자 인식에서 분할 비용에 따른 문자 분할 연구

  • Jung Minchul (Department of Computer System Engineering, Sangmyung University)
  • 정민철 (상명대학교 컴퓨터시스템공학과)
  • Published : 2004.06.01

Abstract

인쇄체 문자 인식에서 접합 문자는 주요한 에러 발생의 원인이다. 본 논문에서는 접합 문자를 분할하기 위해 두 개의 분할 비용을 정의한다. 첫째, 절단 비용은 한 패턴을 분할하는 데 얼마나 많은 블랙픽셀이 분리되어야 하는가이다. 둘째, 접선 비용은 분할선이 얼마나 많은 블랙 픽셀과 화이트 픽셀사이를 지나가는가이다. 폰트 분류기는 접합 문자의 후보 문자를 제공한다. 후보 문자의 문자 폭은 접합 문자를 분리하기 위한 기준선을 제공하며, 그 기준선 부근의 픽셀들이 분할 가능 영역을 나타낸다. 절단 비용의 최소값과 접선 비용의 최대값이 되는 지점이 최종적으로 접합 문자를 분할하는 위치이다. 이렇게 정의된 절단 비용과 접선 비용을 가지고 접합 문자를 분할하면 보다 정확한 문자 분할을 하여 문자 인식에서 에러 발생을 줄일 수 있다.

Keywords