Word Segmentation Algorithm for Handwritten Documents based on k-means Clustering

k-평균 클러스터링을 이용한 필기 문서 영상의 단어 분리법

  • 류제웅 (서울대학교 전기정보공학부) ;
  • 조남익 (서울대학교 전기정보공학부)
  • Published : 2014.06.30

Abstract

본 논문에서는 필기 문서 영상을 분석하여 단어 단위로 요소들을 분할하는 방법을 제안한다. 일반적으로 인쇄 문서에 비하여 필기 문서에서는 글자 간 간격이 일정하지 않을 뿐만 아니라 필기자 또는 작성된 언어에 따라 특성이 매우 다르게 나타나기 때문에 단어를 분리하는 것은 어려운 문제로 간주되었고 많은 연구가 진행되었다. 제안하는 방법은 이 문제를 해결하기 위하여 글자 획의 두께를 고려하여 정규화시킨 각 연결 요소간 간격과 간격 안에 존재하는 글자 픽셀의 수로 구성된 2 차원의 특징값을 추출하였다. 이 특징값을 바탕으로, 제안하는 방법은 k-평균 클러스터링을 이용하여 각 텍스트라인을 구성하는 연결 요소간 간격을 단어 사이의 간격과 단어 내부 글자간의 간격으로 분류하였다. ICDAR 2013 Handwriting Segmentation Contest 데이터베이스에 대한 실험 결과 제안하는 방법은 가장 우수한 성능을 나타내었다.

Keywords