초록
표 서식을 활용하고 있는 수많은 문서들을 종류에 따라 자동으로 분류하거나, 서식에 기입된 정보를 서식과 분리하여 추출하는 기술은 매우 중요하게 활용된다. 이를 위해서는 표 서식 구조를 정확하게 파악하는 과정은 필수적이다. 본 논문에서는 표 서식 문서 영상에 대한 유형별 꼭짓점 검출 방법을 제안한다. 주요 처리 과정은 전처리, 에지 블록 검출, 선분 에지 블록 검출, 꼭짓점 검출 단계를 거친다. 추출된 꼭짓점들은 선분 에지들이 다양한 형태로 직교하는 교차점들로 9가지 유형으로 분류된다. 실험에서는 제안한 방법을 세금계산서, 거래명세표, 표를 포함하고 있는 일반 문서 등과 같은 몇 가지 형태의 영상에 적용하여 99% 이상의 유형별 꼭짓점 추출 성능 결과를 보인다. 서식 문서 내에서의 대부분의 꼭짓점들은 대칭 형태로 존재한다는 사실을 고려할 때, 꼭짓점의 유형, 선분 에지의 폭 및 그들의 위치 관계를 활용하여 서식의 구조 분석에 활용 가능하다.
It is very important to classify a lot of table-form documents into the same type of classes or to extract information filled in the template automatically. For these, it is necessary to accurately analyze table-form structure. This paper proposes an algorithm to extract corner points based on line edge segments and to classify the type of junction from table-form images. The algorithm preprocesses image through binarization, skew correction, deletion of isolated small area of black color because that they are probably generated by noises.. And then, it processes detections of edge block, line edges from a edge block, corner points. The extracted corner points are classified as 9 types of junction based on the combination of horizontal/vertical line edge segments in a block. The proposed method is applied to the several unconstraint document images such as tax form, transaction receipt, ordinary document containing tables, etc. The experimental results show that the performance of point detection is over 99%. Considering that almost corner points make a correspondence pair in the table, the information of type of corner and width of line may be useful to analyse the structure of table-form document.