초록
본 논문에서는 칼라로 입력된 문서 영상에서 문자 영역추출을 위하여 k-means을 이용한 클러스트링 알고리즘을 제안하였다. 칼라 영상의 클러스트링을 위해서 HIS 좌표계에 적합한 거리함수를 제안하였다. 이를 인식하기 위한 전처리 단계인 문자분리(segmentation)방법은 연결 화소를 이용한 개별문자 추출 알고리즘을 제안하였다. 본 알고리즘 에서는 문자분리방벙에서 접촉문자 (touching character)또는 겹친 문자(overlapped character)등과 같이 분리가 곤란한 문자를 개별문자로 분리하는 방법이다. 기존의 문자 분리방법에서는 투영(projection)dop 의한 방법과 외곽선(edge)추적에 의한 방법등을 사용하여 왔으나 제안된 방법은 문자열 추출후 한번의 투영으로 연결화소를 이용하여 개별문자를 추출한다. 문자 영역과 비 문자 영역을 구분하여 개발문자 추출을 한 결과 단순한 이진 영상이 아닌 칼라 영상에서의 문서 처리가 큰 의의가 있고 기존의 문서 처리기 보다 향상된 알고리즘인 것을 확인하였다.
This paper deals with several methods: the clustering method that uses k-means algorithm to abstract the
area of characters on the image document and the distance function that suits for the HIS coordinate system
to cluster the image. For the prepossessing step to recognize this, or the method of characters segmentate, the
algorithm to abstract a discrete character is also proposed, using the linking picture element. This algorithm
provides the feature that separates any character such as the touching or overlapped character. The methods
of projecting and tracking the edge have so far been used to segment them. However, with the new method
proposed here, the picture element extracts a discrete character with only one-time projection after abstracting
the character string. it is possible to pull out it. dividing the area into the character and the rest (non-character).
This has great significance in terms of processing color documents, not the simple binary image, and already
received verification that it is more advanced than the previous document processing system.