초록
기존 종이 문서를 영상 파일로 변환하기 위해서 스캐너와 같은 광학기를 사용하게 된다. 스캐닝 과정에서 문서가 제대로 문서 영상으로 생성되었는지를 판단하기 위해서 이미지 품질 검사 과정을 거치게 된다. 이미지 품질검사 과정에서는 스캐너 기기의 특성상 스캐닝 과정에서 발생할 수 있는 문서 영상의 기울기, 노이즈 여부, 문서가 접힌 상태로 스캔되었는지의 여부 등을 체크하게 된다. 이에 본 논문에서는 스캐너를 이용하여 문서 영상을 생성 과정에서 발생하는 기하학적 변형을 평가하기 위한 방법론을 제시한다. 본 연구에서는 품질 검사의 검사 항목에 대해서 영상 처리를 이용하여 각각의 변형 정도를 측정하고 각각의 변형 정도가 실제 문서의 가독성에 얼마나 영향을 미치는지를 OCR 결과 값과 비교한다. OCR 인식 성공 비율과 각 항목별 변형 정도를 나타내는 측정 값 간에 상관관계를 분석하기 위해서 피어슨 상관 계수(Pearson Correlation Coefficient)를 이용하고 이를 기반으로 실제 문서 영상의 변형정도를 평가하기 위한 가중치 값을 산정한다. 제시한 방법으로 평가에서 높은 평가 값으로 계산된 영상 문서는 OCR 인식률에서도 높은 인식 결과를 나타내고 있다.
Scanner which is a kind of optical devices is used to convert paper documents into document image files. The assessment of scanned document image is performed to check if there are any modification on document image files in scanning process. In assessment of scanned documents, user checks the degree of skew, noise, folded state and etc This paper proposed to how to measure geometrical modifications of document image in scanning process. In this study, we check the degree of modification in document image file by image processing and we compare the evaluation value which means the degree of modification in each items with OCR success ratio in a document image file. To analyse the correlation between OCR success ratio and the evaluation value which means the degree of modification in each items, we apply Pearson Correlation Coefficient and calculate weight value for each items to score total evaluation value of image modification degrees on a image file. The document image which has high rating score by proposed method also has high OCR success ratio.