DOI QR코드

DOI QR Code

Study on Measuring Geometrical Modification of Document Image in Scanning Process

스캐닝 과정에서 발생하는 전자문서의 기하학적 변형감지에 관한 연구

  • Oh, Dong-Yeol (Department of Computer Science, SoongSil University) ;
  • Oh, Hae-Seok (Department of Computer Science, Kyungwon University) ;
  • Rhew, Sung-Yul (Department of Computer Science, SoongSil University)
  • 오동열 (숭실대학교 IT대학 컴퓨터학과) ;
  • 오해석 (경원대학교 IT대학 컴퓨터 공학) ;
  • 류성열 (숭실대학교 IT대학 컴퓨터학과)
  • Published : 2009.08.31

Abstract

Scanner which is a kind of optical devices is used to convert paper documents into document image files. The assessment of scanned document image is performed to check if there are any modification on document image files in scanning process. In assessment of scanned documents, user checks the degree of skew, noise, folded state and etc This paper proposed to how to measure geometrical modifications of document image in scanning process. In this study, we check the degree of modification in document image file by image processing and we compare the evaluation value which means the degree of modification in each items with OCR success ratio in a document image file. To analyse the correlation between OCR success ratio and the evaluation value which means the degree of modification in each items, we apply Pearson Correlation Coefficient and calculate weight value for each items to score total evaluation value of image modification degrees on a image file. The document image which has high rating score by proposed method also has high OCR success ratio.

기존 종이 문서를 영상 파일로 변환하기 위해서 스캐너와 같은 광학기를 사용하게 된다. 스캐닝 과정에서 문서가 제대로 문서 영상으로 생성되었는지를 판단하기 위해서 이미지 품질 검사 과정을 거치게 된다. 이미지 품질검사 과정에서는 스캐너 기기의 특성상 스캐닝 과정에서 발생할 수 있는 문서 영상의 기울기, 노이즈 여부, 문서가 접힌 상태로 스캔되었는지의 여부 등을 체크하게 된다. 이에 본 논문에서는 스캐너를 이용하여 문서 영상을 생성 과정에서 발생하는 기하학적 변형을 평가하기 위한 방법론을 제시한다. 본 연구에서는 품질 검사의 검사 항목에 대해서 영상 처리를 이용하여 각각의 변형 정도를 측정하고 각각의 변형 정도가 실제 문서의 가독성에 얼마나 영향을 미치는지를 OCR 결과 값과 비교한다. OCR 인식 성공 비율과 각 항목별 변형 정도를 나타내는 측정 값 간에 상관관계를 분석하기 위해서 피어슨 상관 계수(Pearson Correlation Coefficient)를 이용하고 이를 기반으로 실제 문서 영상의 변형정도를 평가하기 위한 가중치 값을 산정한다. 제시한 방법으로 평가에서 높은 평가 값으로 계산된 영상 문서는 OCR 인식률에서도 높은 인식 결과를 나타내고 있다.

Keywords

References

  1. M. Cannon, P. Kelly, S. Sitharama Iyenger and Nathan Brener, "An automated system for numerically rating document image quality", Proceedings 1997 Symposium on Document Image Understanding Technology, pp. 161-167, 1997.
  2. Henry S. Baird, N, "Document Image Quality : Making Fine Discriminations" Document Analysis and Recognition ICDAR '99, pp. 459-462, 1999.
  3. Souza A, Cheriet M, Naio S, Suen C.Y "Automatic filter Selection Using Image Quality Assesment", Proceedings of the 7th international conference on document analysis and recognition, pp.508-512, 2003.
  4. Lu, S.J. and Chen, B.M. and Ko, C.C., "Perspective rectification of document images using fuzzy set and morphological operations", Image and Vision Computing Journal Vol. 23, pp. 541-553, 2005. https://doi.org/10.1016/j.imavis.2005.01.003
  5. Wei Dong, Qian Yu, Zhang C N, Hua Li, "Image Quality Assessment Using Rough Fuzzy Integrals", 27th International conference on Distributed Computing System Workshops, pp. 1-5, 2007.
  6. M. Sezgin, B. Sankur, "Survey over image thresholding techniques and quantitative performance evaluation", Journal of Electronic Image, Vol. 13 pp. 146-168, 2004. https://doi.org/10.1117/1.1631315
  7. 조인성, 이지홍, 오상진, "사용자 중심의 유연한 실시간 머신비전 검사시스템 개발", 전자공학회논문지, Vol.45 pp. 42-50, 2008.
  8. Hoque, S. Sirlantzis, K. Fairhurst, M.C, "A new chain-code quantization approach enabling high performance handwriting recognition based on multiclassifier schemes", Document Analysis and Recognition, pp. 834-838, 2003
  9. 이규원, 우동민, "항공영상으로부터 에지 맴의 체인코드 추적에 의한 선소추출", 한국지능시스템학회논문지, pp. 709-713, 2005. https://doi.org/10.5391/JKIIS.2005.15.6.709
  10. Nandini N, Srikanta M. K, G. Hemantha, "Estimation of Skew Angle in Binary Document Images Using Hough Transform", Proceedings of world academy of science, engineering and technology vol 3, pp. 50-55, 2008.
  11. 김진흠, 김민호, "변수선택 편향이 없는 회귀나무를 만들기 위한 알고리즘", 한국 통계 학회, pp. 459-473, 2004. https://doi.org/10.5351/KJAS.2004.17.3.459
  12. 박지선, 김택헌, 류영석, 양성봉 "추천 시스템을 위한 2 way 협동적 필터링 방법을 이용한 예측 알고리즘", 정보과학회논문지, Vol. 29, pp. 669-675, 2002.
  13. Maya R.Gupta, Nathaniel P, "OCR binarization and image pre-processing for searching historical documents", Pattern Recognition Volume 40, pp. 389-397, 2007. https://doi.org/10.1016/j.patcog.2006.04.043