Abstract
Format recognition and OCR techniques are widely used as methods for detecting and protecting personal information from electronic documents. However, due to the poor recognition rate of the OCR engine, personal information cannot be detected or false positives commonly occur. It also takes a long time to analyze a large amount of electronic documents. In this paper, we propose a method to improve the speed of image analysis of electronic documents, character recognition rate of the OCR engine, and detection rate of personal information by improving the existing method. The analysis speed was increased using the format recognition method while the analysis speed and character recognition rate of the OCR engine was improved by image correction. An algorithm for analyzing personal information from images was proposed to increase the reconnaissance rate of personal information. Through the experiments, 1755 image format recognition samples were analyzed in an average time of 0.24 seconds, which was 0.5 seconds higher than the conventional PAID system format recognition method, and the image recognition rate was 99%. The proposed method in this paper can be used in various fields such as public, telecommunications, finance, tourism, and security as a system to protect personal information in electronic documents.
전자문서에서 개인정보를 보호하기 위한 방법으로 서식 인식과 광학 문자 인식 기법이 많이 이용되고 있으나 OCR 엔진의 저조한 인식률로 인해서 개인정보를 탐지하지 못하거나 오탐이 많이 발생하고 있고 또한 대량의 전자문서를 분석하는데도 오랜 시간이 걸린다. 본 논문에서는 기존의 방법을 개선하여 전자문서의 이미지 분석 속도와 OCR엔진의 글자 인식률, 그리고 개인정보의 탐지율을 향상할 수 있는 방안을 제시한다. 서식 인식 방법을 이용하여 분석 속도를 높이고, 이미지 보정을 통해 OCR 엔진 분석 속도 및 글자 인식률을 향상한다. 이미지에서의 개인정보 분석 알고리즘을 제안하여 개인정보의 탐지율을 높였다. 실험을 통하여 이미지 서식 인식 시료 1755개를 분석하여 평균 0.24초가 소요되어 기존의 PAID 시스템 서식 인식 방안보다 0.5초 향상되었으며 이미지 서식 인식률은 평균 99%를 기록하였다. 본 논문에서 제안한 방법은 전자문서에서 개인정보를 보호할 수 있는 시스템으로서 공공, 통신사, 금융, 관광, 보안 등 여러분야에서 활용할 수 있을 것이다.