A Recovery Technique of PDF File in the Unit of Page

PDF 파일의 페이지단위 복구 기법

  • 장지원 (고려대학교 정보보호대학원 정보보호학과) ;
  • 방승규 (고려대학교 정보보호대학원 정보보호학과) ;
  • 한재혁 (고려대학교 정보보호대학원 정보보호학과) ;
  • 이상진 (고려대학교 정보보호대학원)
  • Received : 2016.07.21
  • Accepted : 2016.09.12
  • Published : 2017.01.31


The influence of the data deletion method which is one of anti-forensic techniques is substantial in terms of forensic analysis compared to its simplicity of the act. In academic world, recovery techniques on deleted files have been continuously studied in response to the data deletion method and representatively, the file system-based file recovery technique and file format based recovery technique exist. If there's metadata of deleted file in file system, the file can be easily recovered by using it, but if there's no metadata, the file is recovered by using the signature-based carving technique or the file format based recovery technique has to be applied. At this time, in the file format based recovery technique, the file structure analysis and possible recovery technique should be provided. This paper proposes the page recovery technique on deleted PDF file based on the structural characteristics of PDF file. This technique uses the tag value of page object which constitutes one page of PDF file. Object is extracted by utilizing each tag value as a kind of signature and by analyzing extracted object, the metadata of PDF file is recombined and then it's reconfigured page by page. Recovering by page means that even if deleted PDF file is damaged, even some pages consisting of PDF file can be recovered. Generally, if the file system based file is not recoverable, deleted file is recovered by applying the signature based carving technique. The technique which we proposed in this paper can recover PDF files that are damaged. In the digital forensic perspective, it can be utilized to recover more data than previously.

안티 포렌식 기법 중 하나인 데이터 삭제 기법은 그 행위의 단순함에 비해 포렌식 분석 관점에서의 그 영향력은 상당하다. 학계에서는 데이터 삭제 기법에 대응하여 지속적으로 삭제된 파일 복구 기법에 대해 연구하였으며, 대표적으로 파일시스템 기반 파일 복구 기법과 파일 포맷 기반 복구 기법이 존재한다. 파일이 삭제되고 난 후 해당 파일의 메타데이터가 파일시스템 상에 존재한다면, 이를 이용하여 손쉽게 파일을 복구할 수 있으나, 메타데이터가 존재하지 않는 경우엔 시그니처 기반 카빙 기법을 이용하여 파일을 복구하거나 파일 포맷에 기반한 복구기법을 적용해야 한다. 이때 파일 포맷에 기반한 복구기법은 파일 구조에 대한 분석과 복구 가능한 기법이 제시되어야 한다. 본 논문은 PDF 파일의 구조적 특성에 기반한 삭제된 PDF 파일의 페이지 단위 복구 기법을 제시한다. 해당 기법은 PDF 파일의 1개 페이지를 구성하는 Page Object의 태그 값을 이용한다. 각 태그 값을 일종의 시그니쳐로서 활용하여 Object를 추출하며, 추출된 Object들을 분석하여 PDF파일의 메타데이터를 재조합한 후 페이지 단위로 재구성한다. 페이지 단위로 복구한다는 것은 삭제된 PDF 파일이 온전하지 않더라도 PDF 파일을 구성했던 일부 페이지라도 복구할 수 있음을 의미한다. 해당 기법을 이용하면 온전하지 않은 상태의 PDF파일에 대한 복구가 가능하다. 이는 디지털 포렌식 분석 관점에서 기존보다 더 많은 데이터를 복구하는데 활용될 수 있다.



  1. Adobe Systems Incorporated, Document management - Portable document format - Part 1: PDF 1.7, Adobe Systems Incorporated, 2008.
  2. Gyu-an Lee, Dae-woo Park, and Young-Tae Shin, "A Study on Rivalry Technology of Anti-Digital Forensic," Proceedings of the Korean Society of Computer Information Conference, Vol.16, No.1, pp.183-188, 2008.
  3. Jae-hyoung Ahn, Jung-heum Park, and Sang-jin Lee, "The Research on the Recovery Techniques of Deleted Files in the XFS Filesystem," Journal of the Korea Institute of Information Security & Cryptology, Vol.24, No.5, pp.885-896, 2014.
  4. TaeSuk Kwon, KeunDuck Byun, Sangjin Lee, and Jongin Lim, "Design of an efficient file carving algorithm in a forensic perspective," Korea Society of Broadcast Engineering, pp.205-208, 2008.
  5. Dohyun Kim, Jungheum Park, and Sangjin Lee, "File Carving for Ext4 File System on Android OS," Journal of the Korea Institute of Information Security & Cryptology, Vol.23, No.3, pp.417-429, 2013.
  6. Yonghak Shin, Junyoung Cheon, and Jongsung Kim, "Study on Recovery Techniques for the Deleted or Damaged Event Log(EVTX) Files," Journal of the Korea Institute of Information Security & Cryptology, Vol.26, No.2, pp.387-396, 2016.
  7. Jaeung Namgung, Ilyoung Hong, Jungheum Park, and Sangjin Lee, "A research for partition recovery method in a forensic perspective," Journal of the Korea Institute of Information Security & Cryptology, Vol.23, No.4, pp.655-666, 2013.
  8. Byeongyeong Yoo, Jungheum Park, Jewan Bang, and Sangjin Lee, "A Study on Extracting the Document Text for Unallocated Areas of Data Fragments," Journal of the Korea Institute of Information Security & Cryptology, Vol.20, No.6, pp.43-51, 2010.
  9. Hyunji Chung, Jungheum Park, and Sangjin Lee, "Forensic Analysis of Residual Information in Adobe PDF Files," in Communications in Computer and Information Science, PART 2, Vol.185, pp.100-109, 2011.