• 제목/요약/키워드: Document structure detection

검색결과 16건 처리시간 0.022초

Forgery Detection Mechanism with Abnormal Structure Analysis on Office Open XML based MS-Word File

  • Lee, HanSeong;Lee, Hyung-Woo
    • International journal of advanced smart convergence
    • /
    • 제8권4호
    • /
    • pp.47-57
    • /
    • 2019
  • We examine the weaknesses of the existing OOXML-based MS-Word file structure, and analyze how data concealment and forgery are performed in MS-Word digital documents. In case of forgery by including hidden information in MS-Word digital document, there is no difference in opening the file with the MS-Word Processor. However, the computer system may be malfunctioned by malware or shell code hidden in the digital document. If a malicious image file or ZIP file is hidden in the document by using the structural vulnerability of the MS-Word document, it may be infected by ransomware that encrypts the entire file on the disk even if the MS-Word file is normally executed. Therefore, it is necessary to analyze forgery and alteration of digital document through internal structure analysis of MS-Word file. In this paper, we designed and implemented a mechanism to detect this efficiently and automatic detection software, and presented a method to proactively respond to attacks such as ransomware exploiting MS-Word security vulnerabilities.

Detection of Malicious PDF based on Document Structure Features and Stream Objects

  • Kang, Ah Reum;Jeong, Young-Seob;Kim, Se Lyeong;Kim, Jonghyun;Woo, Jiyoung;Choi, Sunoh
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.85-93
    • /
    • 2018
  • In recent years, there has been an increasing number of ways to distribute document-based malicious code using vulnerabilities in document files. Because document type malware is not an executable file itself, it is easy to bypass existing security programs, so research on a model to detect it is necessary. In this study, we extract main features from the document structure and the JavaScript contained in the stream object In addition, when JavaScript is inserted, keywords with high occurrence frequency in malicious code such as function name, reserved word and the readable string in the script are extracted. Then, we generate a machine learning model that can distinguish between normal and malicious. In order to make it difficult to bypass, we try to achieve good performance in a black box type algorithm. For an experiment, a large amount of documents compared to previous studies is analyzed. Experimental results show 98.9% detection rate from three different type algorithms. SVM, which is a black box type algorithm and makes obfuscation difficult, shows much higher performance than in previous studies.

문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법 (Structure Recognition Method of Invoice Document Image for Document Processing Automation)

  • 이동석;권순각
    • 한국산업정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.

문서 처리 자동화를 위한 다양한 표 유형에서 표 구조 인식 방법 (Structure Recognition Method in Various Table Types for Document Processing Automation)

  • 이동석;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제25권5호
    • /
    • pp.695-702
    • /
    • 2022
  • In this paper, we propose the method of a table structure recognition in various table types for document processing automation. A table with items surrounded by ruled lines are analyzed by detecting horizontal and vertical lines for recognizing the table structure. In case of a table with items separated by spaces, the table structure are recognized by analyzing the arrangement of row items. After recognizing the table structure, the areas of the table items are input into OCR engine and the character recognition result output to a text file in a structured format such as CSV or JSON. In simulation results, the average accuracy of table item recognition is about 94%.

CNN 기반 MS Office 악성 문서 탐지 (MS Office Malicious Document Detection Based on CNN)

  • 박현수;강아름
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.439-446
    • /
    • 2022
  • 웹사이트나 메일의 첨부 파일을 이용해 문서형 악성코드의 유포가 활발하게 이루어지고 있다. 문서형 악성코드는 실행 파일이 직접 실행되는 것이 아니므로 보안 프로그램의 우회가 비교적 쉽다. 따라서 문서형 악성코드는 사전에 탐지하고 예방해야 한다. 이를 탐지하기 위해 문서의 구조를 파악하고 악성으로 의심되는 키워드를 선정하였다. 문서 내의 스트림 데이터를 아스키코드값으로 변환하여 데이터셋을 만들었다. CNN 알고리즘을 이용하여 문서의 스트림 데이터 내에 존재하는 악성 키워드의 위치를 확인하고 인접 정보를 활용하여 이를 악성으로 분류했다. 파일 내의 스트림 단위로 악성코드를 탐지한 결과 0.97의 정확도를 보였고, 파일 단위로 악성코드를 탐지한 결과 0.92의 정확도를 보였다.

표 서식 문서의 구조 분석을 위한 선분 에지 기반의 유형별 꼭짓점 검출 (Line Edge-Based Type-Specific Corner Points Extraction for the Analysis of Table Form Document Structure)

  • 정재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권2호
    • /
    • pp.209-217
    • /
    • 2014
  • 표 서식을 활용하고 있는 수많은 문서들을 종류에 따라 자동으로 분류하거나, 서식에 기입된 정보를 서식과 분리하여 추출하는 기술은 매우 중요하게 활용된다. 이를 위해서는 표 서식 구조를 정확하게 파악하는 과정은 필수적이다. 본 논문에서는 표 서식 문서 영상에 대한 유형별 꼭짓점 검출 방법을 제안한다. 주요 처리 과정은 전처리, 에지 블록 검출, 선분 에지 블록 검출, 꼭짓점 검출 단계를 거친다. 추출된 꼭짓점들은 선분 에지들이 다양한 형태로 직교하는 교차점들로 9가지 유형으로 분류된다. 실험에서는 제안한 방법을 세금계산서, 거래명세표, 표를 포함하고 있는 일반 문서 등과 같은 몇 가지 형태의 영상에 적용하여 99% 이상의 유형별 꼭짓점 추출 성능 결과를 보인다. 서식 문서 내에서의 대부분의 꼭짓점들은 대칭 형태로 존재한다는 사실을 고려할 때, 꼭짓점의 유형, 선분 에지의 폭 및 그들의 위치 관계를 활용하여 서식의 구조 분석에 활용 가능하다.

복합문서 파일에 은닉된 데이터 탐지 기법에 대한 연구 (An effective detection method for hiding data in compound-document files)

  • 김은광;전상준;한재혁;이민욱;이상진
    • 정보보호학회논문지
    • /
    • 제25권6호
    • /
    • pp.1485-1494
    • /
    • 2015
  • 기존 데이터 은닉은 대용량 멀티미디어 파일에 데이터를 삽입하는 방식으로 이루어졌다. 하지만 최근 Microsoft Office 2003 이하 버전 제품의 문서파일은 구조가 파일시스템과 유사하여 데이터 은닉이 비교적 용이해 커버데이터(Cover data)로 사용되고 있다. 데이터가 은닉된 문서파일을 MS Office 프로그램으로 실행할 경우 은닉 사실을 모르는 사용자는 은닉 데이터를 눈으로 쉽게 확인할 수 없다. 이에 본 논문에서는 Microsoft Office 2003 이하 버전과 한컴오피스 문서파일에서 사용되는 복합문서 파일 이진형식(Compound File Binary Format) 파일 포맷 구조를 분석하여 데이터 삽입이 가능한 공간을 살펴보고 이를 탐지하기 위한 방안을 제시하고자 한다.

Digital Forensics of Microsoft Office 2007-2013 Documents to Prevent Covert Communication

  • Fu, Zhangjie;Sun, Xingming;Xi, Jie
    • Journal of Communications and Networks
    • /
    • 제17권5호
    • /
    • pp.525-533
    • /
    • 2015
  • MS Office suit software is the most widely used electronic documents by a large number of users in the world, which has absolute predominance in office software market. MS Office 2007-2013 documents, which use new office open extensible markup language (OOXML) format, could be illegally used as cover mediums to transmit secret information by offenders, because they do not easily arouse others suspicion. This paper proposes nine forensic methods and an integrated forensic tool for OOXML format documents on the basis of researching the potential information hiding methods. The proposed forensic methods and tool cover three categories; document structure, document content, and document format. The aim is to prevent covert communication and provide security detection technology for electronic documents downloaded by users. The proposed methods can prevent the damage of secret information embedded by offenders. Extensive experiments based on real data set demonstrate the effectiveness of the proposed methods.

침입탐지 시스템을 이용한 웹 스테고데이터 검출 시스템 설계 및 분석 (Design and Analysis of the Web Stegodata Detection Systems using the Intrusion Detection Systems)

  • 도경화;전문석
    • 정보처리학회논문지C
    • /
    • 제11C권1호
    • /
    • pp.39-46
    • /
    • 2004
  • 인터넷의 보편화로 인해 일반 정보뿐만 아니라 중요 정보의 전송도 인터넷을 통하여 이루어지고 있다. 그렇기 때문에, 비밀리에 중요 데이터의 전송이나 비밀문서 등의 유출도 증가되고 있다. 그러나 그에 따는 보안 방안은 매우 취약한 실정이다. 따라서 본 논문에서는 네트워크 기반의 침입탐지시스템 모듈을 사용하여 네트워크를 통한 중요 정보의 유출을 탐지하는 것을 목적으로 한다. 그리고 중요 데이터의 유출과 테러에 대한 비밀문서의 방지 및 검출하기 위한 은닉정보검출방법을 제안하고 설계한다. 이는 기존의 은닉정보검출방법을 분석하고 그 중 스테고데이터에 대한 검출 방법을 이용하여, JPG, WAVE 등의 웹 데이터나 이메일의 첨부 파일에 스테고데이터 검출 방법에 초점을 맞추어 제안하고 설계한다. 또한, 본 논문에서 제안한 스테고데이터 검출 시스템을 실험을 통하여 분석한다.

A Study on Effective Internet Data Extraction through Layout Detection

  • Sun Bok-Keun;Han Kwang-Rok
    • International Journal of Contents
    • /
    • 제1권2호
    • /
    • pp.5-9
    • /
    • 2005
  • Currently most Internet documents including data are made based on predefined templates, but templates are usually formed only for main data and are not helpful for information retrieval against indexes, advertisements, header data etc. Templates in such forms are not appropriate when Internet documents are used as data for information retrieval. In order to process Internet documents in various areas of information retrieval, it is necessary to detect additional information such as advertisements and page indexes. Thus this study proposes a method of detecting the layout of Web pages by identifying the characteristics and structure of block tags that affect the layout of Web pages and calculating distances between Web pages. This method is purposed to reduce the cost of Web document automatic processing and improve processing efficiency by providing information about the structure of Web pages using templates through applying the method to information retrieval such as data extraction.

  • PDF