• 제목/요약/키워드: Document

검색결과 4,932건 처리시간 0.03초

CNN 기반 MS Office 악성 문서 탐지 (MS Office Malicious Document Detection Based on CNN)

  • 박현수;강아름
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.439-446
    • /
    • 2022
  • 웹사이트나 메일의 첨부 파일을 이용해 문서형 악성코드의 유포가 활발하게 이루어지고 있다. 문서형 악성코드는 실행 파일이 직접 실행되는 것이 아니므로 보안 프로그램의 우회가 비교적 쉽다. 따라서 문서형 악성코드는 사전에 탐지하고 예방해야 한다. 이를 탐지하기 위해 문서의 구조를 파악하고 악성으로 의심되는 키워드를 선정하였다. 문서 내의 스트림 데이터를 아스키코드값으로 변환하여 데이터셋을 만들었다. CNN 알고리즘을 이용하여 문서의 스트림 데이터 내에 존재하는 악성 키워드의 위치를 확인하고 인접 정보를 활용하여 이를 악성으로 분류했다. 파일 내의 스트림 단위로 악성코드를 탐지한 결과 0.97의 정확도를 보였고, 파일 단위로 악성코드를 탐지한 결과 0.92의 정확도를 보였다.

문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법 (Structure Recognition Method of Invoice Document Image for Document Processing Automation)

  • 이동석;권순각
    • 한국산업정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.

비정형 문서의 정보추출을 통한 OWL 온톨로지 구축 시스템의 설계 및 구현 (The Design and Implementation of OWL Ontology Construction System through Information Extraction of Unstructured Documents)

  • 조대웅;최지웅;김명호
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.23-33
    • /
    • 2014
  • 정보검색 분야의 발전은 많은 양의 정보를 빠르게 찾아주는 것에서 사람이 원하는 정보를 정확하게 찾아주는 연구 분야로 넓혀가고 있다. 핵심 기술로는 개인화 및 시맨틱 웹 기술을 활용하고 있다. 웹 문서에 대한 자동색인 기술과 처리능력은 연구단계를 넘어 실용 서비스로 나타나고 있다. 하지만 웹 문서 이외의 첨부된 문서 형태에 대한 문서정보검색에 관한 연구는 미진한 상황이다. 본 논문에서는 텍스트, 워드, 한글과 같은 형식으로 작성된 비정형 문서의 본문 내용을 분석하여 OWL 온톨로지로 구축하는 방법에 대해 설명한다. 문서 온톨로지의 TBox를 구축하고, 문서로부터 얻을 수 있는 자원을 선정하여, 구축된 문서 온톨로지의 인스턴스로 활용할 수 있도록 시스템으로 구현한다. 이와 같은 비정형 문서의 온톨로지 자동 구축으로 해당 문서의 시맨틱 기술을 이용한 정보검색 및 문서관리 시스템에서 효과적으로 활용 가능하다.

건설 프로젝트 문서교환을 위한 데이터모델 (Data Model for Document Exchange of Construction Projects)

  • 안선주;손보식;이현수
    • 한국건설관리학회:학술대회논문집
    • /
    • 한국건설관리학회 2003년도 학술대회지
    • /
    • pp.569-572
    • /
    • 2003
  • 건설 프로젝트는 기획, 설계, 시공 등 전 과정이 많은 프로세스를 거쳐 수행되며, 각 프로세스에는 발주자, 시공자, 감리자, 공공기관, 협력업체 등 많은 관련주체들이 참여한다. 이들의 효율적인 문서교환을 통한 상호협력은 원활한 공사수행과 나아가 프로젝트 성공의 중요한 요소이다. 건설프로젝트 참여주체간 문서교환을 웹을 통해 효과적으로 하기 위한 노력이 이루어지고 있으며, 그 수단으로 XML/EDI가 부각되고 있다. 본 연구의 목적은 웹기반 XML/EDI를 활용하는 건설프로젝트 참여주체간 문서교환 모델에서 문서정보의 관리를 위한 데이터모델의 구축이다. 본 연구에서는 XML/EDI로 교환되는 문서정보를 데이터베이스로 모델링하는 방법을 제안하고 데이터베이스에 저장된 문서정보가 활용되어지는 개념을 설명하였다. 문서정보간의 연계성을 파악하여 프로젝트 문서를 분류하였으며, 실제적인 모델링 예를 제시하였다.

  • PDF

주변정보 분할을 이용한 주제 중심 웹 문서 수집기 (A Focused Crawler by Segmentation of Context Information)

  • 조창희;이남용;강진범;양재영;최중민
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.697-702
    • /
    • 2005
  • 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

문헌간 유사도를 이용한 SVM 분류기의 문헌분류성능 향상에 관한 연구 (Improving the Performance of SVM Text Categorization with Inter-document Similarities)

  • 이재윤
    • 정보관리학회지
    • /
    • 제22권3호
    • /
    • pp.261-287
    • /
    • 2005
  • 이 논문의 목적은 SVM(지지벡터기계) 분류기의 성능을 문헌간 유사도를 이용해서 향상시키는 것이다. SVM은 효과적인 기계학습 시스템으로서 최고 수준의 문헌자동분류 기술로 인정받고 있다. 이 연구에서는 문헌 벡터 자질 표현에 기반한 SVM 문헌자동분류를 제안하였다. 제안한 방식은 분류 자질로 색인어 대신 문헌 벡터를, 자질 값으로 가중치 대신 벡터유사도를 사용한다. 제안한 방식에 대한 실험 결과, SVM 분류기의 성능을 향상시킬 수 있었다. 실행 효율 향상을 위해서 문헌 벡터 자질 선정 방안과 범주 센트로이드 벡터를 사용하는 방안을 제안하였다. 실험 결과 소규모의 벡터 자질 집합만으로도 색인어 자질을 사용하는 기존 방식보다 나은 성능을 얻을 수 있었다.

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상 (Accelerating Keyword Search Processing over XML Documents using Document-level Ranking)

  • 이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.538-550
    • /
    • 2006
  • XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

XML 문서 키워드 가중치 분석 기반 문단 추출 모델 (XML Document Keyword Weight Analysis based Paragraph Extraction Model)

  • 이종원;강인식;정회경
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2133-2138
    • /
    • 2017
  • 기존의 XML 문서나 다른 문서는 단어를 중심으로 분석이 진행되었다. 이는 형태소 분석기를 활용하여 구현이 가능하나 문서 내에 기재되어 있는 많은 단어를 분류할 뿐 문서의 핵심 내용을 파악하기에는 어려움이 있다. 사용자가 문서를 효율적으로 이해하기 위해서는 주요 단어가 포함되어 있는 문단을 추출하여 사용자에게 보여주어야 한다. 본 논문에서 제안하는 시스템은 정규화 된 XML 문서 내에 키워드를 검색하고 사용자가 입력한 키워드들이 포함되어 있는 문단을 추출하여 사용자에게 보여준다. 그리고 검색에 사용된 키워드들의 빈도수와 가중치를 사용자에게 알려주고 추출한 문단의 순서와 중복 제거 기능을 통해 사용자가 문서를 이해하는데 발생할 수 있는 오류를 최소화하였다. 제안하는 시스템은 사용자가 문서 전체를 읽지 않고 문서를 이해할 수 있게 하여 문서를 이해하는데 필요한 시간과 노력을 최소화할 수 있을 것으로 사료된다.

웹 캐시에서 사이트의 인기도에 의한 도큐먼트 교체정책 (Document Replacement Policy by Site Popularity in Web Cache)

  • 유행석;장태무
    • 한국게임학회 논문지
    • /
    • 제3권1호
    • /
    • pp.67-73
    • /
    • 2003
  • 대부분의 웹 캐시는 도큐먼트를 기반으로 하여 캐시 내에 임시적으로 도큐먼트를 저장하고 사용자의 요청이 있을 때 그에 해당된 도큐먼트가 캐시 내에 존재하면 그 도큐먼트를 사용자에게 전송해 주고, 캐시 내에 존재하지 않을 때에는 새로운 도큐먼트를 서버에게 요청하여 캐시 내에 복사를 하고 사용자에게 되돌려 준다. 이때 캐시의 용량 초과로 인해 새로운 도큐먼트를 기존의 도큐먼트와 교체하기 위해 도큐먼트 교체정책(replacement policy)을 사용한다. 일반적인 교체정책에는 도큐먼트를 기반으로 한 LRU기법이나 UFU기법 등이 있고, 그 밖의 여러 가지 교체정책을 사용하여 캐시내의 도큐먼트를 효과적으로 교체한다. 하지만, 위의 교체정책은 사이트의 인기도를 고려하지 않고 도큐먼트 요청 시간과 빈도수 만을 고려하여 교체정책을 수행한다. 따라서 본 논문에서는 요청이 빈번한 도큐먼트와 사이트의 인기도를 고려한 교체정책을 사용하여 요청이 빈번하지 않은 도큐먼트를 효과적으로 교체함으로써 캐시의 적중률(hit-ratio)을 높이고, 캐시의 내용을 효과적으로 관리할 수 있는 현대적인 네트워크 환경에 적합한 도큐먼트 교체정책인 사이트의 인기도를 고려한 도큐먼트 교체 정책을 제시한다.

  • PDF

웹 사이트의 인기도에 의한 도큐먼트 교체정책 (Document Replacement Policy by Web Site Popularity)

  • 유행석;장태무
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.227-232
    • /
    • 2008
  • 일반적으로 웹 캐시는 도큐먼트를 기반으로 하여 캐시 내에 임시적으로 도큐먼트를 저장하고 사용자의 요청이 있을 때 그에 해당된 도큐먼트가 캐시 내에 존재하면 그 도큐먼트를 사용자에게 전송해 주고, 캐시 내에 존재하지 않을 때에는 새로운 도큐먼트를 서버에게 요청하여 캐시 내에 복사를 하고 사용자에게 되돌려 준다. 이때 캐시의 용량 초과로 인해 새로운 도큐먼트를 기존의 도큐먼트와 교체하기 위해 도큐먼트 교체정책(replacement policy)을 사용한다. 일반적인 교체정책에는 도큐먼트를 기반으로 한 LRU기법이나 LFU기법 등이 있고, 그 밖의 여러 가지 교체정책을 사용하여 캐시내의 도큐먼트를 효과적으로 교체한다. 하지만. 위의 교체정책은 사이트의 인기도를 고려하지 않고 도큐먼트 요청 시간과 빈도수 만을 고려하여 교체정책을 수행한다. 따라서 본 논문에서는 요청이 빈번한 도큐먼트와 사이트의 인기도를 고려한 교체정책을 사용하여 요청이 빈번하지 않은 도큐먼트를 효과적으로 교체함으로써 캐시의 적중률(hit-ratio)을 높이고, 캐시의 내용을 효과적으로 관리할 수 있는 현대적인 네트워크 환경에 적합한 도큐먼트 교체정책인 웹사이트의 인기도를 고려한 도큐먼트 교체 정책을 제시한다.

  • PDF