• 제목/요약/키워드: URL Pattern

검색결과 17건 처리시간 0.024초

URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안 (A Method of Efficient Web Crawling Using URL Pattern Scripts)

  • 장문수;정준영
    • 한국지능시스템학회논문지
    • /
    • 제17권6호
    • /
    • pp.849-854
    • /
    • 2007
  • 수많은 웹문서 중에서 원하는 문서만을 수집하는 것은 쉽지 않다. 이것을 해결하는 한 방법은 원하는 분야의 정보를 많이 제공하는 사이트에서 원하는 부분만 골라서 수집하는 것이다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 데이터베이스와 같은 구조화된 자료를 정보로 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

URL 패턴을 이용한 웹문서의 선택적 자동수집 방안 (A Method of Selective Crawling for Web Document Using URL Pattern)

  • 정준영;장문수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.41-44
    • /
    • 2007
  • 특정 분야별로 구축되는 온톨로지에 관하여 그 언스턴스를 쉽고 빠르게 구축하기 위해서는 구조화된 문서를 이용하는 것이 효율적이다. 그러나, 일반적인 웹 문서는 모든 분야에 대하여 다양한 형식으로 표현되어 존재하기 때문에, 대상이 되는 구조 문서를 자동으로 수집하기는 쉽지 않다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 구조화된 형태로 정보를 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

  • PDF

디지털 콘텐츠의 URL 식별패턴 표준화에 관한 연구 (A Study on the Standardization of URL Identifier Pattern for Digital Contents)

  • 김문정;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.265-270
    • /
    • 2001
  • 아날로그 환경에서와 마찬가지로 디지털 환경에서도 디지털 컨텐츠 하나 하나에 고유 식별기호를 부여하여야 한다. 이러한 디지털 컨텐츠를 위한 식별기호로 IETF(Internet Engineering Task Force)에서는 URI(Uniform Resource Identifier)체계 하에 인터넷 자원에 대한 접근 메카니즘을 지정하는 URL (uniform resource locator)을 사용하고 있다. 그러나 도서관의 경우 각각 다른 OPAC(Online Public Access)시스템 환경 하에서 각각 다른 URL 식별 패턴을 사용하고 있기 때문에 동일한 자원을 검색하는데 있어서 문제가 되고 있는 것이 현실이다. 이러한 문제에 착안하여 본 연구는 디지털 콘텐츠에 대한 URL 식별구문패턴의 표준화 방안을 연구하고자 한다.

  • PDF

뉴럴네트워크 기반에 악성 URL 탐지방법 설계 (Design of detection method for malicious URL based on Deep Neural Network)

  • 권현;박상준;김용철
    • 융합정보논문지
    • /
    • 제11권5호
    • /
    • pp.30-37
    • /
    • 2021
  • 사물인터넷 등을 통하여 각종 기기들이 인터넷으로 연결되어 있고 이로 인하여 인터넷을 이용한 공격이 발생하고 있다. 그러한 공격 중 악성 URL를 이용하여 사용자에게 잘못된 피싱 사이트로 접속하게 하거나 악성 바이러스를 유포하는 공격들이 있다. 이러한 악성 URL 공격을 탐지하는 방법은 중요한 보안 이슈 중에 하나이다. 최근 딥러닝 기술 중 뉴럴네트워크는 이미지 인식, 음성 인식, 패턴 인식 등에 좋은 성능을 보여주고 있고 이러한 뉴럴네트워크를 이용하여 악성 URL 탐지하는 분야가 연구되고 있다. 본 논문에서는 뉴럴네트워크를 이용한 악성 URL 탐지 성능을 각 파라미터 및 구조에 따라서 성능을 분석하였다. 뉴럴네트워크의 활성화함수, 학습률, 뉴럴네트워크 모델 등 다양한 요소들에 따른 악성 URL 탐지 성능에 어떠한 영향을 미치는 지 분석하였다. 실험 데이터는 Alexa top 1 million과 Whois에서 크롤링하여 데이터를 구축하였고 머신러닝 라이브러리는 텐서플로우를 사용하였다. 실험결과로 층의 개수가 4개이고 학습률이 0.005이고 각 층마다 노드의 개수가 100개 일 때, 97.8%의 accuracy와 92.94%의 f1 score를 갖는 것을 볼 수 있었다.

URL 패턴을 이용한 동적 웹 컨텐트 출판 시스템의 설계 (Design of Dynamic Web Content Publishing System using URL Pattern)

  • 조재호;구흥서
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1773-1776
    • /
    • 2002
  • 기업의 웹사이트가 비즈니스의 중요한 부분으로 정착되면서 급격히 증가한 웹사이트의 컨텐트를 관리하기 위한 CMS의 필요성이 급증하였다. 그러나 CMS의 출판은 기존의 출판 방식과 비교하여 추가적인 처리과정으로 인한 성능 저하의 문제점이 있다. 본 논문에서는 XML 기반 CMS의 효율적인 동적 웹 컨텐트 출판을 지원하기 위하여 XML 기반의 CMS의 출판에서 필요한 컨텐트 저장소로부터 XML 객체의 추출과 XSLT를 이용한 HTML 변환의 추가적인 처리과정을 전처리하여 컨텐트 컴포넌트를 생성 및 캐싱함으로써 효율적인 출판을 지원하고, 동적 컨텐트 캐싱의 효율성을 높이기 위하여 URL 패턴을 이용한 페이지와 컴포넌트의 그룹화 관리를 지원하는 출판 시스템을 설계하였다.

  • PDF

상품 정보 검색 기능을 기반으로 하는 모바일 전자상거래를 위한 자동화 컨텐츠 생성 (Automatic Content Generation for Mobile Commerce based on Product Information Retrieval Function)

  • 장현수;이은석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.473-476
    • /
    • 2004
  • 본 논문에서는 M-Commerce의 빠른 성장에도 불구하고, M-Commerce만을 위해 제작되어진 Contents 제공의 한계로 인하여 M-Commerce 활성화에 많은 어려움이 있다. 이와 같은 문제점을 줄이기 위한 해결책으로 기존에 연구되고 있는 M-Commerce 시스템에 URL Pattern 분석을 통해서 인터넷 상의 상점 정보 및 상품 디스플레이 URL 정보를 자동으로 수집하기 위한 UMM(URL Management Module)을 제안한다. 이 UMM의 적용으로 인하여 상품 검색을 해온 결과 기존 연구되고 있는 M-Commerce 시스템의 상품 검색보다 더 나아졌다. 이와 같은 상품 검색효율성의 개선은 실험을 통하여 알 수 있었다.

  • PDF

선박매매정보 추출 에이전트 시스템 구조 설계에 관한 연구 (Design for Information Retrieving Agent System for Ship Sale and Purchase)

  • 박남규
    • 한국항해항만학회지
    • /
    • 제26권3호
    • /
    • pp.337-344
    • /
    • 2002
  • 선박매매사이트가 증가하고 있지만, 필요한 정보를 쉽게 찾아주는 에이전트에 관한 연구는 부족하다. 본 연구는 사이버공간상에 흩어져 있는 선박정보를 손쉽게 찾을 수 있는 지능형 에이젼트의 설계 구조를 정의하는 연구로서 Wrapper 방식의 설계기법을 사용하였다. 본 연구가 추구하고자 하는 것은 선박매매 전자상거래 시스템의 매매대상 선박을 정보추출 에이전트를 이용하여 선박정보를 선택적으로 추출, 이를 소비자에게 제공하는 선박매매용 정보추출 에이전트의 기능을 시험적으로 설계하는 것이다. 특히 본 연구는 사이버 해운거래시스템이 실현되는 환경 하에서 이를 활성화하기 방안으로 B2B 선박매매 분야에 적용하였다는 점에서 의의가 있다. 본 연구의 결과 에이전트의 프로세스는 URL 읽기, 해당 URL 원시 데이터 가져오기, 태그처리 프로세스, 패턴분석 및 분석내용 저장하기로 구성되어 있음을 파악하였다. 또한 설계전략으로 "URL페이지 읽기" 프로세스와 "소스분석" 프로세스의 연계성 정도에 따라 분리시키거나 연계시킬 수 있음을 파악하였으며, 각각의 장단점이 비교 검토되었다.

온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구 (A Study on Focused Crawling of Web Document for Building of Ontology Instances)

  • 장문수
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.86-93
    • /
    • 2008
  • 복잡한 의미관계를 정의하는 온톨로지를 구축하는 일은 매우 정밀하고 전문적인 작업이다. 잘 구축된 온톨로지를 응용 시스템에 활용하기 위해서는 온톨로지 클래스에 대한 많은 인스턴스 정보를 구축해야 한다. 본 논문은 온톨로지 인스턴스 정보 추출을 위하여 방대한 양의 웹 문서로부터 주어진 주제에 적합한 문서만을 추출하는 주제 중심 웹 문서 수집 알고리즘을 제안하고, 이 알고리즘을 바탕으로 문서 수집 시스템을 개발한다. 제안하는 문서 수집 알고리즘은 URL의 패턴을 이용하여 주제에 적합한 링크만을 추출함으로써 빠른 속도의 문서 수집을 가능하게 한다. 또한 링크 블록 텍스트에 대한 퍼지집합으로 표현된 주제 적합도는 문서의 주제 관련성을 지능적으로 판단하여 주제 중심 문서 수집의 정확도를 향상시킨다.

학술지 디지털 콘텐츠 식별패턴에관한 연구 (A Study on the Identifier Pattern of Digital Contents of the Journal)

  • 김문정
    • 정보관리연구
    • /
    • 제33권2호
    • /
    • pp.67-94
    • /
    • 2002
  • 현대 사회의 발전과 더불어 수많은 매체나 환경을 통해 정보를 접하고 공유하며 살아가고 있다. 그러나 디지털 정보원에 대한 식별패턴이 도서관에서 사용하는 정보시스템에 따라 각기 다르다는 문제점을 지니고 있다. 이에 본 연구는 신속하고 편리한 디지털 콘텐츠의 검색을 위하여 아날로그 환경에서의 식별체제와 인터넷 자원을 대상으로 한 디지털 콘텐츠의 식별체제와 현황을 고찰하였다. 또한 OPAC 환경에서의 학술지 검색의 식별패턴 구조의 문제점을 분석하여 식별패턴 표준화의 필요성을 제시하고자 한다. 디지털 콘텐츠에 대한 효과적인 식별구문의 표준화 필요성을 제시하기 위해 본 연구는 아날로그 환경에서의 ISBN, ISSN과 디지털 환경에서의 URI체계 하의 URL, URN, URC의 식별체제 구조를 고찰하였다. 각 대학도서관 OPAC 시스템의 상이한 URL 식별 구문으로 인한 문제점을 분석한 후 효과적인 식별패턴에 대한 표준안을 제시하였다.

스팸 메일 차단솔루션의 새로운 제어 방식 제안 (The Suggestion of a New Control Method for SPAM Mail Prevention Solution)

  • 김민홍;두창호
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권4호
    • /
    • pp.453-460
    • /
    • 2004
  • 스팸메일은 최근 전 세계적으로 사회문제가 되고 있으며, 이에 대한 차단 솔루션에 대한 개발 제품이 출시되고 있다. 본 논문은 기존 스팸메일 방지 솔루션을 설치 형태에 따른 분류, 장단점 분석과 스팸의 판정 법에 따른 분류 고찰하였다. 이에 기존 스팸메일 솔루션의 문제점을 도출하고 현재 적용되지 않은 새로운 필터링 방법인 URL Prefetch 방식을 새롭게 제안하고 이에 따른 방법에 의한 실험을 통한 스팸메일 차단 상승효과를 도출하고, 또한 HTML 유형 방식에 의한 차단방법도 함께 제안한다.

  • PDF