• Title/Summary/Keyword: URL Pattern

Search Result 17, Processing Time 0.035 seconds

A Method of Efficient Web Crawling Using URL Pattern Scripts (URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안)

  • Chang, Moon-Soo;Jung, June-Young
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.17 no.6
    • /
    • pp.849-854
    • /
    • 2007
  • It is difficult that we collect only target documents from the Innumerable Web documents. One of solution to the problem is that we select target documents on the Web site which services many documents of target domain. In this paper, we will propose an intelligent crawling method collecting needed documents based on URL pattern script defined by XML. Proposed crawling method will efficiently apply to the sites which service structuralized information of a piece with database. In this paper, we collected 50 thousand Web documents using our crawling method.

A Method of Selective Crawling for Web Document Using URL Pattern (URL 패턴을 이용한 웹문서의 선택적 자동수집 방안)

  • Jeong, Jun-Yeong;Jang, Mun-Su
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.41-44
    • /
    • 2007
  • 특정 분야별로 구축되는 온톨로지에 관하여 그 언스턴스를 쉽고 빠르게 구축하기 위해서는 구조화된 문서를 이용하는 것이 효율적이다. 그러나, 일반적인 웹 문서는 모든 분야에 대하여 다양한 형식으로 표현되어 존재하기 때문에, 대상이 되는 구조 문서를 자동으로 수집하기는 쉽지 않다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 구조화된 형태로 정보를 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

  • PDF

A Study on the Standardization of URL Identifier Pattern for Digital Contents (디지털 콘텐츠의 URL 식별패턴 표준화에 관한 연구)

  • 김문정;이두영
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.265-270
    • /
    • 2001
  • 아날로그 환경에서와 마찬가지로 디지털 환경에서도 디지털 컨텐츠 하나 하나에 고유 식별기호를 부여하여야 한다. 이러한 디지털 컨텐츠를 위한 식별기호로 IETF(Internet Engineering Task Force)에서는 URI(Uniform Resource Identifier)체계 하에 인터넷 자원에 대한 접근 메카니즘을 지정하는 URL (uniform resource locator)을 사용하고 있다. 그러나 도서관의 경우 각각 다른 OPAC(Online Public Access)시스템 환경 하에서 각각 다른 URL 식별 패턴을 사용하고 있기 때문에 동일한 자원을 검색하는데 있어서 문제가 되고 있는 것이 현실이다. 이러한 문제에 착안하여 본 연구는 디지털 콘텐츠에 대한 URL 식별구문패턴의 표준화 방안을 연구하고자 한다.

  • PDF

Design of detection method for malicious URL based on Deep Neural Network (뉴럴네트워크 기반에 악성 URL 탐지방법 설계)

  • Kwon, Hyun;Park, Sangjun;Kim, Yongchul
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.5
    • /
    • pp.30-37
    • /
    • 2021
  • Various devices are connected to the Internet, and attacks using the Internet are occurring. Among such attacks, there are attacks that use malicious URLs to make users access to wrong phishing sites or distribute malicious viruses. Therefore, how to detect such malicious URL attacks is one of the important security issues. Among recent deep learning technologies, neural networks are showing good performance in image recognition, speech recognition, and pattern recognition. This neural network can be applied to research that analyzes and detects patterns of malicious URL characteristics. In this paper, performance analysis according to various parameters was performed on a method of detecting malicious URLs using neural networks. In this paper, malicious URL detection performance was analyzed while changing the activation function, learning rate, and neural network structure. The experimental data was crawled by Alexa top 1 million and Whois to build the data, and the machine learning library used TensorFlow. As a result of the experiment, when the number of layers is 4, the learning rate is 0.005, and the number of nodes in each layer is 100, the accuracy of 97.8% and the f1 score of 92.94% are obtained.

Design of Dynamic Web Content Publishing System using URL Pattern (URL 패턴을 이용한 동적 웹 컨텐트 출판 시스템의 설계)

  • Cho, Jae-Ho;Koo, Heung-Seo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1773-1776
    • /
    • 2002
  • 기업의 웹사이트가 비즈니스의 중요한 부분으로 정착되면서 급격히 증가한 웹사이트의 컨텐트를 관리하기 위한 CMS의 필요성이 급증하였다. 그러나 CMS의 출판은 기존의 출판 방식과 비교하여 추가적인 처리과정으로 인한 성능 저하의 문제점이 있다. 본 논문에서는 XML 기반 CMS의 효율적인 동적 웹 컨텐트 출판을 지원하기 위하여 XML 기반의 CMS의 출판에서 필요한 컨텐트 저장소로부터 XML 객체의 추출과 XSLT를 이용한 HTML 변환의 추가적인 처리과정을 전처리하여 컨텐트 컴포넌트를 생성 및 캐싱함으로써 효율적인 출판을 지원하고, 동적 컨텐트 캐싱의 효율성을 높이기 위하여 URL 패턴을 이용한 페이지와 컴포넌트의 그룹화 관리를 지원하는 출판 시스템을 설계하였다.

  • PDF

Automatic Content Generation for Mobile Commerce based on Product Information Retrieval Function (상품 정보 검색 기능을 기반으로 하는 모바일 전자상거래를 위한 자동화 컨텐츠 생성)

  • Jang, Hyun-Su;Lee, Eun-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.473-476
    • /
    • 2004
  • 본 논문에서는 M-Commerce의 빠른 성장에도 불구하고, M-Commerce만을 위해 제작되어진 Contents 제공의 한계로 인하여 M-Commerce 활성화에 많은 어려움이 있다. 이와 같은 문제점을 줄이기 위한 해결책으로 기존에 연구되고 있는 M-Commerce 시스템에 URL Pattern 분석을 통해서 인터넷 상의 상점 정보 및 상품 디스플레이 URL 정보를 자동으로 수집하기 위한 UMM(URL Management Module)을 제안한다. 이 UMM의 적용으로 인하여 상품 검색을 해온 결과 기존 연구되고 있는 M-Commerce 시스템의 상품 검색보다 더 나아졌다. 이와 같은 상품 검색효율성의 개선은 실험을 통하여 알 수 있었다.

  • PDF

Design for Information Retrieving Agent System for Ship Sale and Purchase (선박매매정보 추출 에이전트 시스템 구조 설계에 관한 연구)

  • Park, Nam-Kyu
    • Journal of Navigation and Port Research
    • /
    • v.26 no.3
    • /
    • pp.337-344
    • /
    • 2002
  • Although the number of site for ship sale and purchase are increasing year by year, we can not find the agent system for retrieving the necessary data automatically and efficiently. The object of this paper is to find the design structure of the intelligent agent systems by using wrapper technology. This paper is composed of two contents : design of retrieving system for agent and its application to ship sale and purchase. This paper will be evaluated in terms that its target domain is ship sale and purchase. In the result of the study, agent process is composed of reading URL, taking the source data, processing tag, pattern analysis, and storing the contents analysed.

A Study on Focused Crawling of Web Document for Building of Ontology Instances (온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구)

  • Chang, Moon-Soo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.1
    • /
    • pp.86-93
    • /
    • 2008
  • The construction of ontology defines as complicated semantic relations needs precise and expert skills. For the well defined ontology in real applications, plenty of information of instances for ontology classes is very critical. In this study, crawling algorithm which extracts the fittest topic from the Web overflowing over by a great number of documents has been focused and developed. Proposed crawling algorithm made a progress to gather documents at high speed by extracting topic-specific Link using URL patterns. And topic fitness of Link block text has been represented by fuzzy sets which will improve a precision of the focused crawler.

A Study on the Identifier Pattern of Digital Contents of the Journal (학술지 디지털 콘텐츠 식별패턴에관한 연구)

  • Kim, Moon-Jung
    • Journal of Information Management
    • /
    • v.33 no.2
    • /
    • pp.67-94
    • /
    • 2002
  • With the development of modern society, we are all living in a world where information is shared through mass media and environment. Just as there was an identifier for the approach of information in the past analog environment, there is a demand for the continuous development and research of an original identifier for each and every digital contents of the changing digital environment. In order to present the need for standardization of effective construction concerning digital contents, this study examines the identifiers system structure of ISBN and ISSN of the analog environment and URL, URN, URC, which are under the URI system of the digital environment. After analyzing the problems of different URL identifiers construction in each university library's OPAC system, this study presents a standard device of effective identifiers patterns.

The Suggestion of a New Control Method for SPAM Mail Prevention Solution (스팸 메일 차단솔루션의 새로운 제어 방식 제안)

  • 김민홍;두창호
    • Journal of the Korea Computer Industry Society
    • /
    • v.5 no.4
    • /
    • pp.453-460
    • /
    • 2004
  • SPAM mails become a serious social problem all of the world and the products for SPAM prevention are coming to the market. This study classifies the existing SPAM prevention solutions according to the patterns to be set up and the judging SPAM methods, and analyses the merits and demerits of them. This study also draws problems of the existing SPAM Prevention solutions and suggests a new URL Prefetch method, a new filtering method which have been out of use. And it draws synergistic effects of SPAM prevention by this new method and suggests SPAM Prevention solution by HTML Pattern method

  • PDF