• Title/Summary/Keyword: URL 패턴

Search Result 27, Processing Time 0.02 seconds

A Study on the Standardization of URL Identifier Pattern for Digital Contents (디지털 콘텐츠의 URL 식별패턴 표준화에 관한 연구)

  • 김문정;이두영
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.265-270
    • /
    • 2001
  • 아날로그 환경에서와 마찬가지로 디지털 환경에서도 디지털 컨텐츠 하나 하나에 고유 식별기호를 부여하여야 한다. 이러한 디지털 컨텐츠를 위한 식별기호로 IETF(Internet Engineering Task Force)에서는 URI(Uniform Resource Identifier)체계 하에 인터넷 자원에 대한 접근 메카니즘을 지정하는 URL (uniform resource locator)을 사용하고 있다. 그러나 도서관의 경우 각각 다른 OPAC(Online Public Access)시스템 환경 하에서 각각 다른 URL 식별 패턴을 사용하고 있기 때문에 동일한 자원을 검색하는데 있어서 문제가 되고 있는 것이 현실이다. 이러한 문제에 착안하여 본 연구는 디지털 콘텐츠에 대한 URL 식별구문패턴의 표준화 방안을 연구하고자 한다.

  • PDF

A Method of Efficient Web Crawling Using URL Pattern Scripts (URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안)

  • Chang, Moon-Soo;Jung, June-Young
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.17 no.6
    • /
    • pp.849-854
    • /
    • 2007
  • It is difficult that we collect only target documents from the Innumerable Web documents. One of solution to the problem is that we select target documents on the Web site which services many documents of target domain. In this paper, we will propose an intelligent crawling method collecting needed documents based on URL pattern script defined by XML. Proposed crawling method will efficiently apply to the sites which service structuralized information of a piece with database. In this paper, we collected 50 thousand Web documents using our crawling method.

A Method of Selective Crawling for Web Document Using URL Pattern (URL 패턴을 이용한 웹문서의 선택적 자동수집 방안)

  • Jeong, Jun-Yeong;Jang, Mun-Su
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.41-44
    • /
    • 2007
  • 특정 분야별로 구축되는 온톨로지에 관하여 그 언스턴스를 쉽고 빠르게 구축하기 위해서는 구조화된 문서를 이용하는 것이 효율적이다. 그러나, 일반적인 웹 문서는 모든 분야에 대하여 다양한 형식으로 표현되어 존재하기 때문에, 대상이 되는 구조 문서를 자동으로 수집하기는 쉽지 않다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 구조화된 형태로 정보를 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

  • PDF

A Study on the Identifier Pattern of Digital Contents of the Journal (학술지 디지털 콘텐츠 식별패턴에관한 연구)

  • Kim, Moon-Jung
    • Journal of Information Management
    • /
    • v.33 no.2
    • /
    • pp.67-94
    • /
    • 2002
  • With the development of modern society, we are all living in a world where information is shared through mass media and environment. Just as there was an identifier for the approach of information in the past analog environment, there is a demand for the continuous development and research of an original identifier for each and every digital contents of the changing digital environment. In order to present the need for standardization of effective construction concerning digital contents, this study examines the identifiers system structure of ISBN and ISSN of the analog environment and URL, URN, URC, which are under the URI system of the digital environment. After analyzing the problems of different URL identifiers construction in each university library's OPAC system, this study presents a standard device of effective identifiers patterns.

A Spam Filter System based on Maximum Entropy Model Using Spamness Features and URL Features (스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸메일 필터 시스템)

  • Gong, Mi-Gyoung;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.213-219
    • /
    • 2006
  • 본 논문에서는 스팸메일에 나타나는 스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸 필터 시스템을 제안한다. 스팸성 자질은 스패머들이 스팸메일에 인위적으로 넣는 강조 패턴이나 필터 시스템을 통과하기 위해 비정상적으로 변형시킨 단어들을 말한다. 스팸성 자질 외에 반복적으로 나타나는 URL과 비정상적인 Ink도 자질로 사용하였다. 메일 수신자에게 추가적인 정보 제공을 목적으로 하이퍼링크로 연결시키거나 메일에 직접 타이핑한 URL 중 필터 시스템을 피하기 위해 유효하지 알은 비정상적인 URL들이 스팸 메일을 걸러내는데 도움을 줄 수 있기 때문이다. 또한 스팸성 자질과 URL을 각각 적용한 두 분류기를 통합하였다. 분류기의 통합은 각 분류기에 이용된 자질을 독립적으로 사용할 수 있다는 장점을 가지고 있다. 실험 결과를 통해 스팸성 자질과 URL을 이용함으로써 스팸 필터 시스템의 성능을 향상시킬 수 있음을 확인할 수 있었다.

  • PDF

A Spam Filter System Based on Maximum Entropy Model Using Co-training with Spamminess Features and URL Features (스팸성 자질과 URL 자질의 공동 학습을 이용한 최대 엔트로피 기반 스팸메일 필터 시스템)

  • Gong, Mi-Gyoung;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.15B no.1
    • /
    • pp.61-68
    • /
    • 2008
  • This paper presents a spam filter system using co-training with spamminess features and URL features based on the maximum entropy model. Spamminess features are the emphasizing patterns or abnormal patterns in spam messages used by spammers to express their intention and to avoid being filtered by the spam filter system. Since spammers use URLs to give the details and make a change to the URL format not to be filtered by the black list, normal and abnormal URLs can be key features to detect the spam messages. Co-training with spamminess features and URL features uses two different features which are independent each other in training. The filter system can learn information from them independently. Experiment results on TREC spam test collection shows that the proposed approach achieves 9.1% improvement and 6.9% improvement in accuracy compared to the base system and bogo filter system, respectively. The result analysis shows that the proposed spamminess features and URL features are helpful. And an experiment result of the co-training shows that two feature sets are useful since the number of training documents are reduced while the accuracy is closed to the batch learning.

Design of detection method for malicious URL based on Deep Neural Network (뉴럴네트워크 기반에 악성 URL 탐지방법 설계)

  • Kwon, Hyun;Park, Sangjun;Kim, Yongchul
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.5
    • /
    • pp.30-37
    • /
    • 2021
  • Various devices are connected to the Internet, and attacks using the Internet are occurring. Among such attacks, there are attacks that use malicious URLs to make users access to wrong phishing sites or distribute malicious viruses. Therefore, how to detect such malicious URL attacks is one of the important security issues. Among recent deep learning technologies, neural networks are showing good performance in image recognition, speech recognition, and pattern recognition. This neural network can be applied to research that analyzes and detects patterns of malicious URL characteristics. In this paper, performance analysis according to various parameters was performed on a method of detecting malicious URLs using neural networks. In this paper, malicious URL detection performance was analyzed while changing the activation function, learning rate, and neural network structure. The experimental data was crawled by Alexa top 1 million and Whois to build the data, and the machine learning library used TensorFlow. As a result of the experiment, when the number of layers is 4, the learning rate is 0.005, and the number of nodes in each layer is 100, the accuracy of 97.8% and the f1 score of 92.94% are obtained.

Design of Dynamic Web Content Publishing System using URL Pattern (URL 패턴을 이용한 동적 웹 컨텐트 출판 시스템의 설계)

  • Cho, Jae-Ho;Koo, Heung-Seo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1773-1776
    • /
    • 2002
  • 기업의 웹사이트가 비즈니스의 중요한 부분으로 정착되면서 급격히 증가한 웹사이트의 컨텐트를 관리하기 위한 CMS의 필요성이 급증하였다. 그러나 CMS의 출판은 기존의 출판 방식과 비교하여 추가적인 처리과정으로 인한 성능 저하의 문제점이 있다. 본 논문에서는 XML 기반 CMS의 효율적인 동적 웹 컨텐트 출판을 지원하기 위하여 XML 기반의 CMS의 출판에서 필요한 컨텐트 저장소로부터 XML 객체의 추출과 XSLT를 이용한 HTML 변환의 추가적인 처리과정을 전처리하여 컨텐트 컴포넌트를 생성 및 캐싱함으로써 효율적인 출판을 지원하고, 동적 컨텐트 캐싱의 효율성을 높이기 위하여 URL 패턴을 이용한 페이지와 컴포넌트의 그룹화 관리를 지원하는 출판 시스템을 설계하였다.

  • PDF

Dynamic Hashing Method for A Wireless Internet Proxy Server Cluster (무선 인터넷 프록시 서버 클러스터를 위한 동적 해싱 기법)

  • Kwak, Hu-Keun;Chung, Kyu-Sik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.526-531
    • /
    • 2006
  • 무선 인터넷 프록시 서버 클러스터는 성능 및 저장 공간의 확장성이 보장되어야 한다. 일반적으로 사용되는 RR 스케줄링의 경우 성능의 확장성은 보장되지만, 요청 URL 데이터의 중복 저장으로 인해 저장 공간의 확장성이 없는 단점을 가진다. 또한 저장 공간의 확장성을 위해 많이 사용되는 해싱 스케줄링의 경우, 요청 URL이 캐시 서버에 고정되어 있어 사용자의 요청 패턴 혹은 Hot-Spot 시에 성능의 확장성이 없는 단점을 가진다. 이에 본 논문에서는 성능 및 저장 공간의 확장성을 보장하는 새로운 동적 해싱 기법을 제안한다. 제안된 동적 해싱 기법은 캐시 서버의 부하 상태에 따라 요청 URL을 캐시 서버들 사이로 이동함으로써 사용자의 요청 패턴 혹은 Hot-Spot 시에 성능의 확장성을 보장한다. 제안된 방법은 16대의 컴퓨터를 사용하여 실험을 수행하였고, 실험 결과를 통해 제안된 방법이 기존 방법에 비해 성능 및 저장 공간의 확장성을 보장함을 확인하였다.

  • PDF

A Study on Focused Crawling of Web Document for Building of Ontology Instances (온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구)

  • Chang, Moon-Soo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.1
    • /
    • pp.86-93
    • /
    • 2008
  • The construction of ontology defines as complicated semantic relations needs precise and expert skills. For the well defined ontology in real applications, plenty of information of instances for ontology classes is very critical. In this study, crawling algorithm which extracts the fittest topic from the Web overflowing over by a great number of documents has been focused and developed. Proposed crawling algorithm made a progress to gather documents at high speed by extracting topic-specific Link using URL patterns. And topic fitness of Link block text has been represented by fuzzy sets which will improve a precision of the focused crawler.