• 제목/요약/키워드: web documents

검색결과 832건 처리시간 0.028초

Numerical Formula and Verification of Web Robot for Collection Speedup of Web Documents

  • 김원;김영기;진용욕
    • 인터넷정보학회논문지
    • /
    • 제5권6호
    • /
    • pp.1-10
    • /
    • 2004
  • A web robot is a software that has abilities of tracking and collecting web documents on the Internet(l), The performance scalability of recent web robots reached the limit CIS the number of web documents on the internet has increased sharply as the rapid growth of the Internet continues, Accordingly, it is strongly demanded to study on the performance scalability in searching and collecting documents on the web. 'Design of web robot based on Multi-Agent to speed up documents collection ' rather than 'Sequentially executing Web Robot based on the existing Fork-Join method' and the results of analysis on its performance scalability is presented in the thesis, For collection speedup, a Multi-Agent based web robot performs the independent process for inactive URL ('Dead-links' URL), which is caused by overloaded web documents, temporary network or web-server disturbance, after dividing them into each agent. The agents consist of four component; Loader, Extractor, Active URL Scanner and inactive URL Scanner. The thesis models a Multi-Agent based web robot based on 'Amdahl's Law' to speed up documents collection, introduces a numerical formula for collection speedup, and verifies its performance improvement by comparing data from the formula with data from experiments based on the formula. Moreover, 'Dynamic URL Partition algorithm' is introduced and realized to minimize the workload of the web server by maximizing a interval of the web server which can be a collection target.

  • PDF

웹 에이전트를 이용한 웹기반 교수-학습 시스템의 설계 및 개발 (An Implementation and Design Web-Based Instruction-Learning System Using Web Agent)

  • 김갑수;이건민
    • 정보교육학회논문지
    • /
    • 제5권1호
    • /
    • pp.69-78
    • /
    • 2001
  • 최근에, 컴퓨터를 이용한 학습은 CAI 환경에서 WBI 학습 환경으로 옮아가고 있다. WBI 학습에 필요한 대부분의 웹 문서는 검색 엔진을 이용하여 얻는다. 교수자는 검색한 웹 문서의 사용가능성을 평가한 후 학습 자료로 사용한다. 그러나 이런 교수-학습 과정은 다음과 같은 문제점이 있다. 첫째, 교수자에 의해 선정된 웹 문서를 반복해서 검색한다. 둘째, 웹 문서를 학습자에게 제시하기 위한 별도의 교수 설계 과정이 필요하다. 셋째, 학습자의 평가 결과와 웹 문서 사이의 관련성 분석이 매우 어렵다. 본 연구에서는 WBI 학습에 필요한 웹 문서를 검색하고 학습자에게 학습 과정을 안내하는 WAILS(Web Agent Instruction Learning System)를 제안한다. WAILS는 웹 에이전트를 이용하여 WBI 학습에 필요한 웹 문서를 수집한다. 교수자는 수집한 웹 문서를 평가하고 교수-학습 생성기를 통해 학습자에게 제시한다. 교수자는 WAILS를 이용하여 웹 문서의 검색과 교수-학습 설계를 동시에 하게 된다. 이는 WBI 학습을 더욱 촉진시키게 된다.

  • PDF

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 (Intelligent Web Crawler for Supporting Big Data Analysis Services)

  • 서동민;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.575-584
    • /
    • 2013
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.

스타일에 따른 웹 문서의 자동 분류 (Automatic Classification of Web documents According to their Styles)

  • 이공주;임철수;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.555-562
    • /
    • 2004
  • 스타일 또는 장르는 문서의 주제와는 다른 문서를 보는 또 하나의 관점이 될 수 있다. 그렇기 때문에 문서의 스타일은 문서 분류의 기준으로 사용될 수 있다. 문서의 스타일에 따른 자동 분류 시스템에 대한 여러 연구들이 수행되어 왔다. 그러나 이런 연구들의 대부분이 일반 문서를 대상으로 수행하였으며, 몇몇 일부의 연구만이 웹 문서를 대상으로 스타일 분류에 대한 연구를 수행하였다. 웹 문서는 일반 문서와는 달리 URL HTML을 갖고 있다. 본 연구에서는 이와 같은 URL과 HTML로부터 추출한 자질들을 웹 문서의 스타일 분류에 사용해 보고자 한다. 실험을 통해서 이와 같은 자질들이 웹 문서의 스타일 분류에 어떤 영향을 미치는지를 밝혀보고자 한다.

Document Classification Model Using Web Documents for Balancing Training Corpus Size per Category

  • Park, So-Young;Chang, Juno;Kihl, Taesuk
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.268-273
    • /
    • 2013
  • In this paper, we propose a document classification model using Web documents as a part of the training corpus in order to resolve the imbalance of the training corpus size per category. For the purpose of retrieving the Web documents closely related to each category, the proposed document classification model calculates the matching score between word features and each category, and generates a Web search query by combining the higher-ranked word features and the category title. Then, the proposed document classification model sends each combined query to the open application programming interface of the Web search engine, and receives the snippet results retrieved from the Web search engine. Finally, the proposed document classification model adds these snippet results as Web documents to the training corpus. Experimental results show that the method that considers the balance of the training corpus size per category exhibits better performance in some categories with small training sets.

하이퍼링크를 이용한 그래프 기반의 웹 문서 클러스터링 (Web Document Clustering based on Graph using Hyperlinks)

  • 이준;강진범;최중민
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.590-595
    • /
    • 2009
  • 인터넷 상의 웹 문서의 수가 기하급수적으로 늘어남에 따라서, 정보검색에서의 웹 문서 클러스터링은 성능과 속도가 매우 중요하게 되었다. 웹 문서 클러스터링은 의미적으로 관계가 있는 웹 문서들을 같은 클러스터로 군집함으로써 정보 검색을 보다 빠르고, 정보를 정확하게 제공할 수 있다. 그물망 그래프 형태의 클러스터링은 모든 문서간의 유사도를 측정함으로써 재현율을 높일 수 있지만, 높은 계산 비용을 갖는다. 본 논문에서는 그물망 형태의 클러스터링의 재현율과 정확율을 유지하며 계산 비용을 줄이기 위하여, 웹 문서의 구조적 특징인 하이퍼링크(Hyperlinks)를 이용한 클러스터링 방법을 제안한다.

  • PDF

An Improved Approach to Ranking Web Documents

  • Gupta, Pooja;Singh, Sandeep K.;Yadav, Divakar;Sharma, A.K.
    • Journal of Information Processing Systems
    • /
    • 제9권2호
    • /
    • pp.217-236
    • /
    • 2013
  • Ranking thousands of web documents so that they are matched in response to a user query is really a challenging task. For this purpose, search engines use different ranking mechanisms on apparently related resultant web documents to decide the order in which documents should be displayed. Existing ranking mechanisms decide on the order of a web page based on the amount and popularity of the links pointed to and emerging from it. Sometime search engines result in placing less relevant documents in the top positions in response to a user query. There is a strong need to improve the ranking strategy. In this paper, a novel ranking mechanism is being proposed to rank the web documents that consider both the HTML structure of a page and the contextual senses of keywords that are present within it and its back-links. The approach has been tested on data sets of URLs and on their back-links in relation to different topics. The experimental result shows that the overall search results, in response to user queries, are improved. The ordering of the links that have been obtained is compared with the ordering that has been done by using the page rank score. The results obtained thereafter shows that the proposed mechanism contextually puts more related web pages in the top order, as compared to the page rank score.

URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안 (A Method of Efficient Web Crawling Using URL Pattern Scripts)

  • 장문수;정준영
    • 한국지능시스템학회논문지
    • /
    • 제17권6호
    • /
    • pp.849-854
    • /
    • 2007
  • 수많은 웹문서 중에서 원하는 문서만을 수집하는 것은 쉽지 않다. 이것을 해결하는 한 방법은 원하는 분야의 정보를 많이 제공하는 사이트에서 원하는 부분만 골라서 수집하는 것이다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 데이터베이스와 같은 구조화된 자료를 정보로 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

웹 문서 분석에 근거한 유해 웹 문서 검출 (Detecting Harmful Web Documents Based on Web Document Analyses)

  • 김광현;최정미;이준호
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.683-688
    • /
    • 2005
  • 인터넷에 공개된 수 많은 웹 문서들에는 유익한 정보를 제공하는 웹 문서들뿐만 아니라, 음란 정보와 관련된 불건전한 유해 웹 문서들이 다수 포함되어 있으며, 본 연구에서는 이러한 유해 웹 문서들을 효과적으로 검출할 수 있는 방법을 제안한다. 즉, 유해 웹 문서들의 분석을 통하여 유해 웹 문서 선정을 위한 평가 항목들을 도출하고, 각 평가 항목별 유해 점수 부여를 위한 평가 기준을 제시한다. 그리고, 유해 점수들의 총합이 임계값 이상인 웹 문서를 유해 웹 문서로 검출한다. 본 연구의 결과는 유해 웹 문서들로부터 이용자를 보호하고 인터넷 사용의 안전성을 향상시키는데 기여할 것으로 기대된다.

웹에서 SMIL 기반 멀티미디어 문서의 동적 생성 (Dynamic Generation of SMIL based Multimedia Documents on the Web)

  • 김경덕
    • 한국멀티미디어학회논문지
    • /
    • 제4권5호
    • /
    • pp.439-445
    • /
    • 2001
  • 본 논문에서는 SMIL 기반 멀티미디어 문서를 웹에서 동적으로 생성하는 방법을 제안한다. 생성되는 멀티미디어 문서는 W3C에서 권장하는 SMIL(Synchronized Multimedia Integration Language)을 사용한다. 제안한 방법은 사용자 프로파일에 따라 자동적으로 XSLT 문서를 생성한 후, 미리 작성된 XML 문서와 결합하여 SMIL 문서를 실시간으로 생성한다. 기존 대부분의 웹 문서가 HTML에 기반함으로써 재사용성 및 문서에 포함되는 객체들의 동기적 관계의 지원이 어렵지만, 제안된 방법은 XML에 기반함으로써 재사용성을 지원하고 SMIL에 기반한 다양한 멀티미디어 문서를 효율적으로 생성한다. 적용한 예로서, 원격 강의에서 학습자에 따라 문서 생성 시스템을 보였으며, 응용 분야로는 전자 상거래, 원격 강의, 웹기반 멀티미디어 문서 편집 등이다.

  • PDF