• Title/Summary/Keyword: 웹 링크 분석

Search Result 133, Processing Time 0.024 seconds

Understanding Web Designer′s Knowledge Structure for WWW (웹 페이지 설계자의 WWW에 대한 지식구조)

  • 곽철완
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.35 no.2
    • /
    • pp.171-185
    • /
    • 2001
  • The purpose of this study was to identify web designer's knowledge organization for WWW. Linked web sites were investigated in public library web pages. Independent variable was the supervised offices of public libraries and dependent variables were the web sites of type of public libraries, supervised offices of public libraries, and employment information. Results showed that special library and supervised office web sites were linked differently by public library web pages differently based upon supervised offices. This difference was resulted from geographical factors and types of information on the web sites.

  • PDF

Design and Study on Structure of Storage for Web Search Engine (웹 정보 검색 엔진을 위한 저장구조의 설계 및 실험)

  • Lee, Dong-Kwang;Ahn, Dong-Un;Chung, Sung-Jong
    • Annual Conference of KIPS
    • /
    • 2002.04a
    • /
    • pp.539-542
    • /
    • 2002
  • 인터넷의 발달은 월드 와이드 웹을 탄생 시켰고 그로 인한 인터넷의 폭발적 성장은 인터넷을 하나의 생활로 만들었다. 인터넷의 엄청난 자료의 양과 친숙해진 인터넷으로 인해 인터넷은 하나의 정보창구의 역할을 하게 되었고, 그에 따라 정보검색이 발전하게 되었다. 초기의 월드 와이드 웹은 많은 웹 문서가 아니었지만, 구글이 현재 20억 페이지를 색인할 만큼 엄청난 규모가 되었다. 또한 앞으로의 검색 엔진은 정보나, 웹상의 링크 정보를 통한 그 문서의 중요도를 분석하여 문서의 중요도를 판단하게 될 것이며, 지금까지의 검색엔진의 저장구조와는 다른 구조를 가지게 될 것이다. 그에 따라 웹 정보검색엔진의 저장구조는 효율적 저장과 속도 향상을 위해 중요한 구조가 되어가고 있다. 본 논문에서는 검색엔진의 저장구조에 따른 용량의 변화와 앞으로의 웹 검색엔진에서 등장할 기능인 문서의 정보나, 문서간의 링크 정보를 통한 문서의 중요도 분석 등을 수행할 수 있는 저장구조를 만들어보고 실험해 보았다.

  • PDF

Focused Crawler using Ontology and Sentence Analysis (문장 분석 및 온톨로지를 이용한 Focused Crawler)

  • 최광복;김현주;강진범;홍광희;양재영;최중민
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.100-102
    • /
    • 2004
  • 월드 와이드 웹의 보편화로 인하여 급속하게 증가하고 변화하는 웹 문서는 검색엔진으로 하여금 색인된 웹 문서와 현재의 웹 문서의 일관성을 유지할 수 없을 정도이다. 이러한 문제를 해결하기 위한 방법으로 연구되고 있는 것이 특정한 주제를 정하고 정해진 주제에 관련된 문서를 수집할 수 있는 focused crawler가 제시되고 있다. 지금까지 다양한 접근방법의 focused crawler가 개발되었지만, 모두 웹 링크를 이용하여 연결되어 있는 문서를 평가하는 처리과정을 거치고 있다. 그러나 이러한 과정은 다양한 내용을 포함하고 있는 문서일 경우 관련내용이 존재함에도 문서가 버려지거나 사용되더라도 문서상의 모든 링크를 사용하여 처리하는 비효율적인 문제점이 발생한다. 이 논문에서는 웰 문서 내부에 포함되어 있는 정보를 온톨로지를 이용하여 평가함으로써 다양한 내용을 가진 문서에서 사용자가 원하는 정보를 찾을 수 있을 뿐만 아니라 정보와 관련된 링크만을 사용하여 보다 효율적이고 정확한 문서를 수집하고자 한다.

  • PDF

A Spam Mail Classification Using Link Structure Analysis (링크구조분석을 이용한 스팸메일 분류)

  • Rhee, Shin-Young;Khil, A-Ra;Kim, Myung-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.1
    • /
    • pp.30-39
    • /
    • 2007
  • The existing content-based spam mail filtering algorithms have difficulties in filtering spam mails when e-mails contain images but little text. In this thesis we propose an efficient spam mail classification algorithm that utilizes the link structure of e-mails. We compute the number of hyperlinks in an e-mail and the in-link frequencies of the web pages hyperlinked in the e-mail. Using these two features we classify spam mails and legitimate mails based on the decision tree trained for spam mail classification. We also suggest a hybrid system combining three different algorithms by majority voting: the link structure analysis algorithm, a modified link structure analysis algorithm, in which only the host part of the hyperlinked pages of an e-mail is used for link structure analysis, and the content-based method using SVM (support vector machines). The experimental results show that the link structure analysis algorithm slightly outperforms the existing content-based method with the accuracy of 94.8%. Moreover, the hybrid system achieves the accuracy of 97.0%, which is a significant performance improvement over the existing method.

Design of Web Searching Robot Engine Using Distributed Processing Method Application to Javascript Function Processing (자바스크립트 함수 처리가 가능한 분산처리 방식의 웹 수집 로봇의 설계)

  • Kim, Dae-Yu;Nanm, Ki-Hyo;Kim, Jung-Tae
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.05a
    • /
    • pp.289-292
    • /
    • 2008
  • 기존의 웹 수집 로봇에서 처리하지 못하는 자바스크립트 함수 링크를 처리하기 위하여 인터넷 익스플로러의 "Active Script Engine"을 사용하였다. 또한 자바스크립트 함수 링크를 처리 하였을 경우 웹 수집 로봇의 수집량을 측정하기 위하여 웹 수집 로봇을 개발하였다. 웹 수집 로봇을 개발하기 위해서 구글봇과 네이봇 등 웹 수집 로봇의 구조를 파악하여, 수집 로봇에 활용되는 구성요소를 구현하고 분산처리형태의 웹 수집 로봇을 설계하여 개발했다. 또한 개발된 웹 로봇에 제안된 자바스크립트 처리 모델을 추가하여 성능 평가를 하였다. 성능평가 방법은 자바스크립트를 사용하는 웹사이트의 게시판을 대상으로 하여 웹 수집량을 비교 분석하는 것이다. 웹사이트 게시물 1000개인 경우, 일반 웹 로봇의 경우에는 1페이지밖에 수집하지 못하였고, 제안된 웹 로봇의 경우 1000개 이상의 웹 페이지를 수집하는 결과를 얻었다.

  • PDF

Performance Improvement of Information Retrieval System through Weight Adjustment of Hypertext and Link Structure Analysis (하이퍼 텍스트의 가중치 조절과 링크 구조 분석 기법을 통한 검색 엔진 성능 개선)

  • Lee, Sang-Ho;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.108-112
    • /
    • 2003
  • 웹 문서의 가장 큰 특징 중 하나는 링크 구조이다. 이 링크들을 이용하여 전체 웹 문서를 커다란 하나의 네트워크로 구성할 수 있으며 이러한 네트워크를 분석함으로써 보다 중요한 문서, 보다 유용한 사이트를 찾아낼 수 있다. 전통적인 검색 모델인 벡터 모델의 성능 개선을 위해 이러한 링크 분석 기법을 활용하여 검색 정확도를 향상시키기 위한 방법을 제안한다. 또한 하이퍼 텍스트는 보다 정확한 키워드를 포함할 확률이 높으므로, 이를 가중치 계산에 적용하여 보다 정확한 결과를 산출한다.

  • PDF

A Webometric Study on Scholarly Communication Between the Science and Technology Web Spaces of Korea and Japan (한국.일본의 과학기술 분야 웹 공간을 통한 학술커뮤니케이션 연구)

  • Kim, Ja-Euy;Chung, Young-Mee
    • Journal of Information Management
    • /
    • v.40 no.2
    • /
    • pp.1-24
    • /
    • 2009
  • This study explored the scientific web spaces of Korea and Japan by applying webmetric and social network analysis techniques with the aim of ascertaining international scholarly communication characteristics between the two countries. In general, more links were generated from the Korean scientific web sites to the Japanese sites than those from the opposite direction, thus implying a higher usage of Japanese scientific information on the web in Korean sites. In addition, university sites in the two countries were highly linked on the web revealing the most active institutions in scholarly communication were the universities. Based on the link analysis, the study also indicated which country was more dependent on the other in scholarly communication in specific scientific fields.

Design and Implementation of Automatic Linking Support System for Efficient Generating and Retrieving Integrated Documents Based on Web (웹 통합문서의 효율적 생성과 검색을 위한 자동링크지원 시스템의 설계 및 구축)

  • Lee, Won-Jung;Jung, Eun-Jae;Joo, Su-Chong;Lee, Seung-Yong
    • The KIPS Transactions:PartA
    • /
    • v.10A no.2
    • /
    • pp.93-100
    • /
    • 2003
  • With the advent of distributed computing and Web service technologies, lots of users have been requiring services that can conveniently obtain and/or support well-assembled information based on Web. For this reason, we are to construct Automatic Linking Support Systems for generating Web-based integrated information and supporting retrieval information according to user's various requirements. Our system organization is based on client/server system. A server environment consisted of automatic linking engine that can provide lexical analyzing, query processing and integrated document generating functions, and databases that are made of dictionaries, image and URL contents. Also, client environments consisted of Web editor that can generate integrated documents and Web helper that can retrieve them via automatic linking engine and databases. For client's user-friendly interfaces, web editor and helper programs can directly execute by down leading from a server without setup them before inside clients. For reducing server's overheads, Parts of server's executing modules are distributed to clients on which they can be executing. As an implementation of our system, we use the JDK 1.3, SWING for user interfaces like Web editor and helper, RMI mechanism for interaction between clients and a server, and SQL server 7.0 for database development, respectively. Finally, we showed the access procedures of automatic document linking engine and databases from Web editor or Web helper, and results appearing on their screens.

A Method for Testing Web pages Using the Analysis of User Behavioral Pattern and Web Document Structures (사용자 행동 패턴과 웹 문서 구조 분석을 이용한 웹 폐이지 테스팅 방법)

  • 유대승;심민석;엄정섭;이명재
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.547-549
    • /
    • 2001
  • 웹 기반 시스템의 테스팅에 대한 정확성과 신뢰성을 향상시키는 것은 시스템의 질을 향상시킬 수 있고 시스템 개발 및 유지보수에 대한 비용을 현저히 줄일 수 있다. 본 논문에서는 웹 로그 분석을 통하여 테스팅 환경 설정에 필요한 정보와 사용자들에 대한 패턴 정보를 추출하였다. 그리고 웹 컨텐츠 분석을 통하여 링크 정보와 데이터베이스에 대한 접근 또는 사용자 입력을 요구하는 모듈에 대한 정보를 추출하였다. 추출한 정보를 이용하여 테스팅을 위한 시나리오 문서인 테스트 스크립트를 생성함으로써 실세계에 근접한 테스트 시뮬레이션을 구현하는 방법을 제시하였다.

  • PDF

Clustering of Web Document Exploiting with the Co-link in Hypertext (동시링크를 이용한 웹 문서 클러스터링 실험)

  • 김영기;이원희;권혁철
    • Journal of Korean Library and Information Science Society
    • /
    • v.34 no.2
    • /
    • pp.233-253
    • /
    • 2003
  • Knowledge organization is the way we humans understand the world. There are two types of information organization mechanisms studied in information retrieval: namely classification md clustering. Classification organizes entities by pigeonholing them into predefined categories, whereas clustering organizes information by grouping similar or related entities together. The system of the Internet information resources extracts a keyword from the words which appear in the web document and draws up a reverse file. Term clustering based on grouping related terms, however, did not prove overly successful and was mostly abandoned in cases of documents used different languages each other or door-way-pages composed of only an anchor text. This study examines infometric analysis and clustering possibility of web documents based on co-link topology of web pages.

  • PDF