Detecting Intentionally Biased Web Pages In terms of Hypertext Information

하이퍼텍스트 정보 관점에서 의도적으로 왜곡된 웹 페이지의 검출에 관한 연구

  • 이우기 (한국재활복지대학 정보보안과)
  • Published : 2005.03.01

Abstract

The organization of the web is progressively more being used to improve search and analysis of information on the web as a large collection of heterogeneous documents. Most people begin at a Web search engine to find information. but the user's pertinent search results are often greatly diluted by irrelevant data or sometimes appear on target but still mislead the user in an unwanted direction. One of the intentional, sometimes vicious manipulations of Web databases is a intentionally biased web page like Google bombing that is based on the PageRank algorithm. one of many Web structuring techniques. In this thesis, we regard the World Wide Web as a directed labeled graph that Web pages represent nodes and link edges. In the Present work, we define the label of an edge as having a link context and a similarity measure between link context and target page. With this similarity, we can modify the transition matrix of the PageRank algorithm. By suggesting a motivating example, it is explained how our proposed algorithm can filter the Web intentionally biased web Pages effective about $60\%% rather than the conventional PageRank.

웹(World Wide Web)은 정보의 저장 및 검색에 있어서 보편적인 매체가 되고 있다 웹에서는 일반적으로 검색엔진(Web search engine)을 통해 정보 검색을 수행하지만, 그 결과가 사용자의 요구와 늘 일치하는 것은 아니며 때로는 의도적으로 조작된 검색 결과가 제시되기도 한다. 웹 페이지에 대한 평가를 조작하는 것을 의도적 조작이라고 부른다. 최근에 가장 각광을 받는 링크 기반 검색 방식에는 의도적 조작이 상대적으로 어렵지만, 링크 기반 검색 방식의 대표격인 구글의 페이지 점수법(PageRank algorithm)도 구글밤처럼 조작할 수 있는 방법이 있다 본 논문에서는 기본적으로 링크 기반 검색 방식을 기초로 웹을 하나의 유향그래프(directed graph)로 인식하여 각 웹 페이지들은 하나의 노드로, 하이퍼텍스트 링크를 에지(edge)로 표현하며. 하이퍼텍스트 정보관점에서 링크 내역과 대상 페이지(target page) 사이의 유사도(similarity)를 구하고. 이것을 이용하여 페이지 점수화 (PageRank) 접근법의 전이 행렬(transition matrix)을 재구성하는 방법을 취했다 결과적으로 기존의 점수화 방법과 비교하여 효과가 $60\%$ 이상 될 수 있음을 입증했다.

Keywords