• Title/Summary/Keyword: 페이지랭크

Search Result 45, Processing Time 0.026 seconds

Revisiting PageRank Computation: Norm-leak and Solution (페이지랭크 알고리즘의 재검토 : 놈-누수 현상과 해결 방법)

  • Kim, Sung-Jin;Lee, Sang-Ho
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.11 no.3
    • /
    • pp.268-274
    • /
    • 2005
  • Since introduction of the PageRank technique, it is known that it ranks web pages effectively In spite of its usefulness, we found a computational drawback, which we call norm-leak, that PageRank values become smaller than they should be in some cases. We present an improved PageRank algorithm that computes the PageRank values of the web pages correctly as well as its efficient implementation. Experimental results, in which over 67 million real web pages are used, are also presented.

PageRanking of Newly Crawled Web Documents (추가 수집 웹 문서를 위한 페이지랭크 할당 모델)

  • Oh, Eun-Jung;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.228-234
    • /
    • 2002
  • 사용자가 얻고자 하는 정보를 인터넷에서 빠르고 정확하게 검색하는 것은 중요하다. 웹 문서들 간의 상대적인 중요성을 나타내는 페이지랭크는 검객의 질을 높일 수 있어, 정보 검색에 많이 이용된다. 인터넷상의 웹 문서는 짧은 시간에 빠르게 증가하므로 새로운 문서들이 생성될 때마다 전체 문서의 페이지랭크를 계산하는 것은 많은 시간과 비용이 소모된다. 기존 웹 문서의 페이지랭크는 변경하지 않고 추가된 웹 문서들만으로 페이지랭크를 계산할 수 있다면 시간과 비용면에서 효율을 높일 수 있다. 본 논문에서는 추가되는 문서는 이전 문서의 페이지랭크에 많은 영향을 미치지 않는다는 점을 이용하여 추가되는 문서를 위한 페이지랭크를 할당 모델을 제시하고 평가한다.

  • PDF

Implementation Techniques to Apply the PageRank Algorithm (페이지랭크 알고리즘 적용을 위한 구현 기술)

  • Kim, Sung-Jin;Lee, Sang-Ho;Bang, Ji-Hwan
    • The KIPS Transactions:PartD
    • /
    • v.9D no.5
    • /
    • pp.745-754
    • /
    • 2002
  • The Google search site (http://www.google.com), which was introduced in 1998, implemented the PageRank algorithm for the first time. PageRank is a ranking method based on the link structure of the Web pages. Even though PageRank has been implemented and being used in various commercial search engines, implementation details did not get documented well, primarily due to business reasons. Implementation techniques introduced in [4,8] are not sufficient to produce PageRank values of Web pages. This paper explains the techniques[4,8], and suggests major data structure and four implementation techniques in order to apply the PageRank algorithm. The paper helps understand the methods of applying PageRank algorithm by means of showing a real system that produces PageRank values of Web pages.

Journal PageRank Calculation in the Korean Science Citation Database (국내 인용 데이터베이스에서 저널 페이지랭크 측정 방안)

  • Lee, Jae-Yun
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.22 no.4
    • /
    • pp.361-379
    • /
    • 2011
  • This paper aims to propose the most appropriate method for calculating the journal PageRank in a domestic citation database. Korean journals show relatively high journal self-citation ratios and have many outgoing citations to external journals which are not included in the domestic citation database. Because the PageRank algorithm requires recursive calculation to converge, those two characteristics of domestic citation databases must be accounted for in order to measure the citation impact of Korean journals. Therefore, two PageRank calculation methods and four formulas for self-citation adjustment have been examined and tested for KSCD journals. The results of the correlation analysis and regression analysis show that the SCImago Journal Rank formula with the cr2 type self-citation adjustment method seems to be a more appropriate way to measure the relative impact of domestic journals in the Korean Science Citation Database.

Performance Analysis of Web-Crawler in Multi-thread Environment (다중 쓰레드 환경에서 웹 크롤러의 성능 분석)

  • Park, Jung-Woo;Kim, Jun-Ho;Lee, Won-Joo;Jeon, Chang-Ho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.473-476
    • /
    • 2009
  • 본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

  • PDF

A Reranking Method Using Query Expansion and PageRank Check (페이지 랭크지수와 질의 확장을 이용한 재랭킹 방법)

  • Kim, Tae-Hwan;Jeon, Ho-Chul;Choi, Joong-Min
    • The KIPS Transactions:PartB
    • /
    • v.18B no.4
    • /
    • pp.231-240
    • /
    • 2011
  • Many search algorithms have been implemented by many researchers on the world wide web. One of the best algorithms is Google using PageRank technology. PageRank approach computes the number of inlink of each documents then ranks documents in the order of inlink members. But it is difficult to find the results that user needs, because this method find documents not valueable for a person but valueable for the public. To solve this problem, We use the WordNet for analysis of the user's query history. This paper proposes a personalized search engine using the user's query history and PageRank Check. We compared the performance of the proposed approaches with google search results in the top 30. As a result, the average of the r-precision for the proposed approaches is about 60% and it is better as about 14%.

Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank (페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측)

  • Choi, Jonghwan;Ahn, Jaegyoon
    • Journal of KIISE
    • /
    • v.45 no.1
    • /
    • pp.61-68
    • /
    • 2018
  • The identification of genes that contribute to the prediction of prognosis in patients with cancer is one of the challenges in providing appropriate therapies. To find the prognostic genes, several classification models using gene expression data have been proposed. However, the prediction accuracy of cancer prognosis is limited due to the heterogeneity of cancer. In this paper, we integrate microarray data with biological network data using a modified PageRank algorithm to identify prognostic genes. We also predict the prognosis of patients with 6 cancer types (including breast carcinoma) using the K-Nearest Neighbor algorithm. Before we apply the modified PageRank, we separate samples by K-Means clustering to address the heterogeneity of cancer. The proposed algorithm showed better performance than traditional algorithms for prognosis. We were also able to identify cluster-specific biological processes using GO enrichment analysis.

A Worm Containing Strategy Using Social Network and PageRank (소셜 네트워크와 페이지랭크를 이용한 웜 전파 방지 기법)

  • Kang, Dong-Hwa;Park, Ji-Yeon;Cho, Yoo-Kun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.98-100
    • /
    • 2012
  • 모바일 웜의 전파 속도는 시간이 지날수록 급격히 빨라진다. 급속도로 전파하는 웜을 억제하기 위한 연구가 계속 진행되어 왔다. 기존 연구 중 하나로 소셜 네트워크를 그래프(Graph)로 표현하고 분할한 뒤 각 파티션의 대표노드(Key Node)를 선택해 웜 패치를 전파하는 기법이 있다. 이 기법은 패치 전파 속도를 웜 전파 속도보다 빠르게 해서 웜을 억제 시킨다. 하지만 이 기법에서는 대표노드에 가중치(Weight)가 낮은 간선(Edge)이 연결 될 수 있거나 대표노드가 없는 파티션이 생길 수 있다. 잘못된 대표노드 선정은 패치 전파속도를 저하시키고 웜 억제를 지연시킬 수 있다. 본 논문에서는 페이지랭크를 이용해서 대표노드를 선정하는 개선된 소셜 네트워크 기반의 웜 패칭 기법을 제안한다. 제안 기법은 웜 패칭 전략에 사용할 수 있도록 수정한 페이지랭크를 각 파티션에 적용해서 대표노드를 선정한다. 파티션마다 전파 능력이 가장 높은 노드가 대표노드로 선정되기 때문에 웜 패치 전파 속도를 향상시킬 수 있다.

The Effective Blog Search Algorithm based on the Structural Features in the Blogspace (블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘)

  • Kim, Jung-Hoon;Yoon, Tae-Bok;Lee, Jee-Hyong
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.7
    • /
    • pp.580-589
    • /
    • 2009
  • Today, most web pages are being created in the blogspace or evolving into the blogspace. A blog entry (blog page) includes non-traditional features of Web pages, such as trackback links, bloggers' authority, tags, and comments. Thus, the traditional rank algorithms are not proper to evaluate blog entries because those algorithms do not consider the blog specific features. In this paper, a new algorithm called "Blog-Rank" is proposed. This algorithm ranks blog entries by calculating bloggers' reputation scores, trackback scores, and comment scores based on the features of the blog entries. This algorithm is also applied to searching for information related to the users' queries in the blogspace. The experiment shows that it finds the much more relevant information than the traditional ranking algorithms.

Stepwise Visualization of Web Search Results (웹 검색 결과의 단계별 시각화)

  • Son, Seok-Hyun;Shin, Hyo-Seop;Xu, Zhiwei
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.320-324
    • /
    • 2008
  • 웹 검색 결과 중, 어느 경우에나 첫 번째로 나타나는 결과 페이지가 모든 사용자에게 필요한 웹 페이지를 제공하지는 않는다. 그러한 경우, 사용자는 자신이 원하는 웹 페이지를 찾기 위해 질의를 수정하거나 다음 페이지로 넘기는 수고를 해야만 한다. 이러한 경우, 하위에 랭크 된 웹 페이지가 사용자에게 원하는 정보를 줄 수가 있는데, 본 논문에서는 하위 랭크이지만 사용자에게 원하는 정보를 제공할 수 있는 웹 페이지(Low-Ranked But, Potent Pages)를 효율적으로 찾을 수 있는 웹 검색 결과의 단계별 시각화를 제시한다. 실험에서는, 여러 질의를 통해 본 논문에서 제안하는 단계별 시각화 웹 검색을 평가한다.

  • PDF