• 제목/요약/키워드: Page Rank Algorithm

검색결과 41건 처리시간 0.023초

페이지랭크 알고리즘 적용을 위한 구현 기술 (Implementation Techniques to Apply the PageRank Algorithm)

  • 김성진;이상호;방지환
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.745-754
    • /
    • 2002
  • 1998년에 등장한 구글 검색 사이트(http://www.google.com)에 처음 소개된 페이지랭크 알고리즘은 웹 문서들의 연결 구조에 기반하여 문서들간의 순위를 부여하는 방법이다. 페이지랭크 알고리즘은 상용 검색 엔진에서 구현되어 사용되고 있으나, 상업상의 이유들로 인하여 구현 기법에 관한 연구 결과는 거의 발표되지 않고 있다. [4,8]에서 소개된 페이지랭크 알고리즘의 구현 기법은 웹 문서들의 페이지랭크 값을 산출하기에 충분하지 않다. 본 논문은 페이지랭크 알고리즘의 구현 기법[4,8]을 설명하고, 이를 적용하는데 필요한 입/출력 자료 구조 및 4가지 주요 구현 기술을 제시한다. 본 논문은 실제 웹 문서의 페이지랭크 값을 산출하는 시스템을 예로 들어 페이지랭크 알고리즘을 적용하는 방법에 대한 이해를 돕도록 하였다.

PageRank 변형 알고리즘들 간의 순위 품질 평가 (Ranking Quality Evaluation of PageRank Variations)

  • 팜민득;허준석;이정훈;황규영
    • 전자공학회논문지CI
    • /
    • 제46권5호
    • /
    • pp.14-28
    • /
    • 2009
  • PageRank 알고리즘은 구글(Google)등의 검색 엔진에서 웹 페이지의 순위(rank)를 정하는 중요한 요소이다. PageRank 알고리즘의 순위 품질(ranking quality)을 향상시키기 위해 많은 변형 알고리즘들이 제안되었지만 어떤 변형 알고리즘(혹은 변형 알고리즘들간의 조합)이 가장 좋은 순위 품질을 제공하는지가 명확하지 않다. 본 논문에서는 PageRank 알고리즘의 잘 알려진 변형 알고리즘들과 그들 간의 조합들에 대해 순위 품질을 평가한다. 이를 위해, 먼저 변형 알고리즘들을 웹의 링크(link) 구조를 이용하는 링크기반 방법(Link-based approaches)과 웹의 의미 정보를 이용하는 지식기반 방법(Knowledge-based approaches)으로 분류한다. 다음으로, 이 두 가지 방법에 속하는 알고리즘들을 조합한 알고리즘들을 제안하고, 변형 알고리즘들과 그들을 조합한 알고리즘들을 구현한다. 백만 개의 웹 페이지들로 구성된 실제 데이터에 대한 실험을 통해 PageRank의 변형 알고리즘들과 그들 간의 조합들로부터 가장 좋은 순위 품질을 제공하는 알고리즘을 찾는다.

PageRank 알고리즘을 이해하기 위한 언플러그드 활동 (An Unplugged Activity to Understand the PageRank Algorithm)

  • 박영기
    • 정보교육학회논문지
    • /
    • 제22권4호
    • /
    • pp.409-417
    • /
    • 2018
  • 현재 초등학생에게 인터넷을 가르칠 수 있는 여러 언플러그드 활동들이 개발되어 있다. 그러나 이 활동들은 인터넷의 작동 원리를 가르치는 것이 주목적이기 때문에, 초등학생들에게 웹(Web)의 개념을 알려주기에는 충분하지 않다. 웹은 인터넷처럼 제3차 산업혁명의 핵심 기술일 뿐만 아니라 학생들이 매일 접하는 기술이기 때문에 기본 상식으로 알아둘 필요가 있다. 본 논문에서는 초등학생에게 웹을 이해시키기 위해, PageRank 알고리즘의 원리를 이해하는 언플러그드 활동을 개발하였다. 개발된 언플러그드 활동은 실제 PageRank 알고리즘을 상당히 높은 정확도로 모사한다는 것을 실험적으로 나타내었다.

페이지랭크 알고리즘의 재검토 : 놈-누수 현상과 해결 방법 (Revisiting PageRank Computation: Norm-leak and Solution)

  • 김성진;이상호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권3호
    • /
    • pp.268-274
    • /
    • 2005
  • 페이지랭크 알고리즘은 웹 문서들을 효과적으로 랭킹(ranking)하는 것으로 알려져 있다. 페이지랭크 알고리즘은 그 유용함에도 불구하고 경우에 따라 문서의 페이지랭크 값을 본래 값보다 작게 계산하는 현상을 유발한다. 본 논문에서는 이러한 현상을 놈-누수(norm-leak)라 명명하고, 웹 문서의 페이지 랭크 값을 정확히 산출하는 개선된 페이지랭크 알고리즘과 효율적인 구현방법을 제시한다. 또한, 약 67,000,000개의 실제 웹 문서들에 기존의 페이지랭크 알고리즘과 개선된 페이지랭크 알고리즘을 적용하여 그 결과를 비교 평가한다.

문서간의 유사도를 이용한 개선된 PageRank 알고리즘 (Improved PageRank Algorithm Using Similarity Information of Documents)

  • 이경희;김민구;박승규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.169-171
    • /
    • 2003
  • 웹에서의 검색 방법에는 크게 Text-Based 기법과 Link-Based 기법이 있다. 본 논문은 그 중에서 Link-Based 기법의 하나인 PageRank 알고리즘에 대해 연구 하고자 한다. 이 PageRank 알고리즘은 각 페이지의 중요성을 수치로 계산하는 방법이다. 하지만 이 알고리즘에서는 페이지에서 페이지로 링크를 따라갈 확률의 값을 일정하게 주어서 모든 페이지의 값을 획일적으로 계산하였기 때문에 각 페이지의 검색 효율성에 문제가 있다고 판단하여, 이를 해결하고자 본 논문은 페이지사이의 유사도를 측정하여 유사도에 따라 링크를 따라가는 확률 값인 Damping factor값을 다르게 부여하여 검색의 효율성을 높였다. 이를 위하여 두 가지 방법의 실험을 통하여 구현, 증명하였다.

  • PDF

하이퍼텍스트 정보 관점에서 의도적으로 왜곡된 웹 페이지의 검출에 관한 연구 (Detecting Intentionally Biased Web Pages In terms of Hypertext Information)

  • 이우기
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.59-66
    • /
    • 2005
  • 웹(World Wide Web)은 정보의 저장 및 검색에 있어서 보편적인 매체가 되고 있다 웹에서는 일반적으로 검색엔진(Web search engine)을 통해 정보 검색을 수행하지만, 그 결과가 사용자의 요구와 늘 일치하는 것은 아니며 때로는 의도적으로 조작된 검색 결과가 제시되기도 한다. 웹 페이지에 대한 평가를 조작하는 것을 의도적 조작이라고 부른다. 최근에 가장 각광을 받는 링크 기반 검색 방식에는 의도적 조작이 상대적으로 어렵지만, 링크 기반 검색 방식의 대표격인 구글의 페이지 점수법(PageRank algorithm)도 구글밤처럼 조작할 수 있는 방법이 있다 본 논문에서는 기본적으로 링크 기반 검색 방식을 기초로 웹을 하나의 유향그래프(directed graph)로 인식하여 각 웹 페이지들은 하나의 노드로, 하이퍼텍스트 링크를 에지(edge)로 표현하며. 하이퍼텍스트 정보관점에서 링크 내역과 대상 페이지(target page) 사이의 유사도(similarity)를 구하고. 이것을 이용하여 페이지 점수화 (PageRank) 접근법의 전이 행렬(transition matrix)을 재구성하는 방법을 취했다 결과적으로 기존의 점수화 방법과 비교하여 효과가 $60\%$ 이상 될 수 있음을 입증했다.

  • PDF

특허 인용 네트워크 분석 (Patent citation network analysis)

  • 이민정;김용대;장원철
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.613-625
    • /
    • 2016
  • 과학 기술의 발전은 사회를 급격하게 변화시켜 왔다. 특허 자료 분석은 현대 과학 기술의 흐름을 이해하고 미래 유망기술을 예측할 수 있게 한다. 본 연구에서는 기술의 동향을 파악하고자 1985년과 2012년 사이에 미국 특허청에 등록된 특허를 중심으로 특허 인용 네트워크를 분석한다. 주요 기술군을 파악하기 위해 PageRank 알고리즘 외에 다양한 중심성 지표를 이용하고, 통계적 네트워크 모형을 통해 유사한 기술들의 군집을 찾아내고자 한다.

링크내역을 이용한 페이지점수법 알고리즘 (PageRank Algorithm Using Link Context)

  • 이우기;신광섭;강석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.708-714
    • /
    • 2006
  • 웹은 정보의 저장 및 검색에 있어서 보편적인 매체가 되고 있다. 웹에서 정보 검색은 검색엔진을 출발점으로 이용하는 것이 대부분이지만, 그 결과는 사용자의 요구와 늘 일치하는 것은 아니며 때로는 의도적으로 조작된 검색 결과가 제시되기도 한다. 검색엔진의 데이타를 의도적으로 조작하는 것을 스패밍(spamming)이라고 부르며, 다양한 스패밍과 방지기술이 있지만, 최근에 각광을 받고있는 링크기반 검색 방식에는 스패밍이 쉽지 않은 것으로 알려져 있다. 그러나 이러한 방식에서도 구글폭탄(Google Bombing)과 같이 페이지점수법(PageRank)을 조작할 수 있는 약점이 있다. 본 논문에서는 이러한 약점을 방지할 수 있는 알고리즘을 제시한다. 기본적으로 링크 기반 검색 방식을 기초로 하여 웹을 하나의 유향 레이블 그래프로 인식하여 각 웹 페이지들은 하나의 노드로, 하이퍼링크는 에지로 표현함에 있어서 본 연구에서는 링크구조를 기반으로 링크내역(link context)을 부여하고 이를 에지의 레이블로 사용한다. 링크내역과 대상 페이지 사이의 유사도를 구하고, 이것을 이용하여 페이지점수법의 인접행렬을 재구성하는 방법을 취했다. 결과로써 기존의 방법 및 특이값 추출기법(SVD)에 기반한 새로운 기준을 도입해 그 효과를 입증했다.

링크 분석에 기반한 웹 문서 중요도 평가 알고리즘의 구현 (An Implementation of the Ranking Algorithm for Web Documents based on Link Analysis)

  • 임성채
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.75-78
    • /
    • 2010
  • 웹 검색에는 기존의 정보검색(Information Retrieval) 시스템에서와 다르게 문서 간 하이퍼링크 정보를 바탕으로 각 웹 문서의 고유 중요도를 추정하는 방식이 자주 이용된다. 링크 분석에 기반한 알고리즘 중 PageRank 알고리즘은 구글의 웹 검색 서비스에 적용된 것으로 알려져 있다. 이런 PageRank 알고리즘에 따라 중요도를 계산하는 경우 색인된 웹 문서수가 증가함에 따라 계산에 필요한 CPU 자원의 사용도 함께 증가하며, 문서 수가 수 억 페이지에 달하면 하나의 서버에서는 계산을 수행할 수 없다는 문제가 있다. 본 논문에서는 이런 문제점을 해소하기 위해 여러 대의 서버를 PageRank 계산 용 클러스터로 사용할 수 있는 방법을 제시한다. 제시된 방법은 고속의 LAN을 이용하여 여러 대의 서버를 연결하고 반복적인 행렬 계산을 병렬로 수행할 수 있어 계산 시간을 단축시킬 수 있다. 이런 서버 클러스터 구현을 위해 멀티 쓰레딩 프로그램이 작성되었으며, PageRank 계산에 사용되는 행렬 데이터를 적은 양의 메모리만으로 표현 가능하도록 하였다.

  • PDF

PageRank 알고리즘을 활용한 사이버표적 중요성 순위 선정 방안 연구 (A research on cyber target importance ranking using PageRank algorithm)

  • 김국진;오승환;이동환;오행록;이정식;신동규
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.115-127
    • /
    • 2021
  • 전 세계적으로 과학기술의 발달에 따라 육·해·공·우주에 이어 사이버공간이라는 영역 또한 전장 영역으로 인식되고 있다. 이에 따라 육·해·공·우주에서 이루어지는 물리적 작전뿐만 아니라 사이버공간에서 이루어지는 사이버 작전 수행을 위한 정의, 체계, 절차, 계획 등 다양한 요소를 설계·수립해야 한다. 본 연구에서는 사이버 작전의 표적처리(Targeting) 중 표적개발 및 우선순위 부여 단계에서 중간표적개발을 통해 선정한 사이버 표적 목록에 대한 우선순위를 부여할 때 고려할 수 사이버 표적의 중요성을 고려 요소로 선정하여 이에 대한 점수를 산출, 사이버 표적 우선순위 선정 점수의 일부로 활용하는 방안을 제시한다. 이에 따라, 사이버 표적 우선순위 부여 과정에서 사이버 표적 중요성 범주를 설정하고, 사이버 표적 중요성 개념 및 기준항목을 도출한다. 도출된 기준항목별 점수산정 및 종합을 위해 PageRank 알고리즘을 기반으로 Event Prioritization Framework 등의 매개변수를 종합한 TIR(Target Importance Rank) 알고리즘을 제안한다. 그리고 스턱스넷 사례 기반 네트워크 토폴로지 및 시나리오 데이터를 구성하여 제안된 알고리즘으로 사이버 표적 중요성 점수를 도출하고 사이버 표적의 우선순위를 선정하여 제안된 알고리즘을 검증한다.