• 제목/요약/키워드: 페이지랭크

검색결과 45건 처리시간 0.03초

페이지랭크 알고리즘의 재검토 : 놈-누수 현상과 해결 방법 (Revisiting PageRank Computation: Norm-leak and Solution)

  • 김성진;이상호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권3호
    • /
    • pp.268-274
    • /
    • 2005
  • 페이지랭크 알고리즘은 웹 문서들을 효과적으로 랭킹(ranking)하는 것으로 알려져 있다. 페이지랭크 알고리즘은 그 유용함에도 불구하고 경우에 따라 문서의 페이지랭크 값을 본래 값보다 작게 계산하는 현상을 유발한다. 본 논문에서는 이러한 현상을 놈-누수(norm-leak)라 명명하고, 웹 문서의 페이지 랭크 값을 정확히 산출하는 개선된 페이지랭크 알고리즘과 효율적인 구현방법을 제시한다. 또한, 약 67,000,000개의 실제 웹 문서들에 기존의 페이지랭크 알고리즘과 개선된 페이지랭크 알고리즘을 적용하여 그 결과를 비교 평가한다.

추가 수집 웹 문서를 위한 페이지랭크 할당 모델 (PageRanking of Newly Crawled Web Documents)

  • 오은정;강인호;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-234
    • /
    • 2002
  • 사용자가 얻고자 하는 정보를 인터넷에서 빠르고 정확하게 검색하는 것은 중요하다. 웹 문서들 간의 상대적인 중요성을 나타내는 페이지랭크는 검객의 질을 높일 수 있어, 정보 검색에 많이 이용된다. 인터넷상의 웹 문서는 짧은 시간에 빠르게 증가하므로 새로운 문서들이 생성될 때마다 전체 문서의 페이지랭크를 계산하는 것은 많은 시간과 비용이 소모된다. 기존 웹 문서의 페이지랭크는 변경하지 않고 추가된 웹 문서들만으로 페이지랭크를 계산할 수 있다면 시간과 비용면에서 효율을 높일 수 있다. 본 논문에서는 추가되는 문서는 이전 문서의 페이지랭크에 많은 영향을 미치지 않는다는 점을 이용하여 추가되는 문서를 위한 페이지랭크를 할당 모델을 제시하고 평가한다.

  • PDF

페이지랭크 알고리즘 적용을 위한 구현 기술 (Implementation Techniques to Apply the PageRank Algorithm)

  • 김성진;이상호;방지환
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.745-754
    • /
    • 2002
  • 1998년에 등장한 구글 검색 사이트(http://www.google.com)에 처음 소개된 페이지랭크 알고리즘은 웹 문서들의 연결 구조에 기반하여 문서들간의 순위를 부여하는 방법이다. 페이지랭크 알고리즘은 상용 검색 엔진에서 구현되어 사용되고 있으나, 상업상의 이유들로 인하여 구현 기법에 관한 연구 결과는 거의 발표되지 않고 있다. [4,8]에서 소개된 페이지랭크 알고리즘의 구현 기법은 웹 문서들의 페이지랭크 값을 산출하기에 충분하지 않다. 본 논문은 페이지랭크 알고리즘의 구현 기법[4,8]을 설명하고, 이를 적용하는데 필요한 입/출력 자료 구조 및 4가지 주요 구현 기술을 제시한다. 본 논문은 실제 웹 문서의 페이지랭크 값을 산출하는 시스템을 예로 들어 페이지랭크 알고리즘을 적용하는 방법에 대한 이해를 돕도록 하였다.

국내 인용 데이터베이스에서 저널 페이지랭크 측정 방안 (Journal PageRank Calculation in the Korean Science Citation Database)

  • 이재윤
    • 한국비블리아학회지
    • /
    • 제22권4호
    • /
    • pp.361-379
    • /
    • 2011
  • 이 연구는 국내 인용 데이터베이스에서 저널 페이지랭크를 올바르게 측정할 수 있는 방안을 모색하고자 하였다. 국내 인용 데이터베이스는 해외 인용 데이터베이스에 비해서 인용 링크가 외부로 향하는 비율과 자기 인용 비율이 높다는 특성이 있다. 페이지랭크 공식은 반복 계산을 통해서 수렴하는 알고리즘이기 때문에 이런 특성을 감안하지 않으면 신뢰할만한 저널 페이지랭크 측정이 이루어질 수 없다. 따라서 국내 인용 데이터베이스에 적합한 저널 페이지랭크 측정 방안을 살펴보고 KSCD를 대상으로 측정한 결과를 분석하였다. 산출된 페이지랭크 지수에 대해서 상관분석과 회귀분석으로 검증해본 결과 SCImago 저널 랭크 공식을 적용하고 cr2 방식으로 저널 자기 인용을 조정하는 것이 국내 인용 색인 데이터베이스에서 저널 영향력을 평가하기에 적합한 방안인 것으로 확인되었다.

다중 쓰레드 환경에서 웹 크롤러의 성능 분석 (Performance Analysis of Web-Crawler in Multi-thread Environment)

  • 박정우;김준호;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.473-476
    • /
    • 2009
  • 본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

  • PDF

페이지 랭크지수와 질의 확장을 이용한 재랭킹 방법 (A Reranking Method Using Query Expansion and PageRank Check)

  • 김태환;전호철;최중민
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.231-240
    • /
    • 2011
  • 사람들은 월드 와이드 웹 상에서 사용자가 원하는 정보를 검색하는 여러 알고리즘들을 구현해 왔다. 이렇게 구현된 검색 알고리즘 중 가장 좋은 기술을 가지고 있는 곳은 페이지랭크(PageRank)방식의 구글이다. 하지만 외부에서 참조하는 링크가 많은 문서를 가지고 있는 문서 즉, 대중들이 관심을 가지는 문서를 상위에 보여주는 페이지랭크 방식으론 사용자가 원하는 문서를 찾아서 제공하지 못할 수 있다. 개인에게 가치가 있는 문서를 찾기보다 대중에게 가치가 있는 문서를 찾기 때문이다. 이러한 문제를 해결하기 위하여 본 논문에서는 어휘의 의미를 정확히 표현하고 있는 워드넷을 이용하여 사용자 질의 이력 정보를 분석하여 현재 질의를 확장한 개인적 가치와 페이지 랭크지수를 이용한 대중적 가치를 모두 고려한 방법을 제안한다. 실험결과 제안한 방법은 상위 30개의 검색결과 중 평균 약 60% 결과들에 대해 만족하는 것으로 나타났으며, 구글 검색 결과에 비해 평균 약 14% 향상된 만족도를 나타내었다.

페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측 (Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank)

  • 최종환;안재균
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.61-68
    • /
    • 2018
  • 암환자의 예후 예측에 기여하는 유전자를 찾는 것은 환자에게 보다 적합한 치료를 제공하기 위한 도전 과제 중 하나이다. 예후 유전자를 찾기 위해 유전자 발현 데이터를 이용한 분류 모델 개발 연구가 많이 이루어지고 있다. 하지만 암의 이질성으로 인해 예후 예측의 정확도 향상에 한계가 있다는 문제가 있다. 본 논문에서는 유방암을 비롯한 6개의 암에 대한 암환자의 마이크로어레이 데이터와 생물학적 네트워크 데이터를 이용하여 페이지랭크 알고리즘을 통해 예후 유전자들을 식별하고, K-Nearest Neighbor 알고리즘을 사용하여 암 환자의 예후를 예측하는 모델을 제안한다. 그리고 페이지랭크를 사용하기 전에 K-Means 클러스터링으로 유전자 발현 패턴이 비슷한 샘플들을 나누어 이질성을 극복하고자 한다. 본 논문에서 제안한 방법은 기존의 유전자 바이오마커를 찾는 알고리즘보다 높은 예측 정확도를 보여 주었으며, GO 검증을 통해 클러스터에 특이적인 생물학적 기능을 확인하였다.

소셜 네트워크와 페이지랭크를 이용한 웜 전파 방지 기법 (A Worm Containing Strategy Using Social Network and PageRank)

  • 강동화;박지연;조유근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.98-100
    • /
    • 2012
  • 모바일 웜의 전파 속도는 시간이 지날수록 급격히 빨라진다. 급속도로 전파하는 웜을 억제하기 위한 연구가 계속 진행되어 왔다. 기존 연구 중 하나로 소셜 네트워크를 그래프(Graph)로 표현하고 분할한 뒤 각 파티션의 대표노드(Key Node)를 선택해 웜 패치를 전파하는 기법이 있다. 이 기법은 패치 전파 속도를 웜 전파 속도보다 빠르게 해서 웜을 억제 시킨다. 하지만 이 기법에서는 대표노드에 가중치(Weight)가 낮은 간선(Edge)이 연결 될 수 있거나 대표노드가 없는 파티션이 생길 수 있다. 잘못된 대표노드 선정은 패치 전파속도를 저하시키고 웜 억제를 지연시킬 수 있다. 본 논문에서는 페이지랭크를 이용해서 대표노드를 선정하는 개선된 소셜 네트워크 기반의 웜 패칭 기법을 제안한다. 제안 기법은 웜 패칭 전략에 사용할 수 있도록 수정한 페이지랭크를 각 파티션에 적용해서 대표노드를 선정한다. 파티션마다 전파 능력이 가장 높은 노드가 대표노드로 선정되기 때문에 웜 패치 전파 속도를 향상시킬 수 있다.

블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘 (The Effective Blog Search Algorithm based on the Structural Features in the Blogspace)

  • 김정훈;윤태복;이지형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권7호
    • /
    • pp.580-589
    • /
    • 2009
  • 오늘날, 대부분의 웹 페이지는 블로그영역에서 생성되고 기존의 웹 페이지 또한 블로그영역으로 전환되어가고 있다. 블로그 페이지는 트랙백연결, 블로거, 태그, 댓글과 같은 기폰 웹 페이지에는 존재 하지 않는 특징이 있다. 따라서 이러한 차이를 반영하지 않는 전통적인 웹 페이지 랭킹 알고리즘을 블로그 페이지에 단순히 적용하는 것은 효율적인 검색을 위해 적절하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 블로그 검색을 위한 "블로그-랭크" 알고리즘을 제안한다. 제안하는 알고리즘은 블로그의 구조적특징들을 활용하여 트랙백 연결성, 블로거의 명성, 사용자 반응성을 평가하고 이를 기반으로 블로그 페이지를 랭크 한다. 우리는 알고리즘의 검색효율성을 증명하기 위해 제안한 알고리즘을 적용한 블로그 검색 시스템을 구현하고 기존의 블로그 검색시스템과 검색효율성을 비교하였으며, 그 결과 블로그 랭크 알고리즘을 적용한 검색시스템이 기존의 검색시스템보다 더욱 뛰어난 검색효율성을 보임을 확인하였다.

웹 검색 결과의 단계별 시각화 (Stepwise Visualization of Web Search Results)

  • 손석현;신효섭;서지위
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.320-324
    • /
    • 2008
  • 웹 검색 결과 중, 어느 경우에나 첫 번째로 나타나는 결과 페이지가 모든 사용자에게 필요한 웹 페이지를 제공하지는 않는다. 그러한 경우, 사용자는 자신이 원하는 웹 페이지를 찾기 위해 질의를 수정하거나 다음 페이지로 넘기는 수고를 해야만 한다. 이러한 경우, 하위에 랭크 된 웹 페이지가 사용자에게 원하는 정보를 줄 수가 있는데, 본 논문에서는 하위 랭크이지만 사용자에게 원하는 정보를 제공할 수 있는 웹 페이지(Low-Ranked But, Potent Pages)를 효율적으로 찾을 수 있는 웹 검색 결과의 단계별 시각화를 제시한다. 실험에서는, 여러 질의를 통해 본 논문에서 제안하는 단계별 시각화 웹 검색을 평가한다.

  • PDF