• 제목/요약/키워드: PageRank 알고리즘

검색결과 38건 처리시간 0.025초

페이지 랭크지수와 질의 확장을 이용한 재랭킹 방법 (A Reranking Method Using Query Expansion and PageRank Check)

  • 김태환;전호철;최중민
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.231-240
    • /
    • 2011
  • 사람들은 월드 와이드 웹 상에서 사용자가 원하는 정보를 검색하는 여러 알고리즘들을 구현해 왔다. 이렇게 구현된 검색 알고리즘 중 가장 좋은 기술을 가지고 있는 곳은 페이지랭크(PageRank)방식의 구글이다. 하지만 외부에서 참조하는 링크가 많은 문서를 가지고 있는 문서 즉, 대중들이 관심을 가지는 문서를 상위에 보여주는 페이지랭크 방식으론 사용자가 원하는 문서를 찾아서 제공하지 못할 수 있다. 개인에게 가치가 있는 문서를 찾기보다 대중에게 가치가 있는 문서를 찾기 때문이다. 이러한 문제를 해결하기 위하여 본 논문에서는 어휘의 의미를 정확히 표현하고 있는 워드넷을 이용하여 사용자 질의 이력 정보를 분석하여 현재 질의를 확장한 개인적 가치와 페이지 랭크지수를 이용한 대중적 가치를 모두 고려한 방법을 제안한다. 실험결과 제안한 방법은 상위 30개의 검색결과 중 평균 약 60% 결과들에 대해 만족하는 것으로 나타났으며, 구글 검색 결과에 비해 평균 약 14% 향상된 만족도를 나타내었다.

개인화 정보 검색에 대한 연구 (A Study of Personalized Information Retrieval)

  • 김태환;전호철;최중민
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.683-687
    • /
    • 2008
  • 사람들은 월드 와이드 웹(World Wide Web)상에서 사용자가 원하는 정보를 검색하는 여러 알고리즘들을 구현해 왔다. 이렇게 구현된 검색 알고리즘 중 가장 좋은 기술을 가지고 있는 곳은 페이지랭크(PageRank)방식의 구글이다. 하지만 페이지랭크 방식, 즉 외부에서 강조하는 링크가 많은 문서로 검색하여 가장 많은 링크를 가기고 있는 문서를 상위에 보여주는 방식으론 사용자가 원하는 문서를 찾기 힘들다. 개인에게 가치가 있는 문서를 찾기보다 대중에게 가치가 있는 문서를 찾기 때문이다. 이러한 문제를 해결하기 위하여 본 논문에서는 대중적 가치와 개인적 가치를 혼합한 개인화 검색 엔진을 제안한다.

  • PDF

링크내역을 이용한 페이지점수법 알고리즘 (PageRank Algorithm Using Link Context)

  • 이우기;신광섭;강석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.708-714
    • /
    • 2006
  • 웹은 정보의 저장 및 검색에 있어서 보편적인 매체가 되고 있다. 웹에서 정보 검색은 검색엔진을 출발점으로 이용하는 것이 대부분이지만, 그 결과는 사용자의 요구와 늘 일치하는 것은 아니며 때로는 의도적으로 조작된 검색 결과가 제시되기도 한다. 검색엔진의 데이타를 의도적으로 조작하는 것을 스패밍(spamming)이라고 부르며, 다양한 스패밍과 방지기술이 있지만, 최근에 각광을 받고있는 링크기반 검색 방식에는 스패밍이 쉽지 않은 것으로 알려져 있다. 그러나 이러한 방식에서도 구글폭탄(Google Bombing)과 같이 페이지점수법(PageRank)을 조작할 수 있는 약점이 있다. 본 논문에서는 이러한 약점을 방지할 수 있는 알고리즘을 제시한다. 기본적으로 링크 기반 검색 방식을 기초로 하여 웹을 하나의 유향 레이블 그래프로 인식하여 각 웹 페이지들은 하나의 노드로, 하이퍼링크는 에지로 표현함에 있어서 본 연구에서는 링크구조를 기반으로 링크내역(link context)을 부여하고 이를 에지의 레이블로 사용한다. 링크내역과 대상 페이지 사이의 유사도를 구하고, 이것을 이용하여 페이지점수법의 인접행렬을 재구성하는 방법을 취했다. 결과로써 기존의 방법 및 특이값 추출기법(SVD)에 기반한 새로운 기준을 도입해 그 효과를 입증했다.

향상된 TextRank 알고리즘을 이용한 자동 회의록 생성 시스템 (Automatic Meeting Summary System using Enhanced TextRank Algorithm)

  • 배영준;장호택;홍태원;이해연
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.467-474
    • /
    • 2018
  • 다양한 업무 수행에 있어서 회의나 토론 등의 내용을 정리하여 문서화하는 것의 중요성은 매우 높다. 그러나 기존에는 사람이 직접 내용에 대한 정리를 수작업으로 수행하였다. 본 논문에서는 TextRank 알고리즘을 이용하여 자동으로 회의록을 생성하는 시스템의 개발에 대하여 설명한다. 제안한 시스템은 발언자의 모든 발언 내용을 실시간으로 기록하고, 문장들을 출현 빈도수에 기초하여 유사도를 계산한 후, 문서 데이터 안에서 문장들 간의 관계를 찾아내는 비지도 학습 알고리즘을 통해 중요 단어 혹은 문장을 추출함으로서 자동으로 회의록을 생성하도록 하였다. 특히, PageRank 알고리즘을 단어와 문장에 적합하도록 재구성한 TextRank 알고리즘에 대하여 핵심어의 가중치 조정 기법을 도입함으로서 성능 향상을 모색하였다.

트위터에서 형태소 분석과 PageRank 기반 화제단어 추출 방법 제안 (Proposal of keyword extraction method based on morphological analysis and PageRank in Tweeter)

  • 이원형;조성일;김동회
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.157-163
    • /
    • 2018
  • SNS를 이용하는 사람들은 매일 자신의 다양한 생각을 SNS에 게시한다. SNS에 게시된 데이터는 수많은 사람들의 생각과 의견이 담겨있다고 할 수 있다. 특히 트위터에서 서비스되는 인기 화제어는 사용자가 올린 글에서 자주 등장한 단어의 횟수를 집계해 순위를 결정한다. 하지만 이와 같은 방법은 단순히 중복된 단어가 나열된 불필요한 데이터에 민감하다. 제안하는 방법은 단어간의 관계도를 이용한 단어의 화제성을 기반으로 순위를 결정하므로 불필요한 데이터의 영향을 적게 받고 주요단어를 안정적으로 추출할 수 있다. 성능 비교를 위하여 내림차순 화제어 순위와 상위 20개중에서 의미 없는 화제어의 비율 측면에서 형태소 분석과 PageRank 기반의 제안 방식과 단순 등장 횟수 기반의 기존 방식을 비교한다. 제안하는 방안과 기존 방안은 상위 20개중에서 무의미한 화제어를 각각 55%과 70%를 순위권에 포함시켰으며 제안한 방법이 기존 방법과 비교할 때 15% 정도 향상된다.

페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측 (Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank)

  • 최종환;안재균
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.61-68
    • /
    • 2018
  • 암환자의 예후 예측에 기여하는 유전자를 찾는 것은 환자에게 보다 적합한 치료를 제공하기 위한 도전 과제 중 하나이다. 예후 유전자를 찾기 위해 유전자 발현 데이터를 이용한 분류 모델 개발 연구가 많이 이루어지고 있다. 하지만 암의 이질성으로 인해 예후 예측의 정확도 향상에 한계가 있다는 문제가 있다. 본 논문에서는 유방암을 비롯한 6개의 암에 대한 암환자의 마이크로어레이 데이터와 생물학적 네트워크 데이터를 이용하여 페이지랭크 알고리즘을 통해 예후 유전자들을 식별하고, K-Nearest Neighbor 알고리즘을 사용하여 암 환자의 예후를 예측하는 모델을 제안한다. 그리고 페이지랭크를 사용하기 전에 K-Means 클러스터링으로 유전자 발현 패턴이 비슷한 샘플들을 나누어 이질성을 극복하고자 한다. 본 논문에서 제안한 방법은 기존의 유전자 바이오마커를 찾는 알고리즘보다 높은 예측 정확도를 보여 주었으며, GO 검증을 통해 클러스터에 특이적인 생물학적 기능을 확인하였다.

MOBA 게임의 불량 플레이어 판단을 위한 위한 PageRank 알고리즘 기반의 의사결정 시스템 설계 (Design of Decision Support System for Propensity of User in MOBA using Modified PageRank Algorithm)

  • 심재연;김성환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.1026-1029
    • /
    • 2014
  • MOBA (Multiplayer Online Battle Arena) 기반의 게임 서비스는 현재 가장 관심을 받고 있는 게임 장르의 한 종류이다. MOBA 장르와 같은 게임들은 플레이어의 실력도 중요하지만 같은 팀원간의 협력과 전략이 중요한 요소 중에 하나이다. 이러한 상황에서 악의적의 의도로 자신의 비정상적인 플레이를 한다거나 욕설 등의 팀의 사기를 저하시키는 플레이어들이 문제가 되고 있다. 이러한 플레이어들의 제재를 위해 몇 가지 시스템들이 제안 되고 있지만 그들에 대한 판단은 쉽지 않다. 그래서 본 논문에서는 PageRank 를 기반으로 하는 불량 플레이어의 판단에 대한 보조 시스템을 제안 한다. 이 시스템의 MOBA 게임 플레이어의 플레이 횟수, 신고 횟수, 신고 받은 횟수 등의 자료들을 이용하여 플레이어의 Judgment Points 와 Bad Player 지수를 파악하며 이를 기반으로 생성된 Bad Player 랭킹을 통하여 불량 플레이어 검색에 도움을 줄 것으로 예상된다.

버그 리포트 사이의 연관 관계를 이용한 PageRank 기반 버그 리포트 요약 기법 (A PageRank-based Bug Report Summarization Technique using Bug Report Relationships)

  • 김범준;강성원;이선아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.653-656
    • /
    • 2019
  • 소프트웨어의 유지보수 단계에서 소프트웨어의 버그 리포트는 개발자에게 유용한 정보를 제공한다. 개발자들은 버그 수정이나 변경 내역 열람 등 다양한 작업을 위해 버그 리포트를 열람한다. 하지만, 대화 형식으로 작성되는 버그 리포트의 특징 때문에 버그 리포트는 종종 매우 길거나 장황하여 이를 읽고 이해하기 어려운 경우가 많다. 이러한 문제점을 해결하기 위한 방법으로 버그 리포트의 요약문을 자동으로 생성하는 기법을 제안하였고, 다양한 관련 연구가 진행되었다. 그러나, 기존에 제안된 버그 리포트 요약 기법들은 버그 리포트만의 고유한 특성들을 활용하지 않는 경우가 많다. 본 연구에서는 버그 리포트들 사이의 중복(duplicates), 의존(depends-on), 역의존(blocks) 관계들을 이용한 PageRank 알고리즘 기반 버그 리포트 요약 기법을 제안한다. 실험 결과 제안 기법이 기존 버그 리포트 요약 기법보다 요약 품질과 적용 범위 측면에서 뛰어남을 확인하였다.

하이퍼링크 구조를 이용한 웹 검색의 순위 알고리즘에 관한 연구 (The Study on the Ranking Algorithm of Web-based Sear ching Using Hyperlink Structure)

  • 김성희;오건택
    • 정보관리연구
    • /
    • 제37권2호
    • /
    • pp.33-50
    • /
    • 2006
  • 본 연구에서는 하이퍼 링크 구조를 이용한 웹 검색 알고리즘에 대해 살펴 본 후 페이지 품질을 측정하기 위해 웹의 하이퍼 구조를 이용하고 있는 알고리즘인 HITS와 PageRank를 분석하였다. 이어서 이들 방법을 이용한 검색 엔진인 Google과 Ask.com을 검색 알고리즘의 특성을 기준으로 분석하였다. 이런 연구는 미래의 웹 문서의 중요도를 평가하는 데 기초자료로 활용할 수 있으며, 웹 정보검색의 검색성능을 향상시키는 시스템 개발에 도움이 될 수 있을 것이라 생각한다.

하둡 맵리듀스와 페이지 랭크를 이용한 서울시 대중 교통 인구 이동 분석 (Analysis of the population flow of public transportation in Seoul using Hadoop MapReduce and PageRank algorithm)

  • 백민석;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.354-356
    • /
    • 2022
  • 소셜 네트워크 및 웹 데이터와 같은 대규모 그래프 데이터를 처리하기 위해 병렬 처리 기반의 기법들이 많이 사용되어 왔다. 본 연구에서는 그래프 형식의 대규모 교통 데이터를 하둡 맵리듀스를 이용하여 처리하는 효과적인 기법을 제안한다. 제안하는 방식에서는 도시의 유동 인구 흐름을 가중치로 고려할 수 있도록 Weighted PageRank 알고리즘을 기반으로 하는 병렬 그래프 알고리즘을 사용하며, 해당 알고리즘을 하둡 맵리듀스에 적용하여 주거 및 근무지 등의 지역을 분류하도록 결과를 분석하였다. 제안 기법을 통한 분석 결과를 기반으로 지역 간 유동 인구 그래프 데이터에서 각 도시의 영향력을 측정하는 페이지랭크, 하둡 맵리듀스 기반의 기법을 제시한다.