• 제목/요약/키워드: Page Rank Algorithm

검색결과 41건 처리시간 0.025초

블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘 (The Effective Blog Search Algorithm based on the Structural Features in the Blogspace)

  • 김정훈;윤태복;이지형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권7호
    • /
    • pp.580-589
    • /
    • 2009
  • 오늘날, 대부분의 웹 페이지는 블로그영역에서 생성되고 기존의 웹 페이지 또한 블로그영역으로 전환되어가고 있다. 블로그 페이지는 트랙백연결, 블로거, 태그, 댓글과 같은 기폰 웹 페이지에는 존재 하지 않는 특징이 있다. 따라서 이러한 차이를 반영하지 않는 전통적인 웹 페이지 랭킹 알고리즘을 블로그 페이지에 단순히 적용하는 것은 효율적인 검색을 위해 적절하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 블로그 검색을 위한 "블로그-랭크" 알고리즘을 제안한다. 제안하는 알고리즘은 블로그의 구조적특징들을 활용하여 트랙백 연결성, 블로거의 명성, 사용자 반응성을 평가하고 이를 기반으로 블로그 페이지를 랭크 한다. 우리는 알고리즘의 검색효율성을 증명하기 위해 제안한 알고리즘을 적용한 블로그 검색 시스템을 구현하고 기존의 블로그 검색시스템과 검색효율성을 비교하였으며, 그 결과 블로그 랭크 알고리즘을 적용한 검색시스템이 기존의 검색시스템보다 더욱 뛰어난 검색효율성을 보임을 확인하였다.

동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가 (User Reputation Evaluation Using Co-occurrence Feature and Collective Intelligence)

  • 이현우;한요섭;김래현;차정원
    • 인지과학
    • /
    • 제19권4호
    • /
    • pp.459-476
    • /
    • 2008
  • 많은 사용자들의 참여로 구축된 집단 지성을 이용한 지식 검색 서비스에서 사용자가 원하는 답변을 빨리 찾고자 하는 요구가 증가하고 있다. 기존의 연구에서 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보가 답변을 평가하는데 좋은 자질임이 증명되었고, 신뢰도를 추정할 수 있는 여러 종류의 단어 사전을 이용하여 답변의 좋고 나쁨을 평가할 수 있는 연구도 진행되었다. 하지만, 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보는 사용자 조작이 간단하여 지속적으로 관리를 해야 하며, 신뢰도를 추정할 수 있는 단어는 지속적으로 보강되어야 한다. 본 논문에서는 이러한 문제점을 해결하고자 동시출현 자질을 이용한 질문과 답변의 유사성을 활용하여 집단 지성에서 사용자의 활동을 분석하여 사용자의 명성을 평가하는 방법을 제안한다. 사용자의 명성을 계산할 수 있다면 조회 수와 추천 수가 많지 않은 답변의 신뢰도도 비교적 정확하게 추정할 수 있다. 이를 위해 우리는 PageRank 알고리즘을 수정하여 사용자 명성을 계산한다. 네이버 지식iN의 문서로 실험한 결과, 기존 정답 선택률을 보완할 수 있는 결과를 보였다.

  • PDF

A Query Randomizing Technique for breaking 'Filter Bubble'

  • Joo, Sangdon;Seo, Sukyung;Yoon, Youngmi
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권12호
    • /
    • pp.117-123
    • /
    • 2017
  • The personalized search algorithm is a search system that analyzes the user's IP, cookies, log data, and search history to recommend the desired information. As a result, users are isolated in the information frame recommended by the algorithm. This is called 'Filter bubble' phenomenon. Most of the personalized data can be deleted or changed by the user, but data stored in the service provider's server is difficult to access. This study suggests a way to neutralize personalization by keeping on sending random query words. This is to confuse the data accumulated in the server while performing search activities with words that are not related to the user. We have analyzed the rank change of the URL while conducting the search activity with 500 random query words once using the personalized account as the experimental group. To prove the effect, we set up a new account and set it as a control. We then searched the same set of queries with these two accounts, stored the URL data, and scored the rank variation. The URLs ranked on the upper page are weighted more than the lower-ranked URLs. At the beginning of the experiment, the difference between the scores of the two accounts was insignificant. As experiments continue, the number of random query words accumulated in the server increases and results show meaningful difference.

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

지능정보기술 분야에서의 글로벌 기술 지식 경쟁력 분석 : 한국을 중심으로 (Global Technical Knowledge Flow Analysis in Intelligent Information Technology : Focusing on South Korea)

  • 곽기현;윤정섭
    • 한국콘텐츠학회논문지
    • /
    • 제21권1호
    • /
    • pp.24-38
    • /
    • 2021
  • 본 연구는 4차 산업혁명의 핵심 기술인 지능정보기술에 있어 한국의 글로벌 경쟁력을 측정하였다. 분석을 위해 PATSTAT Online을 사용하여 미국특허청에서 2010~2018년 사이에 출원된 각 분야의 특허 및 이들이 인용한 선행특허를 수집하였고, 인용·피인용 관계를 국가 수준에서 블록화하여 글로벌 지식 흐름 네트워크를 구축하였다. 각 기술 분야별로 다음과 같은 방식으로 한국의 글로벌 경쟁력을 평가하였다. 먼저 새로운 기술적 지식을 생성하기 위해 기존의 기술적 지식을 재조합하는 과정인 기술수용을 평가하기 위해 입선-연결 중심성을, 다음으로 새로운 기술적 지식 창출의 밑거름인 원친지식 보유 정도를 나타내는 기술파급을 평가하기 위해 출선-연결 중심성을, 그리고 마지막으로 국가 간 지식 흐름의 양적 측면과 질적 측면을 모두 고려할 수 있는 PageRank 중심성을 사용하였다. 분석 결과, 자료의 수집 및 축적, 그리고 확보한 대용량 자료의 처리 분야에 해당하는 사물인터넷·클라우드 및 빅데이터 분야에 비해, 이를 활용하는 인공지능 분야에서 한국의 경쟁력이 상대적으로 가장 열위에 있음이 사용된 모든 지표들을 통해 확인되었다.

웹의 연결구조와 웹문서의 적합도를 이용한 효율적인 인터넷 정보추출 (Efficient Internet Information Extraction Using Hyperlink Structure and Fitness of Hypertext Document)

  • 황인수
    • Journal of Information Technology Applications and Management
    • /
    • 제11권4호
    • /
    • pp.49-60
    • /
    • 2004
  • While the World-Wide Web offers an incredibly rich base of information, organized as a hypertext it does not provide a uniform and efficient way to retrieve specific information. Therefore, it is needed to develop an efficient web crawler for gathering useful information in acceptable amount of time. In this paper, we studied the order in which the web crawler visit URLs to rapidly obtain more important web pages. We also developed an internet agent for efficient web crawling using hyperlink structure and fitness of hypertext documents. As a result of experiment on a website. it is shown that proposed agent outperforms other web crawlers using BackLink and PageRank algorithm.

  • PDF

페이지랭크 알고리즘을 이용한 결합도 척도의 개선 (Using PageRank Algorithm to Improve Coupling Metrics)

  • 박철현;류성태;이은석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1405-1408
    • /
    • 2011
  • 소프트웨어 품질 측정은 소프트웨어 공학의 필수적인 요소이다. 소프트웨어 품질 척도 중 하나인 결합도는 모듈간의 얼마나 강하게 연결되어있는지를 나타낸다. 결합도는 소프트웨어의 결함-경향성, 모듈화, 재사용성, 변경-경향성 등 다양한 목적으로 사용된다. 기존의 결합도 척도들은 메소드호출 횟수에 의해서 결정되는데, 이는 메소드의 가중치를 고려하지 않기 때문에 결합도를 정확히 측정 하지 못한다. 본 논문은 페이지랭크 알고리즘을 이용하여 메소드의 가중치를 측정하고, 이를 이용한 결합도 척도 개선 방법에 대해 제안한다. 본 논문의 유효성을 검증하기 위하여, 4 개의 오픈 소스 프로젝트를 대상으로 기존의 방법과 개선된 방법으로 결합도 척도 3 개를 측정하였다. 개선된 결합도 3 개는 유지보수의 척도로 사용되는 변경-경향성(Change-Proneness)과의 상관계수가 기존의 결합도 척도에 비하여 눈의 띄게 향상되었다. 따라서 개선된 결합도 척도는 소프트웨어 품질을 더 정확하게 측정할 수 있다.

대용량 그래프 압축과 마이닝을 위한 그래프 정점 재배치 분산 알고리즘 (A Distributed Vertex Rearrangement Algorithm for Compressing and Mining Big Graphs)

  • 박남용;박치완;강유
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1131-1143
    • /
    • 2016
  • 수십억 개 간선들로 구성된 대용량 그래프를 어떻게 효과적으로 압축할 수 있을까? 정점 재배치를 통해 인접 행렬의 0이 아닌 값들을 집중시키면 그래프를 효율적으로 압축할 수 있을 뿐 아니라 페이지랭크 등 여러 그래프 마이닝 알고리즘의 수행 속도를 개선할 수 있다. 최신 정점 재배치 기법인 SlashBurn은 실세계 네트워크의 멱법칙 특성을 활용하는 실세계 그래프에 효과적인 방법이다. 하지만 단일 머신 기반으로 설계되어 대용량 그래프에 대해 처리 속도가 현저히 느려지거나 적용이 불가능한 한계가 있다. 본 논문에서는 이러한 한계를 극복하기 위한 분산 SlashBurn을 제안한다. 분산 SlashBurn은 대규모의 정점 재배치 프로세스를 분산 처리하여 대용량 그래프를 기존 방법보다 훨씬 빠르고 확장성 있게 처리한다. 대용량 실세계 그래프들에 대한 실험 결과, 분산 SlashBurn은 단일 머신 SlashBurn보다 45배 이상 빠르게 동작하였고, 16배 이상 큰 그래프를 처리할 수 있었다.

공격 그래프 기반의 공격 대상 예측 시스템 설계 및 구현에 대한 연구 (A Study on the Design and Implementation of System for Predicting Attack Target Based on Attack Graph)

  • 고장혁;이동호
    • 디지털산업정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.79-92
    • /
    • 2020
  • As the number of systems increases and the network size increases, automated attack prediction systems are urgently needed to respond to cyber attacks. In this study, we developed four types of information gathering sensors for collecting asset and vulnerability information, and developed technology to automatically generate attack graphs and predict attack targets. To improve performance, the attack graph generation method is divided into the reachability calculation process and the vulnerability assignment process. It always keeps up to date by starting calculations whenever asset and vulnerability information changes. In order to improve the accuracy of the attack target prediction, the degree of asset risk and the degree of asset reference are reflected. We refer to CVSS(Common Vulnerability Scoring System) for asset risk, and Google's PageRank algorithm for asset reference. The results of attack target prediction is displayed on the web screen and CyCOP(Cyber Common Operation Picture) to help both analysts and decision makers.

다크웹 환경에서 산업기술 유출 탐지 시스템 (Industrial Technology Leak Detection System on the Dark Web)

  • 공영재;장항배
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.46-53
    • /
    • 2022
  • 오늘날 4차 산업 혁명과 대규모 R&D 지원으로 인해 국내 기업은 세계 기술력 수준의 산업기술을 보유하기 시작하였으며 중요한 자산으로 변모하였다. 국가는 기업의 중요한 산업기술을 보호하고자 국가핵심기술로 지정하였으며, 특히 원자력, 조선, 반도체와 같은 기술이 유출될 경우 해당 기업뿐만 아니라 국가 차원에서도 심각한 경쟁력 손실로 이어질 수 있다. 매년 내부자 유출, 랜섬웨어 그룹의 해킹공격, 산업스파이에 산업기술 탈취 시도가 증가하고 있으며, 탈취된 산업기술은 다크웹 환경에서의 은밀하게 거래가 이루어진다. 본 논문에서는 다크웹 환경에서 은밀하게 이루어지는 산업기술 유출을 탐지하는 시스템을 제안한다. 제안된 모델은 먼저 OSINT 환경에서 수집한 정보를 이용하여 다크웹 크롤링을 통한 데이터베이스를 구축한다. 이후 KeyBERT 모델을 이용한 산업기술 유출 키워드를 추출한 후 다크웹 환경에서의 산업기술 유출 징후를 정량적 수치로 제안한다. 마지막으로 식별된 다크웹 환경에서의 산업기술 유출 사이트를 기반으로 PageRank 알고리즘 통한 2차 유출 가능성을 탐지한다. 제안된 모델을 통해 27,317개의 중복 없는 다크웹 사이트를 수집하였으며, 100개의 원자력 특허에서 총 15,028개의 원자력 관련 키워드를 추출하였다. 가장 높은 원자력 유출 다크웹 사이트를 기반으로 2차 유출을 탐지한 결과 12개의 다크웹 사이트를 식별하였다.