• Title/Summary/Keyword: 페이지랭크

Search Result 45, Processing Time 0.035 seconds

Outlier Detection Techniques for Biased Opinion Discovery (편향된 의견 문서 검출을 위한 이상치 탐지 기법)

  • Yeon, Jongheum;Shim, Junho;Lee, Sanggoo
    • The Journal of Society for e-Business Studies
    • /
    • v.18 no.4
    • /
    • pp.315-326
    • /
    • 2013
  • Users in social media post various types of opinions such as product reviews and movie reviews. It is a common trend that customers get assistance from the opinions in making their decisions. However, as opinion usage grows, distorted feedbacks also have increased. For example, exaggerated positive opinions are posted for promoting target products. So are negative opinions which are far from common evaluations. Finding these biased opinions becomes important to keep social media reliable. Techniques of opinion mining (or sentiment analysis) have been developed to determine sentiment polarity of opinionated documents. These techniques can be utilized for finding the biased opinions. However, the previous techniques have some drawback. They categorize the text into only positive and negative, and they also need a large amount of training data to build the classifier. In this paper, we propose methods for discovering the biased opinions which are skewed from the overall common opinions. The methods are based on angle based outlier detection and personalized PageRank, which can be applied without training data. We analyze the performance of the proposed techniques by presenting experimental results on a movie review dataset.

RDP-based Lateral Movement Detection using PageRank and Interpretable System using SHAP (PageRank 특징을 활용한 RDP기반 내부전파경로 탐지 및 SHAP를 이용한 설명가능한 시스템)

  • Yun, Jiyoung;Kim, Dong-Wook;Shin, Gun-Yoon;Kim, Sang-Soo;Han, Myung-Mook
    • Journal of Internet Computing and Services
    • /
    • v.22 no.4
    • /
    • pp.1-11
    • /
    • 2021
  • As the Internet developed, various and complex cyber attacks began to emerge. Various detection systems were used outside the network to defend against attacks, but systems and studies to detect attackers inside were remarkably rare, causing great problems because they could not detect attackers inside. To solve this problem, studies on the lateral movement detection system that tracks and detects the attacker's movements have begun to emerge. Especially, the method of using the Remote Desktop Protocol (RDP) is simple but shows very good results. Nevertheless, previous studies did not consider the effects and relationships of each logon host itself, and the features presented also provided very low results in some models. There was also a problem that the model could not explain why it predicts that way, which resulted in reliability and robustness problems of the model. To address this problem, this study proposes an interpretable RDP-based lateral movement detection system using page rank algorithm and SHAP(Shapley Additive Explanations). Using page rank algorithms and various statistical techniques, we create features that can be used in various models and we provide explanations for model prediction using SHAP. In this study, we generated features that show higher performance in most models than previous studies and explained them using SHAP.

An Empirical Evaluation Analysis of the Performance of In-memory Bigdata Processing Platform (메모리 기반 빅데이터 처리 프레임워크의 성능개선 연구)

  • Lee, Jae hwan;Choi, Jun;Koo, Dong hun
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.21 no.3
    • /
    • pp.13-19
    • /
    • 2016
  • Spark, an in-memory big-data processing framework is popular to use for real-time processing workload. Spark can store all intermediate data in the cluster memory so that Spark can minimize I/O access. However, when the resident memory of workload is larger that the physical memory amount of the cluster, the total performance can drop dramatically. In this paper, we analyse the factors of bottleneck on PageRank Application that needs many memory through experiment, and cluster the Spark with Tachyon File System for using memory to solve the factor of bottleneck and then we improve the performance about 18%.

A Browser for the Efficient On-Line Newspaper Search (효율적인 온라인 신문기사 검색 브라우저)

  • Cho, Lee-Gi;Hwang, In-Moon;Lee, Sung-Jae;Kim, Jae-Gab;Kim, Won-Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10b
    • /
    • pp.1509-1512
    • /
    • 2000
  • 신문은 가장 오래된 정보분배 수단의 하나이고, 대부분의 사람들은 방송보다는 좀 더 자세한 일상의 정보를 획득하기 위하여 날마다 신문을 이용한다. 인터넷의 등장과 함께 모든 주요신문사들은 온라인 신문기사를 독자들에게 제공하고 있으며, 신문사들의 웹사이트들은 페이지 뷰(Page View)의 평가에서 대부분이 상위에 랭크되어 있다. 그러나 현재의 온라인 신문기사의 브라우징에는 사용자의 이용 편의성 및 시간에서 많은 문제점을 내포하고 있다. 본 논문에서는 사용자가 온라인 신문기사를 검색할 때, 신문기사 전체의 윤곽을 파악할 수 있도록 하고, 브라우징에 소요되는 시간과 마우스 클릭 횟수를 대폭 줄일 수 있는 브라우징 방법에 대해 연구하였다.

  • PDF

Spam Classification by Analyzing Characteristics of a Single Web Document (단일 문서의 특징 분석을 이용한 스팸 분류 방법)

  • Sim, Sangkwon;Lee, Soowon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.845-848
    • /
    • 2014
  • 블로그는 인터넷에서 개인의 정보나 의견을 표출하고 커뮤니티를 형성하는데 사용되는 중요한 수단이나, 광고 유치, 페이지 순위 올리기, 쓰레기 데이터 생성 등 다양한 목적을 가진 스팸블로그가 생성되어 악용되기도 한다. 본 연구에서는 이러한 문제를 해결하기 위해 웹 문서에서 나타나는 특징들을 이용한 스팸 탐지 기법을 제안한다. 먼저 블로그 본문의 길이, 태그의 비율, 태그 수, 이미지 수, 랭크의 수 등 하나의 웹 문서에서 추출할 수 있는 특징을 기반으로 각 문서에 대한 특징 벡터를 생성하고 기계학습을 통해 모델을 생성하여 스팸 블로그를 판별한다. 제안 방법의 성능 평가를 위해 블로그 포스트 데이터를 사용하여 제안방법과 기존의 스팸 분류 연구를 비교 실험을 진행하였다. Bayesian 필터링 기법을 사용하는 기존연구와 비교 실험 결과, 제안방법이 더 좋은 정확도를 가지면서 특징 추출 속도 및 메모리 사용 효율성을 보였다.

Query Expansion based on Word Graph using Term Proximity (단어 근접도를 반영한 단어 그래프 기반 질의 확장)

  • Jang, Gye-Hun;Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.754-757
    • /
    • 2010
  • 질의 확장은 초기 검색결과에서 질의와 연관된 단어를 선택하여 질의를 확장함으로써 검색 성능을 향상시키는 기법이다. 페이지 랭크(PageRank) 알고리즘은 웹문서 사이의 링크구조를 이용하여 문서들의 상대적인 중요성을 측정하기 위해 제안되었다. 본 논문에서는 문서들 사이의 관계가 아니라 문서 안에서 단어 그래프(Word Graph)를 통해 단어들 사이의 상대적인 중요성을 계산하였다. 질의와 가까이 위치한 단어들 사이의 관계를 단어 그래프에 적용하여 중요도를 계산하고 확장단어를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 집합인 TREC WT10g 에 대해 실험하였고, 적합모델(Relevance Model)보다 MAP(Mean Average Precision)가 4.1% 향상되었다.

Link Analysis for Contextual Advertising (문맥 광고를 위한 링크 분석 기법)

  • Ha, JongWoo;Lee, Jung-Hyun;Park, Sang-Hyun;Lee, SangKeun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.749-750
    • /
    • 2009
  • 문맥 광고에서 계층적인 분류 트리를 활용하여 의미적으로 연관된 광고를 매칭하는 기법이 소개되었다. 하지만 기존 기법은 계층 구조의 특성에 기인하여 임의의 광고의 연관성을 측정할 때에는 적합하지 않다. 이러한 문제를 해결하기 위하여 본 논문에서는 분류 트리를 유사도 그래프로 변환한 후 개인화된 페이지 랭크를 응용한 링크 분석 기법을 적용하여 광고의 의미적 연관성을 측정하는 기법을 제안한다. 실험을 통하여 제안 기법이 문맥 광고에서 광고 매칭의 정확도 성능을 향상시킴을 확인하였다.

A Study on the Change of Traffic Behavior and the Efficiency of Public Transportation System by COVID-19 (COVID-19에 따른 통행행태 변화와 대중교통 통행체계 효율화 연구)

  • Yoon, Byoung-Jo;Hwang, Hyo-Sik
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2023.11a
    • /
    • pp.255-256
    • /
    • 2023
  • 본 연구에서는 코로나19로 인하여 전국적으로 전례 없는 통행체계 위축 등 통행행태 변화가 발생되어 수도권 및 인천시 지역적 세부 통행체계에 대하여 네트워크 중심성 분석을 통하여 지역별 교통 거점과 외부 영향에 따른 지역적 교통 거점 변화를 비교 분석하였다. 또한, 대중교통 이용통행 분석 결과, 코로나19 유행 시기별로 통행량이 크게 감소됨에 따라 버스, 지하철 등 수단별 대책 마련하는데 기여할 것으로 판단된다.

  • PDF

User Reputation Evaluation Using Co-occurrence Feature and Collective Intelligence (동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가)

  • Lee, Hyun-Woo;Han, Yo-Sub;Kim, Lae-Hyun;Cha, Jeong-Won
    • Korean Journal of Cognitive Science
    • /
    • v.19 no.4
    • /
    • pp.459-476
    • /
    • 2008
  • The user needs to find the answer to your question is growing fast at the service using collective intelligent knowledge. In the previous researches, it was proven that the non-text information like view counting, referrer number, and number of answer is good in evaluating answers. There were also many works about evaluating answers using the various kinds of word dictionaries. In this work, we propose new method to evaluate answers to question effectively using user reputation that estimated by the social activity. We use a modified PageRank algorithm for estimating user reputation. We also use the similarity between question and answer. From the result of experiment in the Naver GisikiN corpus, we can see that the proposed method gives meaningful performance to complement the answer selection rate.

  • PDF

A Distributed Vertex Rearrangement Algorithm for Compressing and Mining Big Graphs (대용량 그래프 압축과 마이닝을 위한 그래프 정점 재배치 분산 알고리즘)

  • Park, Namyong;Park, Chiwan;Kang, U
    • Journal of KIISE
    • /
    • v.43 no.10
    • /
    • pp.1131-1143
    • /
    • 2016
  • How can we effectively compress big graphs composed of billions of edges? By concentrating non-zeros in the adjacency matrix through vertex rearrangement, we can compress big graphs more efficiently. Also, we can boost the performance of several graph mining algorithms such as PageRank. SlashBurn is a state-of-the-art vertex rearrangement method. It processes real-world graphs effectively by utilizing the power-law characteristic of the real-world networks. However, the original SlashBurn algorithm displays a noticeable slowdown for large-scale graphs, and cannot be used at all when graphs are too large to fit in a single machine since it is designed to run on a single machine. In this paper, we propose a distributed SlashBurn algorithm to overcome these limitations. Distributed SlashBurn processes big graphs much faster than the original SlashBurn algorithm does. In addition, it scales up well by performing the large-scale vertex rearrangement process in a distributed fashion. In our experiments using real-world big graphs, the proposed distributed SlashBurn algorithm was found to run more than 45 times faster than the single machine counterpart, and process graphs that are 16 times bigger compared to the original method.