• 제목/요약/키워드: identification of twitter users

검색결과 4건 처리시간 0.017초

An Ensemble Approach to Detect Fake News Spreaders on Twitter

  • Sarwar, Muhammad Nabeel;UlAmin, Riaz;Jabeen, Sidra
    • International Journal of Computer Science & Network Security
    • /
    • 제22권5호
    • /
    • pp.294-302
    • /
    • 2022
  • Detection of fake news is a complex and a challenging task. Generation of fake news is very hard to stop, only steps to control its circulation may help in minimizing its impacts. Humans tend to believe in misleading false information. Researcher started with social media sites to categorize in terms of real or fake news. False information misleads any individual or an organization that may cause of big failure and any financial loss. Automatic system for detection of false information circulating on social media is an emerging area of research. It is gaining attention of both industry and academia since US presidential elections 2016. Fake news has negative and severe effects on individuals and organizations elongating its hostile effects on the society. Prediction of fake news in timely manner is important. This research focuses on detection of fake news spreaders. In this context, overall, 6 models are developed during this research, trained and tested with dataset of PAN 2020. Four approaches N-gram based; user statistics-based models are trained with different values of hyper parameters. Extensive grid search with cross validation is applied in each machine learning model. In N-gram based models, out of numerous machine learning models this research focused on better results yielding algorithms, assessed by deep reading of state-of-the-art related work in the field. For better accuracy, author aimed at developing models using Random Forest, Logistic Regression, SVM, and XGBoost. All four machine learning algorithms were trained with cross validated grid search hyper parameters. Advantages of this research over previous work is user statistics-based model and then ensemble learning model. Which were designed in a way to help classifying Twitter users as fake news spreader or not with highest reliability. User statistical model used 17 features, on the basis of which it categorized a Twitter user as malicious. New dataset based on predictions of machine learning models was constructed. And then Three techniques of simple mean, logistic regression and random forest in combination with ensemble model is applied. Logistic regression combined in ensemble model gave best training and testing results, achieving an accuracy of 72%.

Identification of Key Nodes in Microblog Networks

  • Lu, Jing;Wan, Wanggen
    • ETRI Journal
    • /
    • 제38권1호
    • /
    • pp.52-61
    • /
    • 2016
  • A microblog is a service typically offered by online social networks, such as Twitter and Facebook. From the perspective of information dissemination, we define the concept behind a spreading matrix. A new WeiboRank algorithm for identification of key nodes in microblog networks is proposed, taking into account parameters such as a user's direct appeal, a user's influence region, and a user's global influence power. To investigate how measures for ranking influential users in a network correlate, we compare the relative influence ranks of the top 20 microblog users of a university network. The proposed algorithm is compared with other algorithms - PageRank, Betweeness Centrality, Closeness Centrality, Out-degree - using a new tweets propagation model - the Ignorants-Spreaders-Rejecters model. Comparison results show that key nodes obtained from the WeiboRank algorithm have a wider transmission range and better influence.

소셜네트워크서비스 개인정보 노출 실태 분석 (Personal Information Exposure on Social Network Service)

  • 최대선;김석현;조진만;진승헌;조현숙
    • 정보보호학회논문지
    • /
    • 제23권5호
    • /
    • pp.977-983
    • /
    • 2013
  • 페이스북과 트위터 한국인 이용자 계정 934만개를 조사하여 개인정보 노출 현황을 분석해보니 다양한 개인정보가 많이 노출되어 있었다. 이메일, 전화번호 같은 식별정보는 1% 미만으로 많이 노출되어 있지 않았지만, 이름, 학교같은 비식별 정보를 통해 개인을 특정할 수 있는 경우가 많았는데, 이름이 유일하여 개인을 특정할 수 있는 계정이 35만개에 달했으며, 2개 이상의 정보를 조합하여 개인을 특정할 수 있는 경우는 297만 명에 달했다. 또한, 동일인이 소유한 페이스북과 트위터 계정의 연결 가능성을 분석하였는데, 동일인일 가능성이 있는 계정 쌍 34만개를 찾을 수 있었다. 계정을 연결할 수 있다는 것은 개인을 식별하고 특정했음을 의미한다. 비식별정보를 통한 특정 가능성과 연결가능성을 통해 식별정보만을 필터링하는 기존 개인정보보호방안에 한계가 있음을 알 수 있다.

실시간 SNS 데이터를 위한 Storm 기반 동적 태그 클라우드 (Storm-Based Dynamic Tag Cloud for Real-Time SNS Data)

  • 손시운;김다솔;이수정;길명선;문양세
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권6호
    • /
    • pp.309-314
    • /
    • 2017
  • 일반적으로 SNS (social network service) 데이터는 정형, 비정형 데이터가 섞여 빠르게 생성되는 빅데이터의 특성을 갖기 때문에 실시간 수집/저장/분석에 많은 어려움이 있다. 본 논문에서는 이러한 SNS 데이터의 분석에 활용할 수 있는 Apache Storm 기반 실시간 동적 데이터 시각화 기술을 제안한다. Storm은 대표적인 빅데이터 기술 중 하나로, 실시간으로 수집되는 데이터를 분산 환경에서 처리 및 분석하는 소프트웨어 플랫폼이다. 본 논문은 Storm을 사용하여 빠르게 발생하는 트위터(Twitter) 데이터를 수집 및 집계하고, 태그 클라우드를 통해 그 결과를 동적으로 표현하고자 한다. 이를 위해, 사용자가 요구하는 키워드를 입력받고 해당 키워드를 통한 시각화 결과를 실시간으로 확인할 수 있는 웹 인터페이스를 설계 및 구현한다. 또한, 각각의 태그 클라우드 결과를 비교하여 올바로 시각화되었는지 확인한다. 본 연구를 통해, 사용자는 관심있는 주제가 SNS에서 어떻게 변화하고 있는지 직관적으로 판단할 수 있게 되며, 시각화 결과는 주제별 트렌드 분석, 고객 니즈 파악 등 다른 서비스에도 활용이 가능하다.