• Title/Summary/Keyword: Spam Detection

Search Result 58, Processing Time 0.028 seconds

Spam-mail detection and interception system of PGP base (PGP 기반의 스팸메일 검출 및 차단 시스템)

  • Choi, Hong-Sik;Kim, Joong-Hwan;Kim, Sang-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2379-2382
    • /
    • 2002
  • 요즘 전자우편(E-mail) 서비스를 사용하게 되면서, 스팸 메일이라고 불리 우는 광고성 메일이 무분별하게 전자우편에 침입하고 있다. 요즘과 같이 정보의 중요성과 개인의 사생활이 강조되는 시점에서 다른 사람이 중간에 메일을 가로채어 읽거나 해킹 하여 전혀 다른 내용으로 바꾸어 배포하거나 바뀐 내용을 전송하거나 과도한 스팸메일 때문에 자신의 메일 계정에 부하가 걸려서 중용한 메일을 못 받게 된다면 보통 심각한 일이 아닐 수 없다. 본 논문에서는 이것을 해결하기 위하여, PGP(Pretty Good Privacy)라는 기술과 문자열 처리를 이용하여 전자우편의 보안성 향상과 문자열 처리를 통해 스팸메일을 줄이는 방법을 제안한다.

  • PDF

Instance Based Learning Revisited: Feature Weighting and its Applications

  • Song Doo-Heon;Lee Chang-Hun
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.6
    • /
    • pp.762-772
    • /
    • 2006
  • Instance based learning algorithm is the best known lazy learner and has been successfully used in many areas such as pattern analysis, medical analysis, bioinformatics and internet applications. However, its feature weighting scheme is too naive that many other extensions are proposed. Our version of IB3 named as eXtended IBL (XIBL) improves feature weighting scheme by backward stepwise regression and its distance function by VDM family that avoids overestimating discrete valued attributes. Also, XIBL adopts leave-one-out as its noise filtering scheme. Experiments with common artificial domains show that XIBL is better than the original IBL in terms of accuracy and noise tolerance. XIBL is applied to two important applications - intrusion detection and spam mail filtering and the results are promising.

  • PDF

Trackback Spam Detection using Similarity Analysis by LSA (LSA 유사도 비교를 통한 트랙백 스팸 탐지)

  • Jun, Hyek-Su;Kim, Tae-Hwan;Choi, Joong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.339-344
    • /
    • 2010
  • 오늘날 인터넷 사용자들은 블로그나 뉴스 등의 매체에서 트랙백을 사용해 자신의 의견을 보다 자유롭게 나타낸다. 그러나 이러한 자유로움을 악용해 트랙백 스팸을 유발하여 네트워크의 자원을 낭비하고 방문자들에게 잘못된 정보를 전달해 해당 포스트의 신뢰를 떨어뜨린다. 트랙백 스팸은 유명한 포스트와 연계하여 자신의 포스트로 사용자들을 유도하는 특징을 가지기 때문에 일반적인 웹 스팸을 탐지하는 기술을 적용하기 어렵다. 따라서 본 논문에서는 자신이 작성한 글이 다른 사람의 글과 관련이 있다고 생각하여 다른사람의 글에 자신의 글을 링크시키는 트랙백의 특성을 이용하여 원본 페이지와 트랙백 페이지 그리고 트랙백 페이지의 아웃링크 내용상의 유사도와 동시 출현(co-occurrence) 정보를 이용하여 트랙백 스팸을 처리하고자 한다.

  • PDF

Threshold estimation methodology for detection of Botnet malicious activity (봇넷의 악성행위 탐지를 위한 임계치 측정 방법론)

  • Kim, Do-Hoon;In, Hoh Peter;Jeong, Hyun-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.607-608
    • /
    • 2009
  • 최근 7.7 DDoS 대란과 폭발적인 SPAM 발송과 같은 다양한 봇넷의 악성행위는 정보 시스템에 막대한 악영향을 미친다. 특히, 봇넷의 구조적 특징인 좀비PC의 제어는 네트워크 환경에서는 다양한 악성 행위를 유발한다. 때문에, 봇넷 탐지와 관련한 다양한 연구가 시도되었지만, 탐지의 한계점을 지니고 있다. 즉, 기존의 봇넷 탐지 방법은 임의의 임계값을 설정하고, 그 값을 벗어나는 시점에서 경고를 보내어 탐지하게 된다. 하지만, 전문가에 의한 임계값 설정은 자칫 오탐율과 미탐율을 야기할 수 있다. 따라서, 본 논문에서는 봇넷 탐지를 보다 능동적으로 하기 위하여 특정 타임 윈도우 구간동안의 봇넷이 유발하는 네트워크 트래픽을 분석하고 마르코프 체인을 응용한 학습을 하여 능동적으로 적용 가능한 임계값을 측정 방법론에 대하여 고찰하고자 한다.

Automatic knowledgebase extraction based smishing SMS detection (자동 지식베이스 추출 기반 스미싱 SMS 탐지)

  • Baek, Seong-Bin;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.564-567
    • /
    • 2021
  • 스미싱은 SMS 문자를 통해 피해자를 현혹시켜 개인정보나 금전 등을 갈취하는 범죄이다. 발전하는 스미싱 범죄 수법에 대응하기 위해선 새로운 스미싱 범죄 사례에서 데이터를 추출하고, 추출한 데이터를 기존 시스템에 통합하여 빠르게 대응할 수 있어야 한다. 본 연구에서는 빠른 스미싱 대응을 위해 전처리를 하지 않은 SMS 문자 텍스트에서 지식베이스를 자동으로 추출하고 저장하는 자동 지식베이스 추출 모듈을 제안하며, 추출 시스템 지식베이스를 바탕으로 입력된 SMS가 스미싱인지 판별하는 스미싱 SMS 탐지 모듈을 통합한 자동 지식베이스 추출 기반 스미싱 SMS 탐지 시스템을 제시한다. 제시된 스미싱 SMS 탐지 모델은 UCI SMS Spam Collection Dataset을 기준으로 90.9 (F1 score)의 성능을 보여주었다.

  • PDF

Spam post detection and blocking mechanism on web bulletin board (웹 게시판에서 스팸 게시물 탐지 및 블러킹 방안)

  • Cho, Yu Hyoung;Min, SungKi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.1238-1241
    • /
    • 2007
  • 웹 게시판 서비스에서의 비정상행위 탐지 및 블러킹 방안 제시는 서비스를 제공하는 주체에게는 대량의 광고성 게시글로부터 안정적 서비스 운영이 가능하게끔 하고, 서비스를 이용하는 사용자에게는 원하지 않는 게시글로부터 블러킹 방안을 제공 받아 깨끗한 웹 게시판 서비스를 가능한 방안으로 인터넷 환경이 제공되면서 필터링 기술 발전 수준이 가장 높은 스팸 메일 필터링 기술을 응용하여 웹 게시판 서비스에 적용하여 필터링 효과 수준을 측정하고 다른 웹 서비스 등에 활용할 수 있는 방안을 제시한다.

Feature-selection algorithm based on genetic algorithms using unstructured data for attack mail identification (공격 메일 식별을 위한 비정형 데이터를 사용한 유전자 알고리즘 기반의 특징선택 알고리즘)

  • Hong, Sung-Sam;Kim, Dong-Wook;Han, Myung-Mook
    • Journal of Internet Computing and Services
    • /
    • v.20 no.1
    • /
    • pp.1-10
    • /
    • 2019
  • Since big-data text mining extracts many features and data, clustering and classification can result in high computational complexity and low reliability of the analysis results. In particular, a term document matrix obtained through text mining represents term-document features, but produces a sparse matrix. We designed an advanced genetic algorithm (GA) to extract features in text mining for detection model. Term frequency inverse document frequency (TF-IDF) is used to reflect the document-term relationships in feature extraction. Through a repetitive process, a predetermined number of features are selected. And, we used the sparsity score to improve the performance of detection model. If a spam mail data set has the high sparsity, detection model have low performance and is difficult to search the optimization detection model. In addition, we find a low sparsity model that have also high TF-IDF score by using s(F) where the numerator in fitness function. We also verified its performance by applying the proposed algorithm to text classification. As a result, we have found that our algorithm shows higher performance (speed and accuracy) in attack mail classification.

Improved Tweet Bot Detection Using Spatio-Temporal Information (시공간 정보를 사용한 개선된 트윗 봇 검출)

  • Kim, Hyo-Sang;Shin, Won-Yong;Kim, Donggeon;Cho, Jaehee
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.12
    • /
    • pp.2885-2891
    • /
    • 2015
  • Twitter, one of online social network services, is one of the most popular micro-blogs, which generates a large number of automated programs, known as tweet bots because of the open structure of Twitter. While these tweet bots are categorized to legitimate bots and malicious bots, it is important to detect tweet bots since malicious bots spread spam and malicious contents to human users. In the conventional work, temporal information was utilized for the classficiation of human and bot. In this paper, by utilizing geo-tagged tweets that provide high-precision location information of users, we first identify both Twitter users' exact location and the corresponding timestamp, and then propose an improved two-stage tweet bot detection algorithm by computing an entropy based on spatio-temporal information. As a main result, the proposed algorithm shows superior bot detection and false alarm probabilities over the conventional result which only uses temporal information.

Estimating the Rumor Source by Rumor Centrality Based Query in Networks (네트워크에서 루머 중심성 기반 질의를 통한 루머의 근원 추정)

  • Choi, Jaeyoung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.7
    • /
    • pp.275-288
    • /
    • 2019
  • In this paper, we consider a rumor source inference problem when sufficiently many nodes heard the rumor in the network. This is an important problem because information spread in networks is fast in many real-world phenomena such as diffusion of a new technology, computer virus/spam infection in the internet, and tweeting and retweeting of popular topics and some of this information is harmful to other nodes. This problem has been much studied, where it has been shown that the detection probability cannot be beyond 31% even for regular trees if the number of infected nodes is sufficiently large. Motivated by this, we study the impact of query that is asking some additional question to the candidate nodes of the source and propose budget assignment algorithms of a query when the network administrator has a finite budget. We perform various simulations for the proposed method and obtain the detection probability that outperforms to the existing prior works.

A Classification Model for Attack Mail Detection based on the Authorship Analysis (작성자 분석 기반의 공격 메일 탐지를 위한 분류 모델)

  • Hong, Sung-Sam;Shin, Gun-Yoon;Han, Myung-Mook
    • Journal of Internet Computing and Services
    • /
    • v.18 no.6
    • /
    • pp.35-46
    • /
    • 2017
  • Recently, attackers using malicious code in cyber security have been increased by attaching malicious code to a mail and inducing the user to execute it. Especially, it is dangerous because it is easy to execute by attaching a document type file. The author analysis is a research area that is being studied in NLP (Neutral Language Process) and text mining, and it studies methods of analyzing authors by analyzing text sentences, texts, and documents in a specific language. In case of attack mail, it is created by the attacker. Therefore, by analyzing the contents of the mail and the attached document file and identifying the corresponding author, it is possible to discover more distinctive features from the normal mail and improve the detection accuracy. In this pager, we proposed IADA2(Intelligent Attack mail Detection based on Authorship Analysis) model for attack mail detection. The feature vector that can classify and detect attack mail from the features used in the existing machine learning based spam detection model and the features used in the author analysis of the document and the IADA2 detection model. We have improved the detection models of attack mails by simply detecting term features and extracted features that reflect the sequence characteristics of words by applying n-grams. Result of experiment show that the proposed method improves performance according to feature combinations, feature selection techniques, and appropriate models.