• Title/Summary/Keyword: Spam

Search Result 284, Processing Time 0.027 seconds

A Splog Detection System Using Support Vector Machines and $x^2$ Statistics (지지벡터기계와 카이제곱 통계량을 이용한 스팸 블로그(Splog) 판별 시스템)

  • Lee, Song-Wook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.905-908
    • /
    • 2010
  • Our purpose is to develope the system which detects splogs automatically among blogs on Web environment. After removing HTML of blogs, they are tagged by part of speech(POS) tagger. Words and their POS tags information is used as a feature type. Among features, we select useful features with $x^2$ statistics and train the SVM with the selected features. Our system acquired 90.5% of F1 measure with SPLOG data set.

  • PDF

Multimedia Message Service(MMS) Spam Image Filtering System (Multimedia Message Service(MMS)상에서 전송되는 스팸이미지 필터링 시스템)

  • Park, Young-Man
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.933-935
    • /
    • 2014
  • 휴대전화 사용의 대중화로 인하여 개개인의 휴대전화로 수신되는 스팸메시지의 양도 덩달아 증가하게 되었다. 이것은 휴대전화 사용자가 불법광고 노출의 원인이 되고 있다. 이에 많은 스팸메시지 차단기법이 제시되었지만 이는 텍스트기반의 문자메시지에 특화되어있어 문자가 포함되어있는 이미지스팸에는 차단이 어렵다는 문제점이 존재 한다. 이에 본 논문에서는 휴대전화로 오는 이미지메시지 중 스팸이미지를 검출해 내는 모바일 스팸이미지 필터링 시스템을 제시하고자 한다. 제시하고자 하는 시스템은 스팸이미지를 분석하여 이미지의 패턴을 검사하여 특정 패턴이 포함된 이미지에 대해서 스팸이미지로 분류하여 필터링하게 됨으로써, 실제 휴대전화로 수신되는 스팸이미지를 이용한 실험을 진행하였다. 그 결과 기존 텍스트기반 스팸필터링시스템에서 할 수 없었던 스팸이미지 필터링을 할 수 있음을 확인 하였다.

Spam Classification by Analyzing Characteristics of a Single Web Document (단일 문서의 특징 분석을 이용한 스팸 분류 방법)

  • Sim, Sangkwon;Lee, Soowon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.845-848
    • /
    • 2014
  • 블로그는 인터넷에서 개인의 정보나 의견을 표출하고 커뮤니티를 형성하는데 사용되는 중요한 수단이나, 광고 유치, 페이지 순위 올리기, 쓰레기 데이터 생성 등 다양한 목적을 가진 스팸블로그가 생성되어 악용되기도 한다. 본 연구에서는 이러한 문제를 해결하기 위해 웹 문서에서 나타나는 특징들을 이용한 스팸 탐지 기법을 제안한다. 먼저 블로그 본문의 길이, 태그의 비율, 태그 수, 이미지 수, 랭크의 수 등 하나의 웹 문서에서 추출할 수 있는 특징을 기반으로 각 문서에 대한 특징 벡터를 생성하고 기계학습을 통해 모델을 생성하여 스팸 블로그를 판별한다. 제안 방법의 성능 평가를 위해 블로그 포스트 데이터를 사용하여 제안방법과 기존의 스팸 분류 연구를 비교 실험을 진행하였다. Bayesian 필터링 기법을 사용하는 기존연구와 비교 실험 결과, 제안방법이 더 좋은 정확도를 가지면서 특징 추출 속도 및 메모리 사용 효율성을 보였다.

데이터마이닝 기법을 활용한 스팸메일 분류 및 예측모형 구축에 관한 연구

  • 안수산;신경식
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.359-366
    • /
    • 2000
  • 기업의 환경에서 이-메일(e-mail)은 회사내의 업무흐름을 완전히 뒤바꾸며 혁명적인 변화를 이끌고 있다. 업무 공간의 극복, 사내 커뮤니케이션의 극대화 등 이-메일이 제공하는 장점이 매우 많다. 그러나 최근 사회적 문제가 되고 있는 스팸 메일(spam mail)의 등장은 이러한 장점의 커다란 반대급부를 제공한다. 스팸메일이란 인터넷이용자들에게 원하지도 않았는데 무작위로 발송되는 광고성 이-메일을 일컫는 말로, 벌크(bulk)메일, 정크(junk)메일, 언솔리시티드(Unsolicited)메일과도 유사한 의미로 사용된다. 스팸메일은 사용자들로 하여금 스트레쓰의 요인이 되게 함은 물론, 이를 발신하고 수신하는 과정에서 이용되는 서버에 엄청난 부하를 줄 뿐만 아니라, 공공의 성격을 지니는 네트웍 자원을 아무런 비용의 지불 없이 독점하게 되는 좋지 않은 결과를 가져오게 된다. 본 연구에서는 데이터마이닝의 기법 중 분류(classification tack) 문제에 적웅이 활발한 인공신경망 (artificial neural networks)과 의사결정나무(decision tree)기법을 이용하여 스팸메일의 분류와 예측을 가능케 하는 모형을 구축한다.

  • PDF

Spam Mail Filtering System using Ontology and Semantic Enrichment (온톨로지와 Semantic Enrichment를 이용한 스팸 메일 필터링 시스템)

  • 김현준;김흥남;정재은;조근식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.553-555
    • /
    • 2004
  • 최근 인터넷의 급속한 성장과 더불어 전자메일(I-Mail)은 의사교환의 필수적인 매체로 사용 되어지고 있다. 그러나 편리하고 비용이 들지 앉는 장정을 이용해 엄청난 양의 스맴 메일이 매일같이 솎아져 오고, 이를 해결하기 위한 다양한 연구들이 제시되어져 왔다. 특히. 문서 분류에 널리 쓰이는 베이지안 분류자(Bayesian classifier)가 가장 널리 이용되어지고 있는데, 정확도와 재현율에서 비교적 우수한 성능을 보이고 있다. 그러나 몇 가지 문제점을 갖고 있는데, 첫째, 사전에 사용자에 의해 스팸. 논스팸 메일에 대한 충분한 학습이 선행되어야 하는 정, 둘째, 필터링을 위한 연산시간이 소요되는 점, 셋째, 필터링의 대상이 되는 메일 본문의 내용이 적을 경우 정확한 필터링이 어렵다는 정 등의 문제점이 있다. 본 논문에서는 마지막 문제점으로 지적된 메일 본문의 내용이 적을 경우 즉, 연산을 위한 특징적인 단어들의 부족으로 정확한 분류가 불가능한 경우의 해결방안으로 온틀로지와 Semantic Enrichment 기법을 이용한 스팸 메일 필터링 시스템을 제안한다. 실험 결과, 제안하는 시스템이 베이지안 분류자를 이용한 분류 시스템보다 정확도에서 4.1%, 재현율에서 10.5%. 그리고 F-measure에서 7.64%의 성능향상을 보였다.

  • PDF

A Method to Minimize Classification Rules Based on Data Mining and Logic Synthesis

  • Kim, Jong-Wan
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.12
    • /
    • pp.1739-1748
    • /
    • 2008
  • When we conduct a data mining procedure on sample data sources, several rules are generated. But some rules are redundant or logically disjoint and therefore they can be removed. We suggest a new rule minimization algorithm inspired from logic synthesis to improve comprehensibility and eliminate redundant rules. The method can merge several relevant rules into one based on data mining and logic synthesis without high loss of accuracy. In case of two or more rules are candidates to be merged, we merge the rules with the attribute having the lowest information gain. To show the proposed method could be a reasonable solution, we applied the proposed approach to a problem domain constructing user preferred ontology in anti-spam systems.

  • PDF

Deep Semantic Feature based Deceptive Opinion Spam Analysis (의미 프레임 자질 기반 의견 스팸 분석)

  • Kim, Seong-Soon;Jang, Hyeok-Yoon;Lee, Seong-Woon;Kang, Jaewoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.1001-1004
    • /
    • 2015
  • 소설미디어의 급증과 함께 온라인 리뷰의 의존성이 급증하는 가운데 사용자의 올바른 의사결정을 저해하는 기만적 의견 스팸 이슈가 새롭게 주목받고 있다. 기존의 의견 스팸 연구는 실제 리뷰와 의견 스팸 간의 차이를 어휘, 품사 또는 감정단어와 같은 표면적 자질을 통해 설명하였으나 그들간의 의미적 연결관계는 고려하지 않았다. 본 논문에서는 1) 의미적 프레임 기반의 텍스트 분석기법을 제안하고, 이를 바탕으로 2) 의견 스팸과 실제 리뷰간의 의미적 차이가 있음을 규명하며 3) 새로운 의미적 프레임 자질을 사용하여 기존의 의견 스팸 분류 성능을 향상시킬 수 있음을 보인다.

Trackback Spam Detection using Similarity Analysis by LSA (LSA 유사도 비교를 통한 트랙백 스팸 탐지)

  • Jun, Hyek-Su;Kim, Tae-Hwan;Choi, Joong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.339-344
    • /
    • 2010
  • 오늘날 인터넷 사용자들은 블로그나 뉴스 등의 매체에서 트랙백을 사용해 자신의 의견을 보다 자유롭게 나타낸다. 그러나 이러한 자유로움을 악용해 트랙백 스팸을 유발하여 네트워크의 자원을 낭비하고 방문자들에게 잘못된 정보를 전달해 해당 포스트의 신뢰를 떨어뜨린다. 트랙백 스팸은 유명한 포스트와 연계하여 자신의 포스트로 사용자들을 유도하는 특징을 가지기 때문에 일반적인 웹 스팸을 탐지하는 기술을 적용하기 어렵다. 따라서 본 논문에서는 자신이 작성한 글이 다른 사람의 글과 관련이 있다고 생각하여 다른사람의 글에 자신의 글을 링크시키는 트랙백의 특성을 이용하여 원본 페이지와 트랙백 페이지 그리고 트랙백 페이지의 아웃링크 내용상의 유사도와 동시 출현(co-occurrence) 정보를 이용하여 트랙백 스팸을 처리하고자 한다.

  • PDF

Comparison of Feature Selection Methods in Anti-Spam Systems (스팸 대응 시스템에서 특징 추출 방법 비교에 관한 연구)

  • Kim, Jong-Wan;Kim, Hui-Jae;Gang, Sin-Jae;Hwang, Un-Ho
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.352-355
    • /
    • 2006
  • 본 논문에서는 스팸 대응 시스템의 특징 추출 방법들을 비교한다. 실험 결과는 퍼지추론 방법이 정보획득량, 카이제곱 통계량, 상호정보 방법에 비하여 정확률과 재현율의 결합 척도인 F-척도면에서 월등한 성능을 보여주지는 않는다. 하지만 제안된 퍼지추론 방법은 사용된 특징들의 수에 비례하여 성능이 증가하므로 좋은 특징 추출 방법으로 간주된다. 따라서 본 연구는 무수한 스팸 메일로 고통 받는 전자우편 사용자들을 위한 스팸 메일 필터링 시스템 개발에 도움을 줄 수 있다.

  • PDF

Classification of Advertising Spam Reviews (제품 리뷰문에서의 광고성 문구 분류 연구)

  • Park, Insuk;Kang, Hanhoon;Yoo, Seong Joon
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.186-190
    • /
    • 2010
  • 본 논문은 쇼핑몰의 이용 후기 중 광고성 리뷰를 분류해 내는 방법을 제안한다. 여기서 광고성 리뷰는 주로 업체에서 작성하는 것으로 리뷰 안에 광고 내용이 포함되어 있다. 국외 연구 중에는 드물게 오피니언 스팸 문서의 분류 연구가 진행되고 있지만 한국어 상품평으로부터 광고성 리뷰를 분류하는 연구는 아직 이루어지지 않고 있다. 본 논문에서는 Naive Bayes Classifier를 활용하여 광고성 리뷰를 분류하였다. 이때 확률 계산을 위해 사용된 특징 단어는 POS-Tagging+Bigram, POS-Tagging+Unigram, Bigram을 사용하여 추출하였다. 실험 결과는 POS-Tagging+Bigram 방법을 이용하였을 때 광고성 리뷰의 F-Measure가 80.35%로 정확도 높았다.

  • PDF