• 제목/요약/키워드: Web Spam

검색결과 37건 처리시간 0.019초

시드 정제 기술을 이용한 웹 스팸 필터링의 품질 향상 (Improving the Quality of Web Spam Filtering by Using Seed Refinement)

  • 무하마드 아티프 쿠레시;윤태섭;이정훈;황규영
    • 전자공학회논문지CI
    • /
    • 제48권6호
    • /
    • pp.123-139
    • /
    • 2011
  • 웹 스팸은 중요하지 않은 웹 페이지들의 중요도를 승격시키기 때문에 웹 검색 결과의 품질에 중대한 영향을 준다. 따라서 웹 검색 엔진은 웹 스팸을 제거할 필요가 있다. 웹 스팸 필터링은 스팸 페이지들, 즉 웹 스팸에 기여하는 웹 페이지들을 식별하는 것이며, 잘 알려진 웹 스팸 필터링 알고리즘으로는 Trust Rank, Anti-Trust Rank, Spam Mass, 그리고 Link Farm Spam이 있다. 이러한 알고리즘들의 결과 품질은 입력 시드(input seed)에 따라 달라진다. 따라서 입력 시드를 정제(refinement) 함으로써, 웹 스팸 필터링의 품질을 향상 시킬 수 있다. 본 논문에서는 잘 알려진 네 가지 알고리즘에 대한 시드를 정제하는 기술을 제안한다. 다음으로, 이러한 기술을 원(original) 알고리즘에 각각 적용하는 방법으로 알고리즘을 수정한다. 이를 수정된 웹 스팸 필터링 알고리즘이라고 부른다. 본 논문에서는 또한, 웹 스팸 필터링을 좀 더 향상시키기 위한 전략을 제안한다. 이 전략에서는 수정된 알고리즘들을 수행 순서상의 적절한 위치에 배치함으로써 알고리즘들의 상호간 지원을 통해 전체적으로 성능을 향상시키는 가능성을 고려한다. 마지막으로, 실험에서는 시드 정제의 효과를 보인다. 이를 위해, 먼저, 수정된 알고리즘의 웹 스팸 필터링 품질이 원 알고리즘의 품질보다 더 우수함을 보인다. 다음으로, 웹 스팸 필터링 알고리즘들이 수행되는 순서의 조합 중 가장 성능이 우수한 조합이 가장 뛰어난 잘 알려진 알고리즘과 비교하여 정확도(precision)를 유지하면서 파라미터의 전형적인 값 범위 내에서 재현율(recall)은 최대 1.38배까지 높게 향상됨을 보인다.

Comparing Feature Selection Methods in Spam Mail Filtering

  • Kim, Jong-Wan;Kang, Sin-Jae
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2005년도 6th 2005 International Conference on Computers, Communications and System
    • /
    • pp.17-20
    • /
    • 2005
  • In this work, we compared several feature selection methods in the field of spam mail filtering. The proposed fuzzy inference method outperforms information gain and chi squared test methods as a feature selection method in terms of error rate. In the case of junk mails, since the mail body has little text information, it provides insufficient hints to distinguish spam mails from legitimate ones. To address this problem, we follow hyperlinks contained in the email body, fetch contents of a remote web page, and extract hints from both original email body and fetched web pages. A two-phase approach is applied to filter spam mails in which definite hint is used first, and then less definite textual information is used. In our experiment, the proposed two-phase method achieved an improvement of recall by 32.4% on the average over the $1^{st}$ phase or the $2^{nd}$ phase only works.

  • PDF

링크 유알엘 접속을 통한 스팸메일 자동 차단 방법에 관한 연구 (A Method to Block Spam Mail Automatically Through the Connection to Link URL)

  • 정남철
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권4호
    • /
    • pp.451-458
    • /
    • 2007
  • 본 연구는 링크 유알엘 접속을 통해 스팸메일을 자동으로 차단하는 방법에 관한 것이다. 본 연구의 링크 유알엘 접속을 통한 스팸메일 자동 차단 방법은 다음과 같다. 1. 인터넷을 통해 연결되어 이루어지는 전자메일 시스템(서버)에서 수신되는 전자메일의 메시지 원본에 존재하는 링크 유알엘 정보를 추출하고, 2. 추출된 링크 유알엘 정보에 링크된 웹페이지에 접속을 수행하며, 3. 웹페이지의 컨텐츠 중에 미리 규정된 스팸 키워드가 존재하는 경우에 수신된 전자메일을 스팸메일로 분류하여 차단한다.

  • PDF

베이지안을 이용한 인터넷 커뮤니티 상의 유해 메시지 차단 기법 (Spam Message Filtering with Bayesian Approach for Internet Communities)

  • 김범배;최형기
    • 정보처리학회논문지C
    • /
    • 제13C권6호
    • /
    • pp.733-740
    • /
    • 2006
  • 스팸의 피해가 이메일 서비스를 넘어 인터넷 전반에 걸쳐 급증하는 현재 인터넷은 익명성을 악용하여 해당 커뮤니티의 공동 관심사와는 무관한 메시지들, 즉 상업적 광고, 상호비방, 종교 홍보 등의 스팸 메시지들을 게재하면서 심각한 사회적 문제를 일으키고 있다. 본고에서는 인터넷 커뮤니티 상의 스팸 메시지를 해결하고자 기존의 스팸 메일 차단에 이용되고 있는 베이지안 접근법을 적용한 인터넷 커뮤니티 상의 스팸 메시지 차단 방법을 소개한다. 나아가 인터넷 커뮤니티 상에서의 스팸 메시지 필터링의 효과를 증대시키기 위한 방편으로 스팸 메시지를 다양한 소분류로 세분화가 가능토록 구성했다 이는 인터넷 커뮤니티의 다양한 이용자의 요구를 충족시키기 위한 방안이다. 구현된 베이지안 필터링 기법은 현재 운영되고 있는 사이트들을 대상으로 정확도를 측정하였다.

소셜 웹에서의 시맨틱스: 개인화 이메일 마케팅 개발 사례 (Semantics in Social Web: A Case of Personalized Email Marketing)

  • 주재훈;명성재
    • 한국콘텐츠학회논문지
    • /
    • 제10권6호
    • /
    • pp.43-48
    • /
    • 2010
  • 유용한 이메일은 소비자 구매행동에 긍정적 영향을 미치며, 온라인 상점에서 소비자를 구매로 유인하는 수단이 된다. 또한 이메일을 통해 소비자와 정기적인 접촉을 갖게 되면 고객의 충성도가 개선된다. 그러나 이메일에도 한계점이 있다. 통계에 의하면, 이메일의 절반 이상이 스팸이다. 이메일 사용자가 증가함에 따라 과거 몇 년 동안에 스팸이 급속도로 증가하고 있다. 본 연구에서는 그러한 이메일 마케팅의 한계점을 극복하기 위해 온톨로지 접근법을 제안하였다. 본 연구에서 제안한 방법은 스팸 메일을 제거하는데 온톨로지를 활용하는 것이 아니라 개인의 특성과 흥미를 고려하여 개인화 콘텐트를 서비스하는데 온톨로지를 적용하였다. 본 연구에서는 도메인 온톨로지를 개발하였고 기존의 FOAF도 활용하였다. 본 연구의 제안 시스템을 시나리오를 통해 검증하였다.

크라우드소싱 기반 문장재구성 방법을 통한 의견 스팸 데이터셋 구축 및 평가 (A Crowdsourcing-Based Paraphrased Opinion Spam Dataset and Its Implication on Detection Performance)

  • 이성운;김성순;박동현;강재우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.338-343
    • /
    • 2016
  • 웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진행되고 있다. 하지만 분석 및 학습에 필요한 기준 데이터셋의 부족함과 한계점들은 관련 연구의 발전을 더디게 하고 있다. 본 논문에서는 사실 리뷰를 모사한 새로운 형태의 Paraphrased Opinion Spam(POS) 데이터셋을 소개한다. 우리는 실제 스패머들이 스팸을 작성할 때 실제 리뷰를 참고한다는 경향에 착안하여, 실제 리뷰어들이 작성한 리뷰를 의역하는 과정을 통하여 본문에 포함되어 있는 사실 정보와 경험을 담은 스팸 데이터 셋을 생성하였다. 실험 결과, 새롭게 생성된 POS 데이터셋이 언어학적으로 실제 리뷰들과 유사하여 스팸 분류 모델을 이용하여 분류 시 기존의 데이터셋들보다 더 분류하기 힘들다는 것을 발견했다. 또한 데이터의 학습량에 따라서 스팸 리뷰의 분류 정확도가 비례적으로 증가하는 것을 확인함으로써, 데이터의 양이 스팸 분류 모델 성능에 중요한 요소로 작용한다는 것을 확인할 수 있었다.

텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안 (Detecting Spam Data for Securing the Reliability of Text Analysis)

  • 현윤진;김남규
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.493-504
    • /
    • 2017
  • 최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.

인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별 (Facebook Spam Post Filtering based on Instagram-based Transfer Learning and Meta Information of Posts)

  • 김준홍;서덕성;김해동;강필성
    • 대한산업공학회지
    • /
    • 제43권3호
    • /
    • pp.192-202
    • /
    • 2017
  • This study develops a text spam filtering system for Facebook based on two variable categories: keywords learned from Instagram and meta-information of Facebook posts. Since there is no explicit labels for spam/ham posts, we utilize hash tags in Instagram to train classification models. In addition, the filtering accuracy is enhanced by considering meta-information of Facebook posts. To verify the proposed filtering system, we conduct an empirical experiment based on a total of 1,795,067 and 761,861 Facebook and Instagram documents, respectively. Employing random forest as a base classification algorithm, experimental result shows that the proposed filtering system yield 99% and 98% in terms of filtering accuracy and F1-measure, respectively. We expect that the proposed filtering scheme can be applied other web services suffering from massive spam posts but no explicit spam labels are available.

카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기 (An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.592-595
    • /
    • 2009
  • 우리는 지지벡터기계를 이용하여 스팸 이메일을 자동으로 분류하는 시스템을 제안한다. 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이 제곱 통계량을 이용하여 유용한 자질을 선택한 후 각각의 자질을 문서 빈도(TF)와 역문헌빈도(IDF) 값으로 표현하였다. 자질들을 이용하여 SVM을 학습한 후, SVM 분류기는 각각의 이메일의 스팸 유무를 결정한다. 실험 결과, 웹메일 시스템에서 수집한 이메일 데이터에 대해 약 82.7%의 정확률을 얻었다.

  • PDF

국내 웹 분석을 통한 웹 스팸의 특성 (Characterization of Web Spam through the Korean Web Analysis)

  • 최승진;김성권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (D)
    • /
    • pp.333-338
    • /
    • 2007
  • 웹 스팸(Web Spam)은 스패머가 원하는 페이지를 검색 결과 상단에 올리는 기술이다. 이러한 웹 스팸에 의해 상위 랭크된 페이지는 사용자에게 올바른 정보를 전달해 주지 않는다. 해외에서는 웹 스팸의 심각성을 인식하고 이에 대한 연구 또한 활발히 진행되고 있다. 하지만 국내의 경우 아직 웹 스팸에 대하 연구가 미흡한 실정이다. 또한 해외에서 연구되고 있는 웹 스팸 탐지 기술들은 국내의 웹에 적용시키기 힘들다. 그래서 본 논문은 다양한 방식으로 국내 웹과 검색 사이트의 특성을 분석하고 해외와의 차이점에 대해 알아본다. 그리고 이 차이점을 통해 국내 웹에서 나타날 수 있는 웹 스팸과 앞으로의 연구 방향에 도움을 주고자 한다.

  • PDF