• 제목/요약/키워드: 링크 스팸

검색결과 12건 처리시간 0.024초

하이퍼링크를 활용한 2단계 스팸 메일 필터링 시스템 (Two-phase Spam-mail Filtering System Applying Hyper]links)

  • 강신재;이새봄;김종완
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2004년도 춘계학술대회 21세기 IT산업의 발전 전망
    • /
    • pp.20-25
    • /
    • 2004
  • 본 논문은 하이퍼링크를 활용한 2 단계 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹 페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 토로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메일만 사용한 방법보다 F-measure 값이 평균 2.8%의 성능향상을 보였다.

  • PDF

링크구조분석을 이용한 스팸메일 분류 (A Spam Mail Classification Using Link Structure Analysis)

  • 이신영;길아라;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.30-39
    • /
    • 2007
  • 기존의 내용기반 스팸메일 분류는 전자메일이 이미지를 많이 가지고 있고 텍스트는 적게 가지고 있을 경우에는 내용을 분석하기 어려우므로 스팸메일을 분류하는 데 한계가 있다. 이와 같은 문제를 해결하기 위하여 본 논문에서는 전자메일의 구조를 분석하는 링크구조분석 스팸메일 분류 알고리즘을 제안한다. 이것은 전자메일 안의 하이퍼링크의 개수와 하이퍼링크가 가리키는 웹 문서들이 다른 웹 문서에 의해 링크된 수를 측정하여 전자메일의 중요도를 계산한 후 의사결정트리를 학습하여 스팸메일과 정상메일을 분류한다. 또한 위의 링크구조분석 알고리즘과 하이퍼링크의 서버 주소만을 이용한 변형된 링크구조 분석 알고리즘, 그리고 SVM(support vector machine)을 이용한 내용기반 방법을 다수결 원칙으로 결합한 통합 스팸메일 분류 시스템을 제안한다. 실험 결과, 제안한 링크구조분석 알고리즘은 기존의 내용기반 방법 보다 스팸메일 분류 정확도가 94.8%로 약간 향상되었으며 또한 통합 스팸메일 분류 시스템도 내용기반 방법과 비교하여 향상된 97.7%를 나타냈다.

링크 유알엘 접속을 통한 스팸메일 자동 차단 방법에 관한 연구 (A Method to Block Spam Mail Automatically Through the Connection to Link URL)

  • 정남철
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권4호
    • /
    • pp.451-458
    • /
    • 2007
  • 본 연구는 링크 유알엘 접속을 통해 스팸메일을 자동으로 차단하는 방법에 관한 것이다. 본 연구의 링크 유알엘 접속을 통한 스팸메일 자동 차단 방법은 다음과 같다. 1. 인터넷을 통해 연결되어 이루어지는 전자메일 시스템(서버)에서 수신되는 전자메일의 메시지 원본에 존재하는 링크 유알엘 정보를 추출하고, 2. 추출된 링크 유알엘 정보에 링크된 웹페이지에 접속을 수행하며, 3. 웹페이지의 컨텐츠 중에 미리 규정된 스팸 키워드가 존재하는 경우에 수신된 전자메일을 스팸메일로 분류하여 차단한다.

  • PDF

텍스트정보와 하이퍼링크에 기반한 지능형 스팸 메일 필터링 (Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks)

  • 강신재;김종완
    • 한국지능시스템학회논문지
    • /
    • 제14권7호
    • /
    • pp.895-901
    • /
    • 2004
  • 본 논문은 텍스트 정보와 하이퍼링크에 기반한 2단계 지능형 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 따로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메밀만 사용한 방법보다 F-measure 값이 평균 9.4% 의 성능향상을 보였다.

소셜 네트워크 상에서의 재귀적 네트워크 구조 특성을 활용한 스팸탐지 기법 (Social Network Spam Detection using Recursive Structure Features)

  • 장보연;정시현;김종권
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1231-1235
    • /
    • 2017
  • 온라인 소셜 네트워크는 정보전파의 용이성 및 파급 영향력이 높지만 이를 악의적으로 활용하기 위한 스패머들이 다수 활동 중이다. 이러한 스패머를 식별하기 위한 스팸 탐지기법 연구가 다양한 분야에서 이루어지고 있지만 스패머들 또한 스팸 내용이나 스팸링크, 활동 주기 등의 특성을 변경하여 탐지를 피하고 있다. 하지만 다른 특성들과 달리 온라인 소셜 네트워크의 고유 네트워크 특성인 링크 특성은 쉽게 변화시키는 어렵다. 따라서 본 논문에서는 이러한 네트워크의 구조적인 특성을 활용하여 스패머를 일반사용자와 구분하는 방법을 제시한다. 즉 일반사용자 노드가 주변 노드와 비슷한 네트워크 특성을 갖는 점에 주목하여 인접 노드를 활용한 재귀적인 구조적 특성을 생성하여 활용함으로써 스패머의 식별확률을 높이고 있다. 이를 검증하기 위한 실험은 트위터의 실제 데이터셋을 Weka 프로그램에 탑재된 랜덤포레스트 알고리즘을 활용하여 측정하였으며, 재귀적인 특성을 활용하지 않는 방법과 기존 제안 알고리즘에 비해 탐지율이 0.82에서 0.90으로 향상됨으로써 제안하는 방법이 스패머를 탐지하는데 효과적임을 제시하고 있다.

스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸메일 필터 시스템 (A Spam Filter System based on Maximum Entropy Model Using Spamness Features and URL Features)

  • 공미경;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-219
    • /
    • 2006
  • 본 논문에서는 스팸메일에 나타나는 스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸 필터 시스템을 제안한다. 스팸성 자질은 스패머들이 스팸메일에 인위적으로 넣는 강조 패턴이나 필터 시스템을 통과하기 위해 비정상적으로 변형시킨 단어들을 말한다. 스팸성 자질 외에 반복적으로 나타나는 URL과 비정상적인 Ink도 자질로 사용하였다. 메일 수신자에게 추가적인 정보 제공을 목적으로 하이퍼링크로 연결시키거나 메일에 직접 타이핑한 URL 중 필터 시스템을 피하기 위해 유효하지 알은 비정상적인 URL들이 스팸 메일을 걸러내는데 도움을 줄 수 있기 때문이다. 또한 스팸성 자질과 URL을 각각 적용한 두 분류기를 통합하였다. 분류기의 통합은 각 분류기에 이용된 자질을 독립적으로 사용할 수 있다는 장점을 가지고 있다. 실험 결과를 통해 스팸성 자질과 URL을 이용함으로써 스팸 필터 시스템의 성능을 향상시킬 수 있음을 확인할 수 있었다.

  • PDF

경험기법을 사용한 SNS 스팸의 클러스터링에 관한 연구 (A Study on Clustering of SNS SPAM using Heuristic Method)

  • 권영만;이인락;김명관
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.7-12
    • /
    • 2014
  • SNS는 친구들의 친목과 인맥유지를 위한 순기능을 가지고 있다. 그러나 각종 기업, 개인 스패머들이 팔로잉을 통해 스팸 트윗하여 다수의 이용자들에게 노출, 불편을 끼치고 있다. 기존 연구에서 이러한 스팸 트윗에 대해 연구를 실시한경우가 있다. 그러나 정교함의 부족함과 여러 원인들로 인해 보다 정확한 분류 및 검출이 어려운 결과를 나타내었다. 본 논문에서는 스패머들의 특징, 분류기준, 분류방법에 대해 기술하였다. 또한 이러한 특징 중 링크율과 자신을 팔로워한 부류와 자신이 팔로잉한 부류와의 차이를 통하여 스패머 계정에 대한 분류기준을 제시하였다. 실험은 무작위 스팸 계정과 일반 계정을 선정하였으며 분류기준에 따라 진행하였다. 결과로 스팸 계정은 링크율 68%, 팔로워 / 팔로잉 비율은 27581.5 였고 일반 계정은 6.12%, 팔로워 / 팔로잉 비율은 1.26 였다.

시드 정제 기술을 이용한 웹 스팸 필터링의 품질 향상 (Improving the Quality of Web Spam Filtering by Using Seed Refinement)

  • 무하마드 아티프 쿠레시;윤태섭;이정훈;황규영
    • 전자공학회논문지CI
    • /
    • 제48권6호
    • /
    • pp.123-139
    • /
    • 2011
  • 웹 스팸은 중요하지 않은 웹 페이지들의 중요도를 승격시키기 때문에 웹 검색 결과의 품질에 중대한 영향을 준다. 따라서 웹 검색 엔진은 웹 스팸을 제거할 필요가 있다. 웹 스팸 필터링은 스팸 페이지들, 즉 웹 스팸에 기여하는 웹 페이지들을 식별하는 것이며, 잘 알려진 웹 스팸 필터링 알고리즘으로는 Trust Rank, Anti-Trust Rank, Spam Mass, 그리고 Link Farm Spam이 있다. 이러한 알고리즘들의 결과 품질은 입력 시드(input seed)에 따라 달라진다. 따라서 입력 시드를 정제(refinement) 함으로써, 웹 스팸 필터링의 품질을 향상 시킬 수 있다. 본 논문에서는 잘 알려진 네 가지 알고리즘에 대한 시드를 정제하는 기술을 제안한다. 다음으로, 이러한 기술을 원(original) 알고리즘에 각각 적용하는 방법으로 알고리즘을 수정한다. 이를 수정된 웹 스팸 필터링 알고리즘이라고 부른다. 본 논문에서는 또한, 웹 스팸 필터링을 좀 더 향상시키기 위한 전략을 제안한다. 이 전략에서는 수정된 알고리즘들을 수행 순서상의 적절한 위치에 배치함으로써 알고리즘들의 상호간 지원을 통해 전체적으로 성능을 향상시키는 가능성을 고려한다. 마지막으로, 실험에서는 시드 정제의 효과를 보인다. 이를 위해, 먼저, 수정된 알고리즘의 웹 스팸 필터링 품질이 원 알고리즘의 품질보다 더 우수함을 보인다. 다음으로, 웹 스팸 필터링 알고리즘들이 수행되는 순서의 조합 중 가장 성능이 우수한 조합이 가장 뛰어난 잘 알려진 알고리즘과 비교하여 정확도(precision)를 유지하면서 파라미터의 전형적인 값 범위 내에서 재현율(recall)은 최대 1.38배까지 높게 향상됨을 보인다.

웹 로봇 에이전트의 하이퍼링크 분석기법을 이용한 음란메일 차단 시스템의 구현 (Implementation of Anti-Porn Spam System based on Hyperlink Analysis Technique's of the Web Robot Agent)

  • 이승만;정희석;한상;송우석;이도한;홍지영;반의환;양준영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.332-335
    • /
    • 2007
  • 이메일은 누구나 쉽게 정보를 교환할 수 있는 편리함 때문에 인터넷에서 가장 중요한 수단으로 사용되고 있다. 그러나 순수한 의사소통의 수단이 아닌 스팸메일의 범람은 성인뿐만 아니라, 어린이 청소년에게도 무차별적으로 전송됨으로써 심각한 부작용을 낳고 있다. 본 논문은 점차 지능화 되는 신 유형의 음란 스팸메일로부터 청소년을 보호하기 위하여 새로운 방법의 음란메일 차단시스템을 제안하고자 한다. 기존의 스팸메일 차단시스템은 사용자가 직접 음란한 메일이라고 판단되는 메일에 대해 일일이 키워드를 설정하거나, 메일 내용 중에 텍스트만을 추출하여 패턴 매칭방법으로 분류하는 것이 대부분이었지만, 본 논문은 기존 방법의 문제점을 해결하기 위하여 이미지 내 Skin-Color분포의 Human Detection 알고리즘과 웹 로봇 에이전트의 하이퍼링크 분석기법을 사용하였다. 성능 측정결과, 형태소 분석과 Human Detection 알고리즘을 병합하여 적용한 경우 성능 측정에서 90% 정도의 F-measure를 보였지만, 추가적으로 웹 로봇 에이전트의 하이퍼링크 분석기법을 병합하여 적용한 경우 97% 이상의 F-measure를 보이며, 신뢰성이 높은 음란스팸메일 차단 시스템을 구현할 수 있다는 것을 증명하였다.

  • PDF

LSA 유사도 비교를 통한 트랙백 스팸 탐지 (Trackback Spam Detection using Similarity Analysis by LSA)

  • 전혁수;김태환;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.339-344
    • /
    • 2010
  • 오늘날 인터넷 사용자들은 블로그나 뉴스 등의 매체에서 트랙백을 사용해 자신의 의견을 보다 자유롭게 나타낸다. 그러나 이러한 자유로움을 악용해 트랙백 스팸을 유발하여 네트워크의 자원을 낭비하고 방문자들에게 잘못된 정보를 전달해 해당 포스트의 신뢰를 떨어뜨린다. 트랙백 스팸은 유명한 포스트와 연계하여 자신의 포스트로 사용자들을 유도하는 특징을 가지기 때문에 일반적인 웹 스팸을 탐지하는 기술을 적용하기 어렵다. 따라서 본 논문에서는 자신이 작성한 글이 다른 사람의 글과 관련이 있다고 생각하여 다른사람의 글에 자신의 글을 링크시키는 트랙백의 특성을 이용하여 원본 페이지와 트랙백 페이지 그리고 트랙백 페이지의 아웃링크 내용상의 유사도와 동시 출현(co-occurrence) 정보를 이용하여 트랙백 스팸을 처리하고자 한다.

  • PDF