• 제목/요약/키워드: 스팸 블로그 판별

검색결과 4건 처리시간 0.021초

지지벡터기계를 이용한 스팸 블로그(Splog) 판별 시스템 (A Splog Detection System Using Support Vector Systems)

  • 이성욱
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.163-168
    • /
    • 2011
  • 블로그는 인터넷 공간에서 가장 손쉽게 정보 출간, 토론 참여, 커뮤니티 형성하는 수단이다. 그러나 최근에 광고를 유치하거나 페이지 순위를 올리기 위한 목적의 다양한 스팸 블로그가 범람하고 있다. 본 연구의 목적은 웹 환경에서 이러한 스팸 블로그(Splog)를 자동으로 판별하는 시스템을 개발하는 것이다. 먼저 블로그의 HTML을 제거한 후 품사를 부착하였다. 어휘/품사 쌍을 자질로 사용하였으며 카이제곱 통계량을 이용하여 유용한 자질을 선택하였다. 선택된 자질의 가중치를 벡터로 표현한 후, 지지벡터기계(Support Vector Machines)를 학습하여 자동으로 스팸 블로그를 판별하는 시스템을 제안하였으며, SPLOG 데이터 집합으로 실험한 결과 F1척도로 90.5%의 정확률을 얻었다.

지지벡터기계와 카이제곱 통계량을 이용한 스팸 블로그(Splog) 판별 시스템 (A Splog Detection System Using Support Vector Machines and $x^2$ Statistics)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.905-908
    • /
    • 2010
  • 본 연구의 목적은 웹 환경에서 스팸 블로그(Splog)를 자동으로 판별하는 시스템을 개발하는 것이다. 먼저 블로그의 HTML을 제거한 후 품사를 부착하였다. 어휘/품사 쌍을 자질로 사용하였으며 카이제곱 통계량을 이용하여 유용한 자질을 선택하였다. 선택된 자질의 가중치를 벡터로 표현한 후, 지지벡터 기계(Support Vector Machines)를 학습하여 자동으로 스팸 블로그를 판별하는 시스템을 제안하였으며, SPLOG 데이터 집합으로 실험한 결과 F1척도로 90.5%의 정확률을 얻었다.

  • PDF

단일 문서의 특징 분석을 이용한 스팸 분류 방법 (Spam Classification by Analyzing Characteristics of a Single Web Document)

  • 심상권;이수원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.845-848
    • /
    • 2014
  • 블로그는 인터넷에서 개인의 정보나 의견을 표출하고 커뮤니티를 형성하는데 사용되는 중요한 수단이나, 광고 유치, 페이지 순위 올리기, 쓰레기 데이터 생성 등 다양한 목적을 가진 스팸블로그가 생성되어 악용되기도 한다. 본 연구에서는 이러한 문제를 해결하기 위해 웹 문서에서 나타나는 특징들을 이용한 스팸 탐지 기법을 제안한다. 먼저 블로그 본문의 길이, 태그의 비율, 태그 수, 이미지 수, 랭크의 수 등 하나의 웹 문서에서 추출할 수 있는 특징을 기반으로 각 문서에 대한 특징 벡터를 생성하고 기계학습을 통해 모델을 생성하여 스팸 블로그를 판별한다. 제안 방법의 성능 평가를 위해 블로그 포스트 데이터를 사용하여 제안방법과 기존의 스팸 분류 연구를 비교 실험을 진행하였다. Bayesian 필터링 기법을 사용하는 기존연구와 비교 실험 결과, 제안방법이 더 좋은 정확도를 가지면서 특징 추출 속도 및 메모리 사용 효율성을 보였다.

단어 반복 특징을 이용한 스팸 문서 분류 방법에 관한 연구 (A Study on Spam Document Classification Method using Characteristics of Keyword Repetition)

  • 이성진;백종범;한정석;이수원
    • 정보처리학회논문지B
    • /
    • 제18B권5호
    • /
    • pp.315-324
    • /
    • 2011
  • 인터넷 환경에서 스팸의 범람은 개인 정보의 유출, 피싱에 의한 금전적 손해, 무분별한 유해 콘텐츠의 유통 등 심각한 사회 문제를 야기하고 있다. 또한 사회적 통제를 필요로 하는 유해 정보를 무차별적으로 유통시키는 스팸의 형태와 기술이 갈수록 다양해지고 있다. Bag-of-Words 모델을 이용한 학습 기반 스팸 분류 방법은 현재까지의 연구 중에서 가장 일반적으로 사용되는 방법이다. 그러나 이 방법은 분류 모델 학습 과정에서 사용된 키워드의 출현 정보만으로 스팸 문서를 분류하기 때문에 최근 흔히 발견할 수 있는 스팸 차단 회피 방법에 대한 대처 능력이 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 문서에서 등장하는 반복 단어의 특징을 이용한 스팸 문서 탐지 방법을 제안한다. 최근 대부분의 스팸 문서에서는 노출하고자 하는 스팸 문구를 반복하는 경향이 있으며, 이는 스팸 문서를 판별하는 기준으로 사용될 수 있다. 본 논문에서는 단어 반복의 특징을 표현할 수 있는 6개의 변수를 정의하고 이를 분류 모델 생성을 위한 속성으로 사용한다. 본 논문에서 제안하는 스팸 탐지 방법의 성능 평가를 위해 블로그 포스트 데이터와 이메일 데이터를 이용하여 기존 방법들과의 비교 실험을 진행하였고, 결과 분석을 통해 제안 방법이 우수함을 확인하였다.