• 제목/요약/키워드: 링크 스팸

검색결과 12건 처리시간 0.015초

가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System Using Weighted Bayesian Classifier)

  • 김현준;정재은;조근식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1092-1100
    • /
    • 2004
  • 최근 인터넷의 급속한 성장과 더불어 전자메일(E-Mail)은 통신 및 정보, 의사교환의 필수적인 매체로 사용되어지고 있다. 그러나 편리하고 비용이 들지 않는 장점을 이용해 엄청난 양의 스팸 메일이 매일같이 쏟아져 오고, 그 문제의 심각성에 정보통신부는 ‘정보통신망 이용촉진 및 정보보호등에 관한 개정안’이라는 새로운 법률까지 만들었다. 본 논문에서는 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(naive Bayesian classifier)보다 개선된 가중치가 부여된 베이지안 분류자 (weighted Bayesian classifier)와 정보통신부의 개정안을 준수하는 매일을 분류하기 위한 전처리 단계, 그리고 사용자의 행동을 학습하여 보다 정확한 분류를 가능하게 지능형 에이젼트(intelligent agent)가 결합된 형태의 스팸 메일 필터링 시스템(spam mail filtering system)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 넣을 필요 없이 학습한 데이타를 가지고 자동적으로 스팸 메일을 분류할 수가 있는데, 특히 이메일의 특징 추출(feature extraction)을 이용하여 상대적으로 스팸/논스팸 판별에 비중이 큰 단어들에 대해 가중치를 부여함으로서 필터링의 성능향상을 도모하였다. 실험에서는 제안된 시스템의 최적의 성능 평가를 위해서 일반 나이브 베이지안 필터링시의 성능과 이메일 헤더정보, 특정 Tag들 그리고 하이퍼링크 부분에 가중치를 준 베이지안 필터링, 마지막으로 4가지를 결합한 상태의 필터링 성능을 각각 비교 분석하였다. 그 결과 제안하는 시스템이 나이브 베이지안 분류자를 이용한 시스템보다 정확도에서는 5.7% 저조한 성능을 보였으나, 재현율에서 33.3%, F-measure에서 31.2% 우수한 성능향상을 보였다.

상호작용성에 의한 SNS 영향유저 선정에 관한 연구 : 연속적인 참조관계가 있는 블로고스피어를 중심으로 (Finding Influential Users in the SNS Using Interaction Concept : Focusing on the Blogosphere with Continuous Referencing Relationships)

  • 박현정;노상규
    • 한국전자거래학회지
    • /
    • 제17권4호
    • /
    • pp.69-93
    • /
    • 2012
  • 블로그, 페이스북, 트위터와 같은 SNS(Social Network Service)는 유저와 포스트를 노드로, 유저와 포스트, 포스트와 포스트, 또는 유저와 유저 사이에 형성되는 다양한 관계를 링크로 하는 그래프로 표현될 수 있다. 본 논문은 이러한 그래프 구조를 분석하여 다른 유저들의 생각과 행동에 영향을 미치는 영향 유저를 선별하는 방법에 대해 논한다. 기본적인 패러다임으로 기존의 투표성 개념이 아닌, 다양한 시맨틱 웹 자원의 중요도를 평가하기 위해 제안된 상호작용성 개념을 초기 SNS의 하나인 블로고스피어의 영향력 평가에 적용함으로써, 여러 모의 실험을 통해 그 타당성과 적용 가능성을 입증하였다. 모의 실험은 각 대안이 제공하는 결과의 타당성 정도에 따라 성능을 비교 분석할 수 있는 네트워크 모형을 디자인하여 사용하였다. 또, 이러한 네트워크 모형에 대한 링크 가중치 튜닝의 결과 변화를 살펴봄으로써, 가중치 조합의 차이에서 발생하는 실험 오차를 줄이고, 실제 적용의 용이함을 비교 분석하였다. 부가적으로, 스팸 필터링 목적에서 포스트 컨텐츠 점수를 링크 구조 기반 방법 안에 포함시킬 수 있는 방법도 제안하였다. 본 연구는 SNS 영향유저 선별에 대한 연구의 출발점으로서, 다음과 같은 점에서 기존 연구와 구별된다. 첫째, 스크랩, 댓글, RSS, 친구 등 기존 연구에서 유의미한 속성으로 간주했지만, 그래프 기반 방법으로 함께 고려할 수 없었던 다양한 영향력 속성들을 종합적으로 반영할 수 있는 그래프 기반 영향력 평가 프레임웍을 제시한다. 둘째, 이 프레임웍은 영향력이 높은 개체들과 상호작용하는 개체가 영향력이 낮은 개체들과 상호작용하는 개체보다 높은 영향력을 갖게 되는 일반적인 현상을 구현할 수 있는 양방향성을 반영한다. 셋째, 영향력 평가 면에서 다른 사람들의 추종액션을 유발한 정도를 가장 중요한 요인으로 고려하여, 일련의 참조관계에 대해 기존의 페이지랭크나 HITS(Hypertext Induced Topic Selection)와는 다른 관점에서 접근하였다.