• 제목/요약/키워드: Spam Filtering

검색결과 95건 처리시간 0.03초

SVM 분류 알고리즘을 이용한 스팸메일 필터링 (SPam-mail Filtering Using SVM Classifier)

  • 민도식;송무희;손기준;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.552-554
    • /
    • 2003
  • 전자우편은 기존 우편 기능을 대체하는 대표적인 정보 전달 수단으로 자리 잡고 있다. 전자매일 사용자의 증가에 따라 망은 기업들은 전자 메일을 통해 광고를 하게 되었다. 이에 따라 전자매일 사용자들은 인터넷 상에 개인 전자메일 주소가 노출됨으로 많은 스팸메일을 수신하게 되는데, 이것은 전자메일 사용자에게 많은 부담이 되고있다. 본 논문은 전자우편 문서내의 단어들을 대상으로 통계적 방법의 SVM을 이용하여 스팸메일을 필터링 하였으며, 학습 단계에서 단어 자질공간의 축소를 위해 DF값 변화에 따른 학습을 통하여 분류의 성능을 비교하였다. SVM의 성능 평가를 위해 확률적 방법의 나이브 베이지안과 벡터 모텔을 이용한 분류기와 성능을 비교함으로써 SVM 방법이 우수한 성능을 보임을 검증하였다.

  • PDF

사용자 행동 패턴을 기반으로 가중치를 부여한 스팸 메일 필터링 (Weighting based User Behavior Pattern for Filtering Spam Mail)

  • 한아성;김현준;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.389-394
    • /
    • 2007
  • 스팸 메일의 비율은 지속적으로 증가하여 최근 전체 이메일의 92.6%가 스팸 메일인 것으로 드러났다. 본 논문에서는 시간의 경과에 따른 사용자의 액션 패턴을 기반으로 사용자의 관심에 따른 가중치를 적용하여 스팸 메일 여부를 가리는 방법을 다룬다. 액션간의 관계와 액션 사이의 시간에 따라 가중치를 차별화함으로써 얼마나 높은 필터링 성능을 보일 수 있는 지, 또한 학습 속도 향상에 얼마나 기여할 수 있는지를 측정할 것이다. 실험에서는 실제 메일 데이터를 이용하여 베이지안 분류자, 가중치가 부여된 베이지안 분류자와 본 논문이 제안하는 시스템의 학습 성능의 향상 속도를 비교할 것이다. 또한 제안된 시스템이 Concept Drift와 적응 학습, 그리고 개인화를 어떻게 다룰 지를 보일 것이다.

  • PDF

문장 벡터와 전방향 신경망을 이용한 스팸 문자 필터링 (Spam Text Filtering by Using Sen2Vec and Feedforward Neural Network)

  • 이현영;강승식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.255-259
    • /
    • 2017
  • 스팸 문자 메시지를 표현하는 한국어의 단어 구성이나 패턴은 점점 더 지능화되고 다양해지고 있다. 본 논문에서는 이러한 한국어 문자 메시지에 대해 단어 임베딩 기법으로 문장 벡터를 구성하여 인공신경망의 일종인 전방향 신경망(Feedforward Neural Network)을 이용한 스팸 문자 메시지 필터링 방법을 제안한다. 전방향 신경망을 이용한 방법의 성능을 평가하기 위하여 기존의 스팸 문자 메시지 필터링에 보편적으로 사용되고 있는 SVM light를 이용한 스팸 문자 메시지 필터링의 정확도를 비교하였다. 학습 및 성능 평가를 위하여 약 10만 개의 SMS 문자 데이터로 학습을 진행하였고, 약 1만 개의 실험 데이터에 대하여 스팸 문자 필터링의 정확도를 평가하였다.

  • PDF

사용자의 행동과 점진적 기계학습을 이용한 쓰레기 편지 여과 시스템의 설계 (Designing a Spam Mail Filtering System Using User Reaction and Incremental Machine Learning)

  • 김강민;박은진;김재훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.775-778
    • /
    • 2005
  • 본 논문은 쓰레기 편지를 여과하기 위해 대상 편지에 따른 사용자들의 행동(reaction)을 묵시적(implicitly)으로 수집한 후 이를 점진적(incrementally) 기계학습기의 자질(feature)로 사용하여 편지 여과 작업의 증거가 되는 단어들을 지속적으로 학습하면서 최적의 편지 여과 결과를 제공하는 기법과 시스템 구조를 제안한다. 사용자 개인의 컴퓨터에 행동 정보와 학습 데이터를 저장하도록 설계하여 묵시적 정보 수집에서 자주 제기되는 개인 프라이버시 문제를 해결하였으며, 점진적 기계학습 기법을 사용하여 개인 정보를 포함하는 대량의 편지 학습 데이터를 모으기 힘들다는 문제를 해결하였다. 또 향후 제안하는 시스템을 이용하여 여러 종류의 기계학습 기법 중 쓰레기 편지 여과 작업을 가장 효과적으로 수행할 수 있는 기법을 선택하는 작업을 수행할 계획이다.

  • PDF

사용자 패턴 기반의 부정오류(FN) 수준 평가를 활용한 스팸메일 분류 (Spam Filtering by False Negative(FN) Value Analysis based on User Pattern)

  • 남명국;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.68-73
    • /
    • 2008
  • 전자 메일의 사용이 급증함에 따라 스팸메일의 양도 함께 증가하고 있다. 증가되는 스팸으로 인한 피해를 줄이기 위하여 여러 가지 기법들이 사용되고 있지만, 지능화되어가는 스패머들의 기술에 완전한 스팸메일의 차단은 불가능하며, 수신된 메일에 대해 사용자는 자신만의 기준으로 스팸메일 여부를 판단하고 있다. 본 논문에서는 스팸메일임에도 불구하고 수신되는 메일(FN)에 대해, 사용자의 반응 패턴을 통하여 이를 판단하고자 한다. 수신된 메일의 송신자와 제목, 보관 편지함 등에서 형태소 추출을 하고 이를 PN_DB(Positive형태소와 Negative형태소로 구성된 DB, 이하 PN_DB)로 구축한 뒤, Negative 형태소들을 Balcklist로 사용하여 FN 메일을 판단한다. FN 메일로 판단된 경우에 PN_DB에서 계산된 각각의 가중치 값을 적용하여 사용자의 과거 스팸 판단 성향이 반영된 FN_value를 시각적으로 표현함으로써 사용자의 판단을 용이하게 하는 시스템을 제안한다.

  • PDF

나이브 베이지안 분류자와 메일 주소 유효성 검사를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System by Using Naive Bayesian Classifier and Mail Address Validation Check)

  • 임정택;김형준;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.523-525
    • /
    • 2005
  • 본 논문에서는 가중치가 부여된 나이브 베이지안 분류자와 스팸 메일의 특성을 이용한 주소 유효성 검사를 결합하여 필터링하는 방식의 스팸 메일 필터링 시스템을 제안하였다. 주소 유효성 검사를 통해 스팸 메일을 효율적으로 필터링 할 수 있으며, 나이브 베이지안 분류자에 가중치를 부여함으로써 더욱 효과적인 분류를 할 수 있다. 또한, 각 요인의 중요도에 따라 다른 비중을 부여함으로써 메일의 특성을 고려한 필터링 환경을 구현하였다. 실험에서는 제안하는 요인들이 실제로 필터링 성능 향상에 어떤 영향을 미치는지 살펴보고 최적의 시스템 성능을 측정하였다.

  • PDF

하이퍼링크를 활용한 2단계 스팸 메일 필터링 시스템 (Two-phase Spam-mail Filtering System Applying Hyper]links)

  • 강신재;이새봄;김종완
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2004년도 춘계학술대회 21세기 IT산업의 발전 전망
    • /
    • pp.20-25
    • /
    • 2004
  • 본 논문은 하이퍼링크를 활용한 2 단계 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹 페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 토로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메일만 사용한 방법보다 F-measure 값이 평균 2.8%의 성능향상을 보였다.

  • PDF

스팸메일 방지를 위한 MDA의 필터링방법 개선방안 (An improvement of MDA(Mail Delivery Agent) Filtering method for prevention of spam mail)

  • 박은옥;김영현;최은정;유주영;김미애;박유미;김윤정;김명주
    • 한국정보보호학회:학술대회논문집
    • /
    • 한국정보보호학회 2003년도 동계학술대회
    • /
    • pp.259-263
    • /
    • 2003
  • 인터넷 이용자가 증가함에 따라 전자메일 사용자도 증가하고 있다. 전자메일 사용으로 통신상의 비용 및 시간이 절약되는 장점이 있지만 소수의 유저들이 상업적 목적으로 많은 유저에게 원하지 않은 메일(스팸메일)을 보냄으로써 물질적, 정신적 피해를 입히고 있다. 따라서 스팸 메일을 방지하기 위한 여러 기법들이 제안되었다. 본 논문에서는 스팸 메일 문제를 해결하기 위해 먼저 전자메일 시스템에 대한 구조를 살펴보고 MTA, MDA를 이용하는 스팸 메일 필터링 도구들을 비교 분석한 연구결과를 제시한다. 그리고 탐지 성능을 개선할 수 있는 새로운 방안을 제시한다. 제안 방법은 공개 배포용 MDA인 procmail에 기반한 것으로, 규칙(rule)을 매칭(matching)시키는 시간을 줄이는 것이다.

  • PDF

Multimedia Message Service(MMS)상에서 전송되는 스팸이미지 필터링 시스템 (Multimedia Message Service(MMS) Spam Image Filtering System)

  • 박영만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.933-935
    • /
    • 2014
  • 휴대전화 사용의 대중화로 인하여 개개인의 휴대전화로 수신되는 스팸메시지의 양도 덩달아 증가하게 되었다. 이것은 휴대전화 사용자가 불법광고 노출의 원인이 되고 있다. 이에 많은 스팸메시지 차단기법이 제시되었지만 이는 텍스트기반의 문자메시지에 특화되어있어 문자가 포함되어있는 이미지스팸에는 차단이 어렵다는 문제점이 존재 한다. 이에 본 논문에서는 휴대전화로 오는 이미지메시지 중 스팸이미지를 검출해 내는 모바일 스팸이미지 필터링 시스템을 제시하고자 한다. 제시하고자 하는 시스템은 스팸이미지를 분석하여 이미지의 패턴을 검사하여 특정 패턴이 포함된 이미지에 대해서 스팸이미지로 분류하여 필터링하게 됨으로써, 실제 휴대전화로 수신되는 스팸이미지를 이용한 실험을 진행하였다. 그 결과 기존 텍스트기반 스팸필터링시스템에서 할 수 없었던 스팸이미지 필터링을 할 수 있음을 확인 하였다.

온톨로지와 Semantic Enrichment를 이용한 스팸 메일 필터링 시스템 (Spam Mail Filtering System using Ontology and Semantic Enrichment)

  • 김현준;김흥남;정재은;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.553-555
    • /
    • 2004
  • 최근 인터넷의 급속한 성장과 더불어 전자메일(I-Mail)은 의사교환의 필수적인 매체로 사용 되어지고 있다. 그러나 편리하고 비용이 들지 앉는 장정을 이용해 엄청난 양의 스맴 메일이 매일같이 솎아져 오고, 이를 해결하기 위한 다양한 연구들이 제시되어져 왔다. 특히. 문서 분류에 널리 쓰이는 베이지안 분류자(Bayesian classifier)가 가장 널리 이용되어지고 있는데, 정확도와 재현율에서 비교적 우수한 성능을 보이고 있다. 그러나 몇 가지 문제점을 갖고 있는데, 첫째, 사전에 사용자에 의해 스팸. 논스팸 메일에 대한 충분한 학습이 선행되어야 하는 정, 둘째, 필터링을 위한 연산시간이 소요되는 점, 셋째, 필터링의 대상이 되는 메일 본문의 내용이 적을 경우 정확한 필터링이 어렵다는 정 등의 문제점이 있다. 본 논문에서는 마지막 문제점으로 지적된 메일 본문의 내용이 적을 경우 즉, 연산을 위한 특징적인 단어들의 부족으로 정확한 분류가 불가능한 경우의 해결방안으로 온틀로지와 Semantic Enrichment 기법을 이용한 스팸 메일 필터링 시스템을 제안한다. 실험 결과, 제안하는 시스템이 베이지안 분류자를 이용한 분류 시스템보다 정확도에서 4.1%, 재현율에서 10.5%. 그리고 F-measure에서 7.64%의 성능향상을 보였다.

  • PDF