• 제목/요약/키워드: Spam mail

검색결과 114건 처리시간 0.039초

Instance Based Learning Revisited: Feature Weighting and its Applications

  • Song Doo-Heon;Lee Chang-Hun
    • 한국멀티미디어학회논문지
    • /
    • 제9권6호
    • /
    • pp.762-772
    • /
    • 2006
  • Instance based learning algorithm is the best known lazy learner and has been successfully used in many areas such as pattern analysis, medical analysis, bioinformatics and internet applications. However, its feature weighting scheme is too naive that many other extensions are proposed. Our version of IB3 named as eXtended IBL (XIBL) improves feature weighting scheme by backward stepwise regression and its distance function by VDM family that avoids overestimating discrete valued attributes. Also, XIBL adopts leave-one-out as its noise filtering scheme. Experiments with common artificial domains show that XIBL is better than the original IBL in terms of accuracy and noise tolerance. XIBL is applied to two important applications - intrusion detection and spam mail filtering and the results are promising.

  • PDF

사용자의 행동과 점진적 기계학습을 이용한 쓰레기 편지 여과 시스템의 설계 (Designing a Spam Mail Filtering System Using User Reaction and Incremental Machine Learning)

  • 김강민;박은진;김재훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.775-778
    • /
    • 2005
  • 본 논문은 쓰레기 편지를 여과하기 위해 대상 편지에 따른 사용자들의 행동(reaction)을 묵시적(implicitly)으로 수집한 후 이를 점진적(incrementally) 기계학습기의 자질(feature)로 사용하여 편지 여과 작업의 증거가 되는 단어들을 지속적으로 학습하면서 최적의 편지 여과 결과를 제공하는 기법과 시스템 구조를 제안한다. 사용자 개인의 컴퓨터에 행동 정보와 학습 데이터를 저장하도록 설계하여 묵시적 정보 수집에서 자주 제기되는 개인 프라이버시 문제를 해결하였으며, 점진적 기계학습 기법을 사용하여 개인 정보를 포함하는 대량의 편지 학습 데이터를 모으기 힘들다는 문제를 해결하였다. 또 향후 제안하는 시스템을 이용하여 여러 종류의 기계학습 기법 중 쓰레기 편지 여과 작업을 가장 효과적으로 수행할 수 있는 기법을 선택하는 작업을 수행할 계획이다.

  • PDF

하이퍼링크를 활용한 2단계 스팸 메일 필터링 시스템 (Two-phase Spam-mail Filtering System Applying Hyper]links)

  • 강신재;이새봄;김종완
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2004년도 춘계학술대회 21세기 IT산업의 발전 전망
    • /
    • pp.20-25
    • /
    • 2004
  • 본 논문은 하이퍼링크를 활용한 2 단계 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹 페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 토로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메일만 사용한 방법보다 F-measure 값이 평균 2.8%의 성능향상을 보였다.

  • PDF

한국.중국.일본의 스팸메일 대응 동향 (Trend on Spam -Mail Countermeasure of Korea, China and Japan)

  • 박소영;이병남;박웅;강신각
    • 전자통신동향분석
    • /
    • 제19권5호통권89호
    • /
    • pp.169-176
    • /
    • 2004
  • 인터넷의 발달과 함께 스팸메일이 세계적으로 기승을 부리고 있으며, 특히 한국, 중국, 일본에서의 스팸 발생건수는 꾸준한 증가세를 보이고 있다. 이와 같이 엄청난 양의 스팸메일로 인하여 처리시간, 처리비용 발생 등의 피해가 증가하고 있으며, 이를 저지하기 위하여 각 국에서는 법적, 제도적 대응방안을 마련하고 있다. 이에 본 고에서는 스팸메일의 증가에 적극적으로 대응 방안을 마련하고 있는 한국과 중국 및 일본의 스팸메일 수신/발신 현황 및 이에 대응하기 위한 법률 제정 등의 스팸메일 대응 동향을 살펴보고자 한다.

발신지 추적기법과 사례기반학습을 이용한 한국어 스팸메일 필터의 설계 및 구현 (Design and Implementation of Korean Spam mail Filter using the Place of Dispatch Tracking and IBL)

  • 하홍준;원일용;박호준;송두헌;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.343-346
    • /
    • 2002
  • 스팸메일이 급증함에 따라 신뢰할 수 있는 전자메일 필터의 요구가 늘어나는 추세다. 스팸메일을 보내는 스패머(spammer)의 거의 대부분은 광고가 주요 목적이다. 멀티미디어(multimedia)기반의 전자메일은 정보전달 및 시각효과가 뛰어나 스패머가 선호하는 전자메일의 한 형태이다. 이런 종류의 전자메일은 텍스트 기반(基盤) 스팸메일 필터의 성능을 떨어뜨리거나 필터링을 아예 불가능하게 한다. 본 연구에서 발신지(發信地) 추적기법과 사례기반학습을 이용해 신뢰할 수 있는 한국어 스팸 메일필터를 설계 및 구현하였다.

  • PDF

Feature Selection을 이용한 SVM 스팸 메일 분석 (Spam mail analysis using SVM with feature selection)

  • 이광수;손기락
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.736-738
    • /
    • 2005
  • 오늘날 인터넷 환경의 급속한 발전으로 인하여 이메일을 통한 메시지 교환이 급속히 증가하고 있다. 그러나 이메일의 편리성에도 불구하고 개인이나 회사에서는 스팸 메일로 인한 시간과 비용의 낭비가 크게 증가하고 있다. 이러한 스팸 메일에 대한 문제들을 해결하기 위해서 많은 방법들이 연구되고 있다. 본 논문에서는 패턴 분류 문제에 있어서 우수한 성능을 보이는 SVM(Support Vector Machine)을 사용하여 정상 메일과 스팸 메일을 분류할 수 있는 최적의 항목을 찾고자 한다. 그 방법으로 Feature Selection 기법을 사용하여 항목을 선별하였으며 이 선별된 항목이 얼마나 정확한 구분력을 가지고 있는지를 나타내고자 한다.

  • PDF

특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법 (A Spam Filtering Method using Frequency Distribution of Special Letter and Frequency Ratio of Keyword)

  • 이성진;백종법;한정석;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.280-283
    • /
    • 2011
  • 인터넷 환경에서 무차별적으로 유통되는 스팸 문서로 인한 사회적 문제가 커져 가고 있는 가운데 스팸문서를 차단하기 위한 활발한 연구들이 이루어지고 있다. 이 가운데 대표적인 연구는 자질어를 이용한 기계학습 기반의 스팸 차단 기술이다. 그러나 이 방법은 미리 선택된 자질어로만 구성된 분류 모델을 사용하기 때문에 Term Spamming(단어 조작에 의한 스팸 차단 행위)에 취약하며, 스팸 차단의 성능과 학습 소요 시간이 선택된 자질어의 품질과 수에 민감하게 영향을 받는다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 스팸 문서에서 등장하는 특수 문자의 빈도와 반복되는 단어의 특징을 이용한 스팸 탐지 방법을 제안한다. 제안 방법은 각 문서에서 등장하는 특수 문자의 비율과 최다 출현 단어의 반복 패턴을 정의하고 기계학습 알고리즘을 적용하여 스팸 분류 모델을 생성한다. 제안 방법의 성능 평가를 위해 E-mail 데이터와 블로그의 Post 데이터를 사용하여 자질어 기반의 스팸 차단 방법과 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방법이 분류 정확도와 학습 소요 시간에 있어 우수한 성능을 보이는 것을 확인하였다.

A Classification Model for Predicting the Injured Body Part in Construction Accidents in Korea

  • Lim, Jiseon;Cho, Sungjin;Kang, Sanghyeok
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.230-237
    • /
    • 2022
  • It is difficult to predict industrial accidents in the construction industry because many accident factors, such as human-related factors and environment-related factors, affect the accidents. Many studies have analyzed the severity of injuries and types of accidents; however, there were few studies on the prediction of injured body parts. This study aims to develop a classification model to predict the part of the injured body based on accident-related factors. Construction accident cases from June 2018 to July 2021 provided by the Korea Construction Safety Management Integrated Information were collected through web crawling and then preprocessed. A naïve Bayes classifier, one of the supervised learning algorithms, was employed to construct a classification model of the injured body part, which has four categories: 1) torso, 2) upper extremity, 3) head, and 4) lower extremity. The predictor variables are accident type, type of work, facility type, injury source, and activity type. As a result, the average accuracy for each injured body part was 50.4%. The accuracy of the upper extremity and lower extremity was relatively higher than the cases of the torso and head. Unlike the other classifications, such as spam mail filtering, a naïve Bayes classifier does not provide a good classification performance in construction accidents. The reasons are discussed in the study. Based on the results of this study, more detailed guidelines for construction safety management can be provided, which help establish safety measures at the construction site.

  • PDF

단순 베이즈 분류에서의 범주형 변수의 선택 (Categorical Variable Selection in Naïve Bayes Classification)

  • 김민선;최호식;박창이
    • 응용통계연구
    • /
    • 제28권3호
    • /
    • pp.407-415
    • /
    • 2015
  • 단순 베이즈 분류($Na{\ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.