• Title/Summary/Keyword: 베이즈 필터

Search Result 11, Processing Time 0.028 seconds

Comparison of Performance for Korean E-mail Filtering using Bayesian Classifier (한글 전자메일에 대한 베이지언 필터의 성능비교)

  • Lee, Chang-Beom;Kim, Ji-Soo;Kim, Soo-Hyung;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.214-219
    • /
    • 2004
  • 전자 메일은 매우 많은 사람들이 사용하는 편리하고 효율적인 통신 수단이다. 그러나 전자메일 주소를 쉽게 획득할 수 있다면 점을 악용하기 때문에 사용자가 원하지 않는 메일 즉 스팸 메일에 대한 문제가 심각해지고 있다. 이러한 스팸 메일을 자동으로 분류해주는 스팸 필터는 주로 영어를 대상으로 하고 있으며, 규칙 기반 필터링보다는 통계적 학습을 통한 필터링 방법을 주로 사용하고 있다. 본 논문에서는 베이즈 정리를 기반으로 하는 3가지 분류 알고리즘을 한글 전자메일을 대상으로 하여 스팸 메일 특히 음란성 메일을 분류하는데 있어 그 성능을 평가하고자 한다. 실험 결과, 단어의 스팸일 확률만을 이용하는 방법이 나이브 베이즈 알고리즘이나 m-estimate를 이용하는 방법보다는 성능이 우수함을 알 수 있었다 특히, 단어의 스팸일 확률만을 이용하는 방법은 false positive rate를 0%로 유지하면서도 다른 방법들보다는 필터링을 잘 해내고 있음을 확인할 수 있었다. 그리고, 자질 선정에서는 명사나 명사/형용사를 사용할 경우에 그 에러율이 가장 적었다.

  • PDF

A Method for Spam Message Filtering Based on Lifelong Machine Learning (Lifelong Machine Learning 기반 스팸 메시지 필터링 방법)

  • Ahn, Yeon-Sun;Jeong, Ok-Ran
    • Journal of IKEEE
    • /
    • v.23 no.4
    • /
    • pp.1393-1399
    • /
    • 2019
  • With the rapid growth of the Internet, millions of indiscriminate advertising SMS are sent every day because of the convenience of sending and receiving data. Although we still use methods to block spam words manually, we have been actively researching how to filter spam in a various ways as machine learning emerged. However, spam words and patterns are constantly changing to avoid being filtered, so existing machine learning mechanisms cannot detect or adapt to new words and patterns. Recently, the concept of Lifelong Learning emerged to overcome these limitations, using existing knowledge to keep learning new knowledge continuously. In this paper, we propose a method of spam filtering system using ensemble techniques of naive bayesian which is most commonly used in document classification and LLML(Lifelong Machine Learning). We validate the performance of lifelong learning by applying the model ELLA and the Naive Bayes most commonly used in existing spam filters.

Categorical Variable Selection in Naïve Bayes Classification (단순 베이즈 분류에서의 범주형 변수의 선택)

  • Kim, Min-Sun;Choi, Hosik;Park, Changyi
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.3
    • /
    • pp.407-415
    • /
    • 2015
  • $Na{\ddot{i}}ve$ Bayes Classification is based on input variables that are a conditionally independent given output variable. The $Na{\ddot{i}}ve$ Bayes assumption is unrealistic but simplifies the problem of high dimensional joint probability estimation into a series of univariate probability estimations. Thus $Na{\ddot{i}}ve$ Bayes classier is often adopted in the analysis of massive data sets such as in spam e-mail filtering and recommendation systems. In this paper, we propose a variable selection method based on ${\chi}^2$ statistic on input and output variables. The proposed method retains the simplicity of $Na{\ddot{i}}ve$ Bayes classier in terms of data processing and computation; however, it can select relevant variables. It is expected that our method can be useful in classification problems for ultra-high dimensional or big data such as the classification of diseases based on single nucleotide polymorphisms(SNPs).

Development of Visual Inspection Process Adapting Naive Bayes Classifiers (나이브 베이즈 분류기를 적용한 외관검사공정 개발)

  • Ryu, Sun-Joong
    • Journal of the Korean Institute of Gas
    • /
    • v.19 no.2
    • /
    • pp.45-53
    • /
    • 2015
  • In order to improve the performance of the visual inspection process, in addition to existing automatic visual inspection machine and human inspectors have developed a new process configuration using a Naive Bayes classifier. By applying the classifier, defect leakage and human inspector's work amount could be improved at the same time. New classification method called AMPB was applied instead of conventional methods based on MAP classification. By experimental results using the filter product for camera modules, it was confirmed that it is possible to configure the process at the level of leakage ratio 1.14% and human inspector's work amount ratio 75.5%. It is significant that the result can be applied in such a wide range as gas leak detection which is the collaboration process between inspection machine and human inspector's

Machine Learning Based Fire News Filtering Technique Incorporating Meta-features (메타 속성을 융합한 기계 학습 기반 화재 뉴스 필터링 기법)

  • Kim, Tae-Jun;Kim, Han-joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.746-749
    • /
    • 2016
  • 주제 기반 크롤링(Topical Crawling)으로 수집된 문서들은 서로 비슷한 단어들을 가지고 있기 때문에 정작 주어진 주제에 적합하지 않은 문서 들을 포함할 수 있다. 이를 해결하기 위해 특정 주제에 해당하는 문서만을 필터링하는 작업이 필요하다. 본 논문은 화재 뉴스 기사에 대한 필터링을 위해 단어 기반 속성과 어울려 화재 뉴스 기사의 특성을 고려한 메타 데이터 속성을 추출하여 이에 특화된 기계학습 메커니즘을 제안하였다. 제안 기법의 F1-측정치는 92.1 %로서, 현재 최고의 성능을 보이는 SVM, 나이브베이즈 알고리즘보다. 2~3% 개선된 것이다.

A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning (딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법)

  • Ka-Hyeon Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

Particle Filter Localization Using Noisy Models (잡음 모델을 이용한 파티클 필터 측위)

  • Kim, In-Cheol;Kim, Seung-Yeon;Kim, Hye-Suk
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.27-30
    • /
    • 2012
  • One of the most fundamental functions required for an intelligent agent is to estimate its current position based upon uncertain sensor data. In this paper, we explain the implementation of a robot localization system using Particle filters, which are the most effective one of the probabilistic localization methods, and then present the result of experiments for evaluating the performance of our system. Through conducting experiments to compare the effect of the noise-free model with that of the noisy state transition model considering inherent errors of robot actions, we show that it can help improve the performance of the Particle filter localization to apply a state transition model closely approximating the uncertainty of real robot actions.

Statistical Estimation of Motion Trajectories of Falling Petals Based on Particle Filtering (Particle Filtering에 근거한 낙하하는 꽃잎의 운동궤적의 통계적 추정)

  • Lee, Jae Woo
    • Transactions of the Korean Society of Mechanical Engineers A
    • /
    • v.40 no.7
    • /
    • pp.629-635
    • /
    • 2016
  • This paper presents a method for predicting and tracking the irregular motion of bio-systems, - such as petals of flowers, butterflies or seeds of dandelion - based on the particle filtering theory. In bio-inspired system design, the ability to predict the dynamic motion of particles through adequate, experimentally verified models is important. The modeling of petal particle systems falling in air was carried out using the Bayesian probability rule. The experimental results show that the suggested method has good predictive power in the case of random disturbances induced by the turbulence of air.

Learning Bayesian Networks for Text Documents Classification (텍스트 문서 분류를 위한 베이지안망 학습)

  • 황규백;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.262-264
    • /
    • 2000
  • 텍스트 문서 분류는 텍스트 형태로 주어진 문서를 종류별로 구분하는 작업으로 웹페이지 검색, 뉴스 그룹 검색, 메일 필터링 등이 분야에 응용될 수 있는 기반 작업이다. 지금까지 문서를 분류하는데는 k-NN, 신경망 등 여러 가지 기계학습 기법이 이용되어 왔다. 이 논문에서는 베이지안망을 이용해서 텍스트 문서 분류를 행한다. 베이지안망은 다수의 변수들간의 확률적 관계를 표현하는 그래프 모델로 DAG 형태인 망 구조와 각 노드에 연관된 지역확률분포로 구성된다. 그래프 모델을 사용할 경우 학습에 이용되는 각 속성들간의 관계를 사람이 알아보기 쉬운 형태로 학습할 수 있다는 장점이 있다. 실험 데이터로는 Reuters-21578 문서분류데이터를 이용했으며 베이안망의 성능은 나이브 베이즈 분류기와 비슷했다.

  • PDF