• 제목/요약/키워드: 베이즈 필터

검색결과 11건 처리시간 0.027초

한글 전자메일에 대한 베이지언 필터의 성능비교 (Comparison of Performance for Korean E-mail Filtering using Bayesian Classifier)

  • 이창범;김지수;김수형;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.214-219
    • /
    • 2004
  • 전자 메일은 매우 많은 사람들이 사용하는 편리하고 효율적인 통신 수단이다. 그러나 전자메일 주소를 쉽게 획득할 수 있다면 점을 악용하기 때문에 사용자가 원하지 않는 메일 즉 스팸 메일에 대한 문제가 심각해지고 있다. 이러한 스팸 메일을 자동으로 분류해주는 스팸 필터는 주로 영어를 대상으로 하고 있으며, 규칙 기반 필터링보다는 통계적 학습을 통한 필터링 방법을 주로 사용하고 있다. 본 논문에서는 베이즈 정리를 기반으로 하는 3가지 분류 알고리즘을 한글 전자메일을 대상으로 하여 스팸 메일 특히 음란성 메일을 분류하는데 있어 그 성능을 평가하고자 한다. 실험 결과, 단어의 스팸일 확률만을 이용하는 방법이 나이브 베이즈 알고리즘이나 m-estimate를 이용하는 방법보다는 성능이 우수함을 알 수 있었다 특히, 단어의 스팸일 확률만을 이용하는 방법은 false positive rate를 0%로 유지하면서도 다른 방법들보다는 필터링을 잘 해내고 있음을 확인할 수 있었다. 그리고, 자질 선정에서는 명사나 명사/형용사를 사용할 경우에 그 에러율이 가장 적었다.

  • PDF

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

단순 베이즈 분류에서의 범주형 변수의 선택 (Categorical Variable Selection in Naïve Bayes Classification)

  • 김민선;최호식;박창이
    • 응용통계연구
    • /
    • 제28권3호
    • /
    • pp.407-415
    • /
    • 2015
  • 단순 베이즈 분류($Na{\ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다.

나이브 베이즈 분류기를 적용한 외관검사공정 개발 (Development of Visual Inspection Process Adapting Naive Bayes Classifiers)

  • 유선중
    • 한국가스학회지
    • /
    • 제19권2호
    • /
    • pp.45-53
    • /
    • 2015
  • 외관검사공정의 성능을 개선하기 위하여 기존의 자동외관검사장비 및 인간검사원에 추가하여 새로이 나이브 베이즈 분류기를 이용한 공정 구성을 개발하였다. 나이브 베이즈 분류기를 공정에 적용함으로써 불량의 유출 및 인간검사원의 작업량을 동시에 개선할 수 있다. 이때 분류기의 판정기준으로 기존의 MAP 방법 대신 AMPB 방법을 제안하여 적용하였다. 카메라모듈 용 필터 제품을 이용한 실험 결과 유출율 1.14%, 인간검사원 작업량 비율 75.5% 수준에서 공정을 구성하는 것이 가능함을 확인할 수 있었다. 본 연구의 결과는 검사 장비 및 인간이 협업을 하여 수행하는 타 공정 - 가스 누출 탐지 - 등에도 적용될 수 있다는 것에 넓은 범위에서의 의의가 있다.

메타 속성을 융합한 기계 학습 기반 화재 뉴스 필터링 기법 (Machine Learning Based Fire News Filtering Technique Incorporating Meta-features)

  • 김태준;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.746-749
    • /
    • 2016
  • 주제 기반 크롤링(Topical Crawling)으로 수집된 문서들은 서로 비슷한 단어들을 가지고 있기 때문에 정작 주어진 주제에 적합하지 않은 문서 들을 포함할 수 있다. 이를 해결하기 위해 특정 주제에 해당하는 문서만을 필터링하는 작업이 필요하다. 본 논문은 화재 뉴스 기사에 대한 필터링을 위해 단어 기반 속성과 어울려 화재 뉴스 기사의 특성을 고려한 메타 데이터 속성을 추출하여 이에 특화된 기계학습 메커니즘을 제안하였다. 제안 기법의 F1-측정치는 92.1 %로서, 현재 최고의 성능을 보이는 SVM, 나이브베이즈 알고리즘보다. 2~3% 개선된 것이다.

딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법 (A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning)

  • 김가현 ;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

잡음 모델을 이용한 파티클 필터 측위 (Particle Filter Localization Using Noisy Models)

  • 김인철;김승연;김혜숙
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.27-30
    • /
    • 2012
  • 지능형 에이전트에게 요구되는 가장 기초적인 기능 중의 하나가 불확실한 센서 데이터에 의존하여 자신의 현재 위치가 어디인지를 파악하는 일이다. 본 논문에서는 가장 효과적인 확률 기반의 측위 기법인 파티클 필터를 실제 로봇 측위에 적용한 로봇 측위 시스템의 구현에 대해 설명하고, 성능 평가를 위한 실험의 결과를 소개한다. 특히 비-잡음 상태 전이 모델과 로봇 동작의 오차를 고려한 잡음 모델간의 비교 실험을 통해, 실제 로봇 동작의 불확실성에 근사한 상태 전이 모델이 파티클 필터 측위의 성능 개선에 도움이 될 수 있음을 보인다.

Particle Filtering에 근거한 낙하하는 꽃잎의 운동궤적의 통계적 추정 (Statistical Estimation of Motion Trajectories of Falling Petals Based on Particle Filtering)

  • 이재우
    • 대한기계학회논문집A
    • /
    • 제40권7호
    • /
    • pp.629-635
    • /
    • 2016
  • 이 논문은 꽃잎들, 나비나 민들레 씨앗들과 같은 생물체 시스템의 불규칙한 운동을 파티클 필터링 이론에 근거하여 예측하고 추적하는 유용한 방법을 제안한다. 생물체 모사 시스템 설계에 있어서, 생체 시스템의 운동에 대한 관측과 생체 시스템 운동학에 대한 새로운 설계원리가 어떻게 자연스럽게 운동하는가에 대한 인상을 얻는데 중요하다. 공기 중에서 비행하는 꽃잎에 대한 시스템 모델링이 베이지안 확률 규칙을 사용하여 수행되었다. 실험결과는 제안된 방법이 공기의 난류로부터 유도된 랜덤한 외란이 있는 경우에도 잘 예측함을 보여준다.

텍스트 문서 분류를 위한 베이지안망 학습 (Learning Bayesian Networks for Text Documents Classification)

  • 황규백;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.262-264
    • /
    • 2000
  • 텍스트 문서 분류는 텍스트 형태로 주어진 문서를 종류별로 구분하는 작업으로 웹페이지 검색, 뉴스 그룹 검색, 메일 필터링 등이 분야에 응용될 수 있는 기반 작업이다. 지금까지 문서를 분류하는데는 k-NN, 신경망 등 여러 가지 기계학습 기법이 이용되어 왔다. 이 논문에서는 베이지안망을 이용해서 텍스트 문서 분류를 행한다. 베이지안망은 다수의 변수들간의 확률적 관계를 표현하는 그래프 모델로 DAG 형태인 망 구조와 각 노드에 연관된 지역확률분포로 구성된다. 그래프 모델을 사용할 경우 학습에 이용되는 각 속성들간의 관계를 사람이 알아보기 쉬운 형태로 학습할 수 있다는 장점이 있다. 실험 데이터로는 Reuters-21578 문서분류데이터를 이용했으며 베이안망의 성능은 나이브 베이즈 분류기와 비슷했다.

  • PDF