• 제목/요약/키워드: 나이브 베이지안 필터링

검색결과 9건 처리시간 0.025초

나이브 베이지안 분류자와 메일 주소 유효성 검사를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System by Using Naive Bayesian Classifier and Mail Address Validation Check)

  • 임정택;김형준;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.523-525
    • /
    • 2005
  • 본 논문에서는 가중치가 부여된 나이브 베이지안 분류자와 스팸 메일의 특성을 이용한 주소 유효성 검사를 결합하여 필터링하는 방식의 스팸 메일 필터링 시스템을 제안하였다. 주소 유효성 검사를 통해 스팸 메일을 효율적으로 필터링 할 수 있으며, 나이브 베이지안 분류자에 가중치를 부여함으로써 더욱 효과적인 분류를 할 수 있다. 또한, 각 요인의 중요도에 따라 다른 비중을 부여함으로써 메일의 특성을 고려한 필터링 환경을 구현하였다. 실험에서는 제안하는 요인들이 실제로 필터링 성능 향상에 어떤 영향을 미치는지 살펴보고 최적의 시스템 성능을 측정하였다.

  • PDF

디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법 (Semantics Environment for U-health Service driven Naive Bayesian Filtering for Personalized Service Recommendation Method in Digital TV)

  • 김재권;이영호;김종훈;박동균;강운구
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.81-90
    • /
    • 2012
  • 디지털 TV에서 시멘틱 환경의 유헬스 개인화 서비스 추천은 개인의 신체조건, 질병, 건강상태를 평가해서 이루어져야 한다. 기존의 시멘틱 환경의 유헬스 개인화 추천 방법은 온톨로지에 의존하여 의미 분석으로 추천을 하기 때문에 사용자 만족도가 떨어진다. 이에 본 논문에서는 디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법을 제안한다. 제안하는 방법은 온톨로지를 이용하여 상황데이터를 추론하여 트렌젝션을 저장 하고, 선호도 정보를 이용한 나이브 베이지안 필터링 기법을 사용하여 온톨로지로부터 생성된 트렌젝션과 사용자 선호도 정보를 이용하여 추론하여 서비스를 제공한다. 나이브 베이지안 필터링 기반으로 추론된 서비스는 기존의 필터링 방법 보다 콘텐츠 추천의 높은 정확도와 재현율을 보인다.

나이브 베이지안 분류자와 메세지 규칙을 이용한 스팸메일 필터링 시스템 (Spam-mail Filtering System Using Naive Bayesian Classifier and Message Rule)

  • 조한철;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.223-225
    • /
    • 2002
  • 인터넷의 급속한 성장과 함께 E-Mail은 대표적인 통신수단의 하나가 되어버렸다. 편리하다는 점을 이용해서 엄청난 양의 스팸메일이 매일같이 쏟아져 오고 , 그 문제점의 심각성에 정보통신부에서 정보통신망 이용촉진 및 정보보호 등에 관한 법률이라는 새로운 법률까지 생겨났다. 본 논문에서는 이 법률에서 요구하는 '광고'라는 문구를 걸러내는 등의 메시지 규칙을 갖는 시스템과 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(Naive Baesian Classifier)를 결합한 스팸 메일 필터링 시스템(Spam-mail Fitering System)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 작성할 필요없이 학습한 데이터를 갖고 자동으로 스팸메일을 분류할 수가 있다. 들어온 메일은 메시지 규칙 기반 필터가 먼저 적용되고, 메세지 규칙 기반 필터에서 분류되지 않으면 나이브 베이지안 필터에서 분류된다. 실험에서는 제안된 시스템의 성능을 평가하기 위해서 메시지 규칙을 사용한 시스템 및 나이브 베이지만 분류자 시스템과 비교 평가하였다. 또한 임계치를 변경함으로써 제안된 시스템의 성능을 높일 수있도록 하였다.

  • PDF

가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System Using Weighted Bayesian Classifier)

  • 김현준;정재은;조근식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1092-1100
    • /
    • 2004
  • 최근 인터넷의 급속한 성장과 더불어 전자메일(E-Mail)은 통신 및 정보, 의사교환의 필수적인 매체로 사용되어지고 있다. 그러나 편리하고 비용이 들지 않는 장점을 이용해 엄청난 양의 스팸 메일이 매일같이 쏟아져 오고, 그 문제의 심각성에 정보통신부는 ‘정보통신망 이용촉진 및 정보보호등에 관한 개정안’이라는 새로운 법률까지 만들었다. 본 논문에서는 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(naive Bayesian classifier)보다 개선된 가중치가 부여된 베이지안 분류자 (weighted Bayesian classifier)와 정보통신부의 개정안을 준수하는 매일을 분류하기 위한 전처리 단계, 그리고 사용자의 행동을 학습하여 보다 정확한 분류를 가능하게 지능형 에이젼트(intelligent agent)가 결합된 형태의 스팸 메일 필터링 시스템(spam mail filtering system)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 넣을 필요 없이 학습한 데이타를 가지고 자동적으로 스팸 메일을 분류할 수가 있는데, 특히 이메일의 특징 추출(feature extraction)을 이용하여 상대적으로 스팸/논스팸 판별에 비중이 큰 단어들에 대해 가중치를 부여함으로서 필터링의 성능향상을 도모하였다. 실험에서는 제안된 시스템의 최적의 성능 평가를 위해서 일반 나이브 베이지안 필터링시의 성능과 이메일 헤더정보, 특정 Tag들 그리고 하이퍼링크 부분에 가중치를 준 베이지안 필터링, 마지막으로 4가지를 결합한 상태의 필터링 성능을 각각 비교 분석하였다. 그 결과 제안하는 시스템이 나이브 베이지안 분류자를 이용한 시스템보다 정확도에서는 5.7% 저조한 성능을 보였으나, 재현율에서 33.3%, F-measure에서 31.2% 우수한 성능향상을 보였다.

나이브 베이지안 분류기와 MapReduce 를 이용한 SNS 문서 필터링 및 토픽 예측 (Documents Filtering and Topic Prediction for SNS using Naïve Bayesian Classifier and MapReduce)

  • 박호식;강남용;박슬기;문정민;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.109-111
    • /
    • 2014
  • SNS(Social Network Service)는 새로운 소통수단으로 인적 네트워크뿐만 아니라 사회, 문화 등에 많은 영향을 미치고 있다. 특히, 무선인터넷과 스마트폰의 보급으로 정보유통량이 기하급수적으로 증가하면서, 데이터를 처리 및 분석하는 것이 화두가 되고 있다. 본 논문에서는 급증하는 SNS 데이터를 처리 및 분석하여 의미 있는 데이터를 키워드 중심으로 추출하고자 하였다. 이를 위해 기존 데이터 처리방식이 아닌 빅데이터 처리에 적합한 MapReduce 환경에서 SNS 데이터를 필터링하고, 토픽을 예측하기 처리방법을 제시하였다. 또한, 웹 서비스를 기반으로 구현하여 분석된 데이터를 시각적으로 표현하고, 재생산하였으며, 실험을 통해 제안하는 처리방법의 성능을 검증하였다.

로지스틱 회귀 분석을 이용한 스펨 필터링의 특징 축소 (Features Reduction using Logistic Regression for Spam Filtering)

  • 정용규;이범준
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.13-18
    • /
    • 2010
  • 오늘날의 스팸 메일이 메일 서버와 네트워크 저장장치의 대부분을 차지함으로 인해 네트워크 부하와 같은 부정적인 문제가 발생하고 있으며 사용자 입장에서는 스팸을 삭제하기 위한 시간과 자원 소모 같은 문제를 가지고 있다. 자동 스팸 메일 필터링은 문제 해결위한 필수적인 요소로 부각 되었다. 대표적인 방법은 나이브 베이지안 방법과 달리 PCA를 통하여 많은 차원을 가지는 스팸 테이터 집합을 몇 개의 주축으로 차원을 축소 시켜 연차 처리의 부담을 줄이고 특정 집으로 분류를 위한 로지스틱 회귀 분석 방법을 사용하여 스팸 필터링을 하였다. 이를 통하여 속도와 성능 두가지의 성과를 얻을 수 있었다.

사용자 평점 기반 게임 추천 시스템 (Game Recommendation System Based on User Ratings)

  • 김종현;조현정;김병만
    • 한국산업정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.9-19
    • /
    • 2018
  • 최근 게임 산업의 발달과 게임 방송에 대한 사람들의 관심이 많아짐에 따라 기존 게이머들이 아닌 사람들도 게임에 관심을 많이 보이고 있고, 게임 구매로 이어지고 있다. 하지만, 일반 사용자가 매일 수십 개씩 발매되는 게임 중에 어떤 게임이 자신이 재밌게 즐길 수 있는 게임인지를 판단하기 어렵다. 따라서 게임 판매 플랫폼에서 게임 추천 기능을 갖추고 있지만 그들의 매출 증가를 위한 수단으로 사용되어 그들의 할인 제품이나 신제품에 초점을 맞춰 추천을 해주기 때문에 추천 시스템의 정확도가 낮다. 이러한 이유 때문에 본 논문에서는 사용자에 대한 추천 만족도를 높이고 사용자 경험을 적절히 반영한, 사용자가 남긴 평점을 기반으로 한 게임 추천 시스템을 구성하였다. 시스템에서는 협력 필터링을 이용한 예상 평가 점수 기능과 나이브 베이지안을 이용한 게임 추천 기능을 구현하여 사용자에게 빠르고 정확한 추천을 할 수 있도록 구현하였다. 결과적으로 예상 평점 알고리즘의 경우 2.4초의 처리 속도와 평균 72.1퍼센트의 정확도를 얻었고, 게임 추천 알고리즘의 경우 75.187퍼센트의 정확도를 얻어 사용자에게 빠르고 정확한 추천 결과를 제시 할 수 있었다.

효과적인 이메일 분류를 위한 빈발 항목집합 기반 최적 이메일 폴더 추천 기법 (A proper folder recommendation technique using frequent itemsets for efficient e-mail classification)

  • 문종필;이원석;장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.33-46
    • /
    • 2011
  • 이메일이 중요한 정보 전달과 의사소통의 수단으로 널리 활용된 이래 사람들은 이메일을 내용에 따라 적절하게 분류하는 작업에 많은 노력을 기울려 왔다. 이메일은 문서의 길이나 문체가 다양하며 사용되는 단어들이 비정규적이다. 또한 이메일 분류 기준은 일반적으로 해당 이메일 사용자의 주관에 따라 정의된다. 따라서 기존의 일반적인 문서분류 기법으로는 이메일을 효율적으로 분류하는데 어려움이 있다. 상업용 이메일 프로그램에서 제공되는 분류 기능은 메일 클라이언트에서 지원하는 텍스트 필터링을 이용한다. 한편 이메일의 자동 분류에 관한 연구는 확률 기반의 나이브 베이지안 기법을 응용하여 정확도를 높일 수 있는 연구가 주로 진행되어 왔으며, 대부분 영문 이메일에 대한 연구이다. 본 논문에서는 빈발 패턴 마이닝 기법을 적용하여 한글 이메일에 대한 개인 맞춤형 폴더 추천기법을 제시한다. 이메일의 맞춤형 폴더 추천 기법은 이메일에 대한 전처리 과정과 빈발 항목집합을 이용한 메일 폴더의 프로파일 생성과정으로 구성된다. 생성된 프로파일은 분류 대상이 되는 각 메일이 개인별 맞춤형 기준에 따라 가장 적합한 이메일 폴더로 효과적으로 분류되는데 활용된다. 또한 제안된 기법을 적용한 이메일 분류 시스템을 구현한다.

트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 (Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter)

  • 우승민;황병연
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권10호
    • /
    • pp.447-454
    • /
    • 2015
  • 본 논문에서는 트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 방식을 제안한다. 최근 스마트폰 이용자의 증가로 소셜 네트워크 서비스(SNS) 이용자가 증가하고 있는 추세이다. 그중 트위터는 140자 이내의 단문서비스와 팔로우 기능으로 정보의 빠른 전달력과 확산성을 가지고 있다. 이러한 특성과 모바일에 최적화된 트위터의 특성상 정보 전달 속도가 매우 빠르기 때문에 재난 상황이나 이벤트 전달의 매개체 역할을 하고 있다. 이와 관련된 연구로는 트위터 사용자 개개인을 이벤트 탐지의 센서로 사용하여 현실에서 발생하는 이벤트를 탐지하였는데 이벤트가 특정 장소에서 발생한다는 특성을 이용해서 지명 키워드를 사용하였다. 그러나 지명과 동형이의어 관계에 관한 노이즈제거에 대한 부분이 누락되어있어서 이벤트 탐지의 정확도를 낮추는 요인이 된다. 이에 본 논문에서는 제거와 예측 두 가지 방식으로 노이즈제거 기법을 적용하였다. 먼저 노이즈 관련 데이터베이스 구축을 이용하여 제거 필터링을 진행한 후에 나이브 베이지안 분류를 이용해서 지명 유무를 결정하였다. 실험 데이터를 이용해서 기계학습을 위한 확률값을 구했으며, 지명마다 본 논문에서 제시하는 예측기법을 검증했을 때 89.6%의 신뢰도로 노이즈제거 기법의 필요성을 보였다.