• 제목/요약/키워드: Naive Bayesian Filtering

검색결과 20건 처리시간 0.02초

분류 속성과 Naive Bayesian을 이용한 사용자와 아이템 기반의 협력적 필터링 (User and Item based Collaborative Filtering Using Classification Property Naive Bayesian)

  • 김종훈;김용집;임기욱;이정현;정경용
    • 한국콘텐츠학회논문지
    • /
    • 제7권11호
    • /
    • pp.23-33
    • /
    • 2007
  • 협력적 필터링은 피어슨 상관 계수에 의해 유사도를 구하고, 선호도를 기반으로 이웃 선정 방법을 사용하므로 아이템에 대한 내용을 반영하지 못할 뿐만 아니라 희박성 및 확장성의 문제를 가지고 있다. 이러한 문제점을 개선하기 위하여 아이템 기반 협력적 필터링이 실용화되었으나 아이템의 속성을 반영하지는 못한다. 본 논문에서는 기존 추천 시스템의 문제점을 보완하기 위하여 분류 속성과 Naive Bayesian을 이용한 사용자와 아이템 기반의 협력적 필터링을 제안하였다. 제안한 방법에서는 희박성 문제를 해결하기 위하여 명시적 데이터에 기반한 아이템 유사도와 묵시적 데이터에 기반한 사용자 유사도를 복합적으로 참조한다. 참조 결과에 대해 Naive Bayesian을 적용한다. 또한 속성을 반영하기 위해 아이템 분류속성간의 유사관계 순위를 아이템 유사도 계산에 반영함으로써 정확성을 높일 수 있었다.

사용자와 아이템의 혼합 협력적 필터링에서 Naive Bayesian 알고리즘을 이용한 추천 방법 (Recommendation Method using Naive Bayesian algorithm in Hybrid User and Item based Collaborative Filtering)

  • 김용집;정경용;한승진;고종철;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.184-186
    • /
    • 2003
  • 기존의 사용자 기반 협력적 필터링이 가지는 단점으로 지적되었던 희박성과 확장성의 문제를 아이템 기반 협력적 필터링 기법을 통하여 개선하려는 연구가 진행되어 왔다. 실제로 많은 성과가 있었지만. 여전히 명시적 데이터를 기반으로 하기 때문에 희박성이 존재하며, 아이템의 속성이 반영되지 않는 문제점이 있다. 본 논문에서는 기존의 아이템 기반 협력적 필터링의 문제점을 보완하기 위하여 사용자와 아이템의 혼합 협력적 필터링에서 Naive Bayesian 알고리즘을 이용한 추천 방법을 제안한다. 제안된 방법에서는 각 사용자와 아이템에 대한 유사도 검색 테이블을 생성한 후, Naive Bayesian 알고리즘으로 아이템을 예측 및 추천함으로써, 성능을 개선하였다. 성능 평가를 위해 기존의 아이템 기반 협력적 필터링 기술과 비교 평가하였다.

  • PDF

가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System Using Weighted Bayesian Classifier)

  • 김현준;정재은;조근식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1092-1100
    • /
    • 2004
  • 최근 인터넷의 급속한 성장과 더불어 전자메일(E-Mail)은 통신 및 정보, 의사교환의 필수적인 매체로 사용되어지고 있다. 그러나 편리하고 비용이 들지 않는 장점을 이용해 엄청난 양의 스팸 메일이 매일같이 쏟아져 오고, 그 문제의 심각성에 정보통신부는 ‘정보통신망 이용촉진 및 정보보호등에 관한 개정안’이라는 새로운 법률까지 만들었다. 본 논문에서는 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(naive Bayesian classifier)보다 개선된 가중치가 부여된 베이지안 분류자 (weighted Bayesian classifier)와 정보통신부의 개정안을 준수하는 매일을 분류하기 위한 전처리 단계, 그리고 사용자의 행동을 학습하여 보다 정확한 분류를 가능하게 지능형 에이젼트(intelligent agent)가 결합된 형태의 스팸 메일 필터링 시스템(spam mail filtering system)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 넣을 필요 없이 학습한 데이타를 가지고 자동적으로 스팸 메일을 분류할 수가 있는데, 특히 이메일의 특징 추출(feature extraction)을 이용하여 상대적으로 스팸/논스팸 판별에 비중이 큰 단어들에 대해 가중치를 부여함으로서 필터링의 성능향상을 도모하였다. 실험에서는 제안된 시스템의 최적의 성능 평가를 위해서 일반 나이브 베이지안 필터링시의 성능과 이메일 헤더정보, 특정 Tag들 그리고 하이퍼링크 부분에 가중치를 준 베이지안 필터링, 마지막으로 4가지를 결합한 상태의 필터링 성능을 각각 비교 분석하였다. 그 결과 제안하는 시스템이 나이브 베이지안 분류자를 이용한 시스템보다 정확도에서는 5.7% 저조한 성능을 보였으나, 재현율에서 33.3%, F-measure에서 31.2% 우수한 성능향상을 보였다.

디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법 (Semantics Environment for U-health Service driven Naive Bayesian Filtering for Personalized Service Recommendation Method in Digital TV)

  • 김재권;이영호;김종훈;박동균;강운구
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.81-90
    • /
    • 2012
  • 디지털 TV에서 시멘틱 환경의 유헬스 개인화 서비스 추천은 개인의 신체조건, 질병, 건강상태를 평가해서 이루어져야 한다. 기존의 시멘틱 환경의 유헬스 개인화 추천 방법은 온톨로지에 의존하여 의미 분석으로 추천을 하기 때문에 사용자 만족도가 떨어진다. 이에 본 논문에서는 디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법을 제안한다. 제안하는 방법은 온톨로지를 이용하여 상황데이터를 추론하여 트렌젝션을 저장 하고, 선호도 정보를 이용한 나이브 베이지안 필터링 기법을 사용하여 온톨로지로부터 생성된 트렌젝션과 사용자 선호도 정보를 이용하여 추론하여 서비스를 제공한다. 나이브 베이지안 필터링 기반으로 추론된 서비스는 기존의 필터링 방법 보다 콘텐츠 추천의 높은 정확도와 재현율을 보인다.

베이지안 분류기를 이용한 문서 필터링 (A Study on Document Filtering Using Naive Bayesian Classifier)

  • 임수연;손기준
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.227-235
    • /
    • 2005
  • 문서 필터링은 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 증가하고 있는 추세이다. 본 논문은 문서 필터링 문제를 이진 문서 분류 문제로 보고, 베이지안 분류기를 필터링 목적으로 사용하였다. 그리고 사용자가 관련성 있는 문서를 제대로 필터링 받기 위해서 학습 대상으로 삼아야 할 문서의 범위나 수, 최소한 체크해야 하는 관련성 있는 문서의 수에 대한 값을 구하는 실험을 수행하였다.

  • PDF

Naive Bayesian 알고리즘을 이용한 P2P 모바일 에이전트의 필터링 기법 (Filtering Technique of P2P Mobile Agent using Naive Bayesian Algorithm)

  • 이세일;이상용
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.363-366
    • /
    • 2005
  • 유비쿼터스 컴퓨팅에서 사용자에게 필요한 서비스를 지능적으로 제공하기 위해서는 컨텍스트 정보의 효과적인 필터링이 필요하다. 현재까지 사용되고 있는 필터링 기술은 온라인상에서 사용되는 사용자 정보를 기준으로 서비스를 제공하고 있다. 하지만 휴대용 유$\cdot$무선기기에서 컨텍스트 인식에 기반을 둔 서비스를 제공하기 위해서는 복잡한 필터링과정과 큰 저장 공간이 요구된다. 따라서 본 논문에서는 사용자 주변에 널려 있는 센서를 통해 입력된 컨텍스트 정보들을 효율적으로 필터링하여 사용자에게 필요한 서비스만을 제공하도록 하였다. 이를 위해서 기존의 P2P 모바일 에이전트에서 사용되는 협력적 필터링 기술에 Naive Bayesian 알고리즘을 혼합한 컨텍스트 협력적 필터링 알고리즘을 제안한다.

  • PDF

베이지안 추정치가 부여된 유사도 가중치와 연관 사용자 군집을 이용한 선호도 예측 시스템 (Preference Prediction System using Similarity Weight granted Bayesian estimated value and Associative User Clustering)

  • 정경용;최성용;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.316-325
    • /
    • 2003
  • 기존의 협력적 필터링 기술을 이용한 사용자 선호도 예측 방법에서는 피어슨 상관 계수에 의해 사용자의 유사도를 구하고, 아이템에 대한 사용자의 선호도를 기반으로 이웃 선정 방법을 사용하므로 아이템에 대한 내용을 반영하지 못할 뿐만 아니라 희박성 문제를 해결하지 못하였다. 본 논문에서는 기존의 사용자 선호도 예측 방법의 문제점을 보완하기 위하여 베이지안 추정치가 부여된 유사도 가중치와 연관 사용자 군집을 이용한 선호도 예측 시스템을 제안한다. 제안한 방법에서는 협력적 필터링 시스템에서의 희박성 문제를 해결하기 위하여 Association Rule Hypergraph Partitioning 알고리즘을 사용하여 사용자를 장르별로 군집하며 새로운 사용자는 Naive Bayes 분류자에 의해 이들 장르 중 하나로 분류된다. 또한, 분류된 장르 내에 속한 사용자들과 새로운 사용자의 유사도를 구하기 위해 Naive Bayes 학습을 통해 사용자가 평가한 아이템에 추정치를 달리 부여한다. 추정치가 부여된 선호도를 기존의 피어슨 상관 관계에 적용할 경우 결측치(Missing Value)로 인한 예측의 오류를 적게 하여 예측의 정확도를 높일 수 있다. 제안된 방법의 성능을 평가하기 위해서 기존의 협력적 필터링 기술과 비교 평가하였다. 그 결과 기존의 협력적 필터링 기술의 문제점을 해결하여 예측의 정확도를 높이는데 효과적임을 확인하였다.

전자상거래에서 2-Way 혼합 협력적 필터링을 이용한 추천 시스템 (Recommendation System using 2-Way Hybrid Collaborative Filtering in E-Business)

  • 김용집;정경용;이정현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.175-178
    • /
    • 2003
  • Two defects have been pointed out in existing user-based collaborative filtering such as sparsity and scalability, and the research has been also made progress, which tries to improve these defects using item-based collaborative filtering. Actually there were many results, but the problem of sparsity still remains because of being based on an explicit data. In addition, the issue has been pointed out. which attributes of item arenot reflected in the recommendation. This paper suggests a recommendation method using nave Bayesian algorithm in hybrid user and item-based collaborative filtering to improve above-mentioned defects of existing item-based collaborative filtering. This method generates a similarity table for each user and item, then it improves the accuracy of prediction and recommendation item using naive Bayesianalgorithm. It was compared and evaluated with existing item-based collaborative filtering technique to estimate the accuracy.

  • PDF

선호도 재계산을 위한 연관 사용자 군집 분석과 Representative Attribute -Neighborhood를 이용한 협력적 필터링 시스템의 성능향상 (Performance Improvement of Collaborative Filtering System Using Associative User′s Clustering Analysis for the Recalculation of Preference and Representative Attribute-Neighborhood)

  • 정경용;김진수;김태용;이정현
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.287-296
    • /
    • 2003
  • 추천 시스템에 있어서 협력적 필터링 기술은 많은 연구가 되고 있다. 그러나 협력적 필터링 기술을 이용한 추천 시스템은 초기 평가 문제와 희박성 문제가 발생한다. 이를 해결하기 위해서 본 논문에서는 선호도 재 계산을 위한 연관 사용자 군집과 베이지안 추정치를 이용한 사용자 선호도 예측 방법을 제안한다. 제안한 방법에서는 협력적 필터링 시스템에서 아이템의 속성을 고려하지 않는 단점을 보완하기 위해서 선호도에 가장 크게 영향을 미치는 대표 장르를 추출하여 유사한 이웃을 찾아 낼 때 예측에 이용하는 Representative Attribute-Neighborhood 방법을 사용한다. 협력적 필터링의 알고리즘에 군집 아이템 백터 내의 특정 아이템의 선호도를 재계산 하기 위한 연관 사용자 군집 분석을 적용하여 성능 향상을 하였다. 또 초기 평가 문제와 희박성 문제를 해결하기 위하여 Association Rule Hypergraph Partitioning 알고리즘을 사용하여 사용자를 장르별로 군집한다. 새로운 사용자는 Naive Bayes 분류자에 의해 이들 장르 중 하나로 분류된다. 또한, 분류된 장르 내에 속한 사용자들과 새로운 사용자의 유사도를 구하기 위해 Naive Bayes 학습을 통해 사용자가 평가한 아이템에 추정치를 달리 부여한다. 추정치가 부여된 선호도를 피어슨 상관 관계에 적용할 경우 결측치(Missing Value)로 인한 예측의 오류를 적게하여 예측의 정확도를 높일 수 있다. 제안된 방법은 기존의 방법보다 높은 성능을 나타냄을 보인다.

메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링 (Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting)

  • 강승식
    • 한국멀티미디어학회논문지
    • /
    • 제9권2호
    • /
    • pp.255-263
    • /
    • 2006
  • 스팸 메일의 특성을 분석해 보면 스팸 메일 발송 프로그램이 메일 헤더에 기록된 주소와 송신자 및 수신자 메일 주소가 일치하지 않는 경우가 빈번하게 발견된다. 또한, 스팸 메일과 정상적인 메일을 비교-분석해 보면 제목만 살펴봐도 스팸 메일인지 여부를 쉽게 판별할 수가 있다. 본 논문에서는 이와 같은 스팸 메일의 특성을 이용하여 스팸 메일 필터링 시스템의 성능을 향상시키는 방안으로 메일 주소 유효성 검사 및 제목과 내용을 구분하여 각각 스팸 확률을 계산하는 기법을 제안하였다. 제안한 방법의 효용성을 검증하기 위하여 단순 베이스 기법에 대해 주소 유효성 검사 및 제목과 내용 등 각 요인의 중요도에 따른 스팸 메일 필터링의 성능 향상 정도를 측정하였다. 그 결과로, 제안한 방법을 적용했을 때 재현율이 11.6%, 정확률은 2.1%의 성능 향상 효과가 있음을 확인하였으며, 스팸 메일 필터링 시스템의 성능 향상에 많은 기여를 하는 것을 알 수 있었다.

  • PDF