• 제목/요약/키워드: naive bayes classifier

검색결과 94건 처리시간 0.025초

Relation Based Bayesian Network for NBNN

  • Sun, Mingyang;Lee, YoonSeok;Yoon, Sung-eui
    • Journal of Computing Science and Engineering
    • /
    • 제9권4호
    • /
    • pp.204-213
    • /
    • 2015
  • Under the conditional independence assumption among local features, the Naive Bayes Nearest Neighbor (NBNN) classifier has been recently proposed and performs classification without any training or quantization phases. While the original NBNN shows high classification accuracy without adopting an explicit training phase, the conditional independence among local features is against the compositionality of objects indicating that different, but related parts of an object appear together. As a result, the assumption of the conditional independence weakens the accuracy of classification techniques based on NBNN. In this work, we look into this issue, and propose a novel Bayesian network for an NBNN based classification to consider the conditional dependence among features. To achieve our goal, we extract a high-level feature and its corresponding, multiple low-level features for each image patch. We then represent them based on a simple, two-level layered Bayesian network, and design its classification function considering our Bayesian network. To achieve low memory requirement and fast query-time performance, we further optimize our representation and classification function, named relation-based Bayesian network, by considering and representing the relationship between a high-level feature and its low-level features into a compact relation vector, whose dimensionality is the same as the number of low-level features, e.g., four elements in our tests. We have demonstrated the benefits of our method over the original NBNN and its recent improvement, and local NBNN in two different benchmarks. Our method shows improved accuracy, up to 27% against the tested methods. This high accuracy is mainly due to consideration of the conditional dependences between high-level and its corresponding low-level features.

비디오 감시 응용에서 확장된 기술자를 이용한 물체 검출과 분류 (Object Detection and Classification Using Extended Descriptors for Video Surveillance Applications)

  • 모하마드 카이룰 이슬람;파라 자한;민재홍;백중환
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.12-20
    • /
    • 2011
  • 본 논문은 비디오 감시 장치에 사용되는 효율적인 물체 검출 및 분류 알고리즘을 제안한다. 이전 연구는 주로 Scale Invariant Feature Transform (SIFT)나 Speeded Up Robust Feature (SURF)와 같은 특정 형태의 특징을 이용해 물체를 검출하거나 분류하였다. 본 논문에서는 물체 검출 및 분류에 상호 작용하는 알고리즘을 제안한다. 이는 로컬 패치들로부터 얻어지는 텍스쳐나 컬러 분포 같은 서로 다른 특성을 갖는 특징값을 이용해 물체의 검출 및 분류율을 높인다. 물체 검출에는 특징점들의 공간적인 클러스터링을, 이미지 표현이나 분류에는 Bag of Words 모델과 Naive Bayes 분류기를 사용한다. 실험을 통해 제안한 기법이 로컬 기술자를 사용한 물체 분류기법보다 우수한 성능을 나타냄을 보인다.

협력적 여과와 내용 기반 여과의 병합을 통한 추천 시스템에서의 사용자 선호도 발견 (Discovery of User Preference in Recommendation System through Combining Collaborative Filtering and Content based Filtering)

  • 고수정;김진수;김태용;최준혁;이정현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권6호
    • /
    • pp.684-695
    • /
    • 2001
  • 최근의 추천 시스템은 협력적 여과 시스템의 희박성과 초기 평가 문제를 해결하기 위하여 내용 기반 여과 시스템과 협력적 여과 시스템을 병합하는 방법을 사용한다. 협력적 여과 시스템은 부가적인 상품을 예측하기 위해 사용자의 선호도에 대한 데이타베이스를 사용한다. 내용 기반 여과 시스템은 상품의 속성과 사용자의 흥미를 대조함에 의해 아이템을 추천한다. 본 논문에서는 두 가지의 기술을 기계 학습 알고리즘에 응용하고 병합함으로써 사용자의 선호도를 발견하는 방법을 기술한다. 제안된 협력적 여과 방법에서는 유전자 알고리즘을 이용하여 Naive Bayes 분류자에 의해 분류된 아이템을 기반으로 사용자 군집을 생성하며 내용 여과 기법에서는 연관 피드백에 의해 사용자의 흥미를 추출함으로써 사용자의 프로파일을 생성한다. 제안된 방법은 웹문서에 대해 사용자가 평가한 데이타베이스에서 평가되며 기존의 방법보다 높은 성능을 나타냄을 보인다.

  • PDF

마이크로 블로깅 서비스를 지원하기 위한 컨텍스트 모델 기반 자동 블로깅 시스템 (An Auto-blogging System based Context Model for Micro-blogging Service)

  • 박재민;이상용
    • 디지털융복합연구
    • /
    • 제10권4호
    • /
    • pp.341-346
    • /
    • 2012
  • 소셜 네트워크 서비스의 가장 대표적인 마이크로 블로깅 서비스를 효과적으로 제공하기 위해 사용자가 자신의 현재 상황정보를 간편하게 기록하고 그 정보를 바탕으로 다른 사람들과 네트워크를 형성하고 유지하도록 하는 것이 중요하다. 하지만 모바일 환경에서 사용자가 자신의 정보를 매번 모바일 디바이스를 통해 직접 입력하는 것은 매우 번거로운 작업이다. 본 논문에서는 획득된 사용자 컨텍스트를 이용하여 사용자의 현재 행동과 다음 목적지를 추론한 후, 자동으로 문장을 생성하여 블로깅을 해주는 컨텍스트 모델 기반 자동 블로깅 시스템을 제안한다. 컨텍스트 모델을 생성하기 위해 사용자의 행동 추론은 나이브 베이즈 분류기를 이용하고, 이동중인 사용자의 다음 목적지 추론은 시퀀스 매칭을 이용하였다. 생성된 컨텍스트 모델을 기반으로 5W1H 구조를 이용하여 상황에 적합한 문장을 생성하여 자동으로 블로깅하였다. 제안한 방법의 정확도를 평가한 결과 평균 88.73%의 정확도를 보여 자동 블로깅 서비스가 가능함을 보여주었다.

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링 (Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting)

  • 강승식
    • 한국멀티미디어학회논문지
    • /
    • 제9권2호
    • /
    • pp.255-263
    • /
    • 2006
  • 스팸 메일의 특성을 분석해 보면 스팸 메일 발송 프로그램이 메일 헤더에 기록된 주소와 송신자 및 수신자 메일 주소가 일치하지 않는 경우가 빈번하게 발견된다. 또한, 스팸 메일과 정상적인 메일을 비교-분석해 보면 제목만 살펴봐도 스팸 메일인지 여부를 쉽게 판별할 수가 있다. 본 논문에서는 이와 같은 스팸 메일의 특성을 이용하여 스팸 메일 필터링 시스템의 성능을 향상시키는 방안으로 메일 주소 유효성 검사 및 제목과 내용을 구분하여 각각 스팸 확률을 계산하는 기법을 제안하였다. 제안한 방법의 효용성을 검증하기 위하여 단순 베이스 기법에 대해 주소 유효성 검사 및 제목과 내용 등 각 요인의 중요도에 따른 스팸 메일 필터링의 성능 향상 정도를 측정하였다. 그 결과로, 제안한 방법을 적용했을 때 재현율이 11.6%, 정확률은 2.1%의 성능 향상 효과가 있음을 확인하였으며, 스팸 메일 필터링 시스템의 성능 향상에 많은 기여를 하는 것을 알 수 있었다.

  • PDF

문서 분류 알고리즘을 이용한 한국어 스팸 문서 분류 성능 비교 (Comparing Korean Spam Document Classification Using Document Classification Algorithms)

  • 송철환;유성준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.222-225
    • /
    • 2006
  • 한국은 다른 나라에 비해 많은 인터넷 사용자를 가지고 있다. 이에 비례해서 한국의 인터넷 유저들은 Spam Mail에 대해 많은 불편함을 호소하고 있다. 이러한 문제를 해결하기 위해 본 논문은 다양한 Feature Weighting, Feature Selection 그리고 문서 분류 알고리즘들을 이용한 한국어 스팸 문서 Filtering연구에 대해 기술한다. 그리고 한국어 문서(Spam/Non-Spam 문서)로부터 영사를 추출하고 이를 각 분류 알고리즘의 Input Feature로써 이용한다. 그리고 우리는 Feature weighting 에 대해 기존의 전통적인 방법이 아니라 각 Feature에 대해 Variance 값을 구하고 Global Feature를 선택하기 위해 Max Value Selection 방법에 적용 후에 전통적인 Feature Selection 방법인 MI, IG, CHI 들을 적용하여 Feature들을 추출한다. 이렇게 추출된 Feature들을 Naive Bayes, Support Vector Machine과 같은 분류 알고리즘에 적용한다. Vector Space Model의 경우에는 전통적인 방법 그대로 사용한다. 그 결과 우리는 Support Vector Machine Classifier, TF-IDF Variance Weighting(Combined Max Value Selection), CHI Feature Selection 방법을 사용할 경우 Recall(99.4%), Precision(97.4%), F-Measure(98.39%)의 성능을 보였다.

  • PDF

복합 분류기를 이용한 웹 문서 범주화에 관한 실험적 연구 (An Experimental Study on Categorization of Web Documents Using an Ensemble Classifier)

  • 이혜원;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.73-82
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해 문서로부터 다양한 자질을 추출하고, 두 가지의 분류기를 통해 여러 개의 분류 예측치를 구한 다음, 그것들을 하나의 결과물로 통합하는 복합분류기를 사용하였다. 먼저 다양한 자질 집합에 대해 일반적으로 많이 사용되는 kNN(k nearest neighbor) 분류기와 나이브 베이즈(Naive Bayes) 분류기를 사용한 범주화 실험을 수행하고, 실험을 통해 나온 범주 예측치를 통합하는 복합 분류기들의 성능을 비교하였다. 또한 단일 분류기들을 통해 나온 모든 범주 예측치를 통합하는 과정을 수행하여, 단일 분류기만을 사용할 경우와 복합 분류기를 사용할 경우를 비교해 더 좋은 성능을 나타내는 분류기를 밝히고자 한다.

  • PDF

고품질 바이그램을 이용한 문서 범주화 성능 향상 (Improving Text Categorization with High Quality Bigrams)

  • 이찬도;탄체이드멩;왕유안팡
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.415-420
    • /
    • 2002
  • 본 논문은 정보이익을 사용하여 고품질 바이그램을 생성하는 효율적 문서 범주화 알고리즘을 제안한다. 실험 결과 유니그램에 적은 수의 바이그램을 추가해서 나이브 베이즈 분류기에 적용했을 때 문서 범주화 성공률은 상당히 향상되었다. 결과 분석은 제안한 알고리즘이 양의 문서를 분류하는데 더 우수하다는 것을 제시한다.

Classification of Human Papillomavirus (HPV) Risk Type via Text Mining

  • Park, Seong-Bae;Hwang, Sohyun;Zhang, Byoung-Tak
    • Genomics & Informatics
    • /
    • 제1권2호
    • /
    • pp.80-86
    • /
    • 2003
  • Human Papillomavirus (HPV) infection is known as the main factor for cervical cancer which is a leading cause of cancer deaths in women worldwide. Because there are more than 100 types in HPV, it is critical to discriminate the HPVs related with cervical cancer from those not related with it. In this paper, the risk type of HPVs using their textual explanation. The important issue in this problem is to distinguish false negatives from false positives. That is, we must find high-risk HPVs as many as possible though we may miss some low-risk HPVs. For this purpose, the AdaCost, a cost-sensitive learner is adopted to consider different costs between training examples. The experimental results on the HPV sequence database show that the consideration of costs gives higher performance. The improvement in F-score is higher than that of the accuracy, which implies that the number of high-risk HPVs found is increased.