• 제목/요약/키워드: Bayesian Classification

검색결과 253건 처리시간 0.026초

나이브베이즈 문서분류시스템을 위한 선택적샘플링 기반 EM 가속 알고리즘 (Accelerating the EM Algorithm through Selective Sampling for Naive Bayes Text Classifier)

  • 장재영;김한준
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.369-376
    • /
    • 2006
  • 본 논문은 온라인 전자문서환경에서 전통적 베이지안 통계기반 문서분류시스템의 분류성능을 개선하기 위해 EM(Expectation Maximization) 가속 알고리즘을 접목한 방법을 제안한다. 기계학습 기반의 문서분류시스템의 중요한 문제 중의 하나는 양질의 학습문서를 확보하는 것이다. EM 알고리즘은 소량의 학습문서집합으로 베이지안 문서분류 알고리즘의 성능을 높이는데 활용된다. 그러나 EM 알고리즘은 최적화 과정에서 느린 수렴성과 성능 저하 현상을 나타내는데, EM 알고리즘의 기본 가정을 따르지 않는 온라인 전자문서환경에서 특히 그러하다. 제안 기법의 주요 아이디어는 전통적 EM 알고리즘을 개선하기 위해 불확정성도 기반 선택적 샘플링 기법을 활용한 것이다. 성능평가를 위해 Reuter-21578 문서집합을 사용하여, 제안 알고리즘의 빠른 수렴성을 보이고 전통적 베이지안 알고리즘의 분류 정확성을 향상시켰음을 보인다.

나이브 베이지안을 사용한 성명에 대한 성별 구분 연구 (A Study on Sex Classification of a Name using Naive Bayesian)

  • 임명재;정진표;김명관
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.155-159
    • /
    • 2013
  • 본 논문은 Naive Bayesian분류기를 사용하여 성명의 성별을 구분하는 시스템을 구현 하였다. 국내인 성명은 외국인 성명과는 다르게 사람을 지칭할 때 쓰는 대명사의 성별불일치 현상이 있다. 하지만 국내인 성명의 특성으로 남자로 자주 쓰이는 이름과 여자로 자주쓰이는 이름을 구분하게 하였다. 그리고 고유명사등, 성별이 애매한 이름들도 포함하였기 때문에 다소 정확율이 떨어지는 것을 확인 할 수가 있었다. 본 논문의 실험 결과로는 국내인 남자는 84%, 여자는 88%의 정확율을 보였으며, 총합 86%의 정확율과 외국인 성명은 남자는 80%, 여자는 84%로 총합 83%의 정확율을 보이고 있다.

깊은 신경망 기반 대용량 텍스트 데이터 분류 기술 (Large-Scale Text Classification with Deep Neural Networks)

  • 조휘열;김진화;김경민;장정호;엄재홍;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.322-327
    • /
    • 2017
  • 문서 분류 문제는 오랜 기간 동안 자연어 처리 분야에서 연구되어 왔다. 우리는 기존 컨볼루션 신경망을 이용했던 연구에서 나아가, 순환 신경망에 기반을 둔 문서 분류를 수행하였고 그 결과를 종합하여 제시하려 한다. 컨볼루션 신경망은 단층 컨볼루션 신경망을 사용했으며, 순환 신경망은 가장 성능이 좋다고 알려져 있는 장기-단기 기억 신경망과 회로형 순환 유닛을 활용하였다. 실험 결과, 분류 정확도는 Multinomial Naïve Bayesian Classifier < SVM < LSTM < CNN < GRU의 순서로 나타났다. 따라서 텍스트 문서 분류 문제는 시퀀스를 고려하는 것 보다는 문서의 feature를 추출하여 분류하는 문제에 가깝다는 것을 확인할 수 있었다. 그리고 GRU가 LSTM보다 문서의 feature 추출에 더 적합하다는 것을 알 수 있었으며 적절한 feature와 시퀀스 정보를 함께 활용할 때 가장 성능이 잘 나온다는 것을 확인할 수 있었다.

형상 정보와 모션 정보 융합을 통한 움직이는 물체 인식 (Moving Object Classification through Fusion of Shape and Motion Information)

  • 김정호;고한석
    • 전자공학회논문지CI
    • /
    • 제43권5호
    • /
    • pp.38-47
    • /
    • 2006
  • 기존의 인식 방법은 물체에 대한 형상 정보 또는 움직임을 특징으로 한 단일 인식기를 사용한다. 하지만, 기존의 단일 특징 기반의 단일 인식기를 사용하는 방법의 인식 성능은 물체의 영역에 대한 정확한 검출에 크게 의존하는 단점을 가진다. 본 논문에서는 이러한 기존 인식방법의 단점을 해결하고, 인식의 신뢰성을 높이기 위해서 세 가지 인식기에 의한 각 결과를 Bayesian을 이용하여 융합하는 새로운 인식 방법을 제안한다. 첫 번째 인식기는 푸리에 묘사자로부터 얻은 형상 정보를 특징으로 한 신경망을 사용하고, 두 번째 인식기는 형상 정보에 대한 기울기를 바탕으로 한 통계적인 방법을 사용한다. 또한. 세 번째 인식기는 검출된 물체의 일정 부분의 움직임에 대한 모션 정보를 특징으로 하여 인식한다. 본 논문의 실험결과에서 제안한 결과 융합방법은 기존의 Majority Voting과 Weight Average Score 방법에 비해서 더 우수한 인식 성능을 보여준다.

A Comparison Study of Classification Algorithms in Data Mining

  • Lee, Seung-Joo;Jun, Sung-Rae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권1호
    • /
    • pp.1-5
    • /
    • 2008
  • Generally the analytical tools of data mining have two learning types which are supervised and unsupervised learning algorithms. Classification and prediction are main analysis tools for supervised learning. In this paper, we perform a comparison study of classification algorithms in data mining. We make comparative studies between popular classification algorithms which are LDA, QDA, kernel method, K-nearest neighbor, naive Bayesian, SVM, and CART. Also, we use almost all classification data sets of UCI machine learning repository for our experiments. According to our results, we are able to select proper algorithms for given classification data sets.

Bayesian Inference for Multinomial Group Testing

  • Heo, Tae-Young;Kim, Jong-Min
    • Communications for Statistical Applications and Methods
    • /
    • 제14권1호
    • /
    • pp.81-92
    • /
    • 2007
  • This paper consider trinomial group testing concerned with classification of N given units into one of k disjoint categories. In this paper, we propose Bayesian inference for estimating individual category proportions using the trinomial group testing model proposed by Bar-Lev et al. (2005). We compared a relative efficience (RE) based on the mean squared error (MSE) of MLE and Bayes estimators with various prior information. The impact of different prior specifications on the estimates is also investigated using selected prior distribution. The impact of different priors on the Bayes estimates is modest when the sample size and group size we large.

앙상블 베이지안망에 의한 유전자발현데이터 분류 (Classification of Gene Expression Data by Ensemble of Bayesian Networks)

  • 황규백;장정호;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.434-436
    • /
    • 2003
  • DNA칩 기술로 얻어지는 유전자발현데이터(gene expression data)는 생채 조직이나 세포의 수천개에 달하는 유전자의 발현량(expression level)을 측정한 것으로, 유전자발현양상(gene expression pattern)에 기반한 암 종류의 분류 등에 유용하다. 본 논문에서는 확률그래프모델(probabilistic graphical model)의 하나인 베이지안망(Bayesian network)을 발현데이터의 분류에 적응하며, 분류 성능을 높이기 위해 베이지안망의 앙상블(ensemble of Bayesian networks)을 구성한다. 실험은 실제 암 조직에서 추출된 유전자발현데이터에 대해 행해졌다 실험 결과, 앙상블 베이지안망의 분류 정확도는 단일 베이지안망보다 높았으며, naive Bayes 분류기, 신경망, support vector machine(SVM) 등과 대등한 성능을 보였다.

  • PDF

베이지안 분류기를 이용한 문서 필터링 (A Study on Document Filtering Using Naive Bayesian Classifier)

  • 임수연;손기준
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.227-235
    • /
    • 2005
  • 문서 필터링은 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 증가하고 있는 추세이다. 본 논문은 문서 필터링 문제를 이진 문서 분류 문제로 보고, 베이지안 분류기를 필터링 목적으로 사용하였다. 그리고 사용자가 관련성 있는 문서를 제대로 필터링 받기 위해서 학습 대상으로 삼아야 할 문서의 범위나 수, 최소한 체크해야 하는 관련성 있는 문서의 수에 대한 값을 구하는 실험을 수행하였다.

  • PDF

Very Fast Decision Tree 기반 Naive Bayesian 알고리즘의 Weight 부여 기법 (An Attribute Weighting Approach for Naive Bayesian based on Very Fast Decision Tree)

  • 김세준;유승언;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.139-140
    • /
    • 2018
  • 본 논문에서는 지도 기계 학습 알고리즘 중 하나인 Naive Bayesian (NB) 알고리즘의 데이터 분류 정확도를 향상시키기 위하여 데이터 속성에 Weight를 부여하는 새로운 기법을 제안하였다. 기존에 Decision Tree(DT) 알고리즘의 깊이를 이용하여 Weigth를 부여하는 방법이 제안되었으나, DT를 구축하는데 오버헤드가 크기 때문에 데이터의 실시간 분석이나 자원 제한적인 환경에서의 적용은 어렵다는 단점이 있다. 이를 해결하기 위하여 본 논문에서는 최소한의 데이터를 사용하여 신속하게 DT를 구축하는 Very Fast Decision Tree (VFDT) 알고리즘 기반의 Weight 부여 기법을 제안함으로써 적은 오버헤드로 NB의 정확도를 향상시킨다.

  • PDF

이메일 추천 시스템의 분류 향상을 위한 3단계 전처리 알고리즘 (A Three-Step Preprocessing Algorithm for Enhanced Classification of E-Mail Recommendation System)

  • 조동섭;정옥란
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제54권4호
    • /
    • pp.251-258
    • /
    • 2005
  • Automatic document classification may differ significantly according to the characteristics of documents that are subject to classification, as well as classifier's performance. This research identifies e-mail document's characteristics to apply a three-step preprocessing algorithm that can minimize e-mail document's atypical characteristics. In the first 5go, uncertain based sampling algorithm that used Mean Absolute Deviation(MAD), is used to address the question of selection learning document for the rule generation at the time of classification. In the subsequent stage, Weighted vlaue assigning method by attribute is applied to increase the discriminating capability of the terms that appear on the title on the e-mail document characteristic level. in the third and last stage, accuracy level during classification by each category is increased by using Naive Bayesian Presumptive Algorithm's Dynamic Threshold. And, we implemented an E-Mail Recommendtion System using a three-step preprocessing algorithm the enable users for direct and optimal classification with the recommendation of the applicable category when a mail arrives.