• Title/Summary/Keyword: 베이지안 분류

Search Result 200, Processing Time 0.026 seconds

Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm (Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류)

  • Go, Su-Jeong;Lee, Jeong-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.8B no.3
    • /
    • pp.251-260
    • /
    • 2001
  • 기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

  • PDF

Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm (Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류)

  • 고수정;이정현
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.2
    • /
    • pp.171-181
    • /
    • 2001
  • The previous Bayesian document categorization method has problems that it requires a lot of time and effort in word clustering and it hardly reflects the semantic information between words. In this paper, we propose a weighted Bayesian document categorizing method based on association word knowledge base acquired by mining technique. The proposed method constructs weighted association word knowledge base using documents in training set. Then, classifier using Bayesian probability categorizes documents based on the constructed association word knowledge base. In order to evaluate performance of the proposed method, we compare our experimental results with those of weighted Bayesian document categorizing method using vocabulary dictionary by mutual information, weighted Bayesian document categorizing method, and simple Bayesian document categorizing method. The experimental result shows that weighted Bayesian categorizing method using association word knowledge base has improved performance 0.87% and 2.77% and 5.09% over weighted Bayesian categorizing method using vocabulary dictionary by mutual information and weighted Bayesian method and simple Bayesian method, respectively.

  • PDF

A Study On Filtering of Newspaper Article by Using Bayesian Classifier (베이지안 분류기를 이용한 신문기사 필터링)

  • 손기준;노태길;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.490-492
    • /
    • 2002
  • 본 논문에서는 필터링 문제를 이진 문서 분류 문제로 보고 신문기사 필터링에 베이지안 분류자를 사용한다. 신문 기사 필터링 문제에서 베이지안 분류자를 사용할 경우 학습 문서가 고정되어 있지 않기 때문에 여러 가지 파라미터를 사용하여 실험을 하였다. 실험 결과 베이지안 이진 분류기는 제한된 학습 문서에서 더 나은 성능을 보였고 해당 문서 집합에서 10%이상 비율의 문서를 사용자가 선택해야 함을 알 수 있었다.

  • PDF

Pattern Classification by Using Bayesian GTM (베이지안 GTM을 이용한 패턴 분류)

  • 최준혁;김중배;김대수;임기욱
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2001.12a
    • /
    • pp.287-290
    • /
    • 2001
  • Bishop이 제안한 generative Topographic Mapping(GTM)은 Kohonen이 제안한 자율 학습 신경망인 Self Organizing Maps(SOM)의 확률적 버전이다. 본 논문에서는 이러한 GTM 모형에 베이지안 추론을 결합하여 작은 오분류율을 가지는 분류 알고리즘인 베이지안 GTM(Bayesian GTM)을 제안한다. 이 방법은 기존의 GTM의 빠른 계산 처리 능력과 베이지안 추론을 이용하여 기존의 분류 알고리즘보다 우수한 결과가 나타남을 실험을 통하여 확인하였다.

  • PDF

Learning Distribution Graphs Using a Neuro-Fuzzy Network for Naive Bayesian Classifier (퍼지신경망을 사용한 네이브 베이지안 분류기의 분산 그래프 학습)

  • Tian, Xue-Wei;Lim, Joon S.
    • Journal of Digital Convergence
    • /
    • v.11 no.11
    • /
    • pp.409-414
    • /
    • 2013
  • Naive Bayesian classifiers are a powerful and well-known type of classifiers that can be easily induced from a dataset of sample cases. However, the strong conditional independence assumptions can sometimes lead to weak classification performance. Normally, naive Bayesian classifiers use Gaussian distributions to handle continuous attributes and to represent the likelihood of the features conditioned on the classes. The probability density of attributes, however, is not always well fitted by a Gaussian distribution. Another eminent type of classifier is the neuro-fuzzy classifier, which can learn fuzzy rules and fuzzy sets using supervised learning. Since there are specific structural similarities between a neuro-fuzzy classifier and a naive Bayesian classifier, the purpose of this study is to apply learning distribution graphs constructed by a neuro-fuzzy network to naive Bayesian classifiers. We compare the Gaussian distribution graphs with the fuzzy distribution graphs for the naive Bayesian classifier. We applied these two types of distribution graphs to classify leukemia and colon DNA microarray data sets. The results demonstrate that a naive Bayesian classifier with fuzzy distribution graphs is more reliable than that with Gaussian distribution graphs.

Learning Predictive Model of Memory Landmarks based on Bayesian Network Using Mobile Context Log (모바일 컨텍스트 로그를 사용한 베이지안 네트워크 기반의 랜드마크 예측 모델 학습)

  • Lee Byung-Gil;Cho Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.550-552
    • /
    • 2005
  • 유비쿼터스 환경의 발달과 함께 모바일 장비에서 수집되어지는 컨텍스트 로그를 활용한 연구가 활발히 진행되고 있다. 하지만 기존의 컨텍스트 정보를 사용한 연구는 사용자 모델링에 그 초점을 맞추거나 단순하게 수집된 정보를 정리하여 한눈에 알아보기 쉽게 보여주는 정도에 그치고 있다. 본 논문에서는 사용자에게 새로운 서비스를 제공하기 위한 방법으로서 모바일 컨텍스트 로그와 외부 센서를 통해 정보를 수집하여 학습한 베이지안 네트워크를 이용하여 랜드마크를 찾아내는 예측 모델을 제안한다. 베이지안 네트워크 설계는 사전에 수집된 컨텍스트 정보를 요일과 주별로 분류하여 각각에 대한 베이지안 네트워크를 cross validation하여 랜드마크 예측에 대한 정확도를 평가하였다. 그리고 분류에서 가장 많이 사용하고 있는 SVM 방법을 사용하여 제안한 방법과의 성능을 비교평가하였다. 랜드마크 예측에 대한 정확도는 주간별로 설계한 베이지안 네트워크보다 요일별로 설계한 베이지안 네트워크가 랜드마크를 예측하는데 정화도가 높음을 확인하였고, 베이지안 네트워크를 사용한 방법이 SVM을 사용한 방법보다. 예측에 한 정확성이 우수하였다.

  • PDF

Research on improving correctness of cardiac disorder data based on Bayesian Network (베이지안 네트워크에 기반한 심전도 데이터의 정확도 향상에 관한연구)

  • Lee, Hyun-Ju;Shin, Dong-Il;Shin, Dong-Kyoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.212-214
    • /
    • 2013
  • 심전도 데이터는 일반적으로 분류기를 사용한 실험이 많으며, QRS-Complex와 R-R interval 간격을 추출하여 실험한다. 본 연구에서는 R-R interval을 추출하였다. 그리고 R-R interval 데이터와 HRV 데이터를 구성하였고, 베이지안 네트워크 분류기를 사용하여 정확도를 도출하였다. 심장관련 데이터는 심전도 뿐 아니라 심장병 데이터도 있는데 심전도 데이터와 같이 분류실험을 시행하여 정확도를 도출하였다. 그리고 베이지안 네트워크분류기의 정확도를 분석하기 위해 타 논문의 실험결과와 비교하였다. 타 논문과 본 연구의 결과를 비교해보니 베이지안 네트워크가 타 결과에 비해서 정확도 도출이 우수하였다.

An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier (문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자)

  • 허준희;고수정;김태용;최준혁;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF

Spam-Mail Filtering System Using Weighted Bayesian Classifier (가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템)

  • 김현준;정재은;조근식
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.8
    • /
    • pp.1092-1100
    • /
    • 2004
  • An E-mails have regarded as one of the most popular methods for exchanging information because of easy usage and low cost. Meanwhile, exponentially growing unwanted mails in user's mailbox have been raised as main problem. Recognizing this issue, Korean government established a law in order to prevent e-mail abuse. In this paper we suggest hybrid spam mail filtering system using weighted Bayesian classifier which is extended from naive Bayesian classifier by adding the concept of preprocessing and intelligent agents. This system can classify spam mails automatically by using training data without manual definition of message rules. Particularly, we improved filtering efficiency by imposing weight on some character by feature extraction from spam mails. Finally, we show efficiency comparison among four cases - naive Bayesian, weighting on e-mail header, weighting on HTML tags, weighting on hyperlinks and combining all of four cases. As compared with naive Bayesian classifier, the proposed system obtained 5.7% decreased precision, while the recall and F-measure of this system increased by 33.3% and 31.2%, respectively.

Spam-mail Filtering System Using Naive Bayesian Classifier and Message Rule (나이브 베이지안 분류자와 메세지 규칙을 이용한 스팸메일 필터링 시스템)

  • 조한철;조근식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.223-225
    • /
    • 2002
  • 인터넷의 급속한 성장과 함께 E-Mail은 대표적인 통신수단의 하나가 되어버렸다. 편리하다는 점을 이용해서 엄청난 양의 스팸메일이 매일같이 쏟아져 오고 , 그 문제점의 심각성에 정보통신부에서 정보통신망 이용촉진 및 정보보호 등에 관한 법률이라는 새로운 법률까지 생겨났다. 본 논문에서는 이 법률에서 요구하는 '광고'라는 문구를 걸러내는 등의 메시지 규칙을 갖는 시스템과 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(Naive Baesian Classifier)를 결합한 스팸 메일 필터링 시스템(Spam-mail Fitering System)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 작성할 필요없이 학습한 데이터를 갖고 자동으로 스팸메일을 분류할 수가 있다. 들어온 메일은 메시지 규칙 기반 필터가 먼저 적용되고, 메세지 규칙 기반 필터에서 분류되지 않으면 나이브 베이지안 필터에서 분류된다. 실험에서는 제안된 시스템의 성능을 평가하기 위해서 메시지 규칙을 사용한 시스템 및 나이브 베이지만 분류자 시스템과 비교 평가하였다. 또한 임계치를 변경함으로써 제안된 시스템의 성능을 높일 수있도록 하였다.

  • PDF