• Title/Summary/Keyword: 베이지안 분류

Search Result 200, Processing Time 0.024 seconds

Comparison of e-Mail Classifiers for e-Mail Response Management Systems (전자메일 자동관리 시스템을 위한 전자메일 분류기의 성능 비교)

  • Kim, Kuk-Pyo;Kwon, Young-S;Baek, Chan-Young
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2002.11a
    • /
    • pp.411-416
    • /
    • 2002
  • 인터넷의 발전과 더불어 전자메일 사용자가 증가하게 되고, 기업의 고객접촉채널로서 전자메일에 대한 중요성 또한 증가되고 있다. 고객의 요구에 대해 적시에 적절하게 응답하지 못하면 고객의 불만족이 증가하게 되고, 충성도를 감소시켜 결국 장기적 매출 및 수익성 악화를 초래하게 된다. 따라서 고객의 전자메일에 신속, 정확하게 응답할 수 있는 전자 메일 자동관리 시스템의 필요성이 증가되고 있다. 본 연구에서는 나이브 베이지안 학습과 중심점 기반 분류 방법을 이용하여 전자메일 자동관리 시스템에서 전자메일 분류를 수행하는 분류기를 구현한다. 구현된 분류기를 이용하여 실제 기업의 고객 전자메일을 분류하는 실험을 수행하고 두 분류기의 성능을 비교하였다. 실험결과 두 분류기 모두 전자메일 분류에 비교적 우수한 성능을 보였다. 그러나, 클래스 수가 적은 경우 중심점 기반 분류기가 좋은 성능을 보였으나, 학습집합이 작아지면서 두 분류기의 성능 차이는 없었으며, 클래스의 수가 많아지면서 나이브 베이지안 분류기가 더 우수한 성능을 보였다.

  • PDF

BClassifier : A Bookmark-Classification Agent Based on Naive Bayesian Learning Method (BClassifier : 나이브 베이지안 학습법에 기초한 북마크 분류 에이전트)

  • 최정민;김인철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.81-83
    • /
    • 2000
  • 최근 고성능 PC의 보급과 네트워크의 발달로 인하여 인터넷의 가용 정보가 폭발적으로 증가하고 있다. 이러한 추세에 따라 우리는 인터넷을 사용하여 많은 정보를 얻고 있다. 그러나 인터넷에 존재하는 정보는 수많은 웹 서버에 주소(URL)를 가지고 존재하게 되는데 사용자는 자신이 관심 있는 정보의 사이트를 재방문하기 위하여 웹 브라우저 북 마크 기능을 사용한다. 그러나, 북 마크를 효율적으로 사용하기 위해서는 북 마크 분류, 수정, 편집, 정렬등의 북 마크 관리가 필수적이지만 이와 같은 북 마크 관리 작업이 전반적으로 수작업으로 이루어져야 하는 단점이 있다. 이러한 문제점을 해결하기 위한 한가지 방법으로 웹 문서 분류를 위한 기계학습법을 적용하여 사용자의 북 마크를 카테고리별로 자동으로 분류, 재정렬해주는 북 마크 자동 분류 에이전트를 개발하고자 한다. 대표적인 분류 에이전트 시스템으로는 전자우편 분류 에이전트인 Maxims, 뉴스 기사 분류 에이전트인 NewT, 엔터테인먼트 선별 에이전트인 Ringo 등이 있으며, 이러한 시스템들은 분류 대상과 분류 방법, 기능 등에서 차이를 보이고 있다. 본 논문에서는 대표적인 교사학습 방법인 나이브 베이지안 학습법을 사용하여 북 마크를 자동으로 분류하는 북 마크 자동 분류 에이전트를 설계, 구현하였다.

  • PDF

Document Classification using Weighted Associative Classifier (가중치가 부여된 연관 규칙을 이용한 문서 분류)

  • 김흥남;이기성;조근식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data (보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교)

  • Rhee, Eun Hee;Hwang, Beom Seuk
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.1
    • /
    • pp.131-146
    • /
    • 2022
  • Logit models are commonly used to predicting and classifying categorical response variables. Most Bayesian approaches to logit models are implemented based on the Metropolis-Hastings algorithm. However, the algorithm has disadvantages of slow convergence and difficulty in ensuring adequacy for the proposal distribution. Therefore, we use auxiliary mixture sampler proposed by Frühwirth-Schnatter and Frühwirth (2007) to estimate logit models. This method introduces two sequences of auxiliary latent variables to make logit models satisfy normality and linearity. As a result, the method leads that logit model can be easily implemented by Gibbs sampling. We applied the proposed method to diabetes data from the Community Health Survey (2020) of the Korea Disease Control and Prevention Agency and compared performance with Metropolis-Hastings algorithm. In addition, we showed that the logit model using auxiliary mixture sampling has a great classification performance comparable to that of the machine learning models.

Bookmark Classification Agent Based on Naive Bayesian Learning Method (나이브 베이지안 학습법에 기초한 북마크 분류 에이전트)

  • 최정민;김인철
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.04a
    • /
    • pp.405-408
    • /
    • 2000
  • 최근 인터넷의 발전으로 많은 정보와 지식을 우리는 인터넷에서 제공받을 수 있게되었다. 인터넷에 존재하는 정보는 수많은 웹서버에 산재되어 있으며, 정보의 위치는 주소(URL)를 가지고 존재하게 되는데 사용자는 자신이 관심있는 정보의 주소를 저장하기 위하여 웹브라우저 북마크(Bookmark)기능을 사용한다. 그러나 북마크 기능은 웹문서의 주소 저장에 일차적인 목적을 두고 있으며, 이후 북마크의 개수가 증가하면, 사용자는 북마크관리가 어렵게되므로 사용자 북마크 파일을 자동으로 분류하여 관리할수 있는 에이전트 기술을 사용하고자 한다. 대표적인 분류에이전트 시스템으로는 전자우편 분류 에이전트인 Maxims, 뉴스기사 분류 에이전트인 NewT, 엔터테인먼트(Entertainment) 선별 에이전트인 Ringo 등이 있다. 이러한 시스템들은 분류할 대상에 따라 조금씩 다른 모습의 에이전트 기능을 보이고 있으며, 본 논문은 기계학습 이론중 교사학습 알고리즘인 나이브 베이지안 학습방법(Naive Bayesian Learning method)을 사용하여 사용자가 분류하지 못한 북마크를 자동으로 분류하는 단일 에이전트 기반 북마크 분류기를 설계, 구현하고자한다.

  • PDF

Empirical Bayesian Misclassification Analysis on Categorical Data (범주형 자료에서 경험적 베이지안 오분류 분석)

  • 임한승;홍종선;서문섭
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.1
    • /
    • pp.39-57
    • /
    • 2001
  • Categorical data has sometimes misclassification errors. If this data will be analyzed, then estimated cell probabilities could be biased and the standard Pearson X2 tests may have inflated true type I error rates. On the other hand, if we regard wellclassified data with misclassified one, then we might spend lots of cost and time on adjustment of misclassification. It is a necessary and important step to ask whether categorical data is misclassified before analyzing data. In this paper, when data is misclassified at one of two variables for two-dimensional contingency table and marginal sums of a well-classified variable are fixed. We explore to partition marginal sums into each cells via the concepts of Bound and Collapse of Sebastiani and Ramoni (1997). The double sampling scheme (Tenenbein 1970) is used to obtain informations of misclassification. We propose test statistics in order to solve misclassification problems and examine behaviors of the statistics by simulation studies.

  • PDF

Variational Bayesian multinomial probit model with Gaussian process classification on mice protein expression level data (가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형: 쥐 단백질 발현 데이터에의 적용)

  • Donghyun Son;Beom Seuk Hwang
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.2
    • /
    • pp.115-127
    • /
    • 2023
  • Multinomial probit model is a popular model for multiclass classification and choice model. Markov chain Monte Carlo (MCMC) method is widely used for estimating multinomial probit model, but its computational cost is high. However, it is well known that variational Bayesian approximation is more computationally efficient than MCMC, because it uses subsets of samples. In this study, we describe multinomial probit model with Gaussian process classification and how to employ variational Bayesian approximation on the model. This study also compares the results of variational Bayesian multinomial probit model to the results of naive Bayes, K-nearest neighbors and support vector machine for the UCI mice protein expression level data.

A Study on The Customer Classification of the EC based on Bayesian Learning Model (베이지안 학습법에 기초한 전자상거래에서의 고객 성향 분류 연구)

  • Jeon, Jin-Ho;Lee, Gye-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2149-2152
    • /
    • 2002
  • 활성화되고 있는 전자상거래에 있어서 단순히 정해진 정보를 고객에게 제공하는 범위를 벗어나 고객의 특성에 따라 고객에 맞는 정보를 제공함으로서 매출 신장을 통하여 이윤확대를 꾀할 수 있다. 그러므로 본 연구에서는 베이지안 학습법을 이용하여 회원고객의 특성에 따른 분류화를 통하여 잠재적 구매 고객에 대한 구매 스타일을 예측하여 타겟광고가 가능한 기법에 대해 연구하였다.

  • PDF

Prognostic Modeling of Metabolic Syndrome Using Bayesian Networks (베이지안 네트워크를 이용한 대사증후군의 예측 모델링)

  • Park Han-Saem;Cho Sung-Bae;Lee Hong Kyu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.292-294
    • /
    • 2005
  • 대사증후군은 당뇨병, 고혈압, 복부 비만, 고지혈증 등의 질병이 한 개인에게 동시에 발현하는 것을 말한다. 미국에서는 $25\%$ 이상의 성인이 대사성 증후군인 것으로 알려져 있으며, 경제 여건의 향상 및 식생활 습관의 변화와 함께 최근 우리나라에서도 심각한 문제가 되고 있다. 한편 불확실성의 처리를 위해 많이 사용되고 있는 베이지안 네트워크는 사람이 분석 가능한 확률 기반의 모델로 최근 의학 분야에서 지식 발견, 데이터 마이닝을 위한 도구로 유용하게 사용되고 있다. 본 논문에 서 는 대사증후군을 예측하는 문제를 다루며, 베이지안 네트워크와 의학 지식을 이용한 대사증후군의 예측 모델을 제안한다. 제안하는 모델을 통해 1993년의 데이터를 가지고 1995년의 상태를 예측하는 분류 실험을 수행하였으며, 실험 결과 다층 신경망, k-최근접 이웃 등의 분류기 보다 높은 $81.5\%$의 예측율을 보였다.

  • PDF

A Purchase Pattern Analysis Using Bayesian Network and Neural Network (베이지안 네트워크와 신경망을 이용한 구매 패턴 분석)

  • Hwang Jeong-Sik;Pi Su-Young;Son Chang-Sik;Chung Hwan-Mook
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.04a
    • /
    • pp.323-326
    • /
    • 2005
  • 실세계에서 일어나는 문제는 매우 복잡하고 다양하기 때문에 예측하기가 어렵고 다양한 상황들이 발생한다. 특히, 소비자의 구매에 따르는 행동을 분석하고 소비자의 다양한 기호를 예측하기 위해서는 구매자의 심리적 요인과 내적 요인이 많은 영향을 미치게 된다. 이러한 요인들은 직접적인 정보 처리가 어렵기 때문에 정보의 불확실성을 취급하는 기술이 필요하다. 따라서 본 논문에서는 상품 구매에 따르는 소비자의 구매행동 패턴을 분석하기 위해 판매자의 노하우와 소비자의 구매의식을 조사하여 이 데이터를 바탕으로 베이지안 네트워크를 구성하고 구매패턴을 분류하는 방법을 제안하였다. 특히, 베이지안 네트워크를 이용하여 불필요한 속성을 가진 데이터를 제거한 후 코호넨의 SOM을 이용하여 소비자의 구매 패턴을 분류하도록 하였다.

  • PDF