• 제목/요약/키워드: 베이지안 분류

검색결과 200건 처리시간 0.033초

전자메일 자동관리 시스템을 위한 전자메일 분류기의 성능 비교 (Comparison of e-Mail Classifiers for e-Mail Response Management Systems)

  • 김국표;권영식;백찬영
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2002년도 추계학술대회
    • /
    • pp.411-416
    • /
    • 2002
  • 인터넷의 발전과 더불어 전자메일 사용자가 증가하게 되고, 기업의 고객접촉채널로서 전자메일에 대한 중요성 또한 증가되고 있다. 고객의 요구에 대해 적시에 적절하게 응답하지 못하면 고객의 불만족이 증가하게 되고, 충성도를 감소시켜 결국 장기적 매출 및 수익성 악화를 초래하게 된다. 따라서 고객의 전자메일에 신속, 정확하게 응답할 수 있는 전자 메일 자동관리 시스템의 필요성이 증가되고 있다. 본 연구에서는 나이브 베이지안 학습과 중심점 기반 분류 방법을 이용하여 전자메일 자동관리 시스템에서 전자메일 분류를 수행하는 분류기를 구현한다. 구현된 분류기를 이용하여 실제 기업의 고객 전자메일을 분류하는 실험을 수행하고 두 분류기의 성능을 비교하였다. 실험결과 두 분류기 모두 전자메일 분류에 비교적 우수한 성능을 보였다. 그러나, 클래스 수가 적은 경우 중심점 기반 분류기가 좋은 성능을 보였으나, 학습집합이 작아지면서 두 분류기의 성능 차이는 없었으며, 클래스의 수가 많아지면서 나이브 베이지안 분류기가 더 우수한 성능을 보였다.

  • PDF

BClassifier : 나이브 베이지안 학습법에 기초한 북마크 분류 에이전트 (BClassifier : A Bookmark-Classification Agent Based on Naive Bayesian Learning Method)

  • 최정민;김인철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.81-83
    • /
    • 2000
  • 최근 고성능 PC의 보급과 네트워크의 발달로 인하여 인터넷의 가용 정보가 폭발적으로 증가하고 있다. 이러한 추세에 따라 우리는 인터넷을 사용하여 많은 정보를 얻고 있다. 그러나 인터넷에 존재하는 정보는 수많은 웹 서버에 주소(URL)를 가지고 존재하게 되는데 사용자는 자신이 관심 있는 정보의 사이트를 재방문하기 위하여 웹 브라우저 북 마크 기능을 사용한다. 그러나, 북 마크를 효율적으로 사용하기 위해서는 북 마크 분류, 수정, 편집, 정렬등의 북 마크 관리가 필수적이지만 이와 같은 북 마크 관리 작업이 전반적으로 수작업으로 이루어져야 하는 단점이 있다. 이러한 문제점을 해결하기 위한 한가지 방법으로 웹 문서 분류를 위한 기계학습법을 적용하여 사용자의 북 마크를 카테고리별로 자동으로 분류, 재정렬해주는 북 마크 자동 분류 에이전트를 개발하고자 한다. 대표적인 분류 에이전트 시스템으로는 전자우편 분류 에이전트인 Maxims, 뉴스 기사 분류 에이전트인 NewT, 엔터테인먼트 선별 에이전트인 Ringo 등이 있으며, 이러한 시스템들은 분류 대상과 분류 방법, 기능 등에서 차이를 보이고 있다. 본 논문에서는 대표적인 교사학습 방법인 나이브 베이지안 학습법을 사용하여 북 마크를 자동으로 분류하는 북 마크 자동 분류 에이전트를 설계, 구현하였다.

  • PDF

가중치가 부여된 연관 규칙을 이용한 문서 분류 (Document Classification using Weighted Associative Classifier)

  • 김흥남;이기성;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

나이브 베이지안 학습법에 기초한 북마크 분류 에이전트 (Bookmark Classification Agent Based on Naive Bayesian Learning Method)

  • 최정민;김인철
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 춘계학술발표논문집
    • /
    • pp.405-408
    • /
    • 2000
  • 최근 인터넷의 발전으로 많은 정보와 지식을 우리는 인터넷에서 제공받을 수 있게되었다. 인터넷에 존재하는 정보는 수많은 웹서버에 산재되어 있으며, 정보의 위치는 주소(URL)를 가지고 존재하게 되는데 사용자는 자신이 관심있는 정보의 주소를 저장하기 위하여 웹브라우저 북마크(Bookmark)기능을 사용한다. 그러나 북마크 기능은 웹문서의 주소 저장에 일차적인 목적을 두고 있으며, 이후 북마크의 개수가 증가하면, 사용자는 북마크관리가 어렵게되므로 사용자 북마크 파일을 자동으로 분류하여 관리할수 있는 에이전트 기술을 사용하고자 한다. 대표적인 분류에이전트 시스템으로는 전자우편 분류 에이전트인 Maxims, 뉴스기사 분류 에이전트인 NewT, 엔터테인먼트(Entertainment) 선별 에이전트인 Ringo 등이 있다. 이러한 시스템들은 분류할 대상에 따라 조금씩 다른 모습의 에이전트 기능을 보이고 있으며, 본 논문은 기계학습 이론중 교사학습 알고리즘인 나이브 베이지안 학습방법(Naive Bayesian Learning method)을 사용하여 사용자가 분류하지 못한 북마크를 자동으로 분류하는 단일 에이전트 기반 북마크 분류기를 설계, 구현하고자한다.

  • PDF

범주형 자료에서 경험적 베이지안 오분류 분석 (Empirical Bayesian Misclassification Analysis on Categorical Data)

  • 임한승;홍종선;서문섭
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.39-57
    • /
    • 2001
  • 범주형 자료에서 오분류는 자료를 수집하는 과정에서 발생될 수 있다. 오분류되어 있는 자료를 정확한 자료로 간주하여 분석한다면 추정결과에 편의가 발생하고 검정력이 약화되는 결과를 초래하게 되며, 정확하게 분류된 자료를 오분류하고 판단한다면 오분류의 수정을 위해 불필요한 비용과 시간을 낭비해야 할 것이다. 따라서 정확하게 분류된 표본인지 오분류된 표본인지를 판정하는 것은 자료를 분석하기 전에 이루어져야할 매우 중요한 과정이다. 본 논문은 I$\times$J 분할표로 주어지는 범주형 자료에서 두 변수 중 하나의 변수에서만 오분류가 발생되는 경우에 오분류 여부를 검정하기 위해서 오분류 가능성이 없는 변수에 대한 주변합은 고정시키고, 오분류 여부를 가능성이 있는 변수의 주변합을 Sebastiani와 Ramoni(1997)가 제안한 Bound와 외부정보로 표현되는 Collapse의 개념, 그리고 베이지안 방법을 확장하여 자료에 적합한 모형과 사전정보를 고려한 사전모수를 다양하게 설정하면서 재분류하는 연구를 하였다. 오분류에 대한 정보를 얻기 위해서 Tenenbein(1970)에 의해 연구된 이중추출법을 이용하여 오분류 검정을 위한 새로운 통계량을 제안하였으며, 제안된 오분류 검정통계량에 관한 분포를 다양한 모의실험을 통하여 연구하였다.

  • PDF

가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형: 쥐 단백질 발현 데이터에의 적용 (Variational Bayesian multinomial probit model with Gaussian process classification on mice protein expression level data)

  • 손동현;황범석
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.115-127
    • /
    • 2023
  • 다항 프로빗 모형은 다중 분류와 선택 모형에서 흔히 사용하는 모형이다. 다항 프로빗 모형을 추정하기 위해 일반적으로 널리 사용하는 베이지안 접근법인 마르코프 연쇄 몬테카를로(MCMC) 방법은 계산 복잡도가 매우 높다는 문제점을 가지고 있다. 반면, 변분 베이즈 방법은 MCMC 방법보다 계산 복잡도는 낮으면서도 분류 성능적인 면에서 큰 차이가 나지 않아 더 효율적인 방법으로 알려져 있다. 본 연구에서는 가우시안 과정에 기반한 다항 프로빗 모형을 설명하고 해당 모형에 적용할 수 있는 변분 베이지안 근사법을 알아보고자 한다. 그리고 UCI에서 제공되는 쥐 단백질 발현 데이터에 가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형을 적용하여 그 성능을 확인하고 나이브 베이즈, K-최근접 이웃법, 서포트 벡터 머신 분류기의 성능과 비교한다.

베이지안 학습법에 기초한 전자상거래에서의 고객 성향 분류 연구 (A Study on The Customer Classification of the EC based on Bayesian Learning Model)

  • 전진호;이계성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2149-2152
    • /
    • 2002
  • 활성화되고 있는 전자상거래에 있어서 단순히 정해진 정보를 고객에게 제공하는 범위를 벗어나 고객의 특성에 따라 고객에 맞는 정보를 제공함으로서 매출 신장을 통하여 이윤확대를 꾀할 수 있다. 그러므로 본 연구에서는 베이지안 학습법을 이용하여 회원고객의 특성에 따른 분류화를 통하여 잠재적 구매 고객에 대한 구매 스타일을 예측하여 타겟광고가 가능한 기법에 대해 연구하였다.

  • PDF

베이지안 네트워크를 이용한 대사증후군의 예측 모델링 (Prognostic Modeling of Metabolic Syndrome Using Bayesian Networks)

  • 박한샘;조성배;이홍규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.292-294
    • /
    • 2005
  • 대사증후군은 당뇨병, 고혈압, 복부 비만, 고지혈증 등의 질병이 한 개인에게 동시에 발현하는 것을 말한다. 미국에서는 $25\%$ 이상의 성인이 대사성 증후군인 것으로 알려져 있으며, 경제 여건의 향상 및 식생활 습관의 변화와 함께 최근 우리나라에서도 심각한 문제가 되고 있다. 한편 불확실성의 처리를 위해 많이 사용되고 있는 베이지안 네트워크는 사람이 분석 가능한 확률 기반의 모델로 최근 의학 분야에서 지식 발견, 데이터 마이닝을 위한 도구로 유용하게 사용되고 있다. 본 논문에 서 는 대사증후군을 예측하는 문제를 다루며, 베이지안 네트워크와 의학 지식을 이용한 대사증후군의 예측 모델을 제안한다. 제안하는 모델을 통해 1993년의 데이터를 가지고 1995년의 상태를 예측하는 분류 실험을 수행하였으며, 실험 결과 다층 신경망, k-최근접 이웃 등의 분류기 보다 높은 $81.5\%$의 예측율을 보였다.

  • PDF

베이지안 네트워크와 신경망을 이용한 구매 패턴 분석 (A Purchase Pattern Analysis Using Bayesian Network and Neural Network)

  • 황정식;피수영;손창식;정환묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.323-326
    • /
    • 2005
  • 실세계에서 일어나는 문제는 매우 복잡하고 다양하기 때문에 예측하기가 어렵고 다양한 상황들이 발생한다. 특히, 소비자의 구매에 따르는 행동을 분석하고 소비자의 다양한 기호를 예측하기 위해서는 구매자의 심리적 요인과 내적 요인이 많은 영향을 미치게 된다. 이러한 요인들은 직접적인 정보 처리가 어렵기 때문에 정보의 불확실성을 취급하는 기술이 필요하다. 따라서 본 논문에서는 상품 구매에 따르는 소비자의 구매행동 패턴을 분석하기 위해 판매자의 노하우와 소비자의 구매의식을 조사하여 이 데이터를 바탕으로 베이지안 네트워크를 구성하고 구매패턴을 분류하는 방법을 제안하였다. 특히, 베이지안 네트워크를 이용하여 불필요한 속성을 가진 데이터를 제거한 후 코호넨의 SOM을 이용하여 소비자의 구매 패턴을 분류하도록 하였다.

  • PDF