• Title/Summary/Keyword: naive Bayesian

Search Result 118, Processing Time 0.029 seconds

A Three-Step Preprocessing Algorithm for Enhanced Classification of E-Mail Recommendation System (이메일 추천 시스템의 분류 향상을 위한 3단계 전처리 알고리즘)

  • Jeong Ok-Ran;Cho Dong-Sub
    • The Transactions of the Korean Institute of Electrical Engineers D
    • /
    • v.54 no.4
    • /
    • pp.251-258
    • /
    • 2005
  • Automatic document classification may differ significantly according to the characteristics of documents that are subject to classification, as well as classifier's performance. This research identifies e-mail document's characteristics to apply a three-step preprocessing algorithm that can minimize e-mail document's atypical characteristics. In the first 5go, uncertain based sampling algorithm that used Mean Absolute Deviation(MAD), is used to address the question of selection learning document for the rule generation at the time of classification. In the subsequent stage, Weighted vlaue assigning method by attribute is applied to increase the discriminating capability of the terms that appear on the title on the e-mail document characteristic level. in the third and last stage, accuracy level during classification by each category is increased by using Naive Bayesian Presumptive Algorithm's Dynamic Threshold. And, we implemented an E-Mail Recommendtion System using a three-step preprocessing algorithm the enable users for direct and optimal classification with the recommendation of the applicable category when a mail arrives.

BClassifier : A Bookmark-Classification Agent Based on Naive Bayesian Learning Method (BClassifier : 나이브 베이지안 학습법에 기초한 북마크 분류 에이전트)

  • 최정민;김인철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.81-83
    • /
    • 2000
  • 최근 고성능 PC의 보급과 네트워크의 발달로 인하여 인터넷의 가용 정보가 폭발적으로 증가하고 있다. 이러한 추세에 따라 우리는 인터넷을 사용하여 많은 정보를 얻고 있다. 그러나 인터넷에 존재하는 정보는 수많은 웹 서버에 주소(URL)를 가지고 존재하게 되는데 사용자는 자신이 관심 있는 정보의 사이트를 재방문하기 위하여 웹 브라우저 북 마크 기능을 사용한다. 그러나, 북 마크를 효율적으로 사용하기 위해서는 북 마크 분류, 수정, 편집, 정렬등의 북 마크 관리가 필수적이지만 이와 같은 북 마크 관리 작업이 전반적으로 수작업으로 이루어져야 하는 단점이 있다. 이러한 문제점을 해결하기 위한 한가지 방법으로 웹 문서 분류를 위한 기계학습법을 적용하여 사용자의 북 마크를 카테고리별로 자동으로 분류, 재정렬해주는 북 마크 자동 분류 에이전트를 개발하고자 한다. 대표적인 분류 에이전트 시스템으로는 전자우편 분류 에이전트인 Maxims, 뉴스 기사 분류 에이전트인 NewT, 엔터테인먼트 선별 에이전트인 Ringo 등이 있으며, 이러한 시스템들은 분류 대상과 분류 방법, 기능 등에서 차이를 보이고 있다. 본 논문에서는 대표적인 교사학습 방법인 나이브 베이지안 학습법을 사용하여 북 마크를 자동으로 분류하는 북 마크 자동 분류 에이전트를 설계, 구현하였다.

  • PDF

Feature Selection and Classification of Web Pages (웹 페이지에서의 자질 선택과 분류)

  • 송무희;임수연;박성배;강동진;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.796-798
    • /
    • 2004
  • 본 논문에서는 웹 문서의 분류 성능을 향상시키기 위해 웹 페이지에서의 자질선택과 그에 따른 웹 문서 분류 방법을 제안한다. 문서 분류에는 문서에 포함된 단어를 분류 자질로 사용하게 되며 이때 한 문서의 모든 단어를 분류 자질로 이용한다고 좋은 성능을 보인다고 보장할 수는 없다. 그러므로 문서에 필요한 단어만을 자동으로 추출하여 문서데이터의 자질을 축소하는 작업이 필요하다. 따라서 본 논문에서는 모집군 내의 자질벡터의 범위가 큰 것을 적은 수의 주요성분으로 감소시키기 위해 통계적 분석 기법중의 하나인 주성분분석 방법을 이용하여 자질감소와 그에 따른 문서분류의 성능 향상을 실험을 통하여 보인다. 야후 스포츠 뉴스 웹 페이지가 분류를 위해 사용되었으며, 분류기로는 Naive Bayesian 분류 방법을 사용하였다. 실험 결과를 통해 본 논문에서 제안한 뉴스 웹페이지 분류 방법이 스포츠 뉴스 데이터 군에서 만족할 만한 분류 정확도를 제공한다는 것을 알 수 있다.

  • PDF

A Naive Bayesian Learning of Clustering for Medical Datamining (의료데이터마이닝에서 클러스터링 기반의 나이브 베이지안 학습)

  • Han, Song-Yi;Jung, Young-Gyu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.410-413
    • /
    • 2010
  • 병원정보시스템의 전세계적인 보급과 데이터웨어하우스의 도입으로 인해서 병원내의 의료데이터가 기하 급수적인 증가추세를 보이고 있다. 환자에 대한 임상적인 특징을 다수 포함하고 있는 의료데이터는 유용한 임상지식의 보고로서 그 가치가 매우 유용하다. 따라서 데이터에 숨겨진 지식을 발견하여 구조화시킴으로써 새로운 지식을 창조하는 데이터마이닝은 임상부분에 적합한 기술이라 말할 수 있다. 본 연구에서는 급성염증을 가진 환자들의 의료데이터를 기반으로 특징을 추출하고, 추출된 특징을 바탕으로 병명을 판단하기 위한 학습을 수행한다. 학습 방법은 클러스터링을 이용한 나이브 베이지안으로 진행한다. 기존의 나이브 베이지안 학습은 대량의 데이터를 처리하는데 효과적이며 성능 또한 우수하지만, 속성별 독립을 가정하기 때문에 의료데이터를 분석에는 잘 사용되지 않는다. 따라서 높은 신뢰도를 구현하기 위해 나이브 베이지안 학습 전에 클러스터링을 선행하여, 기존 데이터에 클러스터링 클래스를 추가한다. 이를 통해 급성염증의 증상을 보이는 환자데이터를 바탕으로 자동적으로 방광염과 결석으로 인한 신장염을 효과적으로 진단해낸다.

  • PDF

An Extended Naive Bayesian Algorithm for Automatic Book Classification (자동 도서분류를 위한 확장된 나이브베이지안 알고리즘)

  • Kim, Sung-Soo;Jung, Hyun-Jun;Baik, Doo-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.547-550
    • /
    • 2014
  • 국내 공공도서관에서는 잘못 분류된 도서의 서가(bookshelf) 배치로 인해 이용자의 불편과 해당 도서관의 도서분류체계와의 불일치 등으로 도서관리에 어려움을 겪고 있다. 또한 자동 도서분류를 위한 기계학습 등 다양한 알고리즘의 연구가 진행되어 왔으나 적은 학습데이터에서의 분류효과 향상에 한계가 있었다. 이에 이 연구에서는 KORMARC(Korea Machine Readable Cataloging) 의 색인어(키워드) 정보를 결합한 확장된 나이브베이지안 알고리즘을 제안하였다. 색인어 정보는 일반적으로 도서검색시스템에서 검색 효과를 높이기 위해 이용되고 있으며 실제 공공도서관에서의 실험을 통해 도서량이 적은 경우에 보다 높은 분류효과를 얻을 수 있음을 실험 평가하였다.

Stock Prediction Using News Text Mining and Time Series Analysis (뉴스 텍스트 마이닝과 시계열 분석을 이용한 주가예측)

  • Ahn, Sung-Won;Cho, Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.364-369
    • /
    • 2010
  • 본 논문에서는 뉴스 텍스트 마이닝을 수행하여 2005년 1월부터 2008년 12월까지 4년 간의 뉴스 데이터에 대해 주가에 호재인지 악재인지 여부에 대해 학습을 하고, 이를 근거로 신규 발행된 뉴스가 주가 상승 또는 하락에 영향을 미치는지를 예측하는 알고리즘을 제안한다. 뉴스 텍스트 마이닝을 위해 변형된 Bag of Words 모델과 Naive Bayesian 분류기법을 사용하였으며, 특히 주가 예측에 있어서 뉴스 마이닝에만 의존하던 기존의 관련 연구와는 달리 예측의 정확성을 높이기 위해 주가의 시계열 데이터 분석기법인 RSI를 추가로 작용하였다. 2009년 11월부터 2010년 2월까지 4개월간 42,355건의 뉴스 데이터에 대해 실험한 결과, 기존 연구 대비 의미 있는 결과인 55.01%의 예측성공률을 얻었다.

  • PDF

Electric Load Signature Analysis for Home Energy Monitoring System

  • Lu-Lulu, Lu-Lulu;Park, Sung-Wook;Wang, Bo-Hyeun
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • v.12 no.3
    • /
    • pp.193-197
    • /
    • 2012
  • This paper focuses on identifying which appliance is currently operating by analyzing electrical load signature for home energy monitoring system. The identification framework is comprised of three steps. Firstly, specific appliance features, or signatures, were chosen, which are DC (Duty Cycle), SO (Slope of On-state), VO (Variance of On-state), and ZC (Zero Crossing) by reviewing observations of appliances from 13 houses for 3 days. Five appliances of electrical rice cooker, kimchi-refrigerator, PC, refrigerator, and TV were chosen for the identification with high penetration rate and total operation-time in Korea. Secondly, K-NN and Naive Bayesian classifiers, which are commonly used in many applications, are employed to estimate from which appliance the signatures are obtained. Lastly, one of candidates is selected as final identification result by majority voting. The proposed identification frame showed identification success rate of 94.23%.

Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting (메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링)

  • Kang Seung-Shik
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.2
    • /
    • pp.255-263
    • /
    • 2006
  • It is common that a junk mail has an inconsistency of mail addresses between those of the mail headers and the mail recipients. In addition, users easily know that an email is a junk or legitimate mail only by looking for the title of the email. In this paper, we tried to apply the filtering classifiers of mail address validation check and the combination method of title-content weighting to improve the performance of junk mail filtering system. In order to verify the effectiveness of the proposed method, we performed an experiment by applying them to Naive Bayesian classifier. The experiment includes the unit testing and the combination of the filtering techniques. As a result, we found that our method improved 11.6% of recall and 2.1% of precision that it contributed the enhancement of the junk mail filtering system.

  • PDF

A Learning Agent for Automatic Bookmark Classification (북 마크 자동 분류를 위한 학습 에이전트)

  • Kim, In-Cheol;Cho, Soo-Sun
    • The KIPS Transactions:PartB
    • /
    • v.8B no.5
    • /
    • pp.455-462
    • /
    • 2001
  • The World Wide Web has become one of the major services provided through Internet. When searching the vast web space, users use bookmarking facilities to record the sites of interests encountered during the course of navigation. One of the typical problems arising from bookmarking is that the list of bookmarks lose coherent organization when the the becomes too lengthy, thus ceasing to function as a practical finding aid. In order to maintain the bookmark file in an efficient, organized manner, the user has to classify all the bookmarks newly added to the file, and update the folders. This paper introduces our learning agent called BClassifier that automatically classifies bookmarks by analyzing the contents of the corresponding web documents. The chief source for the training examples are the bookmarks already classified into several bookmark folders according to their subject by the user. Additionally, the web pages found under top categories of Yahoo site are collected and included in the training examples for diversifying the subject categories to be represented, and the training examples for these categories as well. Our agent employs naive Bayesian learning method that is a well-tested, probability-based categorizing technique. In this paper, the outcome of some experimentation is also outlined and evaluated. A comparison of naive Bayesian learning method alongside other learning methods such as k-Nearest Neighbor and TFIDF is also presented.

  • PDF

Development of newly recruited privates on-the-job Training Achievements Group Classification Model (신병 주특기교육 성취집단 예측모형 개발)

  • Kwak, Ki-Hyo;Suh, Yong-Moo
    • Journal of the military operations research society of Korea
    • /
    • v.33 no.2
    • /
    • pp.101-113
    • /
    • 2007
  • The period of military personnel service will be phased down by 2014 according to 'The law of National Defense Reformation' issued by the Ministry of National Defense. For this reason, the ROK army provides discrimination education to 'newly recruited privates' for more effective individual performance in the on-the-job training. For the training to be more effective, it would be essential to predict the degree of achievements by new privates in the training. Thus, we used data mining techniques to develop a classification model which classifies the new privates into one of two achievements groups, so that different skills of education are applied to each group. The target variable for this model is a binary variable, whose value can be either 'a group of general control' or 'a group of special control'. We developed four pure classification models using Neural Network, Decision Tree, Support Vector Machine and Naive Bayesian. We also built four hybrid models, each of which combines k-means clustering algorithm with one of these four mining technique. Experimental results demonstrated that the highest performance model was the hybrid model of k-means and Neural Network. We expect that various military education programs could be supported by these classification models for better educational performance.