• Title/Summary/Keyword: 나이브 베이즈 분류

Search Result 71, Processing Time 0.032 seconds

A Fast Text Classifier with feature Value Voting and Document-Side Feature Selection (자질값투표 기법과 문서측 자질 선정을 이용한 고속 문서 분류기)

  • Lee, Jae-Yun
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.71-78
    • /
    • 2005
  • 빠르면서도 정확한 문서 자동분류를 위해서 자질값투표 기법과 문서측 자질선정 방식의 결합을 제안하였다. 자질값은 미리 학습된 분류자질과 분류범주간의 연관성을 뜻하는 것으로서, 자질값투표 기법은 분류대상 문서에 나타난 자질들의 자질값을 후보범주마다 합산하여 가장 높은 범주로 분류하는 것이다. 문서측 자질선정은 일반적인 분류자질선정과 달리 학습집단이 아닌 분류대상 문서의 자질 중 일부만을 선택하여 분류에 이용하는 방식이다. 이들을 결합하여 사용한 결과 실험환경에서는 나이브베이즈 분류기만큼 간단하고 빠르면서 SVM 분류기보다 좋은 성능을 보였다.

  • PDF

Prediction of Severities of Rental Car Traffic Accidents using Naive Bayes Big Data Classifier (나이브 베이즈 빅데이터 분류기를 이용한 렌터카 교통사고 심각도 예측)

  • Jeong, Harim;Kim, Honghoi;Park, Sangmin;Han, Eum;Kim, Kyung Hyun;Yun, Ilsoo
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.16 no.4
    • /
    • pp.1-12
    • /
    • 2017
  • Traffic accidents are caused by a combination of human factors, vehicle factors, and environmental factors. In the case of traffic accidents where rental cars are involved, the possibility and the severity of traffic accidents are expected to be different from those of other traffic accidents due to the unfamiliar environment of the driver. In this study, we developed a model to forecast the severity of rental car accidents by using Naive Bayes classifier for Busan, Gangneung, and Jeju city. In addition, we compared the prediction accuracy performance of two models where one model uses the variables of which statistical significance were verified in a prior study and another model uses the entire available variables. As a result of the comparison, it is shown that the prediction accuracy is higher when using the variables with statistical significance.

A Model to Infer Users' Behavior Patterns for Personalized Recommendation Service based Context-Awareness (컨텍스트 인식 기반 개인화 추천 서비스를 위한 사용자 행동패턴 추론 모델)

  • Seo, Hyo-Seok;Lee, Sang-Yong
    • Journal of Digital Convergence
    • /
    • v.10 no.2
    • /
    • pp.293-297
    • /
    • 2012
  • In order to provide with personalized recommendation service in context-awareness environment, the collected context data should be analyzed fast and the objective of user should be able to inferred effectively. But, the context collected from the mobile devices is not suitable for applying the existing inference algorithms as they are due to the omission or uncertainty of information and the efficient algorithms are required for mobile environment. In this paper, the behavior pattern was classified using naive bayes classification for minimize the loss caused by the omission or error of information. And pattern matching was used to effectively learn of the users inclination and infer the behavior purpose. The accuracy of the suggested inference model was evaluated by applying to the application recommendation service in the smart phones.

Naive Bayes Classifier based Anomalous Propagation Echo Identification using Class Imbalanced Data (클래스 불균형 데이터를 이용한 나이브 베이즈 분류기 기반의 이상전파에코 식별방법)

  • Lee, Hansoo;Kim, Sungshin
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.20 no.6
    • /
    • pp.1063-1068
    • /
    • 2016
  • Anomalous propagation echo is a kind of abnormal radar signal occurred by irregularly refracted radar beam caused by temperature or humidity. The echo frequently appears in ground-based weather radar due to its observation principle and disturb weather forecasting process. In order to improve accuracy of weather forecasting, it is important to analyze radar data precisely. Therefore, there are several ongoing researches about identifying the anomalous propagation echo with data mining techniques. This paper conducts researches about implementation of classification method which can separate the anomalous propagation echo in the raw radar data using naive Bayes classifier with various kinds of observation results. Considering that collected data has a class imbalanced problem, this paper includes SMOTE method. It is confirmed that the fine classification results are derived by the suggested classifier with balanced dataset using actual appearance cases of the echo.

The performance of Bayesian network classifiers for predicting discrete data (이산형 자료 예측을 위한 베이지안 네트워크 분류분석기의 성능 비교)

  • Park, Hyeonjae;Hwang, Beom Seuk
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.3
    • /
    • pp.309-320
    • /
    • 2020
  • Bayesian networks, also known as directed acyclic graphs (DAG), are used in many areas of medicine, meteorology, and genetics because relationships between variables can be modeled with graphs and probabilities. In particular, Bayesian network classifiers, which are used to predict discrete data, have recently become a new method of data mining. Bayesian networks can be grouped into different models that depend on structured learning methods. In this study, Bayesian network models are learned with various properties of structure learning. The models are compared to the simplest method, the naïve Bayes model. Classification results are compared by applying learned models to various real data. This study also compares the relationships between variables in the data through graphs that appear in each model.

Development of Naïve-Bayes classification and multiple linear regression model to predict agricultural reservoir storage rate based on weather forecast data (기상예보자료 기반의 농업용저수지 저수율 전망을 위한 나이브 베이즈 분류 및 다중선형 회귀모형 개발)

  • Kim, Jin Uk;Jung, Chung Gil;Lee, Ji Wan;Kim, Seong Joon
    • Journal of Korea Water Resources Association
    • /
    • v.51 no.10
    • /
    • pp.839-852
    • /
    • 2018
  • The purpose of this study is to predict monthly agricultural reservoir storage by developing weather data-based Multiple Linear Regression Model (MLRM) with precipitation, maximum temperature, minimum temperature, average temperature, and average wind speed. Using Naïve-Bayes classification, total 1,559 nationwide reservoirs were classified into 30 clusters based on geomorphological specification (effective storage volume, irrigation area, watershed area, latitude, longitude and frequency of drought). For each cluster, the monthly MLRM was derived using 13 years (2002~2014) meteorological data by KMA (Korea Meteorological Administration) and reservoir storage rate data by KRC (Korea Rural Community). The MLRM for reservoir storage rate showed the determination coefficient ($R^2$) of 0.76, Nash-Sutcliffe efficiency (NSE) of 0.73, and root mean square error (RMSE) of 8.33% respectively. The MLRM was evaluated for 2 years (2015~2016) using 3 months weather forecast data of GloSea5 (GS5) by KMA. The Reservoir Drought Index (RDI) that was represented by present and normal year reservoir storage rate showed that the ROC (Receiver Operating Characteristics) average hit rate was 0.80 using observed data and 0.73 using GS5 data in the MLRM. Using the results of this study, future reservoir storage rates can be predicted and used as decision-making data on stable future agricultural water supply.

A Study on Statistical Feature Selection with Supervised Learning for Word Sense Disambiguation (단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구)

  • Lee, Yong-Gu
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.22 no.2
    • /
    • pp.5-25
    • /
    • 2011
  • This study aims to identify the most effective statistical feature selecting method and context window size for word sense disambiguation using supervised methods. In this study, features were selected by four different methods: information gain, document frequency, chi-square, and relevancy. The result of weight comparison showed that identifying the most appropriate features could improve word sense disambiguation performance. Information gain was the highest. SVM classifier was not affected by feature selection and showed better performance in a larger feature set and context size. Naive Bayes classifier was the best performance on 10 percent of feature set size. kNN classifier on under 10 percent of feature set size. When feature selection methods are applied to word sense disambiguation, combinations of a small set of features and larger context window size, or a large set of features and small context windows size can make best performance improvements.

Ensemble Learning of Region Based Classifiers (지역 기반 분류기의 앙상블 학습)

  • Choe, Seong-Ha;Lee, Byeong-U;Yang, Ji-Hun;Kim, Seon-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.267-270
    • /
    • 2007
  • 기계학습에서 분류기들의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되었다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하고 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 UCI Machine Learning Repository에 있는 11개의 데이터 셋을 이용하여 단일 분류기와 기존의 앙상블 분류기인 배깅과 부스팅등의 정확도를 비교하였다. 그 결과 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 새로운 앙상블 방법이 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

  • PDF

An Experimental Study on Categorization of Web Documents Using an Ensemble Classifier (복합 분류기를 이용한 웹 문서 범주화에 관한 실험적 연구)

  • 이혜원;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.73-82
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해 문서로부터 다양한 자질을 추출하고, 두 가지의 분류기를 통해 여러 개의 분류 예측치를 구한 다음, 그것들을 하나의 결과물로 통합하는 복합분류기를 사용하였다. 먼저 다양한 자질 집합에 대해 일반적으로 많이 사용되는 kNN(k nearest neighbor) 분류기와 나이브 베이즈(Naive Bayes) 분류기를 사용한 범주화 실험을 수행하고, 실험을 통해 나온 범주 예측치를 통합하는 복합 분류기들의 성능을 비교하였다. 또한 단일 분류기들을 통해 나온 모든 범주 예측치를 통합하는 과정을 수행하여, 단일 분류기만을 사용할 경우와 복합 분류기를 사용할 경우를 비교해 더 좋은 성능을 나타내는 분류기를 밝히고자 한다.

  • PDF

Effective Fingerprint Classification with Dynamic Integration of OVA SVMs (OVA SVM의 동적 결합을 이용한 효과적인 지문분류)

  • Hong Jin-Hyuk;Cho Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.883-885
    • /
    • 2005
  • 지지 벡터 기계(Support Vector Machine: SVM)를 이용한 다중부류 분류기법이 최근 활발히 연구되고 있다. SVM은 이진분류기이기 때문에 다중부류 분류를 위해서 다수의 분류기를 구성하고 이들을 효과적으로 결합하는 방법이 필요하다. 본 논문에서는 기존의 정적인 다중분류기 결합 방법과는 달리 포섭구조의 분류모델을 확률에 따라 동적으로 구성하는 방법을 제안한다. 확률적 분류기인 나이브 베이즈 분류기(NB)를 이용하여 입력된 샘플의 각 클래스에 대한 확률을 계산하고, OVA (One-Vs-All) 전략으로 구축된 다중의 SVM을 획득된 확률에 따라 포섭구조로 구성한다. 제안하는 방법은 OVA SVM에서 발생하는 중의적인 상황을 효과적으로 처리하여 고성능의 분류를 수행한다. 본 논문에서는 지문분류 문제에서 대표적인 NIST-4 지문 데이터베이스를 대상으로 제안하는 방법을 적용하여 $1.8\%$의 거부율에서 $90.8\%$의 분류율을 획득하였으며, 기존의 결합 방법인 다수결 투표(Majority vote), 승자독식(Winner-takes-all), 행동지식공간 (Behavior knowledge space), 결정템플릿(Decision template) 등보다 높은 성능을 확인하였다.

  • PDF