• 제목/요약/키워드: naive Bayes

검색결과 235건 처리시간 0.029초

나이브베이스 분류자와 퍼지 추론을 이용한 적조 발생 예측의 성능향상 (Enhancing Red Tides Prediction using Fuzzy Reasoning and Naive Bayes Classifier)

  • 박선;이성로
    • 한국정보통신학회논문지
    • /
    • 제15권9호
    • /
    • pp.1881-1888
    • /
    • 2011
  • 적조란 유해조류의 일시적인 대 번식인 자연현상으로 어패류를 집단 폐사 시킨다. 적조에 의한 양식어업의 피해는 매년 발생하고 있다. 이 때문에 적조 발생을 미리 예측할 수 있으면 적조에 대한 피해를 최소화 시킬 수 있다. 적조발생 예측시 나이브베이스 분류자를 이용하면 좋은 예측결과를 얻을 수 있다. 그러나 나이브베이스를 이용한 결과는 단순한 발생 여부 만을 판별 할뿐 발생하는 적조가 어느 정도 증가 할지는 알 수 없다. 본 논문은 퍼지 추론과 나이브베이스 분류자를 이용한 새로운 적조발생 예측 방법을 제안한다. 제안방법은 적조 발생 예측의 정확률을 향상시키면서 적조생물 밀도의 증가율을 예측할 수 있다.

주제어의 중의성 해소를 위한 Naive Bayes 분류기 적용에 관한 연구 (Application of a Naive Bayes Classifier for Topic Word Sense Disambiguation)

  • 유현숙;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.71-74
    • /
    • 2000
  • 단어의 의미 중의성을 해소하는 것은 자연언어처리의 중요한 문제 중의 하나이다. 특히 문서의 주제어가 중의성을 가질 때, 이 문서는 부적합한 범주에 속하게 되어 정보검색시 잡음을 일으키는 원인이 되기도 한다. 그러므로, 본 논문에서는 문서를 대표하는 주재어의 의미 중의성을 해소하기 위해 주변 문맥자질을 고려하는 방법을 모색한다 이를 위해 자연언어처리의 통계적 방법으로 문서 범주화에 많이 사용되는 Naive Bayes 분류기를 중의성 해소에 적용하고, 그 결과 얻어진 중의성 해소 성능을 평가한다.

  • PDF

PERFORMANCE EVALUATION OF INFORMATION CRITERIA FOR THE NAIVE-BAYES MODEL IN THE CASE OF LATENT CLASS ANALYSIS: A MONTE CARLO STUDY

  • Dias, Jose G.
    • Journal of the Korean Statistical Society
    • /
    • 제36권3호
    • /
    • pp.435-445
    • /
    • 2007
  • This paper addresses for the first time the use of complete data information criteria in unsupervised learning of the Naive-Bayes model. A Monte Carlo study sets a large experimental design to assess these criteria, unusual in the Bayesian network literature. The simulation results show that complete data information criteria underperforms the Bayesian information criterion (BIC) for these Bayesian networks.

Naive Bayes 문서 분류기를 위한 점진적 학습 모델 연구 (A Study on Incremental Learning Model for Naive Bayes Text Classifier)

  • 김제욱;김한준;이상구
    • 정보기술과데이타베이스저널
    • /
    • 제8권1호
    • /
    • pp.95-104
    • /
    • 2001
  • In the text classification domain, labeling the training documents is an expensive process because it requires human expertise and is a tedious, time-consuming task. Therefore, it is important to reduce the manual labeling of training documents while improving the text classifier. Selective sampling, a form of active learning, reduces the number of training documents that needs to be labeled by examining the unlabeled documents and selecting the most informative ones for manual labeling. We apply this methodology to Naive Bayes, a text classifier renowned as a successful method in text classification. One of the most important issues in selective sampling is to determine the criterion when selecting the training documents from the large pool of unlabeled documents. In this paper, we propose two measures that would determine this criterion : the Mean Absolute Deviation (MAD) and the entropy measure. The experimental results, using Renters 21578 corpus, show that this proposed learning method improves Naive Bayes text classifier more than the existing ones.

  • PDF

자질의 범주 모호성 해소를 위한 Naive Bayes 분류기 설계 (A Naive Bayes Classifier for Category Disambiguation of Features)

  • 유현숙;정영미
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.364-366
    • /
    • 2001
  • 문서 범주화는 전자 정보환경에서 매우 유용한 정보처리 도구로서, 다양한 문서 범주화 기법 및 성능향상을 위한 연구들이 지속적으로 이루어지고 있다. 그러나, 대부분의 연구들은 문서 범주화의 대상이 되는 단어 자질 공간의 차원축소 문제에만 집중되었을 뿐, 학습단계에 큰 영향을 미치는 다범주 단어 자질의 범주 모호성은 고려하지 않았다. 본 연구에서는, 다범주 자질의 범주 모호성을 해소함으로써 문서 범주화의 성능향상을 유도하는 범주 모호성 해소 가중치 W를 제시하고 이를 실험을 통해 증명하였다. 실험에서는 Naive Bayes 분류기와 가중치 W를 적용한 Naive Bayes-W 분류기를 직접 구축하여 문서 범주화의 성능향상 여부를 비교하는데 사용하였다. 도출된 실험결과를 통해, 가중치 W는 현재의 분류기가 가지고 있는 자질 표현의 범주 모호성이라는 단점을 보완하고 분류기의 성능향상을 유도함으로써 정보검색시스템의 검색효율을 높이는 데 활용될 수 있음일 증명되었다.

  • PDF

빈발단어집합을 이용한 NaiveBayes의 정확도 개선 (An Improvement of Accuracy for NaiveBayes by Using Large Word Sets)

  • 이재문
    • 인터넷정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.169-178
    • /
    • 2006
  • 본 논문은 연관규칙탐사 기술에서 사용되는 빈발항목집합을 변형하여 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 문서분류 방법으로 잘 알려진 NaiveBayes에 적용하여 이 방법의 정확도를 개선한다. 이 기술의 적용을 위하여 하나의 문서는 여러 개의 문단으로 나뉘어졌으며, 각 문단에 나타나는 단어들의 집합을 트랜잭션화하여 빈발단어 집합을 찾을 수 있도록 하였다. 제안한 방법은 Al::Categorizer 프레임워크에서 구현되었으며 로이터-21578 데이터를 사용하여 그 정확도가 측정되었다. 문단에서의 라인수와 학습문서의 크기를 변화하면서 정확도를 측정하였다. 측정된 결과로부터 제안된 방법이 기존의 방법에 비하여 정확도를 개선한다는 사실을 알 수 있었다.

  • PDF

Parametric Empirical Bayes Estimators with Item-Censored Data

  • Choi, Dal-Woo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제8권2호
    • /
    • pp.261-270
    • /
    • 1997
  • This paper is proposed the parametric empirical Bayes(EB) confidence intervals which corrects the deficiencies in the naive EB confidence intervals of the scale parameter in the Weibull distribution under item-censoring scheme. In this case, the bootstrap EB confidence intervals are obtained by the parametric bootstrap introduced by Laird and Louis(1987). The comparisons among the bootstrap and the naive EB confidence intervals through Monte Carlo study are also presented.

  • PDF

연관규칙 마이닝과 나이브베이즈 분류를 이용한 악성코드 탐지 (Detection of Malicious Code using Association Rule Mining and Naive Bayes classification)

  • 주영지;김병식;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제20권11호
    • /
    • pp.1759-1767
    • /
    • 2017
  • Although Open API has been invigorated by advancements in the software industry, diverse types of malicious code have also increased. Thus, many studies have been carried out to discriminate the behaviors of malicious code based on API data, and to determine whether malicious code is included in a specific executable file. Existing methods detect malicious code by analyzing signature data, which requires a long time to detect mutated malicious code and has a high false detection rate. Accordingly, in this paper, we propose a method that analyzes and detects malicious code using association rule mining and an Naive Bayes classification. The proposed method reduces the false detection rate by mining the rules of malicious and normal code APIs in the PE file and grouping patterns using the DHP(Direct Hashing and Pruning) algorithm, and classifies malicious and normal files using the Naive Bayes.

Weighted Local Naive Bayes Link Prediction

  • Wu, JieHua;Zhang, GuoJi;Ren, YaZhou;Zhang, XiaYan;Yang, Qiao
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.914-927
    • /
    • 2017
  • Weighted network link prediction is a challenge issue in complex network analysis. Unsupervised methods based on local structure are widely used to handle the predictive task. However, the results are still far from satisfied as major literatures neglect two important points: common neighbors produce different influence on potential links; weighted values associated with links in local structure are also different. In this paper, we adapt an effective link prediction model-local naive Bayes model into a weighted scenario to address this issue. Correspondingly, we propose a weighted local naive Bayes (WLNB) probabilistic link prediction framework. The main contribution here is that a weighted cluster coefficient has been incorporated, allowing our model to inference the weighted contribution in the predicting stage. In addition, WLNB can extensively be applied to several classic similarity metrics. We evaluate WLNB on different kinds of real-world weighted datasets. Experimental results show that our proposed approach performs better (by AUC and Prec) than several alternative methods for link prediction in weighted complex networks.

Levenshtein 거리를 이용한 영화평 감성 분류 (Sentiment Classification of Movie Reviews using Levenshtein Distance)

  • 안광모;김윤석;김영훈;서영훈
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권4호
    • /
    • pp.581-587
    • /
    • 2013
  • 본 논문에서는 레빈쉬타인 거리(Levenshtein distance)를 이용한 감성 분류 방법을 제안한다. 감성 자질에 레빈쉬타인 거리를 적용하여 BOW(Back-Of-Word)를 생성하고 이를 학습 자질로 사용한다. 학습 모델은 지지벡터기계(support vector machines, SVMs)와 나이브 베이즈(Naive Bayes)를 이용하였다. 실험 데이터로는 다음 영화 사이트로부터 영화평을 수집하였으며, 수집한 영화평은 총 2,385건이다. 수집된 영화평으로부터 감성 어휘를 수작업을 통해 수집하였으며 총 778개 어휘가 선별되었다. 실험에서는 감성 어휘에 레빈쉬타인 거리를 적용한 BOW를 이용하여 기계학습을 수행하였으며, 10-fold-cross validation 방식으로 분류기의 성능을 평가하였다. 평가 결과는 레빈쉬타인 거리가 3일 때 다항 나이브 베이즈(Muitinomial Naive Bayes) 분류기에서 85.46%의 가장 높은 정확도를 보였다. 실험을 통하여 본 논문에서 제안하는 방법이 문서 내의 철자 오류에 대해서도 분류 성능에 영향을 적게 받음을 알 수 있었다.