• Title/Summary/Keyword: 베이즈 분류기

Search Result 63, Processing Time 0.026 seconds

Comparative Study of Machine learning Techniques for Spammer Detection in Social Bookmarking Systems (소셜 복마킹 시스템의 스패머 탐지를 위한 기계학습 기술의 성능 비교)

  • Kim, Chan-Ju;Hwang, Kyu-Baek
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.5
    • /
    • pp.345-349
    • /
    • 2009
  • Social bookmarking systems are a typical web 2.0 service based on folksonomy, providing the platform for storing and sharing bookmarking information. Spammers in social bookmarking systems denote the users who abuse the system for their own interests in an improper way. They can make the entire resources in social bookmarking systems useless by posting lots of wrong information. Hence, it is important to detect spammers as early as possible and protect social bookmarking systems from their attack. In this paper, we applied a diverse set of machine learning approaches, i.e., decision tables, decision trees (ID3), $na{\ddot{i}}ve$ Bayes classifiers, TAN (tree-augment $na{\ddot{i}}ve$ Bayes) classifiers, and artificial neural networks to this task. In our experiments, $na{\ddot{i}}ve$ Bayes classifiers performed significantly better than other methods with respect to the AUC (area under the ROC curve) score as veil as the model building time. Plausible explanations for this result are as follows. First, $na{\ddot{i}}ve$> Bayes classifiers art known to usually perform better than decision trees in terms of the AUC score. Second, the spammer detection problem in our experiments is likely to be linearly separable.

Improving Naïve Bayes Text Classifiers with Incremental Feature Weighting (점진적 특징 가중치 기법을 이용한 나이브 베이즈 문서분류기의 성능 개선)

  • Kim, Han-Joon;Chang, Jae-Young
    • The KIPS Transactions:PartB
    • /
    • v.15B no.5
    • /
    • pp.457-464
    • /
    • 2008
  • In the real-world operational environment, most of text classification systems have the problems of insufficient training documents and no prior knowledge of feature space. In this regard, $Na{\ddot{i}ve$ Bayes is known to be an appropriate algorithm of operational text classification since the classification model can be evolved easily by incrementally updating its pre-learned classification model and feature space. This paper proposes the improving technique of $Na{\ddot{i}ve$ Bayes classifier through feature weighting strategy. The basic idea is that parameter estimation of $Na{\ddot{i}ve$ Bayes considers the degree of feature importance as well as feature distribution. We can develop a more accurate classification model by incorporating feature weights into Naive Bayes learning algorithm, not performing a learning process with a reduced feature set. In addition, we have extended a conventional feature update algorithm for incremental feature weighting in a dynamic operational environment. To evaluate the proposed method, we perform the experiments using the various document collections, and show that the traditional $Na{\ddot{i}ve$ Bayes classifier can be significantly improved by the proposed technique.

Modified Na$\ddot{i}$ve Bayes Classifier for Categorizing Questions in Question-Answering Community (확장된 나이브 베이즈 분류기를 활용한 질문-답변 커뮤니티의 질문 분류)

  • Yeon, Jong-Heum;Shim, Jun-Ho;Lee, Sang-Goo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.1
    • /
    • pp.95-99
    • /
    • 2010
  • Social media refers to the content, which are created by users, such as blogs, social networks, and wikis. Recently, question-answering (QA) communities, in which users share information by questions and answers, are regarded as a kind of social media. Thus, QA communities have become a huge source of information for the past decade. However, it is hard for users to search the exact question-answer that is exactly matched with their needs as the number of question-answers increases in QA communities. This paper proposes an approach for classifying a question into three categories (information, opinion, and suggestion) according to the purpose of the question for more accurate information retrieval. Specifically, our approach is based on modified Na$\ddot{i}$ve Bayes classifier which uses structural characteristics of QA documents to improve the classification accuracy. Through our experiments, we achieved about 71.2% in classification accuracy.

A Comparison Study on the Application Method of Naive Bayes for Text Classification (텍스트 분류의 성능 향상을 위한 나이브 베이즈 응용 기법 비교 연구)

  • Heo, Jae-Hee;Park, Eun-Young;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.734-736
    • /
    • 2015
  • 텍스트를 분류해내는 일이 점점 중요해지고 있는 현 시점에서 기계학습은 다른 기법들보다도 가장 효과적인 성능을 드러낸다. 그 중에서도 특히 나이브 베이즈 분류기는 간절하고 효율적으로 알려진 기계학습 모델 중에 하나이다. 본 논문은 보다 효과적인 텍스트 분류를 위해 나이브 베이즈의 기법들을 응용 및 개선하고자 한 기존의 연구들을 소개하고, 이를 분석하고자 한다.

An Experimental Study on Fault Detection and Diagnosis Method for a Water Chiller Using Bayes Classifier (베이즈 분류기를 이용한 수냉식 냉동기의 고장 진단 방법에 관한 실험적 연구)

  • Lee, Heung-Ju;Chang, Young-Soo;Kang, Byung-Ha
    • Proceedings of the SAREK Conference
    • /
    • 2008.06a
    • /
    • pp.36-41
    • /
    • 2008
  • Fault detection and diagnosis(FDD) system is beneficial in equipment management by providing the operator with tools which can help find out a failure of the system. An experimental study has been performed on fault detection and diagnosis method for a water chiller. Bayes classifier, which is one of classical pattern classifiers, is adopted in deciding whether fault occurred or not. FDD algorithm can detect refrigerant leak failure, when 20% amount of charged refrigerant for normal operation leaks from the water chiller. The refrigerant leak failure caused COP reduction by 6.7% compared with normal operation performance. When two kinds of faults, such as a decrease in the mass flow rate of cooling water and temperature sensor fault of cooling water inlet, are detected, COP is a little decreased by these faults.

  • PDF

Improving the Retrieval Effectiveness by Incorporating Word Sense Disambiguation Process (정보검색 성능 향상을 위한 단어 중의성 해소 모형에 관한 연구)

  • Chung, Young-Mee;Lee, Yong-Gu
    • Journal of the Korean Society for information Management
    • /
    • v.22 no.2 s.56
    • /
    • pp.125-145
    • /
    • 2005
  • This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved $92\%$ disambiguation accuracy. while the clustering performance of the EM algorithm is $67\%$ on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed $39.6\%$ precision achieving about $7.4\%$ improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is $3\%$ lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

A Fast Text Classifier with feature Value Voting and Document-Side Feature Selection (자질값투표 기법과 문서측 자질 선정을 이용한 고속 문서 분류기)

  • Lee, Jae-Yun
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.71-78
    • /
    • 2005
  • 빠르면서도 정확한 문서 자동분류를 위해서 자질값투표 기법과 문서측 자질선정 방식의 결합을 제안하였다. 자질값은 미리 학습된 분류자질과 분류범주간의 연관성을 뜻하는 것으로서, 자질값투표 기법은 분류대상 문서에 나타난 자질들의 자질값을 후보범주마다 합산하여 가장 높은 범주로 분류하는 것이다. 문서측 자질선정은 일반적인 분류자질선정과 달리 학습집단이 아닌 분류대상 문서의 자질 중 일부만을 선택하여 분류에 이용하는 방식이다. 이들을 결합하여 사용한 결과 실험환경에서는 나이브베이즈 분류기만큼 간단하고 빠르면서 SVM 분류기보다 좋은 성능을 보였다.

  • PDF

Comparison of Automatic Score Range Prediction of Korean Essays Using KoBERT, Naive Bayes & Logistic Regression (KoBERT, 나이브 베이즈, 로지스틱 회귀의 한국어 쓰기 답안지 점수 구간 예측 성능 비교)

  • Cho, Heeryon;Im, Hyeonyeol;Cha, Junwoo;Yi, Yumi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.501-504
    • /
    • 2021
  • 한국어 심층학습 언어모델인 KoBERT와, 확률적 기계학습 분류기인 나이브 베이즈와 로지스틱 회귀를 이용하여 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 실험을 진행하였다. 네가지 주제('직업', '행복', '경제', '성공')를 다룬 답안지와 점수 레이블(A, B, C, D)로 쌍을 이룬 학습데이터 총 304건으로 다양한 자동분류 모델을 구축하여 7-겹 교차검증을 시행한 결과 KoBERT가 나이브 베이즈나 로지스틱 회귀보다 약간 우세한 성능을 보였다.

Ensemble Learning of Region Based Classifiers (지역 기반 분류기의 앙상블 학습)

  • Choe, Seong-Ha;Lee, Byeong-U;Yang, Ji-Hun;Kim, Seon-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.267-270
    • /
    • 2007
  • 기계학습에서 분류기들의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되었다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하고 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 UCI Machine Learning Repository에 있는 11개의 데이터 셋을 이용하여 단일 분류기와 기존의 앙상블 분류기인 배깅과 부스팅등의 정확도를 비교하였다. 그 결과 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 새로운 앙상블 방법이 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

  • PDF

Improving Accuracy of Multi-label Naive Bayes Classifier (다중 레이블 나이브 베이지안 분류기의 정확도 개선 연구)

  • Kim, Hae-Choen;Lee, Jae-Sung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.01a
    • /
    • pp.147-148
    • /
    • 2018
  • 다중 레이블 분류 문제는 다중 레이블 데이터를 입력받았을 때 연관된 다수의 레이블을 추측하는 문제이다. 본 논문에서는 다중 레이블 분류 문제의 기법 중 하나인 나이브 베이지안 분류기에 레이블 의존성을 계산하여 결과에 반영한 결과 다중 레이블 분류 문제의 성능이 개선됨을 확인하였다.

  • PDF