• Title/Summary/Keyword: naive Bayes

Search Result 238, Processing Time 0.032 seconds

Data Mining Using Reversible Jump MCMC and Bayesian Network Learning (Reversible Jump MCMC와 베이지안망 학습에 의한 데이터마이닝)

  • 하선영;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.90-92
    • /
    • 2000
  • 데이터마이닝 문제는 데이터를 그 속성들에 따라 분류하여 예측하는 것뿐만 아니라 분류된 속성들간의 연관성에 대해 잘 설명할 수 있어야 한다. 일반적으로 변수들간의 연관성을 잘 설명할 수 있으면서도 높은 예측력을 가지는 방법으로는 베이지안 네트웍 분류자(Bayesian network classifier)가 있다. 그러나 이것은 데이터 마이닝과 같은 대용량 데이터에서는 성능이 떨어지는 단점이 있다. 이에 이 논문에서는 최근 RBF 신경망이 입력변수 선정문제에 성공적으로 적용된 Reversible Jump Markov Chain Monte Carlo 방법을 이용하여 최적의 입력변수들만을 선택하여 베이지안 네트웍을 학습하는 Selective BN Augmented Naive-Bayes Classifier를 새로운 방안으로 제안하고 이를 실제 데이터마이닝 문제에 적용한 결과를 제시한다.

  • PDF

Fast Conditional Independence-based Bayesian Classifier

  • Junior, Estevam R. Hruschka;Galvao, Sebastian D. C. de O.
    • Journal of Computing Science and Engineering
    • /
    • v.1 no.2
    • /
    • pp.162-176
    • /
    • 2007
  • Machine Learning (ML) has become very popular within Data Mining (KDD) and Artificial Intelligence (AI) research and their applications. In the ML and KDD contexts, two main approaches can be used for inducing a Bayesian Network (BN) from data, namely, Conditional Independence (CI) and the Heuristic Search (HS). When a BN is induced for classification purposes (Bayesian Classifier - BC), it is possible to impose some specific constraints aiming at increasing the computational efficiency. In this paper a new CI based approach to induce BCs from data is proposed and two algorithms are presented. Such approach is based on the Markov Blanket concept in order to impose some constraints and optimize the traditional PC learning algorithm. Experiments performed with the ALARM, as well as other six UCI and three artificial domains revealed that the proposed approach tends to execute fewer comparison tests than the traditional PC. The experiments also show that the proposed algorithms produce competitive classification rates when compared with both, PC and Naive Bayes.

A Comparison Study on the Application Method of Naive Bayes for Text Classification (텍스트 분류의 성능 향상을 위한 나이브 베이즈 응용 기법 비교 연구)

  • Heo, Jae-Hee;Park, Eun-Young;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.734-736
    • /
    • 2015
  • 텍스트를 분류해내는 일이 점점 중요해지고 있는 현 시점에서 기계학습은 다른 기법들보다도 가장 효과적인 성능을 드러낸다. 그 중에서도 특히 나이브 베이즈 분류기는 간절하고 효율적으로 알려진 기계학습 모델 중에 하나이다. 본 논문은 보다 효과적인 텍스트 분류를 위해 나이브 베이즈의 기법들을 응용 및 개선하고자 한 기존의 연구들을 소개하고, 이를 분석하고자 한다.

Development of a Notice Classification and Recommendation Application Using Machine Learning Techniques (머신러닝 기반 공지문 분류 및 추천 애플리케이션 개발)

  • Kim, Hyemin;Oh, Jiun;Chung, Hyerin;Lee, Ki Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.420-423
    • /
    • 2018
  • 본 논문에서는 웹 및 문자 공지문을 자동으로 분류하고 추천함으로써 사용자가 원하는 공지문만을 볼 수 있도록 하는 애플리케이션을 개발한다. 본 애플리케이션은 공지문을 여러 카테고리로 자동 분류하여 사용자가 원하는 카테고리에 속한 공지문만을 볼 수 있도록 하며, 사용자가 선호할 만한 공지문을 추천하는 기능을 제공한다. 공지문 분류를 위해 다층 신경망 모델과 Naive Bayes 분류기를 사용하였으며, 공지문 추천을 위해 키워드 기반 자체 알고리즘을 사용하였다. 그 밖에 Word2Vec 을 활용한 검색어 추천 등 부가 기능을 제공하여 사용자가 쉽게 공지문을 찾을 수 있도록 하였다. 본 애플리케이션을 통해 사용자는 수많은 공지문 중 관심 있는 공지문만을 효율적으로 확인할 수 있다.

Classification of Advertising Spam Reviews (제품 리뷰문에서의 광고성 문구 분류 연구)

  • Park, Insuk;Kang, Hanhoon;Yoo, Seong Joon
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.186-190
    • /
    • 2010
  • 본 논문은 쇼핑몰의 이용 후기 중 광고성 리뷰를 분류해 내는 방법을 제안한다. 여기서 광고성 리뷰는 주로 업체에서 작성하는 것으로 리뷰 안에 광고 내용이 포함되어 있다. 국외 연구 중에는 드물게 오피니언 스팸 문서의 분류 연구가 진행되고 있지만 한국어 상품평으로부터 광고성 리뷰를 분류하는 연구는 아직 이루어지지 않고 있다. 본 논문에서는 Naive Bayes Classifier를 활용하여 광고성 리뷰를 분류하였다. 이때 확률 계산을 위해 사용된 특징 단어는 POS-Tagging+Bigram, POS-Tagging+Unigram, Bigram을 사용하여 추출하였다. 실험 결과는 POS-Tagging+Bigram 방법을 이용하였을 때 광고성 리뷰의 F-Measure가 80.35%로 정확도 높았다.

  • PDF

A New Model to Enhance Efficiency in Distributed Data Mining Using Mobile Agent

  • Bardab, Saeed Ngmaldin;Ahmed, Tarig Mohamed
    • International Journal of Computer Science & Network Security
    • /
    • v.21 no.3
    • /
    • pp.275-286
    • /
    • 2021
  • As a result of the vast amount of data that is geographically found in different locations. Distributed data mining (DDM) has taken a center stage in data mining. The use of mobile agents to enhance efficiency in DDM has gained the attention of industries, commerce and academia because it offers serious suggestions on how to solve inherent problems associated with DDM. In this paper, a novel DDM model has been proposed by using a mobile agent to enhance efficiency. The main idea behind the model is to use the Naive Bayes algorithm to give the mobile agent the ability to learn, compare, get and store the results on it from each server which has different datasets and we found that the accuracy increased roughly by 0.9% which is our main target.

Development of an Emotional Messenger for IPTV and Smart Phone (IPTV 및 스마트폰을 위한 감성 메신저의 개발)

  • Sung, Minyoung;Namkung, Chan;Paek, Seon-uok;Ahn, Seonghye
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1533-1535
    • /
    • 2010
  • 사용자의 감정을 자동으로 인식하고 3D 캐릭터 애니메이션을 통해 표현한다면 기기를 통한 통신에 더 풍부한 감성을 부여하여 의사 소통의 효과를 높일 수 있다. 본 논문에서는 IPTV와 스마트폰 기기에서 구동되는 감성 메신저의 개발에 대해 기술한다. 이를 위해 문장 및 음색 분석을 통한 감정 인식, 영상 속의 얼굴 표정 추적, 그리고 개인화된 3D 캐릭터의 표정 및 몸동작 애니메이션을 통해 감정을 전달하는 감성 메신저를 제안하고 그 효과를 서술한다. Naive Bayes 알고리즘을 이용한 채팅 문장에서의 자동 감성 인식이 개발되었으며 실험을 통해 성능 및 효과를 검증한다.

Emotion Classification in Song Lyrics using the Emotion Ontology (감정 온톨로지를 활용한 노래 가사의 감정 분류)

  • Kim, Min-Ho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.340-343
    • /
    • 2011
  • 음악 감정 분류에 관한 기존의 연구들은 템포, 박자, 음정, 음표, 리듬 등과 같은 음악의 멜로디와 관련된 자질을 이용하여 음악 감정을 분류하였다. 그러나 노래(Song)와 같이 가사를 포함한 음악은 같은 스타일의 멜로디라도 가사의 내용에 따라 음악에 대하여 청자가 느끼는 감정이 크게 다르다. 본 논문에서는 감정 온톨로지를 활용하여 노래 가사를 감정에 따라 분류하는 방법에 대하여 제안한다. 기구축 된 감정 온톨로지를 바탕으로 네 가지 통사적 규칙을 적용하여 노래 가사로부터 감정 자질을 추출한다. 추출된 감정 자질을 이용하여 Naive Bayes, HMM, SVM과 같은 기계학습 기법을 이용하여 8개 감정 그룹에 대해 58.8%의 정확도를 보였다.

Comparison of Automatic Score Range Prediction of Korean Essays Using KoBERT, Naive Bayes & Logistic Regression (KoBERT, 나이브 베이즈, 로지스틱 회귀의 한국어 쓰기 답안지 점수 구간 예측 성능 비교)

  • Cho, Heeryon;Im, Hyeonyeol;Cha, Junwoo;Yi, Yumi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.501-504
    • /
    • 2021
  • 한국어 심층학습 언어모델인 KoBERT와, 확률적 기계학습 분류기인 나이브 베이즈와 로지스틱 회귀를 이용하여 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 실험을 진행하였다. 네가지 주제('직업', '행복', '경제', '성공')를 다룬 답안지와 점수 레이블(A, B, C, D)로 쌍을 이룬 학습데이터 총 304건으로 다양한 자동분류 모델을 구축하여 7-겹 교차검증을 시행한 결과 KoBERT가 나이브 베이즈나 로지스틱 회귀보다 약간 우세한 성능을 보였다.

Hot Data Identification based on Naive Bayes Classifier (나이브 베이즈 분류 기반의 핫 데이터 구분 기법)

  • Lee, Hyerim;Yun, Yibin;Park, Dongchul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.721-723
    • /
    • 2022
  • 최근 낸드 플래시 메모리 기반의 Solid State Drive(SSD)가 기존 Hard Disk Drive(HDD)를 대신하여 개인용과 산업용으로도 널리 쓰이고 있다. 핫 데이터 구분 기법은 이러한 SSD 의 성능과 수명에 중요한 역할을 하는 Garbage Collection(GC)과 Wear Leveling(WL) 기술의 기반이 된다. 본 논문에서는 핫 데이터를 예측하기 위한 나이브 베이즈 분류 기반의 새로운 핫 데이터 구분 기법을 제안한다. 제안 기법은 워크로드 액세스 패턴의 학습 단계인 초기 단계와 실제 운영 단계를 통해 다시 액세스 될 확률이 높은 데이터를 그렇지 않은 데이터와 효과적으로 구분한다. 다양한 실제 trace 기반 실험을 통해 본 제안 기법이 기존 대표적인 기법보다 평균 19.3% 높은 성능을 확인했다.