• 제목/요약/키워드: Naive Bayes Algorithm

검색결과 73건 처리시간 0.032초

행렬 전치를 이용한 효율적인 NaiveBayes 알고리즘 (An Efficient Algorithm for NaiveBayes with Matrix Transposition)

  • 이재문
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.117-124
    • /
    • 2004
  • 본 논문은 NaiveBayes에서 정확도의 손실 없이 효율적으로 동작하는 NaiveBayes에 대한 새로운 알고리즘을 제안한다. 제안된 방법은 분류 벡터에 대한 행렬 전치를 사용하여 NaiveBayes의 확률 계산 량을 최소화하는 것이다. 제안된 방법을 문서 분류 프레임 인 AI::Categorizer 상에서 구현하였으며, 잘 알려진 로이터-21578 데이터를 사용하여 기존의 NaiveBayes 방법과 비교하였다. 성능 비교의 결과로부터 제안된 방법이 기존의 NaiveBayes 방법보다 실행 속도측면에서 약 2배 정도의 성능 개선 효과가 있음을 알 수 있었다. 수 있었다.

Map-Reduce 프로그래밍 모델 기반의 나이브 베이스 학습 알고리즘 (Naive Bayes Learning Algorithm based on Map-Reduce Programming Model)

  • 강대기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.208-209
    • /
    • 2011
  • 본 논문에서는, 맵-리듀스 모델 기반에서 나이브 베이스 알고리즘으로 학습과 추론을 수행하는 방안에 대해 소개하고자 한다. 이를 위해 Apache Mahout를 이용하여 분산 나이브 베이스 (Distributed Naive Bayes) 학습 알고리즘을 University of California, Irvine (UCI)의 벤치마크 데이터 집합에 적용하였다. 실험 결과, Apache Mahout의 분산 나이브 베이스 학습 알고리즘은 일반적인 WEKA의 나이브 베이스 학습 알고리즘과 그 성능면에서 큰 차이가 없음을 알 수 있었다. 이러한 결과는, 향후 빅 데이터 환경에서 Apache Mahout와 같은 맵-리듀스 모델 기반 시스템이 기계 학습에 큰 기여를 할 수 있음을 나타내는 것이다.

  • PDF

나이브 베이즈 분류기를 이용한 돌발상황 검지 알고리즘 개발 (Development of Incident Detection Algorithm Using Naive Bayes Classification)

  • 강성관;권봉경;권철우;박상민;윤일수
    • 한국ITS학회 논문지
    • /
    • 제17권6호
    • /
    • pp.25-39
    • /
    • 2018
  • 본 연구에서는 최근 활발하게 활용되고 있는 머신러닝 기법을 교통분야에 적용하여 효율적인 돌발상황 검지 알고리즘을 개발하는 것을 목적으로 하였다. 미시교통시뮬레이션 모형을 통하여 대상지의 네트워크를 구축하였고 돌발상황에 영향을 줄 것으로 예상되는 변수의 여러 조합을 통해 시나리오를 설정하여 가상의 돌발상황 데이터를 수집하였다. 다음으로 대표적인 돌발상황 검지 알고리즘인 McMaster 알고리즘과 본 연구에서 개발한 나이브 베이즈 분류기를 구현하여 비교 평가하였다. 비교 결과, 나이브 베이즈 분류기가 McMaster 알고리즘에 비해 돌발상황 검지 간격에 따른 부정적인 영향이 적었고 더 우수한 검지율을 보였다. 하지만 검지율이 증가하는 만큼 오검지율 또한 증가하는 것을 확인할 수 있었다. McMaster 알고리즘은 4주기를 통해 검지가 가능하지만 나이브 베이즈 분류기는 1주기(30초)만으로 돌발상황을 판단할 수 있다. 본 연구를 통해 개발한 나이브 베이즈 분류기가 효율적으로 돌발을 파악할 수 있다는 것을 확인할 수 있었다.

Naive Bayes 분석기법을 이용한 유방암 진단 (Breast Cancer Diagnosis using Naive Bayes Analysis Techniques)

  • 박나영;김장일;정용규
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.87-93
    • /
    • 2013
  • 선진국형 질병으로만 알려져 있던 유방암이 우리나라 현대 여성들에게 발병률이 꾸준히 증가하고 있다. 유방암은 보통 50대 이상의 여성에서 발병하는 병으로 알려져 있지만 우리나라의 경우 40대의 서양보다 젊은 여성들에게 발병률이 꾸준히 증가하고 있다. 따라서 우리나라 성인여성을 기준으로 유방암에 대한 정확한 진단을 할 수 있는 매뉴얼을 구축하는 것이 시급한 과제이다. 본 논문에서는 데이터마이닝기법을 이용하여 유방암을 예측하는 방법을 제시한다. 데이터마이닝이란 데이터베이스 내에 숨어 있는 일정한 패턴이나 변수들 간의 관계를 정교한 분석모형을 이용하여 쉽게 드러나지 않은 유용한 정보를 찾아내는 과정을 말한다. 실험을 통하여 Deicion Tree와 Naive Bayes 분석기법을 사용하여 유방암을 진단하는 분석기법을 비교분석을 하였다. Deicison Tree는 C4.5 알고리즘을 적용하여 분석하였고 두 알고리즘이 상당히 좋은 분류 정확도를 나타냈다. 그러나 Naive Bayes 분류방법이 Decision Tree방법보다 더 상회하는 정확도를 보였고 이는 의료데이터의 특성에 많이 기인한다고 볼 수 있다.

  • PDF

연관규칙 마이닝과 나이브베이즈 분류를 이용한 악성코드 탐지 (Detection of Malicious Code using Association Rule Mining and Naive Bayes classification)

  • 주영지;김병식;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제20권11호
    • /
    • pp.1759-1767
    • /
    • 2017
  • Although Open API has been invigorated by advancements in the software industry, diverse types of malicious code have also increased. Thus, many studies have been carried out to discriminate the behaviors of malicious code based on API data, and to determine whether malicious code is included in a specific executable file. Existing methods detect malicious code by analyzing signature data, which requires a long time to detect mutated malicious code and has a high false detection rate. Accordingly, in this paper, we propose a method that analyzes and detects malicious code using association rule mining and an Naive Bayes classification. The proposed method reduces the false detection rate by mining the rules of malicious and normal code APIs in the PE file and grouping patterns using the DHP(Direct Hashing and Pruning) algorithm, and classifies malicious and normal files using the Naive Bayes.

베이지언 문서분류시스템을 위한 능동적 학습 기반의 학습문서집합 구성방법 (An Active Learning-based Method for Composing Training Document Set in Bayesian Text Classification Systems)

  • 김제욱;김한준;이상구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권12호
    • /
    • pp.966-978
    • /
    • 2002
  • 기계학습 기법을 이용한 문서분류시스템의 정확도를 결정하는 요인 중 가장 중요한 것은 학습문서 집합의 선택과 그것의 구성방법이다. 학습문서집합 선택의 문제란 임의의 문서공간에서 보다 정보량이 큰 적은 양의 문서집합을 골라서 학습문서로 채택하는 것을 말한다. 이렇게 선택한 학습문서집합을 재구성하여 보다 정확도가 높은 문서분류함수를 만드는 것이 학습문서집합 구성방법의 문제이다. 전자의 문제를 해결하는 대표적인 알고리즘이 능동적 학습(active learning) 알고리즘이고, 후자의 경우는 부스팅(boosting) 알고리즘이다. 본 논문에서는 이 두 알고리즘을 Naive Bayes 문서분류 알고리즘에 적응해보고, 이때 생기는 여러 가지 특징들을 분석하여 새로운 학습문서집합 구성방법인 AdaBUS 알고리즘을 제안한다. 이 알고리즘은 능동적 학습 알고리즘의 아이디어를 이용하여 최종 문서분류함수룰 만들기 위해 임시로 만든 여러 임시 문서분류함수(weak hypothesis)들 간의 변이(variance)를 높였다. 이를 통해 부스팅 알고리즘이 효과적으로 구동되기 위해 필요한 핵심 개념인 교란(perturbation)의 효과를 실현하여 문서분류의 정확도를 높일 수 있었다. Router-21578 문서집합을 이용한 경험적 실험을 통해, AdaBUS 알고리즘이 기존의 알고리즘에 비해 Naive Bayes 알고리즘에 기반한 문서분류시스템의 정확도를 보다 크게 향상시킨다는 사실을 입증한다.

명제화된 어트리뷰트 택소노미를 이용하는 나이브 베이스 학습 알고리즘 (Propositionalized Attribute Taxonomy Guided Naive Bayes Learning Algorithm)

  • 강대기;차경환
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2357-2364
    • /
    • 2008
  • 본 논문에서는 명제화된 어트리뷰트 택소노미를 이용하여 간결하고 강건한 분류기를 생성하는 문제를 고려한다. 이 문제를 해결하기 위해 명제화된 어트리뷰트 택소노미(Propositionalized Attribute Taxonomy)를 이용하는 나이브 베이스 학습 알고리즘(Naive Bayes Learner)인 PAT-NBL을 소개한다. PAT-NBL은 명제화된 어트리뷰트들의 택소노미를 선험 지식으로 이용하여 간결하고 정확한 분류기를 귀납적으로 학습하는 알고리즘이다. PAT-NBL은 주어진 택소노미에서 지역적으로 최적의 컷(cut)을 찾아내기 위해 하향식 탐색과 상향식 탐색을 사용한다. 찾아낸 최적의 컷은 명제화된 어트리뷰트 택소노미와 데이터로부터 그에 상응하는 인스턴스 공간(instance space)을 구성 할 수 있게 해준다. University of California-Irvine (UCI) 저장소의 기계학습 벤치마크 데이터에 대한 실험 결과를 보면, 제안된 알고리즘이 표준적인 나이브 베이스 학습 알고리즘에 의해 만들어진 분류기들과 비교해 볼 때, 가끔은 보다 간결하고 더 정확한 분류기를 생성해 낸다는 사실을 알 수 있었다.

Text-independent Speaker Identification Using Soft Bag-of-Words Feature Representation

  • Jiang, Shuangshuang;Frigui, Hichem;Calhoun, Aaron W.
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제14권4호
    • /
    • pp.240-248
    • /
    • 2014
  • We present a robust speaker identification algorithm that uses novel features based on soft bag-of-word representation and a simple Naive Bayes classifier. The bag-of-words (BoW) based histogram feature descriptor is typically constructed by summarizing and identifying representative prototypes from low-level spectral features extracted from training data. In this paper, we define a generalization of the standard BoW. In particular, we define three types of BoW that are based on crisp voting, fuzzy memberships, and possibilistic memberships. We analyze our mapping with three common classifiers: Naive Bayes classifier (NB); K-nearest neighbor classifier (KNN); and support vector machines (SVM). The proposed algorithms are evaluated using large datasets that simulate medical crises. We show that the proposed soft bag-of-words feature representation approach achieves a significant improvement when compared to the state-of-art methods.

자연어 처리 기반 『상한론(傷寒論)』 변병진단체계(辨病診斷體系) 분류를 위한 기계학습 모델 선정 (Selecting Machine Learning Model Based on Natural Language Processing for Shanghanlun Diagnostic System Classification)

  • 김영남
    • 대한상한금궤의학회지
    • /
    • 제14권1호
    • /
    • pp.41-50
    • /
    • 2022
  • Objective : The purpose of this study is to explore the most suitable machine learning model algorithm for Shanghanlun diagnostic system classification using natural language processing (NLP). Methods : A total of 201 data items were collected from 『Shanghanlun』 and 『Clinical Shanghanlun』, 'Taeyangbyeong-gyeolhyung' and 'Eumyangyeokchahunobokbyeong' were excluded to prevent oversampling or undersampling. Data were pretreated using a twitter Korean tokenizer and trained by logistic regression, ridge regression, lasso regression, naive bayes classifier, decision tree, and random forest algorithms. The accuracy of the models were compared. Results : As a result of machine learning, ridge regression and naive Bayes classifier showed an accuracy of 0.843, logistic regression and random forest showed an accuracy of 0.804, and decision tree showed an accuracy of 0.745, while lasso regression showed an accuracy of 0.608. Conclusions : Ridge regression and naive Bayes classifier are suitable NLP machine learning models for the Shanghanlun diagnostic system classification.

  • PDF

나이브베이즈 문서분류시스템을 위한 선택적샘플링 기반 EM 가속 알고리즘 (Accelerating the EM Algorithm through Selective Sampling for Naive Bayes Text Classifier)

  • 장재영;김한준
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.369-376
    • /
    • 2006
  • 본 논문은 온라인 전자문서환경에서 전통적 베이지안 통계기반 문서분류시스템의 분류성능을 개선하기 위해 EM(Expectation Maximization) 가속 알고리즘을 접목한 방법을 제안한다. 기계학습 기반의 문서분류시스템의 중요한 문제 중의 하나는 양질의 학습문서를 확보하는 것이다. EM 알고리즘은 소량의 학습문서집합으로 베이지안 문서분류 알고리즘의 성능을 높이는데 활용된다. 그러나 EM 알고리즘은 최적화 과정에서 느린 수렴성과 성능 저하 현상을 나타내는데, EM 알고리즘의 기본 가정을 따르지 않는 온라인 전자문서환경에서 특히 그러하다. 제안 기법의 주요 아이디어는 전통적 EM 알고리즘을 개선하기 위해 불확정성도 기반 선택적 샘플링 기법을 활용한 것이다. 성능평가를 위해 Reuter-21578 문서집합을 사용하여, 제안 알고리즘의 빠른 수렴성을 보이고 전통적 베이지안 알고리즘의 분류 정확성을 향상시켰음을 보인다.