• Title/Summary/Keyword: 베이지안 분류

Search Result 200, Processing Time 0.027 seconds

A Design of the Small File Grouping System Based on Naive Bayesian Classifier Model (나이브 베이지안 분류기 모델 기반의 소용량 파일 그룹화 시스템 설계)

  • Kim, Min-Jae;Kim, Kyung-Tae;Youn, Hee-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.221-222
    • /
    • 2014
  • 빠른 웹의 성장으로 대용량 데이터를 효과적으로 처리할 수 있는 플랫폼 기술에 대한 관심이 높아지고 있다. 특히, HDFS는 이상적인 분산 파일 시스템으로 각광받고 있으며 대용량 파일의 처리를 목적으로 개발되었다. 하지만, 실제 파일들의 집합에서 소용량 파일이 차지하는 비중은 높은 편이다. 많은 수의 소용량 파일은 HDFS 성능 감소에 치명적인 원인이 된다. 많은 수의 소용량 파일들이 HDFS에 저장된다면 NameNode의 메모리 소비량이 증가하게 되며 많은 수의 소용량 파일은 많은 수의 DataNode와 NameNode를 요구하므로 상대적으로 처리시간이 많이 소모된다. 따라서 본 논문에서는 HDFS에서 소용량 파일의 저장과 액세스 효율성을 향상시키기 위하여 나이브 베이지안 분류기 알고리즘을 적용한 파일 그룹화 시스템을 설계하였다.

  • PDF

An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster (문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템)

  • Hur, Jun-Hui;Choi, Jun-Hyeog;Lee, Jung-Hyun;Kim, Joong-Bae;Rim, Kee-Wook
    • The KIPS Transactions:PartB
    • /
    • v.8B no.5
    • /
    • pp.447-454
    • /
    • 2001
  • The automatic document classification is a method that assigns unlabeled documents to the existing classes. The automatic document classification can be applied to a classification of news group articles, a classification of web documents, showing more precise results of Information Retrieval using a learning of users. In this paper, we use the weighted Bayesian classifier that weights with keywords of a document to improve the classification accuracy. If the system cant classify a document properly because of the lack of the number of words as the feature of a document, it uses relevance word cluster to supplement the feature of a document. The clusters are made by the automatic word clustering from the corpus. As the result, the proposed system outperformed existing classification system in the classification accuracy on Korean documents.

  • PDF

Evaluation of Bayesian Model Averaging (BMA) of Bayesian Network Classifiers (BNCs) on Small Datasets (작은 데이터에 대한 베이지안망 분류기(BNC)의 베이지안 모델 평균화(BMA) 성능 평가)

  • 황규백;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.22-24
    • /
    • 2003
  • 작은 데이터에서 베이지안망 분류기(Bayesian network classifier, BNC)를 학습할 때, 과대적합(overfitting)으로 인한 일반화 성능의 저하가 초래된다 이런 경우, 베이지안 모델 평균화(Bayesian model averaging, BMA)는 모델 자체에 대한 불확실성을 분석 과정에서 고려함으로써, 성능 저하를 피할 수 있는 수단을 제공한다. 본 논문에서는 BNC의 BMA의 작은 데이터에 대한 성능을 평가 및 분석한다. 특히, 노드의 순서에 대한 평균화의 효과가 연구된다. 인공데이터에 대한 실험 결과, 노드의 순서가 BNC의 BMA의 분류 성능에 미치는 영향은 지대하며, 이는 데이터의 크기가 극히 작은 경우의 성능 저하에 직접적인 원인이 된다.

  • PDF

Automatic Cell Classification and Segmentation based on Bayesian Networks and Rule-based Merging Algorithm (베이지안 네트워크와 규칙기반 병합 알고리즘을 이용한 자동 세포 분류 및 분할)

  • Jeong, Mi-Ra;Ko, Byoun-gChul;Nam, Jae-Yeal
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.141-144
    • /
    • 2008
  • 본 논문에서는 세포영상을 분할하고 분류하는 알고리즘을 제안한다. 우선, 배경으로부터 세포를 분할한 후, 학습데이터로부터 얻은 Compactness, Smoothness, Moments와 같은 형태학적 특징을 추출한다. 전경세포들이 분할된 후에, 보다 정밀한 세포분석을 위해서 군집세포(Overlapped Cell)와 독립세포(Isolated Cell)를 분류 할 수 있는 알고리즘의 개발이 필수적이다. 이를 위해서 본 논문에서는 베이지안 네트워크와 각 노드에 대한 3개의 확률밀도함수를 사용하여 각 세포 영역을 분류한다. 분류된 군집세포영역은 향후 정확한 세포 분석을 위해서 군집세포가 포함하는 독립세포의 수만큼 마커를 찾고, Watershed 알고리즘과 병합과정을 거쳐 하나의 독립세포를 분리하게 된다. 현미경으로부터 얻은 세포영상에 대한 실험 결과는 이전 논문들에서 제안한 방법들과 비교했을 때, 각 군집세포의 독립세포로의 분리 이전에 세포영역에 대한 분류과정을 먼저 수행하였기 때문에 분할 성능이 크게 향상되었음을 확인할 수 있다.

An Empirical Study on the Churning Behavior through Bayesian Network Classifier and Business Process Modeling (베이지안 네트워크 분류와 비즈니스 프로세스 모델링을 통한 신용카드 회원 이탈에 관한 연구)

  • Lee, Kun-Chang;Lee, Keun-Young;Jo, Nam-Yong
    • Knowledge Management Research
    • /
    • v.10 no.4
    • /
    • pp.1-15
    • /
    • 2009
  • 국내에서 신용카드는 대표적인 지불 수단으로 정착되었으며 신용카드의 사용자와 신용카드의 발급 매수는 이미 포화상태에 도달해 있다. 이 같은 양적 성장은 정부의 신용카드 활성화 정책과 더불어 신용카드사 간의 과당 경쟁의 영향에 기인하고 있다. 신용차드의 사용층은 대부분의 성인 남녀로 확대되었으며, 특히 복수의 신용카드 소지자를 대상으로 자사가 발급한 신용차드를 사용하게 하기 위한 신용카드사 간의 경쟁이 치열한 상황이다. 이에 따라 신용카드사들이 경쟁사의 카드사용 회원을 자사의 회원으로 확보하는 젓이 불가피하며 마찬가지로 사용 중인 자사의 회원이 경쟁사로 이동하지 않도록 사전에 이탈 징후를 포착하여 유지 캠페인을 수행하는 것이 신용카드사 마케팅의 주요 활동이 되었다. 선행연구에서는 신용카드 회원의 이탈과 관련하여 다양한 데이터마이닝 기법을 이용한 이탈의 특성 분류 연구가 진행되었다. 본 연구는 회원 이탈에 영향을 주는 요인을 효과적으로 발견하기 위한 방법으로 베이지안 네트워크(Bayesian Network)를 활용한다. 특히, 베이지안 네트워크의 일종인 일반 베이지안 네트워크(General Bayesian Network)를 이용하여 회원의 이탈요인에 영향을 주는 요인들의 집합인 마코프 블랭킷(Makov Blanket)을 도출한다. 한편, 마코프 블랭킷에 포함된 변수를 이용해 민감도 분석을 수행하여 영향이 큰 요인을 찾아내고 이를 비즈니스 프로세스에 적용하여 실무적인 의의를 실증하고자 한다.

  • PDF

An Improved Bayesian Spam Mail Filter based on Ch-square Statistics (카이제곱 통계량을 이용한 개선된 베이지안 스팸메일 필터)

  • Kim Jin-Sang;Choe Sang-Yeol
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.04a
    • /
    • pp.403-414
    • /
    • 2005
  • Most of the currently used spam-filters are based on a Bayesian classification technique, where some serious problems occur such as a limited precision/recall rate and the false positive error. This paper addresses a solution to the problems using a modified Bayesian classifier based on chi-square statistics. The resulting spam-filter is more accurate and flexible than traditional Bayesian spam-filters and can be a personalized one providing some parameters when the filter is teamed from training data.

  • PDF

Bayesian Network-based Data Analysis for Diagnosing Retinal Disease (망막 질환 진단을 위한 베이지안 네트워크에 기초한 데이터 분석)

  • Kim, Hyun-Mi;Jung, Sung-Hwan
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.3
    • /
    • pp.269-280
    • /
    • 2013
  • In this paper, we suggested the possibility of using an efficient classifier for the dependency analysis of retinal disease. First, we analyzed the classification performance and the prediction accuracy of GBN (General Bayesian Network), GBN with reduced features by Markov Blanket and TAN (Tree-Augmented Naive Bayesian Network) among the various bayesian networks. And then, for the first time, we applied TAN showing high performance to the dependency analysis of the clinical data of retinal disease. As a result of this analysis, it showed applicability in the diagnosis and the prediction of prognosis of retinal disease.

Hyperparameter Search for Facies Classification with Bayesian Optimization (베이지안 최적화를 이용한 암상 분류 모델의 하이퍼 파라미터 탐색)

  • Choi, Yonguk;Yoon, Daeung;Choi, Junhwan;Byun, Joongmoo
    • Geophysics and Geophysical Exploration
    • /
    • v.23 no.3
    • /
    • pp.157-167
    • /
    • 2020
  • With the recent advancement of computer hardware and the contribution of open source libraries to facilitate access to artificial intelligence technology, the use of machine learning (ML) and deep learning (DL) technologies in various fields of exploration geophysics has increased. In addition, ML researchers have developed complex algorithms to improve the inference accuracy of various tasks such as image, video, voice, and natural language processing, and now they are expanding their interests into the field of automatic machine learning (AutoML). AutoML can be divided into three areas: feature engineering, architecture search, and hyperparameter search. Among them, this paper focuses on hyperparamter search with Bayesian optimization, and applies it to the problem of facies classification using seismic data and well logs. The effectiveness of the Bayesian optimization technique has been demonstrated using Vincent field data by comparing with the results of the random search technique.

Lip-reading System based on Bayesian Classifier (베이지안 분류를 이용한 립 리딩 시스템)

  • Kim, Seong-Woo;Cha, Kyung-Ae;Park, Se-Hyun
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.25 no.4
    • /
    • pp.9-16
    • /
    • 2020
  • Pronunciation recognition systems that use only video information and ignore voice information can be applied to various customized services. In this paper, we develop a system that applies a Bayesian classifier to distinguish Korean vowels via lip shapes in images. We extract feature vectors from the lip shapes of facial images and apply them to the designed machine learning model. Our experiments show that the system's recognition rate is 94% for the pronunciation of 'A', and the system's average recognition rate is approximately 84%, which is higher than that of the CNN tested for comparison. Our results show that our Bayesian classification method with feature values from lip region landmarks is efficient on a small training set. Therefore, it can be used for application development on limited hardware such as mobile devices.

User Preference Prediction Method Using Associative User Clustering and Bayesian Classification (연관 사용자 군집과 베이지안 분류를 이용한 사용자 선호도 예측 방법)

  • 정경용;김진현;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.109-111
    • /
    • 2001
  • 기존의 협력적 필터링 기술을 이용한 사용자 선호도 예측 방법에서는 아이템에 대한 사용자의 선호도를 기반으로 이웃 선정 방법(Nearest-Neighborhood Method)을 사용하고, 피어슨 상관 계수에 의해 사용자의 유사도를 구하므로 아이템에 대한 내용을 반영하지 못할 뿐만 아니라 희박성 문제를 해결하지 못하였다. 본 논문에서는 기존의 사용자 선호도 예측 방법의 문제점을 보완하기 위하여 연관 사용자 군집과 베이지안 분류를 이음한 사용자 선호도 예측 방법을 제안한다. 제안한 방법에서는 협력적 필터링 시스템에서의 희박성(Sparsity)문제를 해결하기 위하여 ARHP 알고리즘을 사용하여 사용자를 장르별로 군집하며 새로운 사용자는 Naive Bayes 분류자에 의해 이들 장르 중 하나로 분류된다. 또한, 분류된 장르 내에 속한 사용자들과 새로운 사용자의 유사도출 구하기 위해 Naive Bayes 학습을 통해 사용자가 평가한 아이템에 추정치를 달리 부여한다. 추정치가 부여된 선호도를 기존의 피어슨 상관 관계에 적용할 경우 결측치(Missing Value)로 인한 예측의 오류를 적게 하여 예측의 정확도를 높일 수 있다. 제안된 방법의 성능을 평가하기 위해서 기존의 협력적 필터링 기술과 비교 평가하였다.

  • PDF