• 제목/요약/키워드: Baysian Classification

검색결과 8건 처리시간 0.018초

Effect of Prior Probabilities on the Classification Accuracy under the Condition of Poor Separability

  • Kim, Chang-Jae;Eo, Yang-Dam;Lee, Byoung-Kil
    • 한국측량학회지
    • /
    • 제26권4호
    • /
    • pp.333-340
    • /
    • 2008
  • This paper shows that the use of prior probabilities of the involved classes improve the accuracy of classification in case of poor separability between classes. Three cases of experiments are designed with two LiDAR datasets while considering three different classes (building, tree, and flat grass area). Moreover, random sampling method with human interpretation is used to achieve the approximate prior probabilities in this research. Based on the experimental results, Bayesian classification with the appropriate prior probability makes the improved classification results comparing with the case of non-prior probability when the ratio of prior probability of one class to that of the other is significantly different to 1.0.

Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents

  • Shin, Hyun-Kyung
    • 한국멀티미디어학회논문지
    • /
    • 제13권12호
    • /
    • pp.1786-1797
    • /
    • 2010
  • Automatic understanding of contents in document image is a very hard problem due to involvement with mathematically challenging problems originated mainly from the over-determined system induced by document segmentation process. In both academic and industrial areas, there have been incessant and various efforts to improve core parts of content retrieval technologies by the means of separating out segmentation related issues using semi-structured document, e.g., invoice,. In this paper we proposed classification models for text lines on invoice document in which text lines were clustered into the five categories in accordance with their contents: purchase order header, invoice header, summary header, surcharge header, purchase items. Our investigation was concentrated on the performance of machine learning based models in aspect of linear-discriminant-analysis (LDA) and non-LDA (logic based). In the group of LDA, na$\"{\i}$ve baysian, k-nearest neighbor, and SVM were used, in the group of non LDA, decision tree, random forest, and boost were used. We described the details of feature vector construction and the selection processes of the model and the parameter including training and validation. We also presented the experimental results of comparison on training/classification error levels for the models employed.

클러스터링 알고리즘의 후처리 방안과 분할된 영역들의 분류에 대한 연구 (A Study of Post-processing Methods of Clustering Algorithm and Classification of the Segmented Regions)

  • 오준택;김보람;김욱현
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.7-16
    • /
    • 2009
  • 클러스터링 알고리즘은 영역들간의 공간정보를 고려하지 않고 사전에 정의된 수만큼의 군집들로 분할하기 때문에 영상의 과분할을 유발하며, 이에 실제적인 응용분야에 적용하기에는 어려움이 존재한다. 본 논문에서는 클러스터링 알고리즘에 의해 획득한 군집들을 대상으로 보다 나은 분할결과를 획득하기 위한 후처리 방안으로, 비동질적인 군집의 재분류와 베이시안 알고리즘에 의한 유사영역의 합병알고리즘을 제안한다. 먼저, 클러스터링 알고리즘에 의해 분할된 영상의 군집들에 대해서 가장 비동질적인 군집을 선택하여 이를 나머지 군집들 중 하나로 재분류하며, 최소평균내부거리값에 의해 결정된 군집수만큼 반복적으로 수행된다. 그리고 여전히 존재하는 유사한 인접영역들을 제거하기 위해서 영역간의 Kullbeck-Leibler 거리값을 기반으로 베이시안 알고리즘을 이용한 영역 합병을 수행한다. 마지막으로, 제안한 방법의 유효함을 검증하기 위한 목적으로, 분할된 영역들의 우세컬러와 텍스처 정보를 기반으로 하는 SVM(support vector machine) 기반 영역분류시스템을 설계한다. 실험결과, 제안한 방법은 다양한 실험영상들에 대해서 단계별 더 나은 성능을 보였으며, 분할된 영역들의 분류에서도 효과적인 결과를 보여 제안방법의 유효함을 확인하였다.

2단계 분류기법을 이용한 영상분류기 개발 (A Study on development for image detection tool using two layer voting method)

  • 김명관
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권5호
    • /
    • pp.605-610
    • /
    • 2002
  • 영상물에 대한 학습과 분류를 위해 단순 베이지안, N-Nearest 방법 등이 사용된다. 이 방법들은 단순하면서 높은 정확도를 갖는다. 본 논문에서는 2단계 투표를 통해 이들 방법들을 조합하여 사용하였다. 유해 영상물들을 대상으로 학습 및 분류를 실험하였다. 결과로 색상분포에 따른 영상 분류가 실시간 처리 및 유해 영상 인식에 효과적임을 보였다. 또한 2단계 투표 방식의 알고리즘으로 약 2000장 이상의 사진을 가지고 학습 및 분류를 시행했으며 결과 80%에 가까운 높은 정확도와 대상 사진에 영향 받지 않는 안정도를 보였다.

  • PDF

문서분류 기법을 이용한 웹 문서 분류의 실험적 비교 (Empirical Analysis & Comparisons of Web Document Classification Methods)

  • 이상순;최정민;장근;이병수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2002
  • 인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.

  • PDF

기계학습 기반의 웹 이미지 분류 (A Machine Learning Approach to Web Image Classification)

  • 조수선;이동우;한동원;황치정
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.759-764
    • /
    • 2002
  • HTML 페이지로 대표되는 웹 문서에서 이미지는 매우 큰 비중을 차지하고 있지만 이에 대한 분석 및 이해에 관한 연구는 활발하게 진행되지 못하고 있다. 여러 가지 웹 이미지들은 중요한 정보를 전달하기도 하지만 그렇지 않은 것들도 있다. 본 논문에서는 현재 서비스중인 인터넷 사이트의 웹 이미지들을 수집하여 기계학습(machine learning)에 기반한 분류(classification)론 통해 제거 가능한 이미지와 제거 불가능한 이미지의 두가지 클래스로 분석해 본다. 이를 위해 16개의 독특하고 풍부한 웹 이미지 특징들을 발굴하고 베이지안 기법과 결정 트리 기법을 사용하여 실험하였다. 그 결과 각각의 기법에서 87.09%, 82.72%의 F-measure 값을 얻었으며 특히, 특징 그룹의 비교 실험을 통해 본 연구에서 추가한 특징들이 매우 유용한 것임을 입증하였다.

영역 기반의 Multi-level Thresholding에 의한 컬러 영상 분할 (Region-based Multi-level Thresholding for Color Image Segmentation)

  • 오준택;김욱현
    • 대한전자공학회논문지SP
    • /
    • 제43권6호
    • /
    • pp.20-27
    • /
    • 2006
  • Multi-level thresholding은 영상 분할 방법 중 하나로 널리 이용되고 있지만 대부분의 기존 논문들은 응용 분야에 직접적으로 이용되기에는 적합하지 않거나 영상 분할 단계까지 확장되지 않고 있다. 본 논문에서는 영상 분할을 위한 multi-level thresholding 방안으로써 영역 단위의 multi-level thresholding을 제안한다. 먼저, 영상의 색상별 성분에 대해서 EWFCM(Entropy-based Weighted Fuzzy C-Means) 알고리즘을 적용하여 2개의 군집으로 분류한 후 코드 영상을 생성한다. EWFCM 알고리즘은 화소들에 대한 공간 정보를 추가한 개선된 FCM 알고리즘으로 영상 내 존재하는 잡음을 제거한다. 그리고 코드 영상에 존재하는 군집의 수를 감소함으로써 좀 더 나은 영상 분할 결과를 얻을 수 있으며 군집의 감소는 하나의 군집내에 존재하는 영역들과 나머지 군집들간의 유사도를 기반으로 영역을 재분류함으로써 처리된다. 그러나 영상에는 여전히 많은 영역들이 존재하기 때문에 이를 해결하기 위한 하나의 후처리 방안으로써 영역간의 Kullback-Leibler 거리값을 기반으로 Bayesian 알고리즘에 의한 영역 합병을 수행한다. 실험 결과 제안한 영역 기반의 multi-level thresholding은 기존 방법이나 화소나 군집 기반의 multi-level thresholding보다 좋은 분할 결과를 보였으며 Bayesian 알고리즘을 이용한 후처리 방안에 의해 좀 더 나은 결과를 보였다.

베이지안 망에 기초한 불임환자 임상데이터의 분석 (Bayesian Network-Based Analysis on Clinical Data of Infertility Patients)

  • 정용규;김인철
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.625-634
    • /
    • 2002
  • 본 논문에서는 베이지안 망을 기초로 불임환자의 임상 데이터에 대한 다양한 분석 실험을 전개하였다. 이 실험을 통해 임신여부에 영향을 주는 요인들간의 상호의존성을 분석해보고, 또 NBN, BAN, GBN 등 제약조건이 다른 다양한 유형의 베이지안 망 분류기들의 분류성능을 서로 비교해보았다. 그리고 우리는 이와 같은 실험을 통해 임신가능여부(Clin)에 직접적인 영향을 미치는 중요한 요인들로 증상(IND), 약물치료법(stimulation), 여성의 나이(FA), 미세조작 난자의 수(ICT), Wallace 사용여부(ETM) 등 5개의 특성들을 가려낼 수 있었고, 이 요인들간의 상호 의존성도 찾아낼 수 있었다. 또 서로 다른 유형의 베이지안 망 분류기들 중에서 요인들간의 상호의존관계를 허용하는 좀 더 일반적인 BAN과 GBN 등이 그렇지 못한 NBN에 비해 상대적으로 더 높은 분류 성능을 보여준다는 것을 확인하였다. 또 결정트리와 k-최근접 이웃과 같은 다른 분류기들과의 성능 비교를 통해, 임상 데이터의 특성상 확률적 표현과 추론에 기초한 베이지안 망 분류기들이 보다 높은 성능을 보여준다는 사실도 확인할 수 있었다. 또 본 논문에서는 클래스 노드의 Markov blanket에 속한 특성들로 특성집합을 축소하는 것을 제안하고, 실험을 통해 이 특성 축소방법이 베이지안 망 분류기들의 성능을 높여 줄 수 있는지 알아보았다.