• 제목/요약/키워드: A statistical classifier

검색결과 145건 처리시간 0.026초

모의 패턴생성 프로세스를 이용한 다단신경망분류기의 성능분석 (Performance Analysis of Mulitilayer Neural Net Claddifiers Using Simulated Pattern-Generating Processes)

  • 박동선
    • 한국정보처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.456-464
    • /
    • 1997
  • 본 논문에서는 클래스내부와 클래스간의를 확정하게 제어할 수 있는 랜덤 프로세스 모델을 제어하는 프리세스 내부의 파라메다들을 변화시키며, 프로세스간의 통계적인 차이와 랜덤 잡음을 변화시켜 학습을 위한 패턴들을 생성한다. 이 랜덤 프로세스 모델에서 생성된 패턴들을 이용하여 역전파알고리즘으로 학습된 다단 신경망의 성능 성능을 평가한다. 평가 실험결과는 패턴 분류문제에서 일반화된 통계적인 거리가 분류문제의 난이도에 대한 좋은 예측기가 되는 것을 보여 준다. 또한 본 논문에서는 다단신경망의 성능과 베이스패턴분류기의 성능을 비교하기 위하여 베이스분류기의 이론적인 성능분석과 모의실험을 통한 평가를 하였다. 다단신경망의 분류성능이 이론적인 성능과 실헝치와 매우 근사하며 그 두 성능 중간에 위치함을 발견하였다.

  • PDF

A Statistical Perspective of Neural Networks for Imbalanced Data Problems

  • Oh, Sang-Hoon
    • International Journal of Contents
    • /
    • 제7권3호
    • /
    • pp.1-5
    • /
    • 2011
  • It has been an interesting challenge to find a good classifier for imbalanced data, since it is pervasive but a difficult problem to solve. However, classifiers developed with the assumption of well-balanced class distributions show poor classification performance for the imbalanced data. Among many approaches to the imbalanced data problems, the algorithmic level approach is attractive because it can be applied to the other approaches such as data level or ensemble approaches. Especially, the error back-propagation algorithm using the target node method, which can change the amount of weight-updating with regards to the target node of each class, attains good performances in the imbalanced data problems. In this paper, we analyze the relationship between two optimal outputs of neural network classifier trained with the target node method. Also, the optimal relationship is compared with those of the other error function methods such as mean-squared error and the n-th order extension of cross-entropy error. The analyses are verified through simulations on a thyroid data set.

Extraction of Fuzzy Rules with Importance for Classifier Design

  • Pal, Kuhu
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1998년도 The Third Asian Fuzzy Systems Symposium
    • /
    • pp.725-730
    • /
    • 1998
  • Recently we extended the fuzzy model for rule based systems incorporating an importance factor for each rule. The model permits for both unrestricted as well as non-negative importance factors. We use this extended model to design a fuzzy rule based classifier system which uses both the firing strength of the rule and the importance factor to decide the class label. The effectiveness of the scheme is established using several data sets.

  • PDF

하이브리드 방법의 사용자 질의 의도 분류 (A Hybrid Method for classifying User's Asking Points)

  • Harksoo Kim;An, Young Hun;Jungyun Seo
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.51-57
    • /
    • 2003
  • 질의응답 시스템이 올바른 답변을 제시하기 위해서는 사용자의 의도를 정확하고 강건하게 파악하는 것이 매우 중요하다. 이러한 요구 사항을 만족시키기 위해서 본 논문에서는 실용적 실의응답 시스템을 위한 질의 유형 분류기를 제안한다 제안된 실의 유형 분류기는 규칙 기반의 방법과 통계 기반의 방법을 접목시킨 하이브리드 방법을 사용한다. 제안된 방법을 사용함으로써 수동으로 규칙을 작성하는 시간을 줄일 수 있었고 정확률을 향상시킬 수 있었으며 안정성을 보장받을 수 있었다 제안된 방법에 대한 실험에서 질의 유형을 분류하는데 80%의 정확률을 얻었다.

만성 폐쇄성 폐질환을 이용한 노모그램 구축과 비교 (Comparison of nomogram construction methods using chronic obstructive pulmonary disease)

  • 서주현;이제영
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.329-342
    • /
    • 2018
  • 노모그램은 질병의 위험 요인과 예측 확률을 쉽게 이해할 수 있도록 시각적으로 표현하는 통계적 도구이다. 본 논문은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease)의 위험 요인을 이용하여 로지스틱 회귀모형과 순수 베이지안 분류기 모형의 노모그램을 구축하고 이를 비교하였다. 분석 데이터는 국민건강영양조사 6기(2013-2015)를 이용하여 진행하였다. 총 6개의 위험 요인을 이용하였다. 그리고 로지스틱 회귀모형, 순수 베이지안 분류기 모형과 각각의 구축 방법을 이용하여 만성 폐쇄성 폐질환의 노모그램을 제시하였다. 또한, 구축된 두 노모그램을 비교하여 유용성을 살펴보았다. 마지막으로 ROC curve와 Calibration plot을 통하여 각 노모그램을 검증하였다.

Classification-Based Approach for Hybridizing Statistical and Rule-Based Machine Translation

  • Park, Eun-Jin;Kwon, Oh-Woog;Kim, Kangil;Kim, Young-Kil
    • ETRI Journal
    • /
    • 제37권3호
    • /
    • pp.541-550
    • /
    • 2015
  • In this paper, we propose a classification-based approach for hybridizing statistical machine translation and rulebased machine translation. Both the training dataset used in the learning of our proposed classifier and our feature extraction method affect the hybridization quality. To create one such training dataset, a previous approach used auto-evaluation metrics to determine from a set of component machine translation (MT) systems which gave the more accurate translation (by a comparative method). Once this had been determined, the most accurate translation was then labelled in such a way so as to indicate the MT system from which it came. In this previous approach, when the metric evaluation scores were low, there existed a high level of uncertainty as to which of the component MT systems was actually producing the better translation. To relax such uncertainty or error in classification, we propose an alternative approach to such labeling; that is, a cut-off method. In our experiments, using the aforementioned cut-off method in our proposed classifier, we managed to achieve a translation accuracy of 81.5% - a 5.0% improvement over existing methods.

Study on the Effect of Discrepancy of Training Sample Population in Neural Network Classification

  • Lee, Sang-Hoon;Kim, Kwang-Eun
    • 대한원격탐사학회지
    • /
    • 제18권3호
    • /
    • pp.155-162
    • /
    • 2002
  • Neural networks have been focused on as a robust classifier for the remotely sensed imagery due to its statistical independency and teaming ability. Also the artificial neural networks have been reported to be more tolerant to noise and missing data. However, unlike the conventional statistical classifiers which use the statistical parameters for the classification, a neural network classifier uses individual training sample in teaming stage. The training performance of a neural network is know to be very sensitive to the discrepancy of the number of the training samples of each class. In this paper, the effect of the population discrepancy of training samples of each class was analyzed with three layered feed forward network. And a method for reducing the effect was proposed and experimented with Landsat TM image. The results showed that the effect of the training sample size discrepancy should be carefully considered for faster and more accurate training of the network. Also, it was found that the proposed method which makes teaming rate as a function of the number of training samples in each class resulted in faster and more accurate training of the network.

K-평균 군집방법을 이요한 가중커널분류기 (Kernel Pattern Recognition using K-means Clustering Method)

  • 백장선;심정욱
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.447-455
    • /
    • 2000
  • 본 논문에서는 커널분류기에 요구되는 다량의 계산량과 자료저장공간을 감소시키도록 고안된 최적군집방법을 적용한 K-평균 가중커널분류기법이 제안되었다. 이 방법은 원래의 훈련표본보다 작은 수의 참고벡터들과 그들의 가중값을 들을 찾아 원래 커널분류 기준을 근사화하여 패턴을 인식하는 것이다. K-평균 가중커널분류기법은 가중파젠윈도우(WPW)분류기법을 개량한 것으로서 참고벡터들을 계산하기 위한 초기 부적절하게 군집된 관측값들을 최적으로 재군집화 함으로써 WPW기법의 단범을 극복하였다. 실제자료들에 제안된 방법을 적용한 결과 WPW분류기법보다 참고벡터들의 대표성과 자료축소면에서 월등히 향상된 결과를 확인하였다

  • PDF

순수 베이지안 분류기 모델을 사용하여 이상지질혈증을 예측하는 노모 그램 구축 (Nomogram building to predict dyslipidemia using a naïve Bayesian classifier model)

  • 김민호;서주현;이제영
    • 응용통계연구
    • /
    • 제32권4호
    • /
    • pp.619-630
    • /
    • 2019
  • 이상지질혈증은 한국인의 대표적인 성인병이며 지속적인 관리가 필요한 만성질환이다. 또한 고혈압이나 당뇨병과 함께 심혈관계 질환의 위험 요인으로 잘 알려져 있다. 하지만 혈관 질환은 검사 없이는 질병 판단을 하기 어려운 것이 현실이다. 본 연구에서는 이상지질혈증의 인지와 예방을 위하여 관련된 위험 요인을 확인한다. 이들을 종합하여 시각화하면서 발병률 예측까지 가능한 통계적 도구 노모그램을 구축하였다. 데이터는 국민건강영양조사 6기, 7기 제1차년도 (2013-2016) 데이터를 사용하였다. 분석 순서로는 먼저 이상지질혈증의 총 12가지 위험 요인을 교차분석을 통해 확인하였다. 그리고 순수 베이지안 분류기를 이용하여 이상지질혈증에 대한 모형으로 노모그램을 구축하였다. 구축한 노모그램은 ROC 곡선과 Calibration plot을 사용하여 신뢰성을 검증하였다. 마지막으로 이전에 제시했던 로지스틱 노모그램과 본 연구에서 제안한 베이지안 노모그램을 비교하였다.

Multiclass Support Vector Machines with SCAD

  • Jung, Kang-Mo
    • Communications for Statistical Applications and Methods
    • /
    • 제19권5호
    • /
    • pp.655-662
    • /
    • 2012
  • Classification is an important research field in pattern recognition with high-dimensional predictors. The support vector machine(SVM) is a penalized feature selector and classifier. It is based on the hinge loss function, the non-convex penalty function, and the smoothly clipped absolute deviation(SCAD) suggested by Fan and Li (2001). We developed the algorithm for the multiclass SVM with the SCAD penalty function using the local quadratic approximation. For multiclass problems we compared the performance of the SVM with the $L_1$, $L_2$ penalty functions and the developed method.