• 제목/요약/키워드: Misclassification Error

검색결과 37건 처리시간 0.024초

Minimum Classification Error 방법 도입을 통한 Gaussian Mixture Model 환경음 인식성능 향상 (Gaussian Mixture Model using Minimum Classification Error for Environmental Sounds Recognition Performance Improvement)

  • 한다정;박아론;박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.497-503
    • /
    • 2011
  • 본 연구에서는 환경음 인식 성능의 향상을 위하여 GMM의 훈련 방식에 MCE 도입을 제안하였다. 이는 환경음 데이터 모델링에 사용할 분류오류함수를 정의할 때 해당 클래스의 로그우도 뿐 아니라 다른 클래스의 로그우도도 같이 고려함으로써 변별력 있는 분류가 이뤄질 수 있게 한다. 모델의 파라미터는 전체 클래스를 고려한 손실함수를 정의하고, GPD(generalized probabilistic descent)알고리즘을 이용하여 추정하였다. 제안된 방법의 인식 성능 비교를 위해 모두 9가지 환경음을 전처리 과정과 MFCC(mel-frequency cepstral coefficients)를 이용하여 12차 특징을 추출하고, 이를 혼합 성분의 수에 따라 GMM 분류 실험을 행하였다. 실험 결과에 따르면 혼합 성분을 19개 사용한 경우에서 MCE 훈련 방식이 평균 87.06%의 인식률로 가장 좋은 성능을 보였다. 이 결과로 제안한 MCE 훈련 방식이 환경음 인식에서 GMM의 훈련 방식으로 효과적으로 사용될 수 있음을 확인하였다.

벌점 부분최소자승법을 이용한 분류방법 (A new classification method using penalized partial least squares)

  • 김윤대;전치혁;이혜선
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.931-940
    • /
    • 2011
  • 분류분석은 학습표본으로부터 분류규칙을 도출한 후 새로운 표본에 적용하여 특정 범주로 분류하는 방법이다. 데이터의 복잡성에 따라 다양한 분류분석 방법이 개발되어 왔지만, 데이터 차원이 높고 변수간 상관성이 높은 경우 정확하게 분류하는 것은 쉽지 않다. 본 연구에서는 데이터차원이 상대적으로 높고 변수간 상관성이 높을 때 강건한 분류방법을 제안하고자 한다. 부분최소자승법은 연속형데이터에 사용되는 기법으로서 고차원이면서 독립변수간 상관성이 높을 때 예측력이 높은 통계기법으로 알려져 있는 다변량 분석기법이다. 벌점 부분최소자승법을 이용한 분류방법을 실제데이터와 시뮬레이션을 적용하여 성능을 비교하고자 한다.

The Unified Framework for AUC Maximizer

  • Jun, Jong-Jun;Kim, Yong-Dai;Han, Sang-Tae;Kang, Hyun-Cheol;Choi, Ho-Sik
    • Communications for Statistical Applications and Methods
    • /
    • 제16권6호
    • /
    • pp.1005-1012
    • /
    • 2009
  • The area under the curve(AUC) is commonly used as a measure of the receiver operating characteristic(ROC) curve which displays the performance of a set of binary classifiers for all feasible ratios of the costs associated with true positive rate(TPR) and false positive rate(FPR). In the bipartite ranking problem where one has to compare two different observations and decide which one is "better", the AUC measures the quantity that ranking score of a randomly chosen sample in one class is larger than that of a randomly chosen sample in the other class and hence, the function which maximizes an AUC of bipartite ranking problem is different to the function which maximizes (minimizes) accuracy (misclassification error rate) of binary classification problem. In this paper, we develop a way to construct the unified framework for AUC maximizer including support vector machines based on maximizing large margin and logistic regression based on estimating posterior probability. Moreover, we develop an efficient algorithm for the proposed unified framework. Numerical results show that the propose unified framework can treat various methodologies successfully.

베이지안 신경망을 이용한 분류분석 (A Classification Analysis using Bayesian Neural Network)

  • 황진수;최성용;전홍석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권2호
    • /
    • pp.11-25
    • /
    • 2001
  • 자료들 사이에 존재하는 관계, 패턴, 규칙등을 찾아내서 모형화 하는 통계적인 분류기법은 여러가지가 있다. 그러나 우리가 얻게 되는 지식은 어떤 일련의 분류규칙에 의해서가 아닌 관찰과 학습을 통한 훈련으로부터 얻게 된다. 본 베이지안 학습은 모든 형태의 불확실성을 표현하는 확률로써 우리의 믿음의 정도를 표현하는 것으로 해석될 수 있으며, 확실한 결과가 알려짐에 따라 확률이론 법칙을 사용하여 이러한 확률들을 갱신한다. 또한 신경망 모형은 이미 알고 있는 속성들에 근거하여 아직 알지 못하는 집단이나 특질들을 예측하게 해준다. 본 논문에서는 이러한 두 가지 방법을 결합한 베이지안 신경망과 기존의 CHAID, CART, QUBST 분류 알고리즘에 있어서 각각 오분류율을 비교연구하였다.

  • PDF

Selecting the Best Prediction Model for Readmission

  • Lee, Eun-Whan
    • Journal of Preventive Medicine and Public Health
    • /
    • 제45권4호
    • /
    • pp.259-266
    • /
    • 2012
  • Objectives: This study aims to determine the risk factors predicting rehospitalization by comparing three models and selecting the most successful model. Methods: In order to predict the risk of rehospitalization within 28 days after discharge, 11 951 inpatients were recruited into this study between January and December 2009. Predictive models were constructed with three methods, logistic regression analysis, a decision tree, and a neural network, and the models were compared and evaluated in light of their misclassification rate, root asymptotic standard error, lift chart, and receiver operating characteristic curve. Results: The decision tree was selected as the final model. The risk of rehospitalization was higher when the length of stay (LOS) was less than 2 days, route of admission was through the out-patient department (OPD), medical department was in internal medicine, 10th revision of the International Classification of Diseases code was neoplasm, LOS was relatively shorter, and the frequency of OPD visit was greater. Conclusions: When a patient is to be discharged within 2 days, the appropriateness of discharge should be considered, with special concern of undiscovered complications and co-morbidities. In particular, if the patient is admitted through the OPD, any suspected disease should be appropriately examined and prompt outcomes of tests should be secured. Moreover, for patients of internal medicine practitioners, co-morbidity and complications caused by chronic illness should be given greater attention.

데일리 렌즈 데이터를 사용한 데이터마이닝 기법 비교 (Comparison of data mining methods with daily lens data)

  • 석경하;이태우
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1341-1348
    • /
    • 2013
  • 데이터베이스 마케팅과 시장예측 등의 분야에서 분류문제를 해결하기 위해 다양한 데이터마이닝 기법들이 적용되고 있다. 본 연구에서는 데일리 렌즈 고객들의 거래 데이터를 기반으로 의사결정나무, 로지스틱 회귀모형과 같은 기존의 통계적 분류기법과 최근에 개발된 배깅, 부스팅, 라소, 랜덤 포리스트 그리고 지지벡터기계의 분류 성능을 비교하고자 한다. 비교 실험을 위해 데이터 정제, 탐색, 파생변수 생성, 그리고 변수 선택과정을 거쳤다. 실험결과 정분류율 측면에서는 지지벡터기계가 다른 모형보다 근소하게 높았지만 표준편차가 크게 나왔다. 정분류율과 표준편차의 관점에서는 랜덤 포리스트가 가장 좋은 결과를 보였다. 그러나 모형의 해석, 간명성 그리고 학습에 걸리는 시간을 고려하였을 때 라소모형이 적합하다는 결론을 내렸다.

분류 트리 기법을 이용한 국내 일괄사육 양돈장의 차단방역 수준에 영향을 미치는 기여 요인 평가 (Classification Tree Analysis to Assess Contributing Factors Influencing Biosecurity Level on Farrow-to-Finish Pig Farms in Korea)

  • 김규욱;박선일
    • 한국임상수의학회지
    • /
    • 제33권2호
    • /
    • pp.107-112
    • /
    • 2016
  • The objective of this study was to determine potential contributing factors associated with biosecurity level of farrow-to-finish pig farms and to develop a classification tree model to explore how these factors related to each other based on prediction model. To this end, the author analyzed data (n = 193) extracted from a cross-sectional study of 344 farrow-to-finish farms which was conducted between March and September 2014 aimed to explore swine disease status at farm level. Standardized questionnaires with information about basic demographical data and management practices were collected in each farm by on-site visit of trained veterinarians. For the classification of the data sets regarding biosecurity level as a dependent variable and predictor variables, Chi-squared Automatic Interaction Detection (CHAID) algorithm was applied for modeling classification tree. The statistics of misclassification risk was used to evaluate the fitness of the model in terms of prediction results. Categorical multivariate input data (40 variables) was used to construct a classification tree, and the target variable was biosecurity level dichotomized into low versus high. In general, the level of biosecurity was lower in the majority of farms studied, mainly due to the limited implementation of on-farm basic biosecurity measures aimed at controlling the potential introduction and transmission of swine diseases. The CHAID model illustrated the relative importance of significant predictors in explaining the level of biosecurity; maintenance of medical records of treatment and vaccination, use of dedicated clothing to enter the farm, installing fence surrounding the farm perimeter, and periodic monitoring of the herd using written biosecurity plan in place. The misclassification risk estimate of the prediction model was 0.145 with the standard error of 0.025, indicating that 85.5% of the cases could be classified correctly by using the decision rule based on the current tree. Although CHAID approach could provide detailed information and insight about interactions among factors associated with biosecurity level, further evaluation of potential bias intervened in the course of data collection should be included in future studies. In addition, there is still need to validate findings through the external dataset with larger sample size to improve the external validity of the current model.

주행로봇제어를 위한 DWT와 SVM기반의 EEG신호 분류 알고리즘 (EEG Signal Classification Algorithm based on DWT and SVM for Driving Robot Control)

  • 이기배;이종현;배진호;이재일
    • 전자공학회논문지
    • /
    • 제52권8호
    • /
    • pp.117-125
    • /
    • 2015
  • 본 논문은 '좌', '우' 방향 제어를 위해 취득된 EEG(Electroencephalogram) 신호 기반 분류 알고리즘과 EEG 센서, Labview, DAQ, Matlab, 주행로봇으로 구성된 방향 제어 시스템을 제안한다. 제안된 알고리즘은 DWT(Discrete Wavelet Transform)로 추출된 주파수대역 정보를 특징으로 이용하며, Fishers score를 이용하여 변별력이 높은 주파수 대역의 특징을 선별한다. 또한, SVM (Support Vector Machine)을 이용하여 분류 성능이 최고가 되는 특징벡터의 조합을 제안하고, 잘못된 판정에 의한 오동작을 방지하기 위한 MLD(Maximum Likelihood Decision) 기반의 판정보류 알고리즘도 제안한다. 제안된 알고리즘에 의해 선택된 4개의 특징벡터는 국제 표준 전극 배치법에 따른 P8 채널의 d2(16-32Hz), d5(2-4Hz) 주파수 대역의 전압의 절대 값 평균과 표준편차이다. SVM 분류기로 실험한 결과 98.75%의 정확도와 1.25%의 오류율 성능을 보였다. 또한, 오류 확률 70%를 판정 보류로 규정할 경우, 제안된 알고리즘은 인식률 95.63%의 정확도와 오류율 0%을 보였다.

공간분포지표를 이용한 위성영상 분류오차의 공간적 분포 평가 (Estimating the Spatial Distribution of Satellite Image Classification Error Using Index of Spatial Distribution)

  • 이병길;김용일;어양담
    • 한국측량학회지
    • /
    • 제17권2호
    • /
    • pp.129-136
    • /
    • 1999
  • 영상분류 결과는 지형적 영향, 영상의 상태 등에 따라 전체 영상에 대하여 균일하지 않을 수 있다. 본 연구에서는 분류 결과의 불균일성과 위성영상 분류 오차의 공간적 분포를 평가하기 위해 ISDd (Index of Spatial Distribution by distance) 와 ISDs (ISD by scatteredness)의 개념을 제안하였다. ISDd는 지표화된 오분류 화소간의 거리이고, ISDs는 오분류 화소의 산포도에 관한 통계적 지표이다. 실제 위성영상에 대한 실험을 통하여 ISDd와 ISDs를 계산 및 평가하였으며, 실제 국지적 오분류 영역을 추출하여 오분류의 원인을 고찰하였다. 본 연구 결과, ISDd와 ISDs를 동시에 사용하여 오분류 화소의 국지적 밀집 여부와 밀집 정도의 평가가 가능하였으며, 그 결과를 토대로 영상의 일부분에 대한 분류결과의 채택/기각을 결정할 수 있었다. 따라서, 전체 분류정확도 외에 공간분포지표를 사용함으로써 사용자는 오분류 화소의 공간적 분포 상태를 파악할 수 있으며, 분류 결과의 적합성 및 신뢰성 판단을 위한 추가적인 기준을 가질 수 있다.

  • PDF

이진화와 색상 히스토그램을 이용한 동전 계산 시스템 (Coin Calculation System Using Binarization and Hue Histogram)

  • 배종욱;정성환
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권6호
    • /
    • pp.424-429
    • /
    • 2015
  • 영상 내 동전들의 금액 합계를 계산하는 새로운 동전 계산 시스템이 제안되었다. 제안된 시스템은 USB 카메라를 이용하여 획득한 영상에서 실시간으로 동전을 종류별로 식별하고, 분류한다. 기존의 동전 계산 시스템들은 대부분 크기 정보만을 이용하며, 객체의 크기 인식이 잘못되면 오분류가 발생한다. 특히, 구 10원은 50원이나 100원 동전과 크기가 비슷해서 오류가 날 확률이 높다. 따라서 제안한 기법은 크기 정보와 더불어 색상 히스토그램을 활용하여 동전 분류 과정에서 오류를 감소할 수 있다. 전체 2,290개의 동전 객체를 분류한 실험 결과에서, 크기 정보만을 이용하였을 때는, 평균 약 88.2%의 인식률을 보였다. 반면, 크기 정보와 색상 히스토그램을 이용하였을 때에는 인식률이 평균 약 99.3%를 나타내었다.