• 제목/요약/키워드: Binary classification

검색결과 464건 처리시간 0.035초

이진자료 분류모형에 대한 평가측도의 특성 비교 (Comparison of evaluation measures for classification models on binary data)

  • 김병수;권소영
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.291-300
    • /
    • 2019
  • 본 논문에서는 반응변수가 이진형인 분류모형에 대한 평가측도들의 특성을 파악하고 사용하기 적합한 평가측도인가를 살펴보았다. 고려한 측도는 정분류율, 민감도, 특이도, 정밀도, F-measure, HSS (Heidke's skill score)의 6개이다. 각 측도들은 이원분할표에서 x(실제로 1인 비율), y(1로 예측되는 비율), z(실제와 예측이 모두 1인 비율)을 사용하여 표현하였다. 본 연구는 평가측도가 사용하기 적합한 측도가 되기 위한 조건으로 두 가지를 제안하였다. 제1조건은 랜덤모형인 경우에 평가측도는 x와 y에 대해 상수이고, 제2조건은 평가측도의 식이 세 변수들(x, y, z) 모두로 이루어지고 z에 대해서 증가함수이고 x와 y에 대해서 감소함수이어야 한다는 것이다. HSS는 두 조건을 모두 만족하므로 이진형 반응변수의 분류모형에 대한 평가측도로 항상 사용이 적합하고, 다른 측도들은 제한된 범위 내에서만 사용하는 것이 좋다.

셋-프루닝 이진 검색 트리를 이용한 계층적 패킷 분류 알고리즘 (A Hierarchical Packet Classification Algorithm Using Set-Pruning Binary Search Tree)

  • 이수현;임혜숙
    • 한국정보과학회논문지:정보통신
    • /
    • 제35권6호
    • /
    • pp.482-496
    • /
    • 2008
  • 인터넷 라우터에서의 패킷 분류는 들어오는 모든 패킷에 대하여 패킷이 입력되는 속도와 같은 속도로 수행되어야 하는데, 여러 헤더 필드에 대해 다차원 검색을 수행하여야 하므로, 라우터 설계에 있어 가장 어려운 문제중의 하나이다. 계층적 패킷 분류 구조는 하나의 필드 검색이 끝날 때마다 검색 영역이 현저하게 줄어듦으로 매우 효율적이다. 그러나 계층적 구조들은 빈 노드와 역추적이라는 두가지 문제를 내재하고 있다. 본 논문에서는 두가지 문제를 동시에 해결하는 새로운 계층적 패킷분류 구조를 제안한다. 역추적 문제는 셋-프루닝 기법을 이용하여 해결하였으며, 이진 검색트리를 적용하여 빈노드를 제거하였다. 시뮬레이션 결과 제안된 알고리즘은 메모리 요구량의 증가 없이 검색 성능을 현저히 향상시킴을 확인하였다. 또한 셋-프루닝에 있어 제한된 룰의 복사를 적용하는 최적화 기법을 제안한다.

Multitree 형상 인식 기법의 성능 개선에 관한 연구 (A Study on the Improvement of Multitree Pattern Recognition Algorithm)

  • 김태성;이정희;김성대
    • 한국통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.348-359
    • /
    • 1989
  • 본 논문은 [1]와 [2]에 의해 제안된 multitree 형상 인식 기법의 성능 개선에 관한 논문이다. Multitree 형상 인식 기법의 기본적인 생각은, Classifier 설계과정에서 각 특징별로 Binary Decision Tree 를 구성하고, 이들의 탐색 순서를 결정하며, 인식 과정에서는 앞에서 정한 탐색 순서에 의거하여, BDT(Binary Decision Tree)를 탐색해 나간다는 것이다. 이때 BDT를 추가하여 탐색하기 전에 그때까지 얻은 정보를 이용하여 입력 물체를 인식할 수 있는지에 대한 여부를 결정하며, 인식이 가능한 경우 BDT의 탐색을 멈추고, 인식이 불가능한 경우 BDT의 탐색을 계속해 나간다. 이 방법은 BDT를 각 특징별로 만들기 때문에 새로운 특징의 삭제나 첨가가 상당히 용이하며 인식에 사용되는 특징의 갯수가 감소하게 된다. 따라서 이 알고리즘은 특징의 수가 많거나 class수가 많을 경우 쉽게 이용될 수 있다. 본 논문은 각 특징에서 구한 근사화된 확률 분포로부터 입력 특징값에 대한 확률값을 구해 인식에 이용하였으며, 이 값을 이용한ㄴ 여러가지 인식 방법을 제안하였다. 그리고 Branch and Bound 방법을 사용하여 특징의 선택 순서와 탐색 범위를 구하였다. 위에서 제안한 것들을 실험한 결과 기존의 multitree형상 인식 기법보다 본 논문에서 제안한 기법의 성능이 향상되었다.

  • PDF

Fuzzy SVM for Multi-Class Classification

  • 나은영;홍덕헌;황창하
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 추계학술대회
    • /
    • pp.123-123
    • /
    • 2003
  • More elaborated methods allowing the usage of binary classifiers for the resolution of multi-class classification problems are briefly presented. This way of using FSVC to learn a K-class classification problem consists in choosing the maximum applied to the outputs of K FSVC solving a one-per-class decomposition of the general problem.

  • PDF

Comparison Study of Multi-class Classification Methods

  • Bae, Wha-Soo;Jeon, Gab-Dong;Seok, Kyung-Ha
    • Communications for Statistical Applications and Methods
    • /
    • 제14권2호
    • /
    • pp.377-388
    • /
    • 2007
  • As one of multi-class classification methods, ECOC (Error Correcting Output Coding) method is known to have low classification error rate. This paper aims at suggesting effective multi-class classification method (1) by comparing various encoding methods and decoding methods in ECOC method and (2) by comparing ECOC method and direct classification method. Both SVM (Support Vector Machine) and logistic regression model were used as binary classifiers in comparison.

투영 벡터의 단일 이진패턴 가중치을 이용한 이륜차 검출 (Two-wheelers Detection using Uniform Local Binary Pattern for Projection Vectors)

  • 이영학
    • 한국멀티미디어학회논문지
    • /
    • 제18권4호
    • /
    • pp.443-451
    • /
    • 2015
  • In this paper we suggest a new two-wheelers detection algorithm using uniform local binary pattern weighting value for projection vectors. The first, we calculate feature vectors using projection method which has robustness for rotation invariant and reducing dimensionality for each cell from origin image. The second, we applied new weighting values which are calculated by the modified local binary pattern showing the fast compute and simple to implement. This paper applied the Adaboost algorithm to make a strong classification from weak classification. In this experiment, we can get the result that the detection rate of the proposed method is higher than that of the traditional method.

다중 패턴 분류를 위한 Import Vector Voting 모델 (Import Vector Voting Model for Multi-pattern Classification)

  • 최준혁;김대수;임기욱
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.655-660
    • /
    • 2003
  • 일반적으로 Support Vector Machine은 이진 분류 모형에 있어 우수한 성능을 보이지만 모델의 한계로 인하여 다중 패턴의 분류 문제에는 쉽게 적용하기가 어렵다. 본 논문에서는 이진 분류를 포함한 다중 레이블을 갖는 데이터의 정확한 패턴 분류를 위하여 Zhu가 제안한 Import Vector Machine에 커널 Bagging 전략을 적용하여 분류의 정확성을 향상시키기 위한 Import Vector Voting 모형을 제안한다. 이러한 Import Vector Voting 모형은 다수의 커널함수를 적용한 결과 중에서 가장 성능이 우수한 커널함수를 이용하여 최종 분류를 수행하기 위한 voting 전략으로 사용한다. 본 논문에서 제안하는 Import Vector Voting 모형은 이진 분류를 포함한 3개 이상의 다중 패턴 데이터에 대한 분류 문제에 있어 매우 정확한 분류 성능을 보임을 실험을 통해 입증한다.

CNN을 활용한 Tor 네트워크 트래픽 분류 (Classification of Tor network traffic using CNN)

  • 임형석;이수진
    • 융합보안논문지
    • /
    • 제21권3호
    • /
    • pp.31-38
    • /
    • 2021
  • Onion Router라고 알려진 Tor는 강한 익명성을 보장하기 때문에 각종 범죄행위뿐만 아니라 신속한 포트 검색 및 인증정보의 외부 유출 등 해킹 시도에도 활발하게 이용되고 있다. 따라서 범죄 시도를 조기에 차단하고 해킹으로부터 조직의 정보시스템을 안전하게 보호하기 위해서는 Tor 트래픽의 빠르고 정확한 탐지가 상당히 중요하다. 이에 본 논문에서는 CNN(Convolutional Neural Network)을 기반으로 Tor 트래픽을 탐지하고 트래픽의 유형을 분류하는 분류모델을 제안한다. 제안하는 분류모델의 성능 검증에는 UNB Tor 2016 데이터세트가 사용되었다. 실험을 진행한 결과, 제안하는 접근방법은 Tor 및 Non-Tor 트패픽을 탐지하는 이진분류에서는 99.98%, Tor 트래픽의 유형을 구분하는 다중분류에서는 97.27%의 정확도를 보여주었다.

Classification of Imbalanced Data Based on MTS-CBPSO Method: A Case Study of Financial Distress Prediction

  • Gu, Yuping;Cheng, Longsheng;Chang, Zhipeng
    • Journal of Information Processing Systems
    • /
    • 제15권3호
    • /
    • pp.682-693
    • /
    • 2019
  • The traditional classification methods mostly assume that the data for class distribution is balanced, while imbalanced data is widely found in the real world. So it is important to solve the problem of classification with imbalanced data. In Mahalanobis-Taguchi system (MTS) algorithm, data classification model is constructed with the reference space and measurement reference scale which is come from a single normal group, and thus it is suitable to handle the imbalanced data problem. In this paper, an improved method of MTS-CBPSO is constructed by introducing the chaotic mapping and binary particle swarm optimization algorithm instead of orthogonal array and signal-to-noise ratio (SNR) to select the valid variables, in which G-means, F-measure, dimensionality reduction are regarded as the classification optimization target. This proposed method is also applied to the financial distress prediction of Chinese listed companies. Compared with the traditional MTS and the common classification methods such as SVM, C4.5, k-NN, it is showed that the MTS-CBPSO method has better result of prediction accuracy and dimensionality reduction.

Logistic Regression Classification by Principal Component Selection

  • Kim, Kiho;Lee, Seokho
    • Communications for Statistical Applications and Methods
    • /
    • 제21권1호
    • /
    • pp.61-68
    • /
    • 2014
  • We propose binary classification methods by modifying logistic regression classification. We use variable selection procedures instead of original variables to select the principal components. We describe the resulting classifiers and discuss their properties. The performance of our proposals are illustrated numerically and compared with other existing classification methods using synthetic and real datasets.