• Title/Summary/Keyword: Statistics Classification

검색결과 873건 처리시간 0.028초

선별 시스템 기반 표지 유전자를 포함한 난소암 마이크로어레이 데이터 분류 (Classification of Ovarian Cancer Microarray Data based on Intelligent Systems with Marker gene)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제15권3호
    • /
    • pp.747-752
    • /
    • 2011
  • 마이크로어레이 분류는 전형적으로 분류기 디자인과 에러 추정이 현저하게 작은 샘플에 기반한다는 것과 교차 검증 에러 추정이 대다수의 논문에 사용된다는 주목할 만한 두 가지 특징을 소유한다. 마이크로어레이 난소 암 데이터는 수 만개의 유전자 발현으로 구성되어 있고, 이러한 정보를 동시에 분석하기 위한 어떤 체계적인 절차도 없다. 본 논문에서는, 통계에 따라 유전자의 우선순위를 정함으로써 표지유전자를 선택하였고, 널리 보급되어 있는 분류 규칙인 선형 분류 분석, 3-nearest-neighbor와 결정 트리 알고리즘은 표지 유전자를 선택한 데이터와 선택하지 않는 데이터의 분류 정확도 비교를 위해 사용되어졌다. ANOVA를 이용하여 선택된 표지 유전자를 포함하는 마이크로어레이 데이터 셋에 선영 분류분석 규칙을 적용한 결과 97.78%의 가장 높은 분류 정확도와 가장 낮은 예측 에러 추정치를 나타내었다.

Optimal bandwidth in nonparametric classification between two univariate densities

  • ;강기훈
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2002년도 춘계 학술발표회 논문집
    • /
    • pp.1-5
    • /
    • 2002
  • We consider the problem of optimal bandwidth choice for nonparametric classification, based on kernel density estimators, where the problem of interest is distinguishing between two univariate distributions. When the densities intersect at a single point, optimal bandwidth choice depends on curvatures of the densities at that point. The problem of empirical bandwidth selection and classifying data in the tails of a distribution are also addressed.

  • PDF

향상된 PAIRWISE COUPLING 알고리즘에 의한 자료의 분류 (On the Classfication by an Improved Pairwise Coupling Algorithm)

  • 최대우;윤중식
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.415-425
    • /
    • 2000
  • 붓스트랩 표본추출과 pairwise coupling의 알고리즘을 결합한 새로운 분류 알고리즘을 제안하고, 이를 선형판별분석과 2차 판별분석에 적용하였다. 그리고 새로운 분류 알고리즘의 정확도를 비교하기위해 널리 사용되는 waveform 자료 등을 분석한 후, 그 결과를 기존 분류 방법과 비교하였다.

  • PDF

WHEN CAN SUPPORT VECTOR MACHINE ACHIEVE FAST RATES OF CONVERGENCE?

  • Park, Chang-Yi
    • Journal of the Korean Statistical Society
    • /
    • 제36권3호
    • /
    • pp.367-372
    • /
    • 2007
  • Classification as a tool to extract information from data plays an important role in science and engineering. Among various classification methodologies, support vector machine has recently seen significant developments. The central problem this paper addresses is the accuracy of support vector machine. In particular, we are interested in the situations where fast rates of convergence to the Bayes risk can be achieved by support vector machine. Through learning examples, we illustrate that support vector machine may yield fast rates if the space spanned by an adopted kernel is sufficiently large.

Tree-structured Classification based on Variable Splitting

  • Ahn, Sung-Jin
    • Communications for Statistical Applications and Methods
    • /
    • 제2권1호
    • /
    • pp.74-88
    • /
    • 1995
  • This article introduces a unified method of choosing the most explanatory and significant multiway partitions for classification tree design and analysis. The method is derived on the impurity reduction (IR) measure of divergence, which is proposed to extend the proportional-reduction-in-error (PRE) measure in the decision-theory context. For the method derivation, the IR measure is analyzed to characterize its statistical properties which are used to consistently handle the subjects of feature formation, feature selection, and feature deletion required in the associated classification tree construction. A numerical example is considered to illustrate the proposed approach.

  • PDF

SVC with Modified Hinge Loss Function

  • Lee, Sang-Bock
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권3호
    • /
    • pp.905-912
    • /
    • 2006
  • Support vector classification(SVC) provides more complete description of the linear and nonlinear relationships between input vectors and classifiers. In this paper we propose to solve the optimization problem of SVC with a modified hinge loss function, which enables to use an iterative reweighted least squares(IRWLS) procedure. We also introduce the approximate cross validation function to select the hyperparameters which affect the performance of SVC. Experimental results are then presented which illustrate the performance of the proposed procedure for classification.

  • PDF

순환정상 프로세스의 고차 통계 특성을 이용한 디지털 변조인식 (Digitally Modulated Signal Classification based on Higher Order Statistics of Cyclostationary Process)

  • 안우현;나선필;서보석
    • 방송공학회논문지
    • /
    • 제19권2호
    • /
    • pp.195-204
    • /
    • 2014
  • 이 논문에서는 순환정상 프로세스의 고차 통계 특성을 바탕으로 2-FSK, 4-FSK, 8-FSK, MSK, BPSK, QPSK, 8-PSK, 16-QAM, 32-QAM, 64-QAM 등 10개의 기저대역 디지털 변조신호를 자동으로 인식하는 방법을 제안하였다. 변조신호의 고유한 성질을 나타내는 특징변수로는 1차 순환 모멘트와 고차 순환 큐뮬런트를 이용하였다. 제안한 변조인식기는 크게 두 단계로 구성되며, 첫 번째 단계에서는 1차 순환 모멘트가 나타내는 첨두치를 이용하여 M-FSK와 비FSK로 변조신호를 분류한다. 두 번째 단계에서는 비FSK를 분류하기 위해 고차 순환 큐뮬런트 값을 이용하는 Gaussian 혼합 모델 기반의 분류기를 적용하였다. 제안한 방법의 성능을 검증하기 위해서 모의실험을 실시하였다. 모의실험 결과 제안한 분류기는 주파수와 위상 옵셋이 존재하는 환경에서도 우수한 분류확률을 나타내었다.

이변량 ROC곡선 (Bivariate ROC Curve)

  • 홍종선;김강천;정진아
    • Communications for Statistical Applications and Methods
    • /
    • 제19권2호
    • /
    • pp.277-286
    • /
    • 2012
  • 신용평가모형에서 부도로 잘못 예측된 정상 차주의 비율과 정확하게 평가된 부도차주의 비율인 일변량 누적분포함수로 표현된 ROC 곡선을 이용하여 분류성과를 평가한다. 본 연구에서는 스코어 확률변수를 이변량으로 확장하여 부도와 정상 차주의 결합누적분포함수를 이용하여 표현할 수 있는 ROC 곡선을 제안한다. 이변량 평균벡터를 통과하는 확률변수의 선형 관계를 이용하여 이변량 ROC 곡선을 구현한다. 그리고 다양한 이변량 정규분포에 대한 ROC 곡선으로부터 분류성과를 탐색하고, 이에 대응하는 AUROC 통계량과 비교분석한다. 본 연구에서 제안한 이변량 ROC 곡선으로부터 분류기준에 적합한 최적분류점을 구하고 이를 통해 이변량 혼합분포함수의 최적 분류기준을 설정할 수 있음을 보인다.

불균형 자료의 분류분석을 위한 가중 L1-norm SVM (Weighted L1-Norm Support Vector Machine for the Classification of Highly Imbalanced Data)

  • 김은경;전명식;방성완
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.9-21
    • /
    • 2015
  • SVM은 높은 수준의 분류 정확도와 유연성을 바탕으로 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 집단별 개체수가 상이한 불균형 자료의 분류분석에서 SVM은 다수집단으로 편향되게 분류함수를 추정하므로 소수집단의 분류 정확도가 심각하게 감소하게 된다. 불균형 자료의 분류분석을 위하여 집단별 오분류 비용을 차등 적용하는 가중 $L_2$-norm SVM이 개발되었으나, 이는 릿지 형태의 벌칙함수를 사용하므로 분류함수의 추정에서 불필요한 잡음변수의 제거에는 효율적이지 못하다. 따라서 본 논문에서는 라소 형태의 별칙함수를 사용하고 훈련개체의 오분류 비용을 차등적으로 부여함으로서 불균형 자료의 분류분석에서 변수선택의 기능을 지니는 가중 $L_1$-norm SVM을 제안하였으며, 모의실험과 실제자료의 분석을 통하여 제안한 방법론의 효율적인 성능과 유용성을 확인하였다.

음향 장면 분류를 위한 경량화 모형 연구 (Light weight architecture for acoustic scene classification)

  • 임소영;곽일엽
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.979-993
    • /
    • 2021
  • 음향 장면 분류는 오디오 파일이 녹음된 환경이 어디인지 분류하는 문제이다. 이는 음향 장면 분류와 관련한 대회인 DCASE 대회에서 꾸준하게 연구되었던 분야이다. 실제 응용 분야에 음향 장면 분류 문제를 적용할 때, 모델의 복잡도를 고려하여야 한다. 특히 경량 기기에 적용하기 위해서는 경량 딥러닝 모델이 필요하다. 우리는 경량 기술이 적용된 여러 모델을 비교하였다. 먼저 log mel-spectrogram, deltas, delta-deltas 피쳐를 사용한 합성곱 신경망(CNN) 기반의 기본 모델을 제안하였다. 그리고 원래의 합성곱 층을 depthwise separable convolution block, linear bottleneck inverted residual block과 같은 효율적인 합성곱 블록으로 대체하고, 각 모델에 대하여 Quantization를 적용하여 경량 모델을 제안하였다. 경량화 기술을 고려한 모델은 기본 모델에 대비하여 성능이 비슷하거나 조금 낮은 성능을 보였지만, 모델 사이즈는 503KB에서 42.76KB로 작아진 것을 확인하였다.