• 제목/요약/키워드: K-fold cross validation

검색결과 150건 처리시간 0.025초

Corporate credit rating prediction using support vector machines

  • 이영찬
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.571-578
    • /
    • 2005
  • Corporate credit rating analysis has drawn a lot of research interests in previous studies, and recent studies have shown that machine learning techniques achieved better performance than traditional statistical ones. This paper applies support vector machines (SVMs) to the corporate credit rating problem in an attempt to suggest a new model with better explanatory power and stability. To serve this purpose, the researcher uses a grid-search technique using 5-fold cross-validation to find out the optimal parameter values of kernel function of SVM. In addition, to evaluate the prediction accuracy of SVM, the researcher compares its performance with those of multiple discriminant analysis (MDA), case-based reasoning (CBR), and three-layer fully connected back-propagation neural networks (BPNs). The experiment results show that SVM outperforms the other methods.

  • PDF

Deep-learning based In-situ Monitoring and Prediction System for the Organic Light Emitting Diode

  • Park, Il-Hoo;Cho, Hyeran;Kim, Gyu-Tae
    • 반도체디스플레이기술학회지
    • /
    • 제19권4호
    • /
    • pp.126-129
    • /
    • 2020
  • We introduce a lifetime assessment technique using deep learning algorithm with complex electrical parameters such as resistivity, permittivity, impedance parameters as integrated indicators for predicting the degradation of the organic molecules. The evaluation system consists of fully automated in-situ measurement system and multiple layer perceptron learning system with five hidden layers and 1011 perceptra in each layer. Prediction accuracies are calculated and compared depending on the physical feature, learning hyperparameters. 62.5% of full time-series data are used for training and its prediction accuracy is estimated as r-square value of 0.99. Remaining 37.5% of the data are used for testing with prediction accuracy of 0.95. With k-fold cross-validation, the stability to the instantaneous changes in the measured data is also improved.

출혈성 쇼크를 일으킨 흰쥐에서 인공신경망과 지원벡터기계를 이용한 생존율 비교 (Comparison of Survival Prediction of Rats with Hemorrhagic Shocks Using Artificial Neural Network and Support Vector Machine)

  • 장경환;유태근;남기창;최재림;권민경;김덕원
    • 전자공학회논문지SC
    • /
    • 제48권2호
    • /
    • pp.47-55
    • /
    • 2011
  • 전 세계적으로 상해로 인한 사망자 중 1/3의 직접적인 사망 원인은 출혈성 쇼크이다. 그러나 초기 쇼크에서 이를 정확히 예측할 수 있다면 신속한 치료가 가능하여 그 피해를 줄일 수 있다. 본 논문의 목적은 흰쥐의 대퇴부정맥을 통해 일정량의 출혈을 시키면서 변화하는 생리적 변수인 심박수, 수축기 혈압, 평균 동맥압, 호흡수, 체온 데이터로 최적의 생존 예측 모델을 제시하여 출혈성 쇼크를 조기 진단하는 것이다. 예측 모델로는 최근 많이 연구되는 인공신경망과 지원벡터기계 방법을 사용하였다. 과대적합을 피하고 최적의 모델을 선정하기 위해 10-fold cross validation을 수행하였을 때, 인공신경망의 경우 은닉노드 수가 3개인 모델이 가장 우수한 성능을 보였고, 지원벡터기계에서는 가우시안 커널함수를 이용한 모델이 가장 우수한 성능을 보였다. 평가 데이터 세트를 이용하여 각각의 생존 예측 모델을 평가한 결과 인공신경망의 경우 민감도 88.9 %, 특이도 96.7 %와 정확도 92.0 %를 보였고, 지원벡터기계의 경우 민감도 97.8 %, 특이도 95.0 %와 정확도 96.7 %를 보였다. 따라서 출혈에 따른 흰쥐의 생존 예측에서 지원벡터기계가 인공신경망보다 더 우수한 성능을 보이는 것을 확인하였다.

기상자료를 이용한 남한지역 도별 쌀 생산량 추정 (Estimation of Rice Yield by Province in South Korea based on Meteorological Variables)

  • 허지나;심교문;김용석;강기경
    • 한국지구과학회지
    • /
    • 제40권6호
    • /
    • pp.599-605
    • /
    • 2019
  • 작물 생육에 영향 요소인 기상 변수들을 이용하여 우리나라 쌀 생산량(kg 10a-1)을 추정하였다. 이 연구는 기상 변수의 연 변동성을 기반으로 간단하지만 효과적인 통계 방법인 다중회귀모형을 이용하여 쌀 생산량에 대한 예측 가능성을 살펴보았다. 비균질적인 환경 조건의 특성을 고려하여, 연 쌀 생산량을 우리나라 도별로 추정하고 검증하였다. 기상청에서 제공하는 1986년부터 2018년까지 33년간 관측된 61개지점의 월 평균 기상 자료를 설명자료로 사용하였다. 11겹 교차검증(11-fold cross-validation)을 이용하여 추정된 쌀 생산량의 정확도를 추정하였다. 분석한 결과, 상관계수(0.7) 측면에서 간단한 과정으로도 도별 쌀 생산량의 시간적 변화를 잘 모의하였다. 또한 추정된 쌀 생산량은 0.7 kg 10a-1 (0.15%)의 평균 오차를 가지며, 관측의 공간적 특성을 잘 모의하였다. 이 방법은 적시에 농업기상 예측 정보를 얻는다면 쌀 생산량에 대한 유용한 정보를 사전에 얻을 수 있을 것으로 생각된다.

LIBS 분광기를 이용한 폐소형가전 플라스틱 패턴 분류기의 설계 (Design of Pattern Classifier for Electrical and Electronic Waste Plastic Devices Using LIBS Spectrometer)

  • 박상범;배종수;오성권;김현기
    • 한국지능시스템학회논문지
    • /
    • 제26권6호
    • /
    • pp.477-484
    • /
    • 2016
  • 선풍기, 오디오, 전기밥솥 등의 소형 산업가전제품들은 대부분 ABS, PP, PS 등의 재질로 이루어져 있다. 색깔이 있는 플라스틱은 근적외선(NIR) 분광기에 의해 분류가 가능하지만, 반면에 검은색 플라스틱은 빛을 흡수하는 특성으로 인해 분류하기가 어렵다. 그래서 본 연구에서는 LIBS(Laser Induced Breakdown Spectroscopy) 분광기를 통해 폐소형가전 플라스틱을 선별하는 RBFNNs(Radial Basis Function Neural Networks) 패턴 분류기를 소개한다. 전처리부분에는 차원축소 알고리즘 중 하나인 PCA(Principal Component Analysis)를 사용해 처리 속도를 향상시킬 뿐만 아니라 효과적인 데이터의 특성을 추출한다. 조건부에는 FCM(Fuzzy C-Means) 클러스터링을 사용한다. 결론부에는 다항식의 형태 중 하나인 1차 선형식을 연결가중치로서 사용한다. PSO와 5-fold cross validation은 성능의 신뢰도를 향상시키고, 분류율을 높이는데 사용된다. 제안된 분류기의 성능은 최적화한 것과 최적화하지 않은 것 두 가지의 관점에서 보여준다.

서브 밴드 CSP기반 FLD 및 PCA를 이용한 동작 상상 EEG 특징 추출 방법 연구 (A Method of Feature Extraction on Motor Imagery EEG Using FLD and PCA Based on Sub-Band CSP)

  • 박상훈;이상국
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1535-1543
    • /
    • 2015
  • 뇌-컴퓨터 인터페이스는 사용자의 뇌전도(Electroencephalogram: EEG)를 획득하여 생각만으로 기계를 제어하거나 신체장애를 가진 사람에게 손 또는 발과 같은 신체를 대신하여 의사 전달 수단으로 사용될 수 있다. 본 논문에서는 동작 상상 EEG를 분류하기 위해 Sub-Band Common Spatial Pattern(SBCSP)를 기반으로 필터 선택을 하지 않는 특징 추출 방법에 대해 연구한다. 4~40Hz의 동작 상상 신호를 4Hz 대역마다 나눈 9개의 서브 밴드에 각각 CSP를 적용한다. 이후 Fisher's Linear Discriminant(FLD)를 사용하여 도출된 값들을 결합한 FLD 점수 벡터에 차원 축소를 위한 Principal Component Analysis(PCA)를 적용하여 클래스 구분을 위한 최적의 평면에 특징을 투영한다. 데이터베이스는 BCI CompetitionIII dataset IVa(2 클래스: 오른손 다리)를 이용하며, 추출된 특징은 Least Squares Support Vector Machine(LS-SVM)의 입력으로 사용된다. 제안된 방법의 성능은 $10{\times}10$ fold cross-validation을 이용하여 분류 정확도로 나타낸다. 본 논문에서 제안하는 방법은 피험자 'aa', 'al', 'av', 'aw', 'ay'에 대하여 각각 $85.29{\pm}0.93%$, $95.43{\pm}0.57%$, $72.57{\pm}2.37%$, $91.82{\pm}1.38%$, $93.50{\pm}0.69%$의 분류 정확도를 보였다.

Non-destructive assessment of the three-point-bending strength of mortar beams using radial basis function neural networks

  • Alexandridis, Alex;Stavrakas, Ilias;Stergiopoulos, Charalampos;Hloupis, George;Ninos, Konstantinos;Triantis, Dimos
    • Computers and Concrete
    • /
    • 제16권6호
    • /
    • pp.919-932
    • /
    • 2015
  • This paper presents a new method for assessing the three-point-bending (3PB) strength of mortar beams in a non-destructive manner, based on neural network (NN) models. The models are based on the radial basis function (RBF) architecture and the fuzzy means algorithm is employed for training, in order to boost the prediction accuracy. Data for training the models were collected based on a series of experiments, where the cement mortar beams were subjected to various bending mechanical loads and the resulting pressure stimulated currents (PSCs) were recorded. The input variables to the NN models were then calculated by describing the PSC relaxation process through a generalization of Boltzmannn-Gibbs statistical physics, known as non-extensive statistical physics (NESP). The NN predictions were evaluated using k-fold cross-validation and new data that were kept independent from training; it can be seen that the proposed method can successfully form the basis of a non-destructive tool for assessing the bending strength. A comparison with a different NN architecture confirms the superiority of the proposed approach.

Classification method for failure modes of RC columns based on key characteristic parameters

  • Yu, Bo;Yu, Zecheng;Li, Qiming;Li, Bing
    • Structural Engineering and Mechanics
    • /
    • 제84권1호
    • /
    • pp.1-16
    • /
    • 2022
  • An efficient and accurate classification method for failure modes of reinforced concrete (RC) columns was proposed based on key characteristic parameters. The weight coefficients of seven characteristic parameters for failure modes of RC columns were determined first based on the support vector machine-recursive feature elimination. Then key characteristic parameters for classifying flexure, flexure-shear and shear failure modes of RC columns were selected respectively. Subsequently, a support vector machine with key characteristic parameters (SVM-K) was proposed to classify three types of failure modes of RC columns. The optimal parameters of SVM-K were determined by using the ten-fold cross-validation and the grid-search algorithm based on 270 sets of available experimental data. Results indicate that the proposed SVM-K has high overall accuracy, recall and precision (e.g., accuracy>95%, recall>90%, precision>90%), which means that the proposed SVM-K has superior performance for classification of failure modes of RC columns. Based on the selected key characteristic parameters for different types of failure modes of RC columns, the accuracy of SVM-K is improved and the decision function of SVM-K is simplified by reducing the dimensions and number of support vectors.

희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정 (Optimal number of dimensions in linear discriminant analysis for sparse data)

  • 신가인;김재직
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.867-876
    • /
    • 2017
  • 오늘날 관찰값의 개수에 비해 변수의 개수가 큰 희박한 데이터셋은 다양한 분야에서 쉽게 찾아볼 수 있고, 통계학에서 그러한 데이터셋에 대한 분석은 하나의 도전이 되어 왔다. 그러한 희박한 데이터에 대한 분류를 위해 판별분석모형들이 최근에 개발되었다. 그러한 판별분석모형들 중 하나의 접근법은 그룹들을 잘 구분해주는 차원들을 찾기를 시도하는데, 그러한 차원들은 데이터의 변수의 개수보다 훨씬 적다. 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.

Descriptor-Based Profile Analysis of Kinase Inhibitors to Predict Inhibitory Activity and to Grasp Kinase Selectivity

  • Park, Hyejin;Kim, Kyeung Kyu;Kim, ChangHoon;Shin, Jae-Min;No, Kyoung Tai
    • Bulletin of the Korean Chemical Society
    • /
    • 제34권9호
    • /
    • pp.2680-2684
    • /
    • 2013
  • Protein kinases (PKs) are an important source of drug targets, especially in oncology. With 500 or more kinases in the human genome and only few kinase inhibitors approved, kinase inhibitor discovery is becoming more and more valuable. Because the discovery of kinase inhibitors with an increased selectivity is an important therapeutic concept, many researchers have been trying to address this issue with various methodologies. Although many attempts to predict the activity and selectivity of kinase inhibitors have been made, the issue of selectivity has not yet been resolved. Here, we studied kinase selectivity by generating predictive models and analyzing their descriptors by using kinase-profiling data. The 5-fold cross-validation accuracies for the 51 models were between 72.4% and 93.7% and the ROC values for all the 51 models were over 0.7. The phylogenetic tree based on the descriptor distance is quite different from that generated on the basis of sequence alignment.