• 제목/요약/키워드: one-leave-out cross-validation

검색결과 45건 처리시간 0.021초

LS-SVM for large data sets

  • Park, Hongrak;Hwang, Hyungtae;Kim, Byungju
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.549-557
    • /
    • 2016
  • In this paper we propose multiclassification method for large data sets by ensembling least squares support vector machines (LS-SVM) with principal components instead of raw input vector. We use the revised one-vs-all method for multiclassification, which is one of voting scheme based on combining several binary classifications. The revised one-vs-all method is performed by using the hat matrix of LS-SVM ensemble, which is obtained by ensembling LS-SVMs trained using each random sample from the whole large training data. The leave-one-out cross validation (CV) function is used for the optimal values of hyper-parameters which affect the performance of multiclass LS-SVM ensemble. We present the generalized cross validation function to reduce computational burden of leave-one-out CV functions. Experimental results from real data sets are then obtained to illustrate the performance of the proposed multiclass LS-SVM ensemble.

교차검증과 SVM을 이용한 도시침수 위험기준 추정 알고리즘 적용성 검토 (Applicability study on urban flooding risk criteria estimation algorithm using cross-validation and SVM)

  • 이한승;조재웅;강호선;황정근
    • 한국수자원학회논문집
    • /
    • 제52권12호
    • /
    • pp.963-973
    • /
    • 2019
  • 본 연구는 도시침수 위험기준이 산정되지 않은 지역의 예·경보 기준을 예측하기 위해 유역특성 자료와 피해이력 기반으로 산정된 한계강우량을 활용하여 도시침수 위험기준을 추정하는 모델을 검토하였다. 위험기준 추정모델은 머신러닝 알고리즘의 하나인 Support Vector Machine을 이용하여 설계하였으며, 학습자료는 지역별 한계강우량과 유역특성으로 구성하였다. 학습자료는 정규화 한 후 SVM 알고리즘에 적용하였으며, SVM에 적용시 Leave-One-Out과 K-fold 교차검증 알고리즘을 이용하여 절대평균오차와 표준편차를 계산한 후 모델의 성능을 평가하였다. Leave-One-Out의 경우 표준편차가 작은 모델이 최적모델로 선정되었으며, K-fold의 경우 fold의 개수가 적은 모델이 선정되었다. 선정된 모델의 지속시간별 평균 정확도는 80% 이상으로 나타나 침수 위험기준 추정을 위해 SVM을 활용가능 할 것으로 판단된다.

Prediction of retention of uncharged solutes in nanofiltration by means of molecular descriptors

  • Nowaczyk, Alicja;Nowaczyk, Jacek;Koter, Stanislaw
    • Membrane and Water Treatment
    • /
    • 제1권3호
    • /
    • pp.181-192
    • /
    • 2010
  • A linear quantitative structure-property relationship (QSPR) model is presented for the prediction of rejection in permeation through membrane. The model was produced by using the multiple linear regression (MLR) technique on the database consisting of retention data of 25 pesticides in 4 different membrane separation experiments. Among the 3224 different physicochemical, topological and structural descriptors that were considered as inputs to the model only 50 were selected using several criteria of elimination. The physical meaning of chosen descriptor is discussed in detail. The accuracy of the proposed MLR models is illustrated using the following evaluation techniques: leave-one-out cross validation procedure, leave-many-out cross validation procedure and Y-randomization.

Docking, CoMFA and CoMSIA Studies of a Series of N-Benzoylated Phenoxazines and Phenothiazines Derivatives as Antiproliferative Agents

  • Ghasemi, Jahan B.;Aghaee, Elham;Jabbari, Ali
    • Bulletin of the Korean Chemical Society
    • /
    • 제34권3호
    • /
    • pp.899-906
    • /
    • 2013
  • Using generated conformations from docking analysis by Gold algorithm, some 3D-QSAR models; CoMFA and CoMSIA have been created on 39 N-benzoylated phenoxazines and phenothiazines, including their S-oxidized analogues. These molecules inhibit the polymerization of tubulin into microtubules and thus they have been studied for the development of antitumor drugs. Training set for the CoMFA and CoMSIA models using 30 docked conformations gives $q^2$ Leave one out (LOO) values of 0.756 and 0.617, and $r^2$ ncv values of 0.988 and 0.956, respectively. The ability of prediction and robustness of the models were evaluated by test set, cross validation (leave-one-out and leave-ten-out), bootstrapping, and progressive scrambling approaches. The all-orientation search (AOS) was used to achieve the best orientation to minimize the effect of initial orientation of the structures. The docking results confirmed CoMFA and CoMSIA contour maps. The docking and 3D-QSAR studies were thoroughly interpreted and discussed and confirmed the experimental $pIC_{50}$ values.

Feasibility study of deep learning based radiosensitivity prediction model of National Cancer Institute-60 cell lines using gene expression

  • Kim, Euidam;Chung, Yoonsun
    • Nuclear Engineering and Technology
    • /
    • 제54권4호
    • /
    • pp.1439-1448
    • /
    • 2022
  • Background: We investigated the feasibility of in vitro radiosensitivity prediction with gene expression using deep learning. Methods: A microarray gene expression of the National Cancer Institute-60 (NCI-60) panel was acquired from the Gene Expression Omnibus. The clonogenic surviving fractions at an absorbed dose of 2 Gy (SF2) from previous publications were used to measure in vitro radiosensitivity. The radiosensitivity prediction model was based on the convolutional neural network. The 6-fold cross-validation (CV) was applied to train and validate the model. Then, the leave-one-out cross-validation (LOOCV) was applied by using the large-errored samples as a validation set, to determine whether the error was from the high bias of the folded CV. The criteria for correct prediction were defined as an absolute error<0.01 or a relative error<10%. Results: Of the 174 triplicated samples of NCI-60, 171 samples were correctly predicted with the folded CV. Through an additional LOOCV, one more sample was correctly predicted, representing a prediction accuracy of 98.85% (172 out of 174 samples). The average relative error and absolute errors of 172 correctly predicted samples were 1.351±1.875% and 0.00596±0.00638, respectively. Conclusion: We demonstrated the feasibility of a deep learning-based in vitro radiosensitivity prediction using gene expression.

풍속 자료의 공간예측 (Spatial Prediction of Wind Speed Data)

  • 정승환;박만식;김기환
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.345-356
    • /
    • 2010
  • 오래 전부터 지속적으로 제기된 기후변화에 의한 문제들은 전 세계적인 문제점으로 언급되고 있다. 이러한 환경적 위기에 처한 각 나라들의 대처방법 중에 하나는 친환경적이고 지속가능한 발전 설비를 마련하기 위한 노력과 연구를 진행하고 있다는 것이다. 그중에서 풍력을 이용한 발전은 해외 선진국에서 오래 전부터 개발되어 발전해 오고 있고 우리나라 역시 최근에 풍력 발전에 관심을 갖고 기술개발에 노력을 기울이고 있다. 이러한 실정에서 우리나라 지역의 풍력에 대한 분석 및 예측은 천연자원의 적절한 이용이라는 관점에서 매우 중요한 연구라고 할 수 있겠다. 본 논문에서는 기상청에서 제공하는 풍속 측정 자료로 선형회귀모형에 근간을 둔 추정방법을 이용하여 주요도서지역을 제외한 남한지역의 공간적 특성을 파악할 수 있는 적절한 모형을 찾고 각 모형의 비교를 실시하였다. 이 결과를 바탕으로 남한지역의 풍속 예측지도를 구성하였다.

미계측 유역의 홍수피해분석을 위한 자연유량의 홍수지표 기반 확률홍수량 산정 (Estimation of Flood Quantile in Ungauged Watersheds for Flood Damage Analysis Based on Flood Index of Natural Flow)

  • 채병석;최시중;안재현;김태웅
    • 대한토목학회논문집
    • /
    • 제38권1호
    • /
    • pp.175-182
    • /
    • 2018
  • 본 연구에서는 설계 강우-유출 관계 분석법으로 산정된 값을 지역빈도해석 기법을 바탕으로 보정하여 미계측 유역에서의 확률홍수량을 산정하는 방법을 제안하였다. 홍수빈도해석법과 설계 강우-유출 관계 분석법을 비교 분석한 결과, 설계 강우-유출 관계 분석법으로 산정된 확률홍수량이 약 52% 과대 산정되는 것으로 나타났다. 또한, 미계측 유역의 확률홍수량을 산정하기 위해서 유역 특성인자를 자연유량으로 지표화 하여 지역빈도해석법을 수행하였다. 이와 같은 세 가지 방법의 설계홍수량 산정법을 기반으로 미계측 유역을 대상으로 적용할 수 있는 보정식을 도출하였다. 미계측 유역에 대한 적용성을 검토하기 위해 Leave-One-Out Cross-Validation 기법과 Skill Score 기법을 적용하였다. 그 결과, 정확도가 기존의 설계 강우-유출 관계 분석법보다 23.2% 증가한 것으로 나타났다.

유전알고리즘을 이용한 유전자발현 데이타상의 특징-분류기쌍 최적 앙상블 탐색 (Searching for Optimal Ensemble of Feature-classifier Pairs in Gene Expression Profile using Genetic Algorithm)

  • 박찬호;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.525-536
    • /
    • 2004
  • 유전발현 데이타는 생명체의 특정 조직에서 채취한 샘플을 microarray상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이타이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현정도는 차이를 보이기 때문에, 유전발현 데이타를 통하여 질병을 분류할 수 있다. 이러한 분류에 모든 유전자들이 관여하지는 않으므로 관련 유전자를 선별하는 작업인 특징선택이 필요하며, 선택된 유전자들을 적절히 분류하는 방법이 필요하다. 본 논문에서는 상관계수, 유사도, 정보이론 등에 기반을 둔 7가지 특징선택 방법과 대표적인 6가지 분류기에 대하여 특징-분류기 쌍의 최적 앙상블을 탐색하기 위한 유전자 알고리즘 기반 방법을 제안한다. 두 가지 암 관련 유전자 발현 데이타에 대하여 leave-one-out cross validation을 포함한 실험을 해본 결과, 림프종 데이타와 대장암 데이타 모두 단일 특징-분류기 쌍보다 훨씬 우수한 성능을 보이는 앙상블들을 발견할 수 있었다.

조건부 합성방법을 이용한 위성관측 토양수분과 지상관측 토양수분의 합성 (Spatial merging of satellite based soil moisture and in-situ soil moisture using conditional merging technique)

  • 이재현;최민하;김동균
    • 한국수자원학회논문집
    • /
    • 제49권3호
    • /
    • pp.263-273
    • /
    • 2016
  • 기존에 레이더 강우자료의 합성에만 국한되었던 조건부 합성방법을 지상관측 토양수분과 위성관측 토양수분 자료에 적용하였다. 연구에 사용한 토양수분 자료는 농촌진흥청에서 제공하는 24개 관측소의 한시간 단위의 지상관측토양수분자료와 AQUA 위성의 Advanced Microwave Scanning Radiometer-Earth observing system (AMSR-E) 센서에서 관측된 토양수분 자료를 사용하였다. 교차검증방법(leave one out cross validation)을 사용하여 조건부 합성방법의 예측성능을 평가 하였고, 관측소별 교차검증 방법의 결과를 공간분포 시켜서 지역적인 특성을 분석하였다. 이 연구에서 도출된 결과는 다음과 같다. (1) 총 113일의 분석 기간 중 100일 이상의 기간에 대하여 조건부합성방법을 적용하였을 경우 AMSR-E 자료에 비해 지상관측자료와의 편차가 감소하는 것으로 나타났다. (2) 조건부 합성 방법의 예측 성능은 관측소의 밀도와 밀접한 관련을 나타내었으며, 관측소가 많이 밀집되어있는 한반도의 서쪽 지역에서 예측성능이 우세하게 나타났다. (3) 강우가 발생하지 않는 기간에 대한 AMSR-E의 낮은 정확도와 달리 조건부 합성방법은 무강우 기간에 대해서도 높은 예측성능을 나타내었다. 본 연구의 결과는 미계측 지역에 대한 토양수분을 추정하는 조건부 합성방법의 적용 가능성을 제시한다.

Multimodal Parametric Fusion for Emotion Recognition

  • Kim, Jonghwa
    • International journal of advanced smart convergence
    • /
    • 제9권1호
    • /
    • pp.193-201
    • /
    • 2020
  • The main objective of this study is to investigate the impact of additional modalities on the performance of emotion recognition using speech, facial expression and physiological measurements. In order to compare different approaches, we designed a feature-based recognition system as a benchmark which carries out linear supervised classification followed by the leave-one-out cross-validation. For the classification of four emotions, it turned out that bimodal fusion in our experiment improves recognition accuracy of unimodal approach, while the performance of trimodal fusion varies strongly depending on the individual. Furthermore, we experienced extremely high disparity between single class recognition rates, while we could not observe a best performing single modality in our experiment. Based on these observations, we developed a novel fusion method, called parametric decision fusion (PDF), which lies in building emotion-specific classifiers and exploits advantage of a parametrized decision process. By using the PDF scheme we achieved 16% improvement in accuracy of subject-dependent recognition and 10% for subject-independent recognition compared to the best unimodal results.