• 제목/요약/키워드: Ensemble sensitivity analysis

검색결과 15건 처리시간 0.017초

HExDB: Human EXon DataBase for Alternative Splicing Pattern Analysis

  • Park, Junghwan;Lee, Minho;Bhak, Jong
    • Genomics & Informatics
    • /
    • 제3권3호
    • /
    • pp.80-85
    • /
    • 2005
  • HExDB is a database for analyzing exon and splicing pattern information in Homo sapiens. HExDB is useful for specific purposes: 1) to design primers for exon amplification from cDNA and 2) to understand the change of ORFs by alternative splicing. HExDB was constructed by integrating data from AltExtron which is the computationally predicted exon database, Ensemble cDNA annotation, and Affymetrix genome tile published recently. Although it may contain false positive data, HExDB is good starting point due to its sensitivity. At present, there areas many as 2,046,519 exons stored in the HExDB. We found that $16.8\%$ of the exons in the database was constitutive exons and $83.1\%$ were novel gene exons.

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.

확률론적 중장기 댐 유입량 예측 (II) 앙상블 댐 유입량 예측을 위한 GDAPS 활용 (Probabilistic Medium- and Long-Term Reservoir Inflow Forecasts (II) Use of GDAPS for Ensemble Reservoir Inflow Forecasts)

  • 김진훈;배덕효
    • 한국수자원학회논문집
    • /
    • 제39권3호
    • /
    • pp.275-288
    • /
    • 2006
  • 본 연구에서는 GDAPS(T213) 중기 기상 수치예보 자료를 활용한 ESP (Ensemble Streamflow Prediction) 기법을 개발하여 미래에 발생할 수 있는 댐 유입량의 중장기적 확률예측을 위해 초과 확률구간별 댐 유입량을 예측하고 RPSS 검증기법으로 예측결과의 정확도를 분석하였다. 개발된 ESP시스템을 적용한 결과 일단위 개념의 확률예보는 높은 불확실성을 내포할 수 있고, 중장기 확률예보에 초점을 맞추어 1, 3, 7일 등의 예측시간 해상도에 대한 ESP정확도의 민감도를 분석한 결과 예측시간 해상도 간격이 증가할수록 예측결과의 불확실성이 감소하면서 그 정확도가 전반적으로 증가함을 살펴볼 수 있었다. 이러한 결과를 바탕으로 GDAPS 자료를 활용한 1주 단위의 한달(28일)예보를 수행한 ESP 결과는 각 초과 확률구간 분포의 적절한 증가 및 감소로 인하여 그 시간적 변동성이 안정적으로 예측되고 예측결과의 불확실성을 감소시킬 수 있어 그 활용가치가 높은 것으로 나타났다. 이러한 관점에서 본 연구의 ESP 시스템은 중장기적 측면에서 GDAPS 자료의 활용가치를 높일 수 있고, 기존 ESP 결과보다 향상된 정확도로 댐 유입량을 예측할 수 있으므로 실시간 댐 유입량 예측에 적용한다면 수자원 관리 차원에서 유용한 수단이 될 수 있을 것이다.

Swarm-based hybridizations of neural network for predicting the concrete strength

  • Ma, Xinyan;Foong, Loke Kok;Morasaei, Armin;Ghabussi, Aria;Lyu, Zongjie
    • Smart Structures and Systems
    • /
    • 제26권2호
    • /
    • pp.241-251
    • /
    • 2020
  • Due to the undeniable importance of approximating the concrete compressive strength (CSC) in civil engineering, this paper focuses on presenting four novel optimizations of multi-layer perceptron (MLP) neural network, namely artificial bee colony (ABC-MLP), grasshopper optimization algorithm (GOA-MLP), shuffled frog leaping algorithm (SFLA-MLP), and salp swarm algorithm (SSA-MLP) for predicting this crucial parameter. The used dataset consists of 103 rows of information concerning seven influential parameters (cement, slag, water, fly ash, superplasticizer, fine aggregate, and coarse aggregate). In this work, the best-fitted complexity of each ensemble is determined by a population-based sensitivity analysis. The GOA distinguished its self by the least complexity (population size = 50) and emerged as the second time-effective optimizer. Referring to the prediction results, all tested algorithms are able to construct reliable networks. However, the SSA (Correlation = 0.9652 and Error = 1.3939) and GOA (Correlation = 0.9629 and Error = 1.3922) performed more accurately than ABC (Correlation = 0.7060 and Error = 4.0161) and SFLA (Correlation = 0.8890 and Error = 2.5480). Therefore, the SSA-MLP and GOA-MLP can be promising alternatives to laboratorial and traditional CSC evaluative methods.

Assessment of compressive strength of high-performance concrete using soft computing approaches

  • Chukwuemeka Daniel;Jitendra Khatti;Kamaldeep Singh Grover
    • Computers and Concrete
    • /
    • 제33권1호
    • /
    • pp.55-75
    • /
    • 2024
  • The present study introduces an optimum performance soft computing model for predicting the compressive strength of high-performance concrete (HPC) by comparing models based on conventional (kernel-based, covariance function-based, and tree-based), advanced machine (least square support vector machine-LSSVM and minimax probability machine regressor-MPMR), and deep (artificial neural network-ANN) learning approaches using a common database for the first time. A compressive strength database, having results of 1030 concrete samples, has been compiled from the literature and preprocessed. For the purpose of training, testing, and validation of soft computing models, 803, 101, and 101 data points have been selected arbitrarily from preprocessed data points, i.e., 1005. Thirteen performance metrics, including three new metrics, i.e., a20-index, index of agreement, and index of scatter, have been implemented for each model. The performance comparison reveals that the SVM (kernel-based), ET (tree-based), MPMR (advanced), and ANN (deep) models have achieved higher performance in predicting the compressive strength of HPC. From the overall analysis of performance, accuracy, Taylor plot, accuracy metric, regression error characteristics curve, Anderson-Darling, Wilcoxon, Uncertainty, and reliability, it has been observed that model CS4 based on the ensemble tree has been recognized as an optimum performance model with higher performance, i.e., a correlation coefficient of 0.9352, root mean square error of 5.76 MPa, and mean absolute error of 4.1069 MPa. The present study also reveals that multicollinearity affects the prediction accuracy of Gaussian process regression, decision tree, multilinear regression, and adaptive boosting regressor models, novel research in compressive strength prediction of HPC. The cosine sensitivity analysis reveals that the prediction of compressive strength of HPC is highly affected by cement content, fine aggregate, coarse aggregate, and water content.