• 제목/요약/키워드: Stepwise selection

검색결과 156건 처리시간 0.028초

Risk Prediction Using Genome-Wide Association Studies on Type 2 Diabetes

  • Choi, Sungkyoung;Bae, Sunghwan;Park, Taesung
    • Genomics & Informatics
    • /
    • 제14권4호
    • /
    • pp.138-148
    • /
    • 2016
  • The success of genome-wide association studies (GWASs) has enabled us to improve risk assessment and provide novel genetic variants for diagnosis, prevention, and treatment. However, most variants discovered by GWASs have been reported to have very small effect sizes on complex human diseases, which has been a big hurdle in building risk prediction models. Recently, many statistical approaches based on penalized regression have been developed to solve the "large p and small n" problem. In this report, we evaluated the performance of several statistical methods for predicting a binary trait: stepwise logistic regression (SLR), least absolute shrinkage and selection operator (LASSO), and Elastic-Net (EN). We first built a prediction model by combining variable selection and prediction methods for type 2 diabetes using Affymetrix Genome-Wide Human SNP Array 5.0 from the Korean Association Resource project. We assessed the risk prediction performance using area under the receiver operating characteristic curve (AUC) for the internal and external validation datasets. In the internal validation, SLR-LASSO and SLR-EN tended to yield more accurate predictions than other combinations. During the external validation, the SLR-SLR and SLR-EN combinations achieved the highest AUC of 0.726. We propose these combinations as a potentially powerful risk prediction model for type 2 diabetes.

농촌개발사업의 추진실적 평가항목 선정 및 가중치 산정에 관한 연구 - 농림어업인 삶의 질 향상 및 농산어촌지역개발 시행계획 추진실적 평가를 중심으로 - (The Selection of Evaluation Items and the Estimation of Its Weight for Rural Development Program : A Case of the Enhancement Program of the Quality of Life for Farmers and Fishermen and Rural Development)

  • 황한철
    • 농촌계획
    • /
    • 제13권2호
    • /
    • pp.17-26
    • /
    • 2007
  • This study aims to develop a rational evaluation system which consists of the selection of evaluation items and the estimation of its weight for the Enhancement Program of the Quality of Life for Farmers and Fishermen and Rural Development. This system has two hierarchical steps. The first step shows the evaluation goals which are relevance, efficiency and effectiveness of the program. The second step stands for the evaluation items which have 11 sub-items such as necessity and externalization for the program, rationality of procedures, feedback and monitoring system, budgetary allocations, information activities, impacts on the program, achievements of the goals and so on. A tentative evaluation system was proposed by brainstorming and Delphi method of expert-group. Weighting values of evaluation items were calculated through pair-comparison works of expert group using stepwise matrix sheets by AHP(Analytic Hierarchy Process).

입학사정관 교육훈련을 위한 교육과정 개발 - J대학 사례연구 (Curriculum development for education and training of admissions officer - J university case)

  • 한동욱
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.857-866
    • /
    • 2011
  • 입학사정관제는 그 본질 상 정량적인 평가보다는 정성적인 형태의 다양한 평가요소를 대상으로 지원자의 정보를 주관적, 종합적으로 평가하는 것이 주된 내용을 이루므로, 무엇보다도 입학사정관이 다양한 전형요소를 종합적으로 판단하여 선발할 수 있는 전문가적 능력의 구비와 공정한 선발을 기할 수 있는 선발의 공정성 확보가 중요시 되는 제도이다. 그런데 공정성을 확보하기 위해서는 전문성이 필요하며, 이를 위해서는 전문성 강화 교육이 이루어져야 한다. 본 연구에서는 J대학교 입학사정관 교육.훈련을 위한 교육과정을 개발해 보았다. 그 결과 9개의 영역으로 이루어진 교육내용 및 주요 교과목을 제시하였다. 나아가 제시된 교육 훈련 프로그램이 소기의 목적을 달성하는데 필요한 사항들을 제안하였다.

기능저하 저수지 선정을 위한 다기준 의사결정기법 적용성 연구 (Study on Applicability of Multi-Criteria Decision Making Technique for Malfunctioning Reservoir Selection)

  • 심현철;최경숙
    • 한국농공학회논문집
    • /
    • 제59권3호
    • /
    • pp.11-19
    • /
    • 2017
  • The decision-making process is the act of finding the best solution among various alternatives through comparison between various criteria based on objectives of the project, evaluation standard, and conditions. However, in practice it is not easy to simply decide the optimum decision, especially for selecting malfunctioning reservoirs because no systematic evaluation criteria or standard assessment process are available. Therefore, this study adopted AHP method, which is a MCDM (multi-criteria decision making technique) to identify the malfunctioning reservoirs for efficient management of reservoirs. Important criteria of the selection of malfunctioning reservoirs and priority weights of each criteria were determined based on results of expert's survey under a stepwise hierarchical approach. The most important factor for the decision of malfunctioning reservoirs was obtained as Reservoir efficiency among the selected criteria including Reservoir efficiency decrease, Disaster Risk, Reservoir efficiency, Available water storage, Future water demand, Resident Needs. The AHP technique was applied on 11 reservoirs in Andong region to verify its applicability. Scoring method was applied for the comparison with the results of AHP method.

단계별 순서를 응용한 첫 일자리에서의 조기퇴직에 대한 영향력 분석 -2009년 대졸자 이동경로조사로부터 (Analysis of the impact on quitting one's first job using the stepwise sequence - based on graduates occupatinal mobility survey)

  • 정우호;이성임
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1191-1201
    • /
    • 2010
  • 본 연구에서는 2007년 한국고용정보원의 설문조사에 의한 <대졸자 이동경로조사 데이터>를 사용하여 첫 일자리에서의 조기퇴직에 대한 영향력을 분석하였다. 조사내용에 의하면 조기퇴직과 관련있는 설문문항의 수가 매우 크므로, 그 중에서 조기퇴직과 유의한 관련이 있는 문항 즉 설명변수들을 선택하는 데에는 현실적으로 많은 어려움이 존재한다. 본 논문에서는 설명변수의 수가 클 때 자료 분석에서 가능한 모형 선택의 기준을 고찰하고, Shtatland 등 (2003)에서 제안한 모형 선택의 절차를 응용하여 첫 일자리에서의 조기퇴직에 대한 영향력을 분석하였다.

컬러 영상에서 평균 이동 클러스터링과 단계별 영역 병합을 이용한 자동 원료 분류 알고리즘 (Automatic Classification Algorithm for Raw Materials using Mean Shift Clustering and Stepwise Region Merging in Color)

  • 김상준;곽준영;고병철
    • 방송공학회논문지
    • /
    • 제21권3호
    • /
    • pp.425-435
    • /
    • 2016
  • 본 논문에서는 카메라로부터 입력된 영상으로부터 쌀, 커피, 녹차 등 다양한 원료를 양품과 불량품으로 자동 분류하기 위한 분류 모델을 제안한다. 현재 농산물 원료 분류를 위해서 주로 숙달된 노동력의 육안 선택에 의존하고 있지만 작업시간이 길어질수록 반복적인 작업에 의해 분류 능력이 현저히 떨어지는 문제점이 있다. 노동력에 부분적으로 의존하는 기존 제품의 문제점을 해결하기 위해, 본 논문에서는 평균-이동 클러스터링 알고리즘과 단계별 영역 병합 알고리즘을 결합하는 비전기반 자동 원료 분류 알고리즘을 제안한다. 우선 입력 원료 영상에서 평균-이동 클러스터링 알고리즘을 적용하여 영상을 N개의 클러스터 영역으로 분할한다. 다음단계에서 N개의 클러스터 영역 중에서 대표 영역을 선택하고 이웃 영역들의 영역의 색상과 위치 근접성을 기반으로 단계별 영역 병합 알고리즘을 적용하여 유사한 클러스터 영역을 병합한다. 병합된 원료 객체는 RG, GB, BR의 2D 색상 분표로 표현되고, 병합된 원료 객체에 대해 색상 분포 타원을 만든다. 이후 미리 실험적으로 설정된 임계값을 적용하여 원료를 양품과 불량품을 구분한다. 다양한 원료 영상에 대해 본 논문에서 제안하는 알고리즘을 적용한 결과 기존의 클러스터링 알고리즘이나 상업용 분류 방법에 비해 사용자의 인위적 조작이 덜 필요하고 분류성능이 우수한 결과를 나타냄을 알 수 있었다.

케이프선 시장 운임의 결정요인 및 운임예측 모형 분석 (An Analysis on Determinants of the Capesize Freight Rate and Forecasting Models)

  • 임상섭;윤희성
    • 한국항해항만학회지
    • /
    • 제42권6호
    • /
    • pp.539-545
    • /
    • 2018
  • 운임시장의 심한 변동성과 시계열 데이터의 불안정성으로 해운시황 예측에 대한 연구가 큰 성과를 내지 못하고 있지만 최근 대표적인 비선형 모델인 기계학습모델을 적용한 연구들이 활발히 진행되고 있다. 대부분의 기존 연구가 계량모델의 설계단계에서 입력변수에 해당하는 요인들을 기존 문헌연구와 연구자의 직관에 의존하여 선정했기 때문에 요인선정에 대한 체계적인 연구가 필요하다. 본 연구에서는 케이프선 운임을 대상으로 단계적 회귀모형과 랜덤포레스트모델을 이용하여 중요 영향요인을 분석하였다. 해운시장에서 비교적 단순한 수급구조를 가져 요인파악이 용이한 케이프선 운임을 대상으로 하였으며 총 16개의 수급요인들을 사전 추출하였다. 요인간의 상호관련성을 파악하여 단계적 회귀는 8개 요인, 랜덤포레스트는 10개 요인을 분석대상으로 선정하였으며 선정된 변수를 입력변수로 하여 예측한 결과를 비교하였다. 랜덤포레스트의 예측성능이 아주 우수하였는데 수요요인이 주로 선정된 단계적 회귀분석과는 달리 공급요인이 비중 있게 선정되었기 때문인 것으로 판단된다. 본 연구는 운임예측 연구에 있어 운임결정요인에 대한 과학적인 근거를 마련하였으며 이를 위해 기계학습 기반의 모델을 활용하였다는데 연구적 의의가 있다. 또한 시장정보의 분석에 있어 실무자들이 어떤 변수에 중점을 두어야 하는지에 대해 합리적 근거를 제시한 측면에서 해운기업의 의사결정에 실질적 도움이 될 것으로 기대된다.

랜덤 포리스트를 이용한 비제어 급성 출혈성 쇼크의 흰쥐에서의 생존 예측 (A Survival Prediction Model of Rats in Uncontrolled Acute Hemorrhagic Shock Using the Random Forest Classifier)

  • 최준열;김성권;구정모;김덕원
    • 대한의용생체공학회:의공학회지
    • /
    • 제33권3호
    • /
    • pp.148-154
    • /
    • 2012
  • Hemorrhagic shock is a primary cause of deaths resulting from injury in the world. Although many studies have tried to diagnose accurately hemorrhagic shock in the early stage, such attempts were not successful due to compensatory mechanisms of humans. The objective of this study was to construct a survival prediction model of rats in acute hemorrhagic shock using a random forest (RF) model. Heart rate (HR), mean arterial pressure (MAP), respiration rate (RR), lactate concentration (LC), and peripheral perfusion (PP) measured in rats were used as input variables for the RF model and its performance was compared with that of a logistic regression (LR) model. Before constructing the models, we performed 5-fold cross validation for RF variable selection, and forward stepwise variable selection for the LR model to examine which variables were important for the models. For the LR model, sensitivity, specificity, accuracy, and area under the receiver operating characteristic curve (ROC-AUC) were 0.83, 0.95, 0.88, and 0.96, respectively. For the RF models, sensitivity, specificity, accuracy, and AUC were 0.97, 0.95, 0.96, and 0.99, respectively. In conclusion, the RF model was superior to the LR model for survival prediction in the rat model.

Designing Hypothesis of 2-Substituted-N-[4-(1-methyl-4,5-diphenyl-1H-imidazole-2-yl)phenyl] Acetamide Analogs as Anticancer Agents: QSAR Approach

  • Bedadurge, Ajay B.;Shaikh, Anwar R.
    • 대한화학회지
    • /
    • 제57권6호
    • /
    • pp.744-754
    • /
    • 2013
  • Quantitative structure-activity relationship (QSAR) analysis for recently synthesized imidazole-(benz)azole and imidazole - piperazine derivatives was studied for their anticancer activities against breast (MCF-7) cell lines. The statistically significant 2D-QSAR models ($r^2=0.8901$; $q^2=0.8130$; F test = 36.4635; $r^2$ se = 0.1696; $q^2$ se = 0.12212; pred_$r^2=0.4229$; pred_$r^2$ se = 0.4606 and $r^2=0.8763$; $q^2=0.7617$; F test = 31.8737; $r^2$ se = 0.1951; $q^2$ se = 0.2708; pred_$r^2=0.4386$; pred_$r^2$ se = 0.3950) were developed using molecular design suite (VLifeMDS 4.2). The study was performed with 18 compounds (data set) using random selection and manual selection methods used for the division of the data set into training and test set. Multiple linear regression (MLR) methodology with stepwise (SW) forward-backward variable selection method was used for building the QSAR models. The results of the 2D-QSAR models were further compared with 3D-QSAR models generated by kNN-MFA, (k-Nearest Neighbor Molecular Field Analysis) investigating the substitutional requirements for the favorable anticancer activity. The results derived may be useful in further designing novel imidazole-(benz)azole and imidazole-piperazine derivatives against breast (MCF-7) cell lines prior to synthesis.

Effect of Somatic Cell Score on Protein Yield in Holsteins

  • Khan, M.S.;Shook, G.E.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제11권5호
    • /
    • pp.580-585
    • /
    • 1998
  • The study was conducted to determine if variation in protein yield can be explained by expressions of early lactation somatic cell score (SCS) and if prediction can be improved by including SCS among the predictors. A data set was prepared (n = 663,438) from Wisconsin Dairy Improvement Association (USA) records for protein yield with sample days near 20. Stepwise regression was used requiring F statistic (p < .01) for any variable to stay in the model. Separate analyses were run for 12 combinations of four seasons and first three parities. Selection of SCS variables was not consistent across seasons or lactations. Coefficients of detennination ($R^2$) ranged from 51 to 61% with higher values for earlier lactations. Including any expression of SCS in the prediction equations improved $R^2$ by < 1 %. SCS was associated with milk yield on the sample day, but the association was not strong enough to improve the prediction of future yield when other expressions of milk yield were in the model.