• 제목/요약/키워드: variable selection

검색결과 874건 처리시간 0.026초

대학 평가지표들에 대한 상관분석과 변수선택에 의한 선형모형추정 (The correlation and regression analyses based on variable selection for the university evaluation index)

  • 송필준;김종태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권3호
    • /
    • pp.457-465
    • /
    • 2012
  • 본 연구의 목적은 한국대학교육협의회 대학정보공시센터의 '대학알리미'에서 주요 대학지표들을 분석하고, 지표들 간의 연관성과 통계적 모형을 추정하는데 있다. 먼저 상관계수에 대한 통계적 검정을 이용하여 변수들 간의 통계적으로 유의한 상관성을 추정하고, 이들 주요 지표들의 모형을 추정하기 위해서 회귀분석 방법의 변수선택 방법을 이용하여 회귀 방정식을 추정하여 변수들 간의 연관성을 조사하였다. 변수선택의 판정기준에 따른 방법으로 전진선택법과 후진제거법, 단계별 회귀방법을 사용하였다.

다수준 프레일티모형 변수선택법을 이용한 다기관 방광암 생존자료분석 (Analysis of multi-center bladder cancer survival data using variable-selection method of multi-level frailty models)

  • 김보현;하일도;이동환
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.499-510
    • /
    • 2016
  • 생존분석 회귀모형에서 적절한 변수를 선택하는 것은 매우 중요하다. 본 논문에서는 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 다수준 프레일티 모형 (multi-level frailty models)에서 벌점화 변수선택 방법 (penalized variable-selection method)의 절차를 소개한다. 여기서 모형 추정은 벌점화 다단계 가능도에 기초하며, 세 가지 벌점 함수 (LASSO, SCAD 및 HL)가 고려된다. 개발된 방법의 예증을 위해 벨기에 EORTC (European Organization for Research and Treatment of Cancer; 유럽 암 치료기구)에서 수행된 다국가/다기관 임상시험 자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 그 결과들의 상대적 장 단점에 대해 토론한다. 특히, 자료 분석 결과에 의하면 SCAD와 HL방법이 LASSO보다 중요한 변수를 잘 선택하는 것으로 나타났다.

희박 공분산 행렬에 대한 베이지안 변수 선택 방법론 비교 연구 (A comparison study of Bayesian variable selection methods for sparse covariance matrices)

  • 김봉수;이경재
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.285-298
    • /
    • 2022
  • 연속 수축 사전분포는 spike and slab 사전분포와 더불어, 희박 회귀계수 벡터 또는 공분산 행렬에 대한 베이지안 추론을 위해 널리 사용되고 있다. 특히 고차원 상황에서, 연속 수축 사전분포는 spike and slab 사전분포에 비해 매우 작은 모수공간을 가짐으로써 계산적인 이점을 가진다. 하지만 연속 수축 사전분포는 정확히 0인 값을 생성하지 않기 때문에, 이를 이용한 변수 선택이 자연스럽지 않다는 문제가 있다. 비록 연속 수축 사전분포에 기반한 변수 선택 방법들이 개발되어 있기는 하지만, 이들에 대한 포괄적인 비교연구는 거의 진행되어 있지 않다. 본 논문에서는, 연속 수축 사전분포에 기반한 두 가지의 변수 선택 방법들을 비교하려 한다. 첫 번째 방법은 신용구간에 기반한 변수 선택, 두 번째 방법은 최근 Li와 Pati (2017)가 개발한 sequential 2-means 알고리듬이다. 두 방법에 대한 간략한 소개를 한 뒤, 다양한 모의실험 상황에서 자료를 생성하여 두 방법들의 성능을 비교하였다. 끝으로, 모의실험으로부터 발견한 몇 가지 사실들을 기술하고, 이로부터 몇 가지 제안을 하며 논문을 마치려 한다.

수정 결정계수를 사용한 로지스틱 회귀모형에서의 변수선택법 (Variable Selection for Logistic Regression Model Using Adjusted Coefficients of Determination)

  • 홍종선;함주형;김호일
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.435-443
    • /
    • 2005
  • 로지스틱 회귀모형에서 결정계수는 선형 회귀모형보다 다양하게 정의되며 그 값들도 매우 작아 로지스틱 회귀모형 평가기준으로 사용되는 통계량이 라고 할 수 없다. Liao와 McGee(2003)는 부적절한 설명변수의 추가 또는 표본크기의 변화에 민감하지 않은 두 종류의 수정 결정계수를 제안하였다. 본 연구에서는 실제자료에 적용한 로지스틱 회귀모형에서 수정 결정계수를 포함한 네 종류의 결정계수들을 변수선택의 기준으로 사용하여 기존의 변수선택 방법인 전진선택, 후진제거, 단계적 선택방법, AIC 통계량 등을 사용한 방법들과 비교하여 그 적절함과 효율성을 토론한다.

An Application of the Clustering Threshold Gradient Descent Regularization Method for Selecting Genes in Predicting the Survival Time of Lung Carcinomas

  • Lee, Seung-Yeoun;Kim, Young-Chul
    • Genomics & Informatics
    • /
    • 제5권3호
    • /
    • pp.95-101
    • /
    • 2007
  • In this paper, we consider the variable selection methods in the Cox model when a large number of gene expression levels are involved with survival time. Deciding which genes are associated with survival time has been a challenging problem because of the large number of genes and relatively small sample size (n<

온.오프라인 은행거래를 위한 매체선택 영향 요인 (Analysis Influential Factors for Media Selection in Banking Transaction Context)

  • 조남재;박기호;임혜경
    • 디지털융복합연구
    • /
    • 제6권3호
    • /
    • pp.75-84
    • /
    • 2008
  • The purpose of our this research, based on the Media Selection Theory, the Technology Acceptance Model, and the Social Influence Theory, is to investigate the influential factors that affect media selection in banking transactions. Analyses showed that for location sensitive bank window's and ATMs (automatic teller machines), defined as offline-based transaction channels, convenience was the variable affecting media selection. However, in the case of online media not related to location, (phone banking, internet banking, and mobile banking) reliability was the significant variable influencing use. The findings show that banking organizations may benefit from identifying traits of media affecting use, and should differentiate customer services for competitive advantage.

  • PDF

Major Criteria for Channel Selection in Banking Transaction

  • Cho, Nam-Jae;Park, Ki-Ho
    • Journal of Information Technology Applications and Management
    • /
    • 제16권1호
    • /
    • pp.169-183
    • /
    • 2009
  • The purpose of this research, based on the Media Selection Theory, the Technology Acceptance Model, and the Social Influence Theory, is to investigate the influential factors that affect media selection in banking transactions. Analyses showed that for location sensitive bank windows and ATMs(automatic teller machines), defined as offline-based transaction channels, convenience was the variable affecting media selection. However, in the case of online media not related to location, (phone banking, internet banking, and mobile banking) reliability was the significant variable influencing use. The findings show that banking organizations may benefit from identifying traits of media affecting use, and should differentiate customer services for competitive advantage.

  • PDF

A Bayesian Method for Narrowing the Scope fo Variable Selection in Binary Response t-Link Regression

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제29권4호
    • /
    • pp.407-422
    • /
    • 2000
  • This article is concerned with the selecting predictor variables to be included in building a class of binary response t-link regression models where both probit and logistic regression models can e approximately taken as members of the class. It is based on a modification of the stochastic search variable selection method(SSVS), intended to propose and develop a Bayesian procedure that used probabilistic considerations for selecting promising subsets of predictor variables. The procedure reformulates the binary response t-link regression setup in a hierarchical truncated normal mixture model by introducing a set of hyperparameters that will be used to identify subset choices. In this setup, the most promising subset of predictors can be identified as that with highest posterior probability in the marginal posterior distribution of the hyperparameters. To highlight the merit of the procedure, an illustrative numerical example is given.

  • PDF

실시간 오차 보정을 위한 열변형 오차 모델의 최적 변수 선택 (Optimal Variable Selection in a Thermal Error Model for Real Time Error Compensation)

  • 황석현;이진현;양승한
    • 한국정밀공학회지
    • /
    • 제16권3호통권96호
    • /
    • pp.215-221
    • /
    • 1999
  • The object of the thermal error compensation system in machine tools is improving the accuracy of a machine tool through real time error compensation. The accuracy of the machine tool totally depends on the accuracy of thermal error model. A thermal error model can be obtained by appropriate combination of temperature variables. The proposed method for optimal variable selection in the thermal error model is based on correlation grouping and successive regression analysis. Collinearity matter is improved with the correlation grouping and the judgment function which minimizes residual mean square is used. The linear model is more robust against measurement noises than an engineering judgement model that includes the higher order terms of variables. The proposed method is more effective for the applications in real time error compensation because of the reduction in computational time, sufficient model accuracy, and the robustness.

  • PDF

A two-step approach for variable selection in linear regression with measurement error

  • Song, Jiyeon;Shin, Seung Jun
    • Communications for Statistical Applications and Methods
    • /
    • 제26권1호
    • /
    • pp.47-55
    • /
    • 2019
  • It is important to identify informative variables in high dimensional data analysis; however, it becomes a challenging task when covariates are contaminated by measurement error due to the bias induced by measurement error. In this article, we present a two-step approach for variable selection in the presence of measurement error. In the first step, we directly select important variables from the contaminated covariates as if there is no measurement error. We then apply, in the following step, orthogonal regression to obtain the unbiased estimates of regression coefficients identified in the previous step. In addition, we propose a modification of the two-step approach to further enhance the variable selection performance. Various simulation studies demonstrate the promising performance of the proposed method.