• 제목/요약/키워드: Bayesian variable selection

검색결과 46건 처리시간 0.028초

고차원 선형 및 로지스틱 회귀모형에 대한 변분 베이즈 방법 소개 (Introduction to variational Bayes for high-dimensional linear and logistic regression models)

  • 장인송;이경재
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.445-455
    • /
    • 2022
  • 본 논문에서는 고차원 희소 회귀분석을 위한 기존의 베이지안 방법들을 소개하고, 다양한 모의실험 세팅에서 성능을 비교한다. 특히, 확장 가능하고 정확한 베이지안 추론을 가능하게 하는 변분 베이즈 방법(variational Bayes method) (Ray와 Szabó, 2021) 에 중점을 둔다. 시뮬레이션 자료를 기반으로 한 희소 고차원 선형회귀분석을 실시하고 변분 베이즈 방법의 성능을 다른 베이지안 및 빈도론 방법들과 비교한다. 로지스틱 회귀분석에서 변분 베이즈 방법의 실제 성능을 확인하기 위해 백혈병 유전자 발현 자료를 사용하여 실자료 분석을 수행한다.

Grid-based Gaussian process models for longitudinal genetic data

  • Chung, Wonil
    • Communications for Statistical Applications and Methods
    • /
    • 제29권1호
    • /
    • pp.65-83
    • /
    • 2022
  • Although various statistical methods have been developed to map time-dependent genetic factors, most identified genetic variants can explain only a small portion of the estimated genetic variation in longitudinal traits. Gene-gene and gene-time/environment interactions are known to be important putative sources of the missing heritability. However, mapping epistatic gene-gene interactions is extremely difficult due to the very large parameter spaces for models containing such interactions. In this paper, we develop a Gaussian process (GP) based nonparametric Bayesian variable selection method for longitudinal data. It maps multiple genetic markers without restricting to pairwise interactions. Rather than modeling each main and interaction term explicitly, the GP model measures the importance of each marker, regardless of whether it is mostly due to a main effect or some interaction effect(s), via an unspecified function. To improve the flexibility of the GP model, we propose a novel grid-based method for the within-subject dependence structure. The proposed method can accurately approximate complex covariance structures. The dimension of the covariance matrix depends only on the number of fixed grid points although each subject may have different numbers of measurements at different time points. The deviance information criterion (DIC) and the Bayesian predictive information criterion (BPIC) are proposed for selecting an optimal number of grid points. To efficiently draw posterior samples, we combine a hybrid Monte Carlo method with a partially collapsed Gibbs (PCG) sampler. We apply the proposed GP model to a mouse dataset on age-related body weight.

제로팽창 음이항 회귀모형에 대한 베이지안 추론 (Bayesian Inference for the Zero In ated Negative Binomial Regression Model)

  • 심정숙;이동희;정병철
    • 응용통계연구
    • /
    • 제24권5호
    • /
    • pp.951-961
    • /
    • 2011
  • 본 논문에서는 제로팽창 음이항(ZINB) 회귀모형에서 회귀계수에 대한 추론방법으로 마코프체인몬테카를로(MC MC) 기법을 이용한 베이지안 추론방법을 제안하였다. 본 연구에서 고려한 ZINB 회귀모형은 반응변수의 평균뿐만 아니라 제로팽창확률에 대한 회귀모형을 고려한 것으로서 Jang, et al.(2010)의 연구를 확장한 것이다. 아울러 실제사례에 본 연구에서 제안한 베이지안 추론방법을 적용하고 과대산포를 허용하지 않는 제로팽창 포아송(ZIP) 회귀모형과 적합결과를 DIC를 이용하여 비교하였다. 실제 사례분석 결과 ZINB 회귀모형의 DIC가 ZIP모형보다 작게 나타나 ZINB 회귀모형이 ZIP 회귀모형보다 잘 적합되었음을 알 수 있었다.

베이지안 다변량 선형 모형을 이용한 청소년 패널 데이터 분석 (KCYP data analysis using Bayesian multivariate linear model)

  • 이인선;이근백
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.703-724
    • /
    • 2022
  • 다변량 경시적 자료 분석은 반복 측정된 자료에 존재하는 상관관계를 올바르게 추정하면서 자료를 분석해야 한다. 경시적 연구에서는 다변량 경시적 자료가 주로 생성되지만, 기존 통계적 모형은 대부분 단변량으로 분석되어 다변량 경시적 자료에 존재하는 복잡한 상관관계를 제대로 설명하지 못하게 된다. 따라서 본 논문에서는 복잡한 상관관계를 설명하기 위해 공분산 행렬을 모형화하는 다양한 방법에 대해 고찰한다. 그 중 수정된 콜레스키 분해, 수정된 콜레스키 블록분해와 초구분해를 살펴본다. 그리고 일반화 자기회귀모수 행렬이 가지는 희박성 문제를 해결하기 위해 베이지안 방법을 이용하여 청소년 패널 데이터를 분석한다. 청소년 패널 데이터는 다변량 경시적 자료이며, 반응 변수로는 학교 적응도, 학업 성취도, 휴대전화 의존도를 고려한다. 자기 상관 구조와 혁신 표준 편차 구조를 달리 가정하여 여러 모형을 비교한다. 가장 적합한 모형에 대해 학교 적응도와 학업 성취도에 대해 모든 설명 변수가 유의미하며, 휴대전화 의존도가 반응 변수일 때 사교육 시간을 제외한 모든 설명 변수가 유의미한 것으로 나타난다.

Pliable regression spline estimator using auxiliary variables

  • Oh, Jae-Kwon;Jhong, Jae-Hwan
    • Communications for Statistical Applications and Methods
    • /
    • 제28권5호
    • /
    • pp.537-551
    • /
    • 2021
  • We conducted a study on a regression spline estimator with a few pre-specified auxiliary variables. For the implementation of the proposed estimators, we adapted a coordinate descent algorithm. This was implemented by considering a structure of the sum of the residuals squared objective function determined by the B-spline and the auxiliary coefficients. We also considered an efficient stepwise knot selection algorithm based on the Bayesian information criterion. This was to adaptively select smoothly functioning estimator data. Numerical studies using both simulated and real data sets were conducted to illustrate the proposed method's performance. An R software package psav is available.

Model selection algorithm in Gaussian process regression for computer experiments

  • Lee, Youngsaeng;Park, Jeong-Soo
    • Communications for Statistical Applications and Methods
    • /
    • 제24권4호
    • /
    • pp.383-396
    • /
    • 2017
  • The model in our approach assumes that computer responses are a realization of a Gaussian processes superimposed on a regression model called a Gaussian process regression model (GPRM). Selecting a subset of variables or building a good reduced model in classical regression is an important process to identify variables influential to responses and for further analysis such as prediction or classification. One reason to select some variables in the prediction aspect is to prevent the over-fitting or under-fitting to data. The same reasoning and approach can be applicable to GPRM. However, only a few works on the variable selection in GPRM were done. In this paper, we propose a new algorithm to build a good prediction model among some GPRMs. It is a post-work of the algorithm that includes the Welch method suggested by previous researchers. The proposed algorithms select some non-zero regression coefficients (${\beta}^{\prime}s$) using forward and backward methods along with the Lasso guided approach. During this process, the fixed were covariance parameters (${\theta}^{\prime}s$) that were pre-selected by the Welch algorithm. We illustrated the superiority of our proposed models over the Welch method and non-selection models using four test functions and one real data example. Future extensions are also discussed.

베이지안 고차원 선형 회귀분석에서의 비교연구 (A comparison study of Bayesian high-dimensional linear regression models)

  • 신주원;이경재
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.491-505
    • /
    • 2021
  • 본 연구에서는, 고차원상황(p ≫ n)에서의 회귀분석 모형을 고려하여 다양한 베이지안 회귀분석 방법들을 비교하였다. Spike and slab 사전분포는 고차원 베이지안 회귀분석에서 가장 많이 사용되는 사전분포 중 하나이지만, 탐험해야 하는 모형 공간이 너무 크기 때문에 유한 표본에서 좋지 않은 성능을 보일 수 있다는 문제가 있다. 이에 대한 대안으로, horseshoe 사전분포를 비롯한 다양한 연속 수축사전분포들이 제안되어 사용되고 있다. 비록 위 사전분포들 각각에 대해서는 많은 연구들이 진행되고 있지만, 이들에 대한 포괄적인 비교연구는 매우 드물게 진행되고 있다. 따라서 본 연구에서는, spike and slab 사전분포와 다양한 연속수축사 전분포들을 다양한 상황에서 비교하는 연구를 진행 하였다. 각 방법의 성능은 회귀계수 추정 측면과 변수선택 측면을 나누어 비교하였다. 최종적으로, 본 연구에서 진행된 시뮬레이션 연구에 기반하여, 사용시 몇 가지 주의점과 제안들을 제시하였다.

최근접 이웃 규칙 기반 프로토타입 선택과 편의-분산을 이용한 성능 평가 (Nearest-neighbor Rule based Prototype Selection Method and Performance Evaluation using Bias-Variance Analysis)

  • 심세용;황두성
    • 전자공학회논문지
    • /
    • 제52권10호
    • /
    • pp.73-81
    • /
    • 2015
  • 이 논문은 프로토타입 선택 방법을 제안하고, 편의-분산 분해를 이용하여 최근접 이웃 알고리즘과 프로토타입 기반 분류 학습의 일반화 성능 비교 평가에 있다. 제안하는 프로토타입 분류기는 클래스 영역 내에서 가변 반지름을 이용한 다차원 구를 정의하고, 적은 수의 프로토타입으로 구성된 새로운 훈련 데이터 집합을 생성한다. 최근접 이웃 분류기는 새 훈련 집합을 이용하여 테스트 데이터의 클래스를 예측한다. 평균 기대 오류의 편의와 분산 요소를 분해하여 최근접 이웃 규칙, 베이지안 분류기, 고정 반지름을 이용한 프로토타입 선택 방법, 제안하는 프로토타입 선택 방법의 일반화 성능을 비교한다. 실험에서 제안하는 프로토타입 분류기의 편의-분산 변화 추세는 모든 훈련 데이터를 사용하는 최근접 이웃 알고리즘과 비슷한 편의-분산 추세를 보였으며, 프로토타입 선택 비율은 전체 데이터의 평균 약 27.0% 이하로 나타났다.

Bayesian Variable Selection in the Proportional Hazard Model with Application to DNA Microarray Data

  • Lee, Kyeon-Eun;Mallick, Bani K.
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.357-360
    • /
    • 2005
  • In this paper we consider the well-known semiparametric proportional hazards (PH) models for survival analysis. These models are usually used with few covariates and many observations (subjects). But, for a typical setting of gene expression data from DNA microarray, we need to consider the case where the number of covariates p exceeds the number of samples n. For a given vector of response values which are times to event (death or censored times) and p gene expressions (covariates), we address the issue of how to reduce the dimension by selecting the significant genes. This approach enable us to estimate the survival curve when n < < p. In our approach, rather than fixing the number of selected genes, we will assign a prior distribution to this number. The approach creates additional flexibility by allowing the imposition of constraints, such as bounding the dimension via a prior, which in effect works as a penalty. To implement our methodology, we use a Markov Chain Monte Carlo (MCMC) method. We demonstrate the use of the methodology to diffuse large B-cell lymphoma (DLBCL) complementary DNA(cDNA) data.

  • PDF

Evolution Strategies Based Particle Filters for Simultaneous State and Parameter Estimation of Nonlinear Stochastic Models

  • Uosaki, K.;Hatanaka, T.
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.1765-1770
    • /
    • 2005
  • Recently, particle filters have attracted attentions for nonlinear state estimation. In this approaches, a posterior probability distribution of the state variable is evaluated based on observations in simulation using so-called importance sampling. We proposed a new filter, Evolution Strategies based particle (ESP) filter to circumvent degeneracy phenomena in the importance weights, which deteriorates the filter performance, and apply it to simultaneous state and parameter estimation of nonlinear state space models. Results of numerical simulation studies illustrate the applicability of this approach.

  • PDF