• 제목/요약/키워드: Penalized Likelihood

검색결과 56건 처리시간 0.025초

비대칭 라플라스 분포를 이용한 분위수 회귀 (Quantile regression using asymmetric Laplace distribution)

  • 박혜정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권6호
    • /
    • pp.1093-1101
    • /
    • 2009
  • 분위수 회귀모형은 확률변수들 사이에 확률적인 관계구조를 포함한 함수 모형을 좀 더 완벽하게 추정하도록 제공한다. 본 논문에서는 함수 추정에 로버스트하다고 알려져 있는 서포트벡터기계 기법과 이중벌칙커널기계를 이용하여 분위수 회귀모형을 추정하고자 한다. 이중벌칙커널기계는 고차원의 입력변수에 대한 분위수 회귀가 요구될 때 분위수 회귀모형을 잘 추정한다고 알려져 있다. 또한 본 논문에서는 광범위한 형태의 분위수 회귀모형 추정을 위해서 정규분포보다 비대칭 라플라스 분포를 이용한다. 본 논문에서 제안한 모형은 분위수 회귀모형 추정을 위해서 서포트벡터기계 기법에 이중벌칙커널기계를 이용하여 각각의 평균과 분산을 동시에 추정한다. 평균과 분산함수 추정을 위해 사용된 커널함수의 모수들은 최적의 값을 찾기 위해 일반화근사 교차타당성을 이용한다.

  • PDF

frailtyHL 통계패키지를 이용한 프레일티 모형의 변수선택: 유방암 생존자료 (Variable Selection in Frailty Models using FrailtyHL R Package: Breast Cancer Survival Data)

  • 김보현;하일도;노맹석;나명환;송호천;김자혜
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.965-976
    • /
    • 2015
  • 통계적 모형에서 적절한 변수를 선택하는 것은 회귀분석에서 매우 중요하다. 최근 벌점 함수(예: LASSO 및 SCAD)와 함께 벌점화 가능도를 사용하는 변수 선택 방법들이 선형모형 및 일반화 선형모형과 같은 단순한 통계 모형에서 널리 연구되고 있다. 이러한 방법들의 주요 장점은 중요한 변수를 선택하고 동시에 회귀계수를 추정하는 것이다. 그러므로 이 방법들은 0으로 회귀계수를 추정함으로써 중요하지 않은 변수를 삭제한다. 이 논문에서는 콕스 비례 위험 모형의 한 확장인 준 모수적 프레일티 모형에서 벌점화된 다단계 가능도(h-likelihood; HL)를 기반으로 적절한 변수를 선택하는 방법을 연구한다. 이를 위해 세 가지 벌점 함수 LASSO, SCAD 및 HL을 사용한다. 본 논문에서는 변수선택을 효율적으로 하기 위해 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 새로운 함수를 개발하였다. 개발된 방법의 예증을 위해 전남대 의과대학 병원에서 수집된 유방암 생존자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 이 변수선택방법들의 상대적 장 단점에 대해 토론한다.

준모수적 방법을 이용한 랜덤 절편 로지스틱 모형 분석 (Semiparametric Approach to Logistic Model with Random Intercept)

  • 김미정
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1121-1131
    • /
    • 2015
  • 의학이나 사회과학에서 이진 데이터 분석 시 랜덤 절편(random intercept)을 갖는 로지스틱 모형이 유용하게 쓰이고 있다. 지금까지는 이러한 로지스틱 모형에서 랜덤 절편이 정규분포와 같은 모수 모형(parametric model)을 따른다는 가정과 설명변수와 랜덤 절편이 독립이라는 가정 하에 실행된 데이터 분석이 전반적이었다. 그러나 이러한 두 가지 가정은 다소 무리가 있다. 이 연구에서는 설명 변수와 랜덤 절편의 독립성을 가정하지 않고, 비모수 랜덤 절편을 따르는 로지스틱 모형의 방법론을 기존에 널리 쓰인 방법과 비교하여 설명하도록 한다. 케냐의 초등학생들의 영양 섭취 및 질병의 발병을 조사한 데이터에 이 방법을 적용하였다.

고령탑승자의 좌석별 상해정도에 관한 연구 (Multinomial Logit Framework to Evaluate the Impact of Seating Position on Senior Occupant Injury Severity in Traffic Accidents)

  • 최재성
    • 한국안전학회지
    • /
    • 제32권3호
    • /
    • pp.141-150
    • /
    • 2017
  • A rapid increase in traffic accidents involving senior vehicle occupants has been an issue in Korea because of the aging of the population occurring at one of the fastest rates in the world; unfortunately, few studies beyond several looking at the effect of senior occupants on the level of accident injury severity can be found in the literature. A Multinomial logit model was estimated with Newton-Raphson algorithm to perform bias-reducing penalized likelihood optimization. Model covariates integral to developing the model were included, but the main focus was on the interaction of seating position and injury to senior vehicle occupants. It was found that the likelihood of an accident resulting in a fatality increased: 2.2 times for the driver seat, 2.7 times for the front passenger seat, and even 6.7 times for the rear seat. A mandatory seatbelt law to be extended to the rear seat needs to pass the assembly as soon as possible, and government, industry, and safety groups should be encouraged to join forces to strongly carry out targeted campaigns for the wearing of seatbelts in all vehicle seats to enhance the safety of senior occupants as well as other occupants who are vulnerable to road traffic accidents.

Claims Reserving via Kernel Machine

  • Kim, Mal-Suk;Park, He-Jung;Hwang, Chang-Ha;Shim, Joo-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권4호
    • /
    • pp.1419-1427
    • /
    • 2008
  • This paper shows the kernel Poisson regression which can be applied in the claims reserving, where the row effect is assumed to be a nonlinear function of the row index. The paper concentrates on the chain-ladder technique, within the framework of the chain-ladder linear model. It is shown that the proposed method can provide better reserve estimates than the Poisson model. The cross validation function is introduced to choose optimal hyper-parameters in the procedure. Experimental results are then presented which indicate the performance of the proposed model.

  • PDF

Kernel Poisson Regression for Longitudinal Data

  • Shim, Joo-Yong;Seok, Kyung-Ha
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권4호
    • /
    • pp.1353-1360
    • /
    • 2008
  • An estimating procedure is introduced for the nonlinear mixed-effect Poisson regression, for longitudinal study, where data from different subjects are independent whereas data from same subject are correlated. The proposed procedure provides the estimates of the mean function of the response variables, where the canonical parameter is related to the input vector in a nonlinear form. The generalized cross validation function is introduced to choose optimal hyper-parameters in the procedure. Experimental results are then presented, which indicate the performance of the proposed estimating procedure.

  • PDF

디지털 영상복원을 위한 SMOSLG 알고리즘 (SMOSLG Algorithm for Digital Image Restoration)

  • 송민구;염준근
    • 한국정보처리학회논문지
    • /
    • 제6권12호
    • /
    • pp.3694-3702
    • /
    • 1999
  • OSL 알고리즘은 복잡한 초월함수 형태의 페널티 함수가 주어지더라도 쉽게 반복 알고리즘이 유도되는 장점을 갖지만, 평활상수의 수렴영역이 제한적인 단점이 있다. 우리는 이 문제를 해결하기 위해서 MPEMG 알고리즘을 제안한 바 있다. 그러나 이 알고리즘은 평활상수의 수렴영역은 확장되었지만 페널티 로그 우도를 증가시키는 수렴속도가 OSL 알고리즘보다 느리다는 문제점을 내포하고 있다. 따라서 본 연구에서는 평활상수의 수렴영역의 확장뿐만 아니라 수렴의 속도도 빠른 SMOSLG 디지털 영상복원 알고리즘을 제안하였고, 영상실험의 결과 제안된 알고리즘이 평활상수의 수렴영역 확장 및 수렴속도가 향상됨을 확인 할 수 있었다.

  • PDF

Efficient estimation and variable selection for partially linear single-index-coefficient regression models

  • Kim, Young-Ju
    • Communications for Statistical Applications and Methods
    • /
    • 제26권1호
    • /
    • pp.69-78
    • /
    • 2019
  • A structured model with both single-index and varying coefficients is a powerful tool in modeling high dimensional data. It has been widely used because the single-index can overcome the curse of dimensionality and varying coefficients can allow nonlinear interaction effects in the model. For high dimensional index vectors, variable selection becomes an important question in the model building process. In this paper, we propose an efficient estimation and a variable selection method based on a smoothing spline approach in a partially linear single-index-coefficient regression model. We also propose an efficient algorithm for simultaneously estimating the coefficient functions in a data-adaptive lower-dimensional approximation space and selecting significant variables in the index with the adaptive LASSO penalty. The empirical performance of the proposed method is illustrated with simulated and real data examples.

Multiple Group Testing Procedures for Analysis of High-Dimensional Genomic Data

  • Ko, Hyoseok;Kim, Kipoong;Sun, Hokeun
    • Genomics & Informatics
    • /
    • 제14권4호
    • /
    • pp.187-195
    • /
    • 2016
  • In genetic association studies with high-dimensional genomic data, multiple group testing procedures are often required in order to identify disease/trait-related genes or genetic regions, where multiple genetic sites or variants are located within the same gene or genetic region. However, statistical testing procedures based on an individual test suffer from multiple testing issues such as the control of family-wise error rate and dependent tests. Moreover, detecting only a few of genes associated with a phenotype outcome among tens of thousands of genes is of main interest in genetic association studies. In this reason regularization procedures, where a phenotype outcome regresses on all genomic markers and then regression coefficients are estimated based on a penalized likelihood, have been considered as a good alternative approach to analysis of high-dimensional genomic data. But, selection performance of regularization procedures has been rarely compared with that of statistical group testing procedures. In this article, we performed extensive simulation studies where commonly used group testing procedures such as principal component analysis, Hotelling's $T^2$ test, and permutation test are compared with group lasso (least absolute selection and shrinkage operator) in terms of true positive selection. Also, we applied all methods considered in simulation studies to identify genes associated with ovarian cancer from over 20,000 genetic sites generated from Illumina Infinium HumanMethylation27K Beadchip. We found a big discrepancy of selected genes between multiple group testing procedures and group lasso.

이분산 상황 하에서 정규혼합모형 기반 군집분석의 변수선택 (Variable Selection in Normal Mixture Model Based Clustering under Heteroscedasticity)

  • 김승구
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1213-1224
    • /
    • 2011
  • 관측치의 개수보다 변량의 개수가 더 많은 다변수 상황에서 정규혼합모형을 이용하여 군집분석을 하기 위해서는 비정보적인 변수들을 제거하는 과정이 필수적으로 요구된다. 이와 같은 변수선택과 군집의 동시 처리를 위한 기존 연구의 대부분은 군집별 등분산 가정 하에서 이루어져 왔으며, 비정보적인 변수를 제거하기 위해 주로 벌점화 우도 기법이 이용되었다. 본 연구에서는 약간 변형된 정규혼합모형을 기반으로 비현실적인 등분산 가정을 탈피하면서 효율적으로 비정보적인 변수를 제거하는 새로운 방법을 제공한다. 이 모형에 대한 타당성을 설명하였고, 모수 추정을 위한 EM 알고리즘을 유도하였다. 그리고 모의실험 및 실자료 실험을 통해 제안된 방법의 유효성을 보였다.