• 제목/요약/키워드: Regression estimators

검색결과 227건 처리시간 0.019초

On inference of multivariate means under ranked set sampling

  • Rochani, Haresh;Linder, Daniel F.;Samawi, Hani;Panchal, Viral
    • Communications for Statistical Applications and Methods
    • /
    • 제25권1호
    • /
    • pp.1-13
    • /
    • 2018
  • In many studies, a researcher attempts to describe a population where units are measured for multiple outcomes, or responses. In this paper, we present an efficient procedure based on ranked set sampling to estimate and perform hypothesis testing on a multivariate mean. The method is based on ranking on an auxiliary covariate, which is assumed to be correlated with the multivariate response, in order to improve the efficiency of the estimation. We showed that the proposed estimators developed under this sampling scheme are unbiased, have smaller variance in the multivariate sense, and are asymptotically Gaussian. We also demonstrated that the efficiency of multivariate regression estimator can be improved by using Ranked set sampling. A bootstrap routine is developed in the statistical software R to perform inference when the sample size is small. We use a simulation study to investigate the performance of the method under known conditions and apply the method to the biomarker data collected in China Health and Nutrition Survey (CHNS 2009) data.

Effect of outliers on the variable selection by the regularized regression

  • Jeong, Junho;Kim, Choongrak
    • Communications for Statistical Applications and Methods
    • /
    • 제25권2호
    • /
    • pp.235-243
    • /
    • 2018
  • Many studies exist on the influence of one or few observations on estimators in a variety of statistical models under the "large n, small p" setup; however, diagnostic issues in the regression models have been rarely studied in a high dimensional setup. In the high dimensional data, the influence of observations is more serious because the sample size n is significantly less than the number variables p. Here, we investigate the influence of observations on the least absolute shrinkage and selection operator (LASSO) estimates, suggested by Tibshirani (Journal of the Royal Statistical Society, Series B, 73, 273-282, 1996), and the influence of observations on selected variables by the LASSO in the high dimensional setup. We also derived an analytic expression for the influence of the k observation on LASSO estimates in simple linear regression. Numerical studies based on artificial data and real data are done for illustration. Numerical results showed that the influence of observations on the LASSO estimates and the selected variables by the LASSO in the high dimensional setup is more severe than that in the usual "large n, small p" setup.

Exploring modern machine learning methods to improve causal-effect estimation

  • Kim, Yeji;Choi, Taehwa;Choi, Sangbum
    • Communications for Statistical Applications and Methods
    • /
    • 제29권2호
    • /
    • pp.177-191
    • /
    • 2022
  • This paper addresses the use of machine learning methods for causal estimation of treatment effects from observational data. Even though conducting randomized experimental trials is a gold standard to reveal potential causal relationships, observational study is another rich source for investigation of exposure effects, for example, in the research of comparative effectiveness and safety of treatments, where the causal effect can be identified if covariates contain all confounding variables. In this context, statistical regression models for the expected outcome and the probability of treatment are often imposed, which can be combined in a clever way to yield more efficient and robust causal estimators. Recently, targeted maximum likelihood estimation and causal random forest is proposed and extensively studied for the use of data-adaptive regression in estimation of causal inference parameters. Machine learning methods are a natural choice in these settings to improve the quality of the final estimate of the treatment effect. We explore how we can adapt the design and training of several machine learning algorithms for causal inference and study their finite-sample performance through simulation experiments under various scenarios. Application to the percutaneous coronary intervention (PCI) data shows that these adaptations can improve simple linear regression-based methods.

Dental characteristics on panoramic radiographs as parameters for non-invasive age estimation: a pilot study

  • Harin Cheong;Akiko Kumagai;Sehyun Oh;Sang-Seob Lee
    • Anatomy and Cell Biology
    • /
    • 제56권4호
    • /
    • pp.474-481
    • /
    • 2023
  • The dental characteristics created by acquired dental treatments can be used as age estimators. This pilot study aimed to analyze the correlation between the number of teeth observed for dental characteristics and chronological age and to develop new non-invasive age estimation models. Dental features on panoramic radiographs (420 radiographs of subjects aged 20-89 years) were classified and coded. The correlation between the number of teeth for each selected code (codes V, X, T, F, P, and L) and age was observed, and multiple regression was performed to analyze the relationship between them. Eleven regression models with various combinations of dental sextants were presented. The model with the data from both sides of the posterior teeth on both jaws showed the best performance (root mean square error of 14.78 years and an adjusted R2 of 0.461). The model with all teeth was the second-best. Based on these results, we confirmed statistically significant correlations between certain dental features and chronological age. We also observed that some regression models performed sufficiently well to be used as adjunctive methods in forensic practice. These results provide valuable information for the design and performance of future full-scale studies.

중도절단 회귀모형에서 역절단확률가중 방법 간의 비교연구 (A comparison study of inverse censoring probability weighting in censored regression)

  • 신정민;김형우;신승준
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.957-968
    • /
    • 2021
  • 역중도절단확률가중(inverse censoring probability weighting, ICPW)은 생존분석에서 흔히 사용되는 방법이다. 중도절단 회귀모형과 같은 ICPW 방법의 응용에 있어서 중도절단 확률의 정확한 추정은 핵심적인 요소라고 할 수 있다. 본 논문에서는 중도절단 확률의 추정이 ICPW 기반 중도절단 회귀모형의 성능에 어떠한 영향을 주는지 모의실험을 통하여 알아보았다. 모의실험에서는 Kaplan-Meier 추정량, Cox 비례위험(proportional hazard) 모형 추정량, 그리고 국소 Kaplan-Meier 추정량 세 가지를 비교하였다. 국소 KM 추정량에 대해서는 차원의 저주를 피하기 위해 공변량의 차원축소 방법을 추가적으로 적용하였다. 차원축소 방법으로는 흔히 사용되는 주성분분석(principal component analysis, PCA)과 절단역회귀(sliced inverse regression)방법을 고려하였다. 그 결과 Cox 비례위험 추정량이 평균 및 중위수 중도절단 회귀모형 모두에서 중도절단 확률을 추정하는 데 가장 좋은 성능을 보여주었다.

Stability of Construction Cost-variability Factor Rankings from Professionals' Perspective: Evidence from Dar es Salaam -Tanzania

  • Shabani, Neema;Mselle, Justine;Sanga, Samwel Alananga;Kanuti, Arbogasti Isidori
    • Journal of Construction Engineering and Project Management
    • /
    • 제8권2호
    • /
    • pp.17-33
    • /
    • 2018
  • This study investigates the stability of professionals' cost variability factor-rankings across different levels of cost-variability and response scenarios. Descriptive statistics are used to examine the stability of factor-ranking for 20 cost variability factors and a Multinomial Logistic (MNL) regression model was implemented to examine the stability of cost variability factors across three cost variability levels. The finding on the descriptive statistics indicated that professionals' factors-rankings are stable only for external factors. The MNL regression results on factor-stability suggested that 8 out of the 20 evaluated factors were unstable determinant of lower cost variability levels. These factors are "risk associated with the project", "personal bias and poor professionalism of the estimators", "limited time available to complete the project", "lack of skills and experience by estimator" "geographical location of projects", "incomplete & rush designs for estimate", "unforeseen or unexpected site constraints", "high class bidders for the contractors". Similarly lack of experience and large size projects were observed to be unstable as well. These observations suggest that professionals' view on pre-tender cost variability factor-ranking yields unstable factor rankings hence should not be relied upon as the only mechanisms to mitigate cost related risks in construction projects.

이상치 탐지법을 이용한 강건 이분산 검정 (Robust tests for heteroscedasticity using outlier detection methods)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.399-408
    • /
    • 2016
  • 회귀분석에서 이분산이 발생할 경우 표준적 추정절차에 따른 결과는 유효하지 않게 되므로 이를 확인하는 것이 필요하다. 이분산 문제와 더불어 이상치가 함께 존재하면 이분산에 관한 진단은 왜곡될 수 있다. 이상치가 존재할 때 이분산을 진단하는 기존의 방법들은 강건통계량을 이용하거나 이상치를 제거하는 접근법을 사용한다. 이분산 문제에서 이상치를 탐지하기 위하여 여러 가지 접근법이 제시되었다. 본 연구에서는 이분산 진단과정에서 이상치를 배제하기 위하여 기존의 이분산 검정과정에 순차적 이상치 탐지법을 적용하는 절차를 제시한다. 제시된 방법은 모의실험 및 예제를 통해 기존의 검정방법과 검정력을 비교한다.

불연속 로그분산함수의 커널추정량들의 비교 연구 (Comparison study on kernel type estimators of discontinuous log-variance)

  • 허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.87-95
    • /
    • 2014
  • 분산함수가 불연속인 경우 Kang과 Huh (2006)는 잔차제곱을 이용한 Nadaraya-Watson 추정량으로 분산함수를 추정하였다. 음의 실수 값도 가질 수 있는 로그분산함수를 추정 대상으로 하여, 오차제곱의 분포를 ${\chi}^2$-분포로 가정하고 국소선형적합을 이용한 불연속 로그분산함수의 추정이 Huh(2013)에 의해 연구되었다. Chen 등 (2009)은 연속인 로그분산함수를 로그잔차제곱을 이용한 국소선형적합으로 추정하였다. 본 연구는 Chen 등의 추정법을 이용하여 불연속인 로그분산함수의 추정량을 제시하였다. 기존의 제안된 불연속인 로그분산함수의 추정량들과 제안된 추정량을 모의실험을 통하여 비교연구하고자 한다. 한편, 로그분산함수가 연속이지만 그 미분된 함수가 불연속일 경우, Huh (2013)의 방법과 제안된 방법으로 적합된 국소선형의 기울기를 이용하여 불연속인 미분된 로그 분산함수의 추정량을 제시하고자 한다. 이들 추정량의 비교 연구 또한 모의실험을 통하여 제시하고자 한다.

환율, GDP, 해외직접투자가 한국의 대동아시아 수출에 미치는 영향: 패널 FMOLS기법의 적용 (Effects of Exchange Rate, GDP, ODI on Export to the East Asia: Application the Panel FMOLS Approach)

  • 김창범
    • 통상정보연구
    • /
    • 제14권3호
    • /
    • pp.307-322
    • /
    • 2012
  • 본 논문은 패널 단위근, 패널 공적분, 패널 인과성 검정, 패널 FMOLS(fully modified OLS) 기법을 이용하여 한국의 대 동아시아 수출 결정요인을 분석하였다. 분석결과 변수들이 패널 단위근 검정을 통하여 단위근을 가지며 1차 차분 후 안정적인 자료로 전환됨을 알 수 있었으며, 패널 공적분 통계량 모두 공적분 관계가 존재하지 않는다는 귀무가설을 기각함으로써 적어도 하나의 공적분 벡터가 존재함을 알 수 있었다. 다음으로 패널 벡터오차수정모형을 도입하여 동태적 인과성 분석을 실시하였다. GDP변동이 수출변동에 영향을 미치고 수출변동이 GDP변동에 영향을 미침으로써 수출과 GDP 간에 쌍방적 인과관계가 존재함을 알 수 있었다. 그리고 ODI변동의 오차수정항 계수가 수출변동의 오차수정항 계수보다 약 1.65배 크게 나타나 ODI의 불균형에서 균형으로 조정속도가 수출보다 1.7배 정도 빠름을 확인할 수 있었다. 이와 더불어 패널 GM FMOLS 결과 환율이 1% 상승했을 때 수출이 0.28% 감소하고, GDP가 1% 증가했을 때 수출은 0.77% 증가하고, 해외직접투자가 1% 증가했을 때 수출은 0.11% 증가함을 알 수 있었다.

  • PDF

이웃정보시스템을 이용한 공간 소지역 추정량 비교 (Comparison of Spatial Small Area Estimators Based on Neighborhood Information Systems)

  • 김정숙;황희진;신기일
    • 응용통계연구
    • /
    • 제21권5호
    • /
    • pp.855-866
    • /
    • 2008
  • 최근 격자자료(lattice data) 분석 방법을 이용한 소지역 추정(small area estimation)이 연구되고 있으며 좋은 결과를 주고 있는 것으로 알려져 있다. 소지역 추정에 주로 사용되는 격자자료(lattice data) 분석의 경우 가장 자료를 잘 설명할 수 있는 이웃정보시스템을 사용하여야 분석의 효율을 향상시킨 수 있다. 최근 이강석과 신기일 (2008)은 지리정보시스템을 이용하여 만들어진 여러 이웃정보시스템을 비교, 분석하였다. 본 논문에서는 이강석과 신기일(2008)이 제안한 여러 이웃정보시스템이 소지역 추정에 얼마나 영향을 미치는지를 MSE, 커버리지, 캘리브레이션 그리고 회귀분석 방법 등을 이용하여 비교하였다. 2001년 경제활동인구조사의 실업자수 자료가 비교에 사용되었다.