• 제목/요약/키워드: missing covariates

검색결과 19건 처리시간 0.024초

농업기상 결측치 보정을 위한 통계적 시공간모형 (A Missing Value Replacement Method for Agricultural Meteorological Data Using Bayesian Spatio-Temporal Model)

  • 박다인;윤상후
    • 한국환경과학회지
    • /
    • 제27권7호
    • /
    • pp.499-507
    • /
    • 2018
  • Agricultural meteorological information is an important resource that affects farmers' income, food security, and agricultural conditions. Thus, such data are used in various fields that are responsible for planning, enforcing, and evaluating agricultural policies. The meteorological information obtained from automatic weather observation systems operated by rural development agencies contains missing values owing to temporary mechanical or communication deficiencies. It is known that missing values lead to reduction in the reliability and validity of the model. In this study, the hierarchical Bayesian spatio-temporal model suggests replacements for missing values because the meteorological information includes spatio-temporal correlation. The prior distribution is very important in the Bayesian approach. However, we found a problem where the spatial decay parameter was not converged through the trace plot. A suitable spatial decay parameter, estimated on the bias of root-mean-square error (RMSE), which was determined to be the difference between the predicted and observed values. The latitude, longitude, and altitude were considered as covariates. The estimated spatial decay parameters were 0.041 and 0.039, for the spatio-temporal model with latitude and longitude and for latitude, longitude, and altitude, respectively. The posterior distributions were stable after the spatial decay parameter was fixed. root mean square error (RMSE), mean absolute error (MAE), mean absolute percentage error (MAPE), and bias were calculated for model validation. Finally, the missing values were generated using the independent Gaussian process model.

Sampling Based Approach to Bayesian Analysis of Binary Regression Model with Incomplete Data

  • Chung, Young-Shik
    • Journal of the Korean Statistical Society
    • /
    • 제26권4호
    • /
    • pp.493-505
    • /
    • 1997
  • The analysis of binary data appears to many areas such as statistics, biometrics and econometrics. In many cases, data are often collected in which some observations are incomplete. Assume that the missing covariates are missing at random and the responses are completely observed. A method to Bayesian analysis of the binary regression model with incomplete data is presented. In particular, the desired marginal posterior moments of regression parameter are obtained using Meterpolis algorithm (Metropolis et al. 1953) within Gibbs sampler (Gelfand and Smith, 1990). Also, we compare logit model with probit model using Bayes factor which is approximated by importance sampling method. One example is presented.

  • PDF

Breast Cancer and Modifiable Lifestyle Factors in Argentinean Women: Addressing Missing Data in a Case-Control Study

  • Coquet, Julia Becaria;Tumas, Natalia;Osella, Alberto Ruben;Tanzi, Matteo;Franco, Isabella;Diaz, Maria Del Pilar
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제17권10호
    • /
    • pp.4567-4575
    • /
    • 2016
  • A number of studies have evidenced the effect of modifiable lifestyle factors such as diet, breastfeeding and nutritional status on breast cancer risk. However, none have addressed the missing data problem in nutritional epidemiologic research in South America. Missing data is a frequent problem in breast cancer studies and epidemiological settings in general. Estimates of effect obtained from these studies may be biased, if no appropriate method for handling missing data is applied. We performed Multiple Imputation for missing values on covariates in a breast cancer case-control study of $C{\acute{o}}rdoba$ (Argentina) to optimize risk estimates. Data was obtained from a breast cancer case control study from 2008 to 2015 (318 cases, 526 controls). Complete case analysis and multiple imputation using chained equations were the methods applied to estimate the effects of a Traditional dietary pattern and other recognized factors associated with breast cancer. Physical activity and socioeconomic status were imputed. Logistic regression models were performed. When complete case analysis was performed only 31% of women were considered. Although a positive association of Traditional dietary pattern and breast cancer was observed from both approaches (complete case analysis OR=1.3, 95%CI=1.0-1.7; multiple imputation OR=1.4, 95%CI=1.2-1.7), effects of other covariates, like BMI and breastfeeding, were only identified when multiple imputation was considered. A Traditional dietary pattern, BMI and breastfeeding are associated with the occurrence of breast cancer in this Argentinean population when multiple imputation is appropriately performed. Multiple Imputation is suggested in Latin America's epidemiologic studies to optimize effect estimates in the future.

중간 사건이 결측되었거나 구간 중도절단된 준 경쟁 위험 자료에 대한 회귀모형 (Regression models for interval-censored semi-competing risks data with missing intermediate transition status)

  • 김진흠;김자연
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1311-1327
    • /
    • 2016
  • 본 논문에서는 종말 사건에 대한 정보는 주어져 있지만 중간 사건이 구간 중도절단되었거나 연구 기간 도중에 추적이 끊겨 중간 사건의 발생 유무를 모르는 준 경쟁 위험 자료에 다중상태모형을 적용하여 모수를 추정하는 방법을 제안하였다. 이를 위해 상태 간 전이 강도는 정규 프레일티를 랜덤효과로 가진 Cox 비례위험모형을 따른다고 가정하였다. 다섯 가지 상태를 가진 다중상태모형에서 가능한 여섯 가지 경로별로 조건부 우도를 정의하였고 주변 우도를 구하기 위해 조정 가우스 구적법을 적용하였으며 뉴튼-랩슨 방법으로 최적 해를 구하였다. 모수의 95% 신뢰구간 포함률을 통해 제안한 방법의 소표본 성질을 살펴보기 위해 모의실험을 수행하였으며, Persones $Ag{\acute{e}}es$ Quid(PAQUID) 자료 (Helmer 등, 2001)에 제안한 모형을 적용하고 그 결과를 해석하였다.

결측되었거나 구간중도절단된 중간사건을 가진 준경쟁적위험 자료에 대한 가산위험모형 (Additive hazards models for interval-censored semi-competing risks data with missing intermediate events)

  • 김자연;김진흠
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.539-553
    • /
    • 2017
  • 본 논문에서는 사망과 같은 종말사건의 발생 유무는 알고 있지만 치매 발병과 같은 중간사건이 구간중도절단 되었거나 연구 기간 도중에 추적이 끊겨 결측된 준경쟁적위험 자료에 대해 다중상태모형을 적용하여 모수를 추정하는 방법을 제안하였다. 이를 위해 본 논문에서는 상태 간의 전이강도는 로그정규 프레일티를 랜덤효과로 가진 Lin과 Ying(1994)의 가산위험모형을 따른다고 가정하였다. 다섯 가지 상태를 가진 다중상태모형에서 가능한 여섯 가지 경로별로 조건부우도를 정의하였고, 주변우도를 구하기 위해 조정중요표본추출법을 적용하였으며 반복유사뉴튼 방법으로 최적해를 구하였다. 소표본 모의실험을 통해 모수의 95% 신뢰구간 포함률이 명목값에 얼마나 가까운지 살펴보았으며, 제안한 모형을 Persones $Ag{\acute{e}}es$ Quid (PAQUID) 자료 (Helmer 등, 2001)에 적용하고 그 결과를 해석하였다.

주변화 모형을 이용한 의료 패널 이진 데이터 분석 (Analysis of medical panel binary data using marginalized models)

  • 오채영;이근백
    • 응용통계연구
    • /
    • 제37권4호
    • /
    • pp.467-484
    • /
    • 2024
  • 경시적 자료는 같은 개체를 반복 측정함으로써 시간의 흐름에 따른 반복 측정된 자료들 간의 상관관계가 존재한다. 따라서 경시적 자료분석에서는 이 상관관계를 분석할 때 개체 내 상관관계와 개체 간 변동성 모두를 고려해야 한다. 본 논문에서는 경시적 이진 자료를 분석하기 위한 모형 중 공변량의 모집단 평균 효과의 추정을 위해 주변화 모형에 집중하고자 한다. 경시적 이진 자료분석을 위한 주변화 모형으로는 주변화 임의효과, 주변화 전이, 주변화 전이 임의효과 모형이 있으며, 본 논문에서 이들 모형을 먼저 고찰하고, 그리고 모형들의 성능을 비교하기 위해 결측치가 없는 자료와 결측치가 있는 자료로 나눠서 모의실험을 진행한다. 모의실험에서 자료에 결측치가 있는 경우에 자료가 생성된 모형에 따른 성능 차이가 있음을 확인하였다. 마지막으로 주변화 모형을 이용하여 한국의료패널자료를 분석한다. 한국의료패널자료는 반응변수로 주관적 불건강 응답을 이진변수로 고려하였고, 여러 설명변수를 가진 모형을 비교하고 가장 적합한 모형을 제시한다.

생존 분석 자료에서 적용되는 시간 가변 ROC 분석에 대한 리뷰 (Review for time-dependent ROC analysis under diverse survival models)

  • 김양진
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.35-47
    • /
    • 2022
  • Receiver operating characteristic (ROC) 곡선은 이항 반응 자료에 대한 마커의 분류 예측력을 측정하기 위해 널리 적용되어왔으며 최근에는 생존 분석에서도 매우 중요한 역할을 하고 있다. 여러 가지 유형의 중도 절단과 원인 불명 등 다양한 종류의 결측 자료를 포함한 생존 자료 분석에서 마커의 사건 발생 여부에 대한 예측력을 판단하기 위해 기존의 통계량을 확장하였다. 생존 분석 자료는 각 시점에서의 사건 발생 여부로 이해할 수 있으며, 따라서 시점마다 ROC 곡선과 AUC를 구할 수 있다. 본 논문에서는 우중도 절단과 경쟁 위험 모형하에서 사용되는 다양한 방법론과 관련 R 패키지를 소개하고 각 방법의 특성을 설명하고 비교하였으며 이를 검토하기 위해 간단한 모의실험을 시행하였다. 또한, 프랑스에서 수집된 치매 자료의 마커 분석을 시행하였다.

Prognostic Factor Analysis of Overall Survival in Gastric Cancer from Two Phase III Studies of Second-line Ramucirumab (REGARD and RAINBOW) Using Pooled Patient Data

  • Fuchs, Charles S.;Muro, Kei;Tomasek, Jiri;Van Cutsem, Eric;Cho, Jae Yong;Oh, Sang-Cheul;Safran, Howard;Bodoky, Gyorgy;Chau, Ian;Shimada, Yasuhiro;Al-Batran, Salah-Eddin;Passalacqua, Rodolfo;Ohtsu, Atsushi;Emig, Michael;Ferry, David;Chandrawansa, Kumari;Hsu, Yanzhi;Sashegyi, Andreas;Liepa, Astra M.;Wilke, Hansjochen
    • Journal of Gastric Cancer
    • /
    • 제17권2호
    • /
    • pp.132-144
    • /
    • 2017
  • Purpose: To identify baseline prognostic factors for survival in patients with disease progression, during or after chemotherapy for the treatment of advanced gastric or gastroesophageal junction (GEJ) cancer. Materials and Methods: We pooled data from patients randomized between 2009 and 2012 in 2 phase III, global double-blind studies of ramucirumab for the treatment of advanced gastric or GEJ adenocarcinoma following disease progression on first-line platinum- and/or fluoropyrimidine-containing therapy (REGARD and RAINBOW). Forty-one key baseline clinical and laboratory factors common in both studies were examined. Model building started with covariate screening using univariate Cox models (significance level=0.05). A stepwise multivariable Cox model identified the final prognostic factors (entry+exit significance level=0.01). Cox models were stratified by treatment and geographic region. The process was repeated to identify baseline prognostic quality of life (QoL) parameters. Results: Of 1,020 randomized patients, 953 (93%) patients without any missing covariates were included in the analysis. We identified 12 independent prognostic factors of poor survival: 1) peritoneal metastases; 2) Eastern Cooperative Oncology Group (ECOG) performance score 1; 3) the presence of a primary tumor; 4) time to progression since prior therapy <6 months; 5) poor/unknown tumor differentiation; abnormally low blood levels of 6) albumin, 7) sodium, and/or 8) lymphocytes; and abnormally high blood levels of 9) neutrophils, 10) aspartate aminotransferase (AST), 11) alkaline phosphatase (ALP), and/or 12) lactate dehydrogenase (LDH). Factors were used to devise a 4-tier prognostic index (median overall survival [OS] by risk [months]: high=3.4, moderate=6.4, medium=9.9, and low=14.5; Harrell's C-index=0.66; 95% confidence interval [CI], 0.64-0.68). Addition of QoL to the model identified patient-reported appetite loss as an independent prognostic factor. Conclusions: The identified prognostic factors and the reported prognostic index may help clinical decision-making, patient stratification, and planning of future clinical studies.

군집분석으로 도출한 식사패턴별 에너지 섭취량과 골격근육량의 연관성 분석 : 2008 ~ 2010년 국민건강영양조사 자료를 활용하여 (Association between energy intake and skeletal muscle mass according to dietary patterns derived by cluster analysis: data from the 2008 ~ 2010 Korea National Health and Nutrition Examination Survey)

  • 장보영;부소영
    • Journal of Nutrition and Health
    • /
    • 제52권6호
    • /
    • pp.581-592
    • /
    • 2019
  • 본 연구는 에너지 섭취 급원에 따라 골격근육량과 에너지 섭취량 간의 연관성이 달라지는지 알아보기 위해 수행되었다. 본 연구는 2008 ~ 2010년도 국민건강영양조사 자료를 이용하여 30세 이상 한국 성인 7,922명을 대상으로 각 식품의 에너지섭취비율을 기반으로 식사패턴을 분류하고 각 식사패턴 군집 내에서 대상자들의 골격근육량과 에너지 섭취량 간의 연관성을 분석하였다. 대상자의 22가지 식품군의 에너지 섭취량을 기준으로 군집분석을 실시한 결과 남성과 여성 모두에서 '밀가루와 유지류 (Flour, Animal fat)', '흰 쌀 (White rice)', '건강혼합식 (Healthy mixed diet)' 3가지 식사패턴을 도출하였다. 그 중 '흰 쌀' 식사패턴에서 남성 (p < 0.0001)과 여성 (p < 0.0195) 모두 에너지 섭취량과 골격근육량의 연관성이 있었으며, 나머지 식사패턴에서는 근육량과 에너지 섭취량 간의 관련성이 통계적으로 유의하지 않았다. 본 연구의 결과에서 30대 이상 한국 성인들의 골격근육량의 변화와 에너지 섭취량 간에는 유의한 양적 연관성이 있으나 대상자가 주로 섭취하는 식사 형태에 따라 에너지 섭취와 골격근육량의 연관성이 다른 것을 알 수 있었다. 본 연구의 결과에 근거하여, 골격근육량과 연관된 에너지 섭취량의 변화 [14]는 쌀밥 위주의 식사를 하는 한국 성인에 특이적인 결과임을 추정할 수 있다. 이는 에너지 섭취량의 증가 없이도 군집에 속한 식품의 영양소 균형이 골격근육량 유지에 도움을 주는 다른 식사패턴 (예, 건강혼합식)과는 달리 쌀밥위주의 식사가 전형적인 한국인의 경우 전체적인 식사량의 확보도 골격근육 유지에 중요함을 제시하는 결과이며 쌀밥 위주의 식사를 하는 대상자들의 체중감량식단이나 근감소증 비율이 상대적으로 높은 노인들의 식사 지침에 응용할 수 있을 것으로 기대된다.