• 제목/요약/키워드: missing data estimation method

검색결과 87건 처리시간 0.028초

Comparison of EM with Jackknife Standard Errors and Multiple Imputation Standard Errors

  • Kang, Shin-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권4호
    • /
    • pp.1079-1086
    • /
    • 2005
  • Most discussions of single imputation methods and the EM algorithm concern point estimation of population quantities with missing values. A second concern is how to get standard errors of the point estimates obtained from the filled-in data by single imputation methods and EM algorithm. Now we focus on how to estimate standard errors with incorporating the additional uncertainty due to nonresponse. There are some approaches to account for the additional uncertainty. The general two possible approaches are considered. One is the jackknife method of resampling methods. The other is multiple imputation(MI). These two approaches are reviewed and compared through simulation studies.

  • PDF

REGRESSION FRACTIONAL HOT DECK IMPUTATION

  • Kim, Jae-Kwang
    • Journal of the Korean Statistical Society
    • /
    • 제36권3호
    • /
    • pp.423-434
    • /
    • 2007
  • Imputation using a regression model is a method to preserve the correlation among variables and to provide imputed point estimators. We discuss the implementation of regression imputation using fractional imputation. By a suitable choice of fractional weights, the fractional regression imputation can take the form of hot deck fractional imputation, thus no artificial values are constructed after the imputation. A variance estimator, which extends the method of Kim and Fuller (2004), is also proposed. Results from a limited simulation study are presented.

머신러닝 기반의 강우추정 방법 개발 (Development of Machine Learning Based Precipitation Imputation Method)

  • 한희찬;김창주;김동현
    • 한국습지학회지
    • /
    • 제25권3호
    • /
    • pp.167-175
    • /
    • 2023
  • 강우 데이터는 습지관리, 수문모의, 수자원 관리와 같은 다양한 분야에서 활용되는 필수 입력자료 중 하나이다. 강우 데이터를 활용하여 효율적인 수자원관리를 위해서는 기본적으로 데이터의 결측률을 최소화 시킴으로써 최대한 많은 데이터를 확보하는 것이 필수적이다. 또한 미계측 지역에 대한 강우 데이터를 확보한다면 보다 효율적인 수문모의가 가능하다. 그러나 결측 강우 데이터는 주로 통계학적 기법에 의해 추정되어 왔다. 본 연구의 목적은 데이터 간의 상관관계를 기반으로 새로운 데이터를 예측할 수 있는 머신러닝 알고리즘을 활용하여 결측 강우 데이터를 복원할 수 있는 새로운 방법을 제안하고자 한다. 또한, 기존의 통계적 방법들과 비교하여 머신러닝 기법의 결측 강우 데이터 복원을 위한 활용가치를 평가하고자 한다. 평가를 위해 대표적인 머신러닝 알고리즘인 Artificial Neural Network (ANN)과 Random Forest (RF)을 적용하였다. 강우의 발생 유무를 분류하는 성능은 RF 알고리즘이 ANN 알고리즘보다 강우 발생유무의 분류 정확도가 높은 것으로 나타났다. 분류 모형의 평가 지표인 F1-score나 Accuracy값이 RF는 0.80, 0.77인 반면에, ANN은 0.76, 0.71로 계산되었다. 또한 강우량을 추정하는 성능 역시 RF가 ANN 알고리즘보다 보다 높은 정확도를 보였다. RF과 ANN 알고리즘의 RMSE은 2.8mm/day과 2.9mm/day이고, R2값은 0.73, 0.68으로 계산되었다.

한우의 유전체 표지인자 활용 개체 혈연관계 추정 (Prediction of Genomic Relationship Matrices using Single Nucleotide Polymorphisms in Hanwoo)

  • 이득환;조충일;김내수
    • Journal of Animal Science and Technology
    • /
    • 제52권5호
    • /
    • pp.357-366
    • /
    • 2010
  • 한우의 유전체 전장의 정보를 Illumina BeadArray$^{TM}$ Bovine SNP50 assay를 이용하여 단일염기다형 현상을 조사한 결과, 유전적 다양성을 보이는 좌위가 약 32,567 좌위 이상에서 다양성을 보이고 있었으며 약 5,554 좌위에서 다양성이 조사되지 않았다. 이는 조사된 자료의 가계집단의 수가 크게 제한되었기 때문에 기인될 수 있으며 또 다른 원인으로는 한우 종축집단의 크기가 작을 수 있다는 현상을 반증한다고 사료된다. 유전분석의 기초가 되는 혈통기록에 의한 개체간 혈연관계를 유전체 정보에 의한 혈연관계와 비교하여 본 결과, 유전체 정보에 의한 혈연관계의 크기가 혈통기록에 의한 혈연관계보다 좀 더 정확하게 추정될 수 있다는 장점이 있으며 혈통기록상의 오류로 그릇된 혈연관계의 크기를 유전체 정보를 통하여 보완할 수 있다는 장점이 있다. 이러한 장점을 활용하면 유전체정보를 이용한 유전능력 평가의 정확성을 크게 향상시킬 수 있을 것으로 사료되었다.

누락된 공변량을 가진 원인별 비례위험모형의 분석 (Analysis of the cause-specific proportional hazards model with missing covariates)

  • 이민정
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.225-237
    • /
    • 2024
  • 경쟁위험자료에서 일부 공변량들이 연구대상들의 일부분에 대해 관측되지 않을 수 있다. 그런 경우 결측된 공변량 값을 가진 연구대상들을 분석에서 제외하는 것은 편향된 추정치와 효율성 손실이 발생할 수 있다. 본 논문에서는 누락된 공변량을 가진 원인별 비례위험모형의 회귀모수 추정을 위해 다중대체 방법과 증대된 역 확률 가중 방법을 연구하였다. 모의실험을 통해 다중대체 방법과 증대된 역 확률 가중 방법에 의해 구해진 추정량의 성능을 평가한 결과, 이 방법들이 잘 수행됨을 확인하였다. 미국 국립암연구소의 전립선, 폐, 대장, 난소 암 선별 시험 연구에서 제공하는 종양 크기의 값이 누락된 유방암 자료에 대해 암 사망 위험률과 다른 원인 사망 위험률에 유의한 영향을 미치는 요인을 파악하기 위해 다중대체 방법과 증대된 역 확률 가중 방법을 적용하였다. 다중대체 방법과 증대된 역 확률 가중 방법에 의해 원인별 비례위험모형을 적합한 결과, 인종, 기혼여부, 병기, 분화도, 종양의 크기는 유방암 사망 위험률에 유의한 영향을 미치는 요인들이였으며, 병기가 유방암 사망 위험률을 높이는데 가장 큰 영향을 미치는 요인임을 확인하였다. 진단시 연령과 종양의 크기는 다른 원인 사망 위험률을 높이는데 유의한 영향을 미치는 요인이였다.

시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교 (Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms)

  • 박보람;정인경
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.697-712
    • /
    • 2013
  • 다시점 자료 연구에서 일반화추정방정식은 가상관행렬을 잘못 가정하더라도 모수의 일치추정량을 도출하므로 많이 이용된다. 하지만, 결측 체계가 완전임의결측이 아닌 경우에는 편의추정량을 제공하고, 시간-종속적 공변량이 포함된 경우에는 가상관행렬에 따라 회귀계수 추정값이 다르게 도출될 수 있는 문제점이 있다. 결측 체계가 임의결측인 경우에 발생하는 문제를 해결하기 위해 가중 방법과 다중대체 방법을 사용하는 것이 제안되었다. 본 논문에서는 시간-종속적 공변량이 포함된 이분형 반복측정자료를 GEE를 이용하여 분석할 때 다양한 결측 체계에서 일반화추정방정식 방법, 가중 방법, 다중대체 방법의 회귀계수 추정에 대한 로버스트성과 정확성을 모의실험을 통하여 비교해 보았다. 세 가지 방법 모두에서 시간-종속적 공변량의 회귀계수가 시간-독립적 공변량의 회귀계수에 비해 가상관행렬에 따라 추정값의 차이가 크게 나타났다. 다른 두 방법에 비해 다중대체 방법이 가상관행렬의 형태에 대해 더 로버스트하고 편의도 작은 추정치를 도출하였다.

중간 사건이 결측되었거나 구간 중도절단된 준 경쟁 위험 자료에 대한 회귀모형 (Regression models for interval-censored semi-competing risks data with missing intermediate transition status)

  • 김진흠;김자연
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1311-1327
    • /
    • 2016
  • 본 논문에서는 종말 사건에 대한 정보는 주어져 있지만 중간 사건이 구간 중도절단되었거나 연구 기간 도중에 추적이 끊겨 중간 사건의 발생 유무를 모르는 준 경쟁 위험 자료에 다중상태모형을 적용하여 모수를 추정하는 방법을 제안하였다. 이를 위해 상태 간 전이 강도는 정규 프레일티를 랜덤효과로 가진 Cox 비례위험모형을 따른다고 가정하였다. 다섯 가지 상태를 가진 다중상태모형에서 가능한 여섯 가지 경로별로 조건부 우도를 정의하였고 주변 우도를 구하기 위해 조정 가우스 구적법을 적용하였으며 뉴튼-랩슨 방법으로 최적 해를 구하였다. 모수의 95% 신뢰구간 포함률을 통해 제안한 방법의 소표본 성질을 살펴보기 위해 모의실험을 수행하였으며, Persones $Ag{\acute{e}}es$ Quid(PAQUID) 자료 (Helmer 등, 2001)에 제안한 모형을 적용하고 그 결과를 해석하였다.

The Structural Relationship between the Possibility of Socioeconomic Class Elevation of Workers and Related Variables

  • Hyo-Young LEE
    • 산경연구논집
    • /
    • 제14권10호
    • /
    • pp.35-43
    • /
    • 2023
  • Purpose: The purpose of this study is to analyze the structural relationship between the possibility of socioeconomic class elevation of wage earners, happiness and organizational commitment, and life satisfaction. Research design, data and methodology: Data from the 24th fiscal year (2021) of the Korea Labor Panel data were used for analysis. Only wage earners who measured job satisfaction and organizational engagement were analyzed, and a sample of 9,138 respondents was finally used, excluding missing values. Structural Equation Modeling was performed using AMOS 23.0, and Maximum Likelihood Estimation (MLE) was used as a model estimation method. Results: First, the hypothetical structural model set up for the study was found to be suitable. Second, the Possibility of Socioeconomic Class Elevation of wage earners, happiness, and organizational commitment were found to have a direct impact on life satisfaction. Third, the possibility of improving the socio-economic status of wage earners affects life satisfaction, and happiness and organizational commitment appear to have a partially mediating effect. Conclusions: This study is significant in that it has increased interest in organizational participation and life satisfaction, which were not covered in previous studies on the possibility of wage workers moving up the socioeconomic class.

강우레이더를 활용한 강수량 결측 보정에 관한 연구 (Assessment of Missing Data Estimation with Rain Radar)

  • 김태형;이종현;이영곤;장승영;최규현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.310-310
    • /
    • 2018
  • 현재 지상에서의 강우관측은 여러기관에 의해 이루어 지고 있다. 국토교통부에서는 홍수 및 갈수예보, 가뭄대응, 하천 유량관리 등 다양한 국가 수자원 관리의 목적으로 강우관측을 포함한 수문조사를 시행중이고, 전국에 424개의 강수량 관측소를 설치하여 운영중이다. 강수량 데이터는 10분단위 자료를 실시간으로 수집하여 각 관할 홍수통제소로 전송되며, 전송된 자료는 최적의 품질을 확보하기 위해 다양한 방법으로 품질관리를 실시하고 있다. 강수량 자료는 다양한 원인에 의해 결측이 발생할 수 있는데, 강수총량은 알지만 결측에 의해 시간 배분 보정을 해야 하는 경우 주변 관측소의 관측자료나 강우레이더의 반사도 등을 활용할 수 있다. 본 연구에서는 국토교통부에서 운영중인 강우레이더를 통해 생산되는 다양한 반사도 자료를 활용하여 결측자료에 대한 시간보정을 수행하는 방법론을 제시하였다. 제안한 방법론의 검증을 위해 낙동강 하류 유역의 50개 강수량 관측소 자료를 이용하였다. 다양한 강우사상의 자료들을 이용하여 반사도를 활용한 강수보정과 실제 관측된 자료와의 일치성을 검토하였고, 제안된 방법론이 결측자료 품질관리를 위한 하나의 방안으로 활용될 수 있음을 확인하였다.

  • PDF

판재의 성형한계 결정을 위한 시간의존적 방법의 제안 (Proposal of a Time-dependent Method for Determining the Forming Limit of Sheet Metal)

  • 김성곤;김형종
    • 소성∙가공
    • /
    • 제27권2호
    • /
    • pp.115-122
    • /
    • 2018
  • Most domestic and international standards on the forming limit diagram (FLD) including ISO 12004-2, use a 'position-dependent method,' which determines the forming limit from a strain distribution measured on the specimen after necking or fracture. However, the position-dependent method has inherent problems such as the incidence of asymmetry of a strain distribution, the estimation of missing data near fracture, the termination time of test, and the deformation due to the new stress equilibrium after a fracture, which is blamed for causing sometimes a significant lab-to-lab variation. The 'time-dependent method,' which is anticipated to be a new international standard for evaluating the forming limit, is expected to greatly improve these intrinsic disadvantages of the position-dependent method. It is because the time-dependent method makes it possible to identify and accurately determine the forming limit, just before the necking point from the strain data as continuously measured in a short time interval. In this study, we propose a new time-dependent method based on a Gaussian fitting of strain acceleration with the introduction of 'normalized correlation coefficient.' It has been shown in this study that this method can determine the forming limit very stably and gives a higher value, which is in comparison with the results of the previously studied position-dependent and time-dependent methods.