• 제목/요약/키워드: Multiple Imputation

검색결과 61건 처리시간 0.027초

NPR기반 누락 교통자료 추정기법 개발 및 적용 (Development and Application of Imputation Technique Based on NPR for Missing Traffic Data)

  • 장현호;한동희;이태경;이영인;원제무
    • 대한교통학회지
    • /
    • 제28권3호
    • /
    • pp.61-74
    • /
    • 2010
  • 지능형 교통체계는 실시간 교통자료를 수집하고 방대한 양의 이력자료를 축적한다. 그러나 방대한 이력자료는 효율적으로 관리/이용되지 않고 있는 실정이다. ADMS와 같은 자료관리시스템이 도입되면서, 이력자료의 잠재적 활용성은 급격히 증대되고 있다. 그러나 자료관리스템의 교통자료는 다량의 누락자료를 포함하고 있다. 누락자료는 장기간에 걸쳐 빈번하게 교통자료를 이용할 수 없게 하기 때문에, 이력자료를 활용하는데 있어 주된 장애요인 중 하나이다. 따라서 누락자료 추정기법은 자료관리시스템에서 주요한 역할을 수행하게 된다. 이러한 한계를 극복하기 위하여, 본 연구에서는 자료관리스템에 탑재가 용이하며 이력자료에 포함된 누락자료를 추정하기 위한 누락자료 추정모형을 개발하였다. 개발모형은 비모수회귀식(NPR)을 기반으로 개발되었으며, 이력자료의 다양한 교통자료 패턴을 이용하고 현실적인 요구사항(변수 최소화, 연산속도, 다양한 형태의 누락자료 보정, 다중대체)을 충족하도록 설계되었다. 모형의 평가는 다양한 누락자료 형태의 상태에서 수행되었으며, 자료관리시스템에 탑재되기 위해 요구되는 정확도, 연산 수행속도에서 기존에 보고된 모형보다 우수한 성능을 보였다.

시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교 (Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms)

  • 박보람;정인경
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.697-712
    • /
    • 2013
  • 다시점 자료 연구에서 일반화추정방정식은 가상관행렬을 잘못 가정하더라도 모수의 일치추정량을 도출하므로 많이 이용된다. 하지만, 결측 체계가 완전임의결측이 아닌 경우에는 편의추정량을 제공하고, 시간-종속적 공변량이 포함된 경우에는 가상관행렬에 따라 회귀계수 추정값이 다르게 도출될 수 있는 문제점이 있다. 결측 체계가 임의결측인 경우에 발생하는 문제를 해결하기 위해 가중 방법과 다중대체 방법을 사용하는 것이 제안되었다. 본 논문에서는 시간-종속적 공변량이 포함된 이분형 반복측정자료를 GEE를 이용하여 분석할 때 다양한 결측 체계에서 일반화추정방정식 방법, 가중 방법, 다중대체 방법의 회귀계수 추정에 대한 로버스트성과 정확성을 모의실험을 통하여 비교해 보았다. 세 가지 방법 모두에서 시간-종속적 공변량의 회귀계수가 시간-독립적 공변량의 회귀계수에 비해 가상관행렬에 따라 추정값의 차이가 크게 나타났다. 다른 두 방법에 비해 다중대체 방법이 가상관행렬의 형태에 대해 더 로버스트하고 편의도 작은 추정치를 도출하였다.

누락된 공변량을 가진 원인별 비례위험모형의 분석 (Analysis of the cause-specific proportional hazards model with missing covariates)

  • 이민정
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.225-237
    • /
    • 2024
  • 경쟁위험자료에서 일부 공변량들이 연구대상들의 일부분에 대해 관측되지 않을 수 있다. 그런 경우 결측된 공변량 값을 가진 연구대상들을 분석에서 제외하는 것은 편향된 추정치와 효율성 손실이 발생할 수 있다. 본 논문에서는 누락된 공변량을 가진 원인별 비례위험모형의 회귀모수 추정을 위해 다중대체 방법과 증대된 역 확률 가중 방법을 연구하였다. 모의실험을 통해 다중대체 방법과 증대된 역 확률 가중 방법에 의해 구해진 추정량의 성능을 평가한 결과, 이 방법들이 잘 수행됨을 확인하였다. 미국 국립암연구소의 전립선, 폐, 대장, 난소 암 선별 시험 연구에서 제공하는 종양 크기의 값이 누락된 유방암 자료에 대해 암 사망 위험률과 다른 원인 사망 위험률에 유의한 영향을 미치는 요인을 파악하기 위해 다중대체 방법과 증대된 역 확률 가중 방법을 적용하였다. 다중대체 방법과 증대된 역 확률 가중 방법에 의해 원인별 비례위험모형을 적합한 결과, 인종, 기혼여부, 병기, 분화도, 종양의 크기는 유방암 사망 위험률에 유의한 영향을 미치는 요인들이였으며, 병기가 유방암 사망 위험률을 높이는데 가장 큰 영향을 미치는 요인임을 확인하였다. 진단시 연령과 종양의 크기는 다른 원인 사망 위험률을 높이는데 유의한 영향을 미치는 요인이였다.

A Generation and Accuracy Evaluation of Common Metadata Prediction Model Using Public Bicycle Data and Imputation Method

  • Kim, Jong-Chan;Jung, Se-Hoon
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.287-296
    • /
    • 2022
  • Today, air pollution is becoming a severe issue worldwide and various policies are being implemented to solve environmental pollution. In major cities, public bicycles are installed and operated to reduce pollution and solve transportation problems, and operational information is collected in real time. However, research using public bicycle operation information data has not been processed. This study uses the daily weather data of Korea Meteorological Agency and real-time air pollution data of Korea Environment Corporation to predict the amount of daily rental bicycles. Cross- validation, principal component analysis and multiple regression analysis were used to determine the independent variables of the predictive model. Then, the study selected the elements that satisfy the significance level, constructed a model, predicted the amount of daily rental bicycles, and measured the accuracy.

경제활동인구조사 자료를 위한 다중대체 방식 연구 (A study on multiple imputation modeling for Korean EAPS)

  • 박민정;배윤종;김정연
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.685-696
    • /
    • 2021
  • 경제활동인구조사는 고용 관련 통계를 생성하는 국가조사로서, 국민의 경활상태(취업/실업/비경활)를 파악하는 것이 주요 목적이다. 정확한 통계를 내기 위해 무응답률을 낮추는 것이 중요하고, 이미 발생한 무응답을 보완하기 위한 방법으로 무응답 대체가 가능하다. 경제활동인구조사는 응답 방식이 순차적 흐름을 따라가기 때문에 구조적인 무응답이 존재한다. 또한 전체 가구원내 무응답 항목이 하나라도 있으면 해당 가족 구성원 전체를 무응답 처리하기에 최종 자료에는 항목 무응답이 아닌 단위 무응답만 존재한다는 특징이 있다. 본 연구에서는 구조적 무응답 이해 및 연계자료를 통한 과거 자료의 활용 등을 통해 기존의 방법보다 효과적인 무응답 대체 모형을 제시하고자 한다. 대체 모형의 성능을 일치도/비일치도를 기반으로 평가한다. 이를 위해, 2019년 11월 경제활동인구조사 자료를 기반으로 모의실험을 실시한다. 총 59,996명의 응답자 중 일부를 랜덤하게 선택한 뒤, 경활상태를 판정하는데 결정적인 설명변수 6개와 경활상태를 무응답 처리한다. 기존 무응답 대체 모형에서 사용하였던 설명 변수 이외에 산업변수와 종사상지위 변수를 추가함으로써 모형을 개선한다. 이는 과거자료의 연계 및 활용을 가정한 것으로, 기존의 모형모다 성능이 향상되는 것을 확인한다. 또한, 경활상태별 무응답자 수에 대한 다양한 시나리오를 고려한다.

혼합형 데이터 보간을 위한 디노이징 셀프 어텐션 네트워크 (Denoising Self-Attention Network for Mixed-type Data Imputation)

  • 이도훈;김한준;전종훈
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.135-144
    • /
    • 2021
  • 최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.

Estimation for misclassified data with ultra-high levels

  • Kang, Moonsu
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.217-223
    • /
    • 2016
  • Outcome misclassification is widespread in classification problems, but methods to account for it are rarely used. In this paper, the problem of inference with misclassified multinomial logit data with a large number of multinomial parameters is addressed. We have had a significant swell of interest in the development of novel methods to infer misclassified data. One simulation study is shown regarding how seriously misclassification issue occurs if the number of categories increase. Then, using the group lasso regression, we will show how the best model should be fitted for that kind of multinomial regression problems comprehensively.

Comparison of missing data methods in clustered survival data using Bayesian adaptive B-Spline estimation

  • Yoo, Hanna;Lee, Jae Won
    • Communications for Statistical Applications and Methods
    • /
    • 제25권2호
    • /
    • pp.159-172
    • /
    • 2018
  • In many epidemiological studies, missing values in the outcome arise due to censoring. Such censoring is what makes survival analysis special and differentiated from other analytical methods. There are many methods that deal with censored data in survival analysis. However, few studies have dealt with missing covariates in survival data. Furthermore, studies dealing with missing covariates are rare when data are clustered. In this paper, we conducted a simulation study to compare results of several missing data methods when data had clustered multi-structured type with missing covariates. In this study, we modeled unknown baseline hazard and frailty with Bayesian B-Spline to obtain more smooth and accurate estimates. We also used prior information to achieve more accurate results. We assumed the missing mechanism as MAR. We compared the performance of five different missing data techniques and compared these results through simulation studies. We also presented results from a Multi-Center study of Korean IBD patients with Crohn's disease(Lee et al., Journal of the Korean Society of Coloproctology, 28, 188-194, 2012).

불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리 (Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes)

  • 이동준;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.49-54
    • /
    • 2021
  • 최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개의 모델을 앙상블한다.

불완전한 반복측정 자료의 보정방법 (Methods for Handling Incomplete Repeated Measures Data)

  • 우해봉;윤인진
    • 한국조사연구학회지:조사연구
    • /
    • 제9권2호
    • /
    • pp.1-27
    • /
    • 2008
  • 사회조사 자료를 활용한 통계분석에 있어서 불완전 자료의 문제는 거의 모든 연구자들이 경험하는 하나의 보편적인 문제이다. 불완전 자료의 문제는 특히 패널조사와 같은 종단적 자료를 활용한 연구에 있어서 중요한 이슈가 된다. 본 연구의 목적은 최근까지 이루어진 불완전 자료에 대한 보정방범을 소개하는 것이다. 특히, 본 연구는 패널자괴에서 발생한 불완전 자료의 처리에 대한 관심이 부족한 점을 고려하여 최근까지 이루어진 보정방법들을 반복측정 패널자료 분석에 적용하는데 초점을 맞춘다. 첫째, 본 연구는 불완전 자료에 대한 적절하지 못한 사후처리는 분석결과에 있어서 유의미한 차이로 이어 수 있음을 시사한다. 특히, 분석결과는 반복측정 자료를 사용하는 연구의 경우 불완전 자료의 발생은 궤적의 초기값보다는 시간의 경과에 따른 궤적의 변화를 적절히 추정하는데 문제를 가질 수 있음을 시사하고 있다. 둘째, 분석결과는 완전제거법이나 평균대체법이 EM, FIML, MICE 방법들에 비해 불완전 자료의 처리효과가 상대적으로 떨어짐을 보여준다. 특히, 완전제거법이나 평균대체법과 같은 방법에 비해 최대우도법이나 다중대체법이 갖는 상대적 우위는 MCAR 가정에 비해 보다 현실적인 가정이라고 할 수 있는 MAR 조건하에서 크게 나타난다. 본 연구의 분석결과는 또한 비록 결측치의 발생기제가 MNAR 상황이라고 하더라도 연구자가 결측치의 발생과 관련된 변수들을 보정과정에서 적절하게 활용하면 편의의 상당부분을 감소시킬 수 있음을 시사한다.

  • PDF