• 제목/요약/키워드: 결측치 대체

검색결과 20건 처리시간 0.023초

임상시험에서 이분형 결측치 처리방법의 비교연구 (Comparison of binary data imputation methods in clinical trials)

  • 안구성;김동재
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.539-547
    • /
    • 2016
  • 임상시험에서 흔히 발생하는 결측치 중 이분형 결측치에 대한 논의를 하였다. 본 논문에서는 결측치가 발생하는 기재를 논의하고 기존의 여러 이분형 결측치 대체 방법과 수정된 결측치 대체방법을 소개하였다. 이후 각 결측치 대체 방법을 실제 자료에 적용하여 모의 실험을 진행하였다. 실제 자료의 성격 및 결측률의 변화에 따른 결측치 대체 방법들의 성능비교를 통해 진행하였다. 마지막으로 각 결측치 대체 방법에 대한 모의 실험 결과를 요약하고 토의하였다.

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2001년도 추계학술발표회 논문집
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

특성도를 이용한 결측치 대체방법 (Imputation method for missing data based on measure of property)

  • 김형주;김동재
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.463-473
    • /
    • 2017
  • 임상시험에서 어떻게 결측치를 다룰 것인가 하는 것은 큰 문제이다. 주로 주분석에서 사용하는 ITT원칙은 결측치가 어떠한 메커니즘을 따른다는 가정 하에 결측치를 대체 하지만 가정에 대한 타당성이 불확실한 문제가 있다. 즉, 올바른 결측치 대체방법은 매우 중요하다. 본 연구에서는 Kang과 Kim (1997)이 제안한 일치도와 유지도의 개념을 이용하여 새로운 결측치 대체방법을 제안하였다. 또한 실제자료를 이용하여 예제를 제시하고 Monte Carlo 모의실험을 통하여 기존방법과 대체 성능을 비교하였다.

미세먼지 자료에서의 결측치 대체 방법 비교 (Comparision of Missing Imputaion Methods In fine dust data)

  • 김연진;박헌진
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.105-114
    • /
    • 2019
  • 자료 분석에 있어서 결측치 대체는 큰 이슈중 하나이다. 결측치의 발생을 무시하고 분석을 진행하게 되면, bias가 발생하여 그에 따른 추정치에 대해 잘못된 결과를 줄 수 있다. 이 논문에서는 미세먼지자료에서 발생한 결측치를 적절한 대체 방법을 찾아 적용하자 한다. 이를 통해 시계열 자료에서 발생한 결측치를 R을 기반으로 한MICE, MissForest 등의 기존 방법과 시계열 기반 모델을 사용하여 여러 가지 상황에 대한 시뮬레이션을 설정해 비교해 밝히고자 하였다. 이 결과에 대해 각각을 변수 별로 비교하였을때 ImputeTS 패키지를 이용한 auto arima 모델의 kalman filter를 적용한 모형과 MissForest 모형이 미세먼지자료 결측치 대체에서는 좋은 결과를 주는 것으로 판단되었다.

  • PDF

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.789-792
    • /
    • 2004
  • 웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

군집화 및 특성도를 이용한 결측치 대체 방법 (Imputation method for missing data based on clustering and measure of property)

  • 김성현;김동재
    • 응용통계연구
    • /
    • 제31권1호
    • /
    • pp.29-40
    • /
    • 2018
  • 데이터를 수집함에 있어 여러 가지 이유로 결측이 발생하게 된다. 결측치는 분석 및 결과에 적지 않은 영향을 미치므로, 이를 해결하기 위해 결측치를 처리하는 다양한 방법들이 연구되었다. 반복 측정 자료에서 초기 시점의 측정값이 어떠한지에 따라서 뒤의 시점 측정값이 어느 정도 영향을 받을 수도 있을 것으로 생각된다. 하지만 기존 방법에서는 이러한 개념을 이용한 결측치 대체가 없었으므로 본 연구에서는 반복 측정 자료에서 초기 시점을 이용한 군집화 및 Kim과 Kim (2017)이 제안한 특성도를 이용하여 새로운 결측치 대체 방법을 제안하였다. 또한 여러 반복 측정 자료를 이용하여 Monte Carlo 모의실험을 통하여 기존 결측 대체 방법과 제안 방법의 여러 대체 성능을 비교해 보았다.

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.499-501
    • /
    • 2004
  • 웹 로그, 바이오정보학 둥 여러 분야에서 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 조건부 평균이나 나무 모형과 같은 기본적인 Imputation 방법을 이용하여 추정된 값에 의해 대체되기도 하고 일부는 제거되기도 한다. 특히, 결측치 비율이 매우 크게 되면 기존의 결측치 대체 방법의 정확도는 떨어진다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 Imputation 방법들의 수는 극히 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형한 Support Vector Regression을 제안하여 이러한 문제점들을 해결하였다. 제안 방법을 통하여 결측치의 비율이 상당히 큰 희소 데이터의 전처리도 가능하게 되었다. UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

  • PDF

한계와 이상치가 있는 결측치의 로버스트 다중대체 방법 (Robust multiple imputation method for missings with boundary and outliers)

  • 박유성;오도영;권태연
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.889-898
    • /
    • 2019
  • 항목 무응답(item missing)이 발생한 설문조사에서 결측이 포함된 변수에 이상치(outlier)의 존재와 다른 설문문항 항목과의 논리적 한계(boundary) 조건들이 유의미하다면 결측치 대체문제는 매우 복잡해진다. 한계가 있는 결측값들을 포함한 변수에 이상치가 존재하는 경우, 기존의 회귀분석에 근거한 결측치 대체방법은 편향된 대체값 그리고 한계를 만족하지 않은 대체값을 제시할 가능성이 있다. 이에 본 논문은 회귀모형에 기반을 두고 결측치들을 대체를 함에 있어 이상치와 논리적 한계조건이 자료에 존재하는 경우, 다양한 로버스트 회귀모형과 다중대체 방법의 조합을 통해 해결점을 모색하고자 한다. 이를 위해 이들 방법들의 최적의 조합을 다양한 시나리오별로 모의실험을 통하여 찾아보고 이에 대하여 논의하였다.

MCMC 결측치 대체와 주성분 산점도 기반의 SOM을 이용한 희소한 웹 데이터 분석 (Sparse Web Data Analysis Using MCMC Missing Value Imputation and PCA Plot-based SOM)

  • 전성해;오경환
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.277-282
    • /
    • 2003
  • 웹으로부터 유용한 정보를 얻기 위한 연구는 현재 많이 진행되고 있다. 본 논문에서는 특히 웹 로그 데이터의 희소성에 대한 문제 해결과 이를 통한 웹 사용자의 군집화 방안에 대하여 연구하였다. MCMC 방법의 베이지안 추론에 의한 결측치 대체 기법을 이용하여 웹 데이터의 희소성을 제거하였고, 주성분에 의한 산점도를 통하여 형상지도의 차원을 결정한 자기 조직화지도를 이용하여 웹 사용자의 군집화를 수행하였다. 제안 기법은 기존의 방법들에 비해 모형의 정확도와 빠른 학습 시간을 제공하여 주었다. KDD Cup 데이터를 이용한 실험을 통하여 제안 방법에 대한 문제 해결 절차 및 성능 평가를 객관적으로 확인하였다.

Z 값을 활용한 결측치 대체에 관한 연구 (A Study on Replacement of Missing Data using Z)

  • 박승현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.47-48
    • /
    • 2020
  • 데이터에 결측치가 존재할 때 어떤 데이터로 결측치를 대체시켜야 원래의 데이터에 가장 근접한 데이터를 만들어낼 수 있는지에 관한 연구. Z 값을 사용하면 평균으로 결측치를 대체시키는 것보다 더 정확한 결과를 도출해낼 수 있다.