• 제목/요약/키워드: 결측자료 추정

검색결과 84건 처리시간 0.03초

미세먼지 자료에서의 결측치 대체 방법 비교 (Comparision of Missing Imputaion Methods In fine dust data)

  • 김연진;박헌진
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.105-114
    • /
    • 2019
  • 자료 분석에 있어서 결측치 대체는 큰 이슈중 하나이다. 결측치의 발생을 무시하고 분석을 진행하게 되면, bias가 발생하여 그에 따른 추정치에 대해 잘못된 결과를 줄 수 있다. 이 논문에서는 미세먼지자료에서 발생한 결측치를 적절한 대체 방법을 찾아 적용하자 한다. 이를 통해 시계열 자료에서 발생한 결측치를 R을 기반으로 한MICE, MissForest 등의 기존 방법과 시계열 기반 모델을 사용하여 여러 가지 상황에 대한 시뮬레이션을 설정해 비교해 밝히고자 하였다. 이 결과에 대해 각각을 변수 별로 비교하였을때 ImputeTS 패키지를 이용한 auto arima 모델의 kalman filter를 적용한 모형과 MissForest 모형이 미세먼지자료 결측치 대체에서는 좋은 결과를 주는 것으로 판단되었다.

  • PDF

공간통계기법과 내비게이션 자료를 활용한 도시부 도로 교통량 추정연구 (The Study for Estimating Traffic Volumes on Urban Roads Using Spatial Statistic and Navigation Data)

  • 홍다희;김진오;장동익;이태우
    • 대한교통학회지
    • /
    • 제35권3호
    • /
    • pp.220-233
    • /
    • 2017
  • 교통량은 주말 및 첨두시 O/D 구축, 차량주행거리 산정, 혼잡도로개선 대책 등에 활용되는 중요한 기초자료이다. 그럼에도 불구하고 국내 도시부 도로의 교통량 링크 커버리지는 매우 낮아, 현재 수집 교통량으로는 교통정책 및 분석에 제약이 따를 수밖에 없다. 이에 본 연구에서는 특 광역시 중 수집교통량 및 속도의 링크 커버리지가 가장 낮은 서울시를 대상으로, 수집 교통량과 속도를 활용하여 교통량 결측링크의 교통량을 추정하는 방안을 제안하였다. 여기서, 교통량 추정 방법으로 공간적 통계기법을 활용하였다. 교통량 추정모형 구축시, 서울시의 도시고속도로와 도시부 도로는 교통류 및 통행패턴은 상이하므로 이를 분류하여 도시고속도로에는 구간별 상수함수, 도시부 도로에는 회귀크리깅을 적용하였다. 이용 데이터로는 서울시 TOPIS, 국교부 국가교통정보센터 등에서 수집한 공공부문 교통량, 속도와 민간 내비게이션 DB를 활용하였다. 내비게이션 DB는 대부분의 도로링크에서 수집되므로 교통량 추정에 매우 용이하다는 강점을 가지고 있다. 단, 내비게이션 DB는 수집 교통데이터의 샘플데이터이므로, 모집단인 교통량, 속도와 비교 검증하여 적용하였다. 뿐만 아니라 내비게이션 DB도 결측링크가 존재하고, 차종이 승용차로만 구성되어 있으므로 이를 보정하여 적용하였다. 공간적 통계기법을 통해 추정한 교통량은 MAPE, RMSE를 활용하여 실제 교통량과 비교 검증하였다. 검증결과 model error가 MAPE 6.26%, RMSE 5,410로 모델의 추정력이 높고, prediction error는 MAPE 20.3% 로 교통량 추정에 대한 추정력도 높은 것으로 분석되었다. 본 연구에서 제시한 교통량 결측링크의 교통량 추정모형은 차량주행거리와 온실가스 배출량 산정 등에 다양하게 활용될 수 있을 것으로 판단된다.

결측이 있는 이산형 공변량에 대한 Cox비례위험모형의 패턴-혼합 모델 (Pattern-Mixture Model of the Cox Proportional Hazards Model with Missing Binary Covariates)

  • 육태미;송주원
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.279-291
    • /
    • 2012
  • 공변량에 결측이 발생한 Cox 비례위험 모형을 적합할 때, 결측이 발생하는 개체를 모두 제거한 후 분석을 실시한다면 정보 손실에 의해 비효율적이고 결측의 발생 메커니즘이 완전 임의 결측(missing completely at random; MCAR)이 아니라면 모수의 추정값에 편향이 발생할 수 있다. Cox 비례위험 회귀모형의 공변량에 결측이 있는 경우 적용할 수 있는 여러 가지 방법들이 제안되어져 왔으나 이 분석들은 선택모델(selection model)에 기반하고 있다. 본 연구에서는 Little (1993)이 제안한 패턴-혼합 모델(pattern-mixture model)을 사용하여 Cox 비례위험 회귀모형에서 생존시간과 결측 메커니즘의 결합분포를 모델화 하고, 여러 가지 제약에 근거한 생존 분석의 결과를 비교하였다. 모의실험을 통해서 패턴-혼합 모델의 제약(restrictions)에 따른 모수 추정의 민감도를 확인하였고 결측을 무시한 채 분석한 결과 및 선택모형에 근거한 분석결과와 비교하였다. 패턴-혼합 모델의 제약에 따라 공변량의 결측으로 인한 모수 추정의 민감성 정도를 쥐백혈병 자료 예제를 통해 설명하였다.

범주형 자료에서 경험적 베이지안 오분류 분석 (Empirical Bayesian Misclassification Analysis on Categorical Data)

  • 임한승;홍종선;서문섭
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.39-57
    • /
    • 2001
  • 범주형 자료에서 오분류는 자료를 수집하는 과정에서 발생될 수 있다. 오분류되어 있는 자료를 정확한 자료로 간주하여 분석한다면 추정결과에 편의가 발생하고 검정력이 약화되는 결과를 초래하게 되며, 정확하게 분류된 자료를 오분류하고 판단한다면 오분류의 수정을 위해 불필요한 비용과 시간을 낭비해야 할 것이다. 따라서 정확하게 분류된 표본인지 오분류된 표본인지를 판정하는 것은 자료를 분석하기 전에 이루어져야할 매우 중요한 과정이다. 본 논문은 I$\times$J 분할표로 주어지는 범주형 자료에서 두 변수 중 하나의 변수에서만 오분류가 발생되는 경우에 오분류 여부를 검정하기 위해서 오분류 가능성이 없는 변수에 대한 주변합은 고정시키고, 오분류 여부를 가능성이 있는 변수의 주변합을 Sebastiani와 Ramoni(1997)가 제안한 Bound와 외부정보로 표현되는 Collapse의 개념, 그리고 베이지안 방법을 확장하여 자료에 적합한 모형과 사전정보를 고려한 사전모수를 다양하게 설정하면서 재분류하는 연구를 하였다. 오분류에 대한 정보를 얻기 위해서 Tenenbein(1970)에 의해 연구된 이중추출법을 이용하여 오분류 검정을 위한 새로운 통계량을 제안하였으며, 제안된 오분류 검정통계량에 관한 분포를 다양한 모의실험을 통하여 연구하였다.

  • PDF

종속적인 중도절단을 가진 동물종양 자료의 분석을 위한 모형 (Analysis of Tumorigenicity Data with Informative Censoring)

  • 김진흠;김윤남
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.871-882
    • /
    • 2010
  • 동물종양 실험에서는 종양발생 시간이 직접 관찰되지 않고 단지 자연사로 인한 관찰 시점이나 강제적으로 희생시킨 시점 이전에 종양이 발생했는지 유무만을 알 수 있다. 이와 같은 형태의 결측을 가진 자료를 분석하기 위해 3단계(건강$\rightarrow$종양발생$\rightarrow$사망) 모형이 널리 사용되고 있다. 본 논문에서는 자연사로 인한 사망 시간이 종속적인 중도절단으로 작용하여 사망 시간과 종양발생 시간이 종속될 때, 이를 모형에 반영하기 위해 감마 프레일티 효과를 도입하였다. 모수 추정은 종양발생 시간과 프레일티 효과의 결측을 다루기 위해 EM 알고리즘 방법을 사용하였다. 제안한 추정량의 소표본 성질을 살펴보기 위해 제안한 방법을 Lindsey와 Ryan (1993, 1994)의 방광암 자료에 적용하여 모수를 추정하였으며, 그 추정값을 바탕으로 모의실험을 수행하였다.

확률적 순서를 갖는 다변량분포에서 불완전자료에 의한 추정 (Estimation from Incomplete Data in Multivariate Distributions under Stochastic Ordering)

  • Kwang Mo Jeoung
    • 응용통계연구
    • /
    • 제7권2호
    • /
    • pp.145-157
    • /
    • 1994
  • 확률적 순서관계를 갖는 다변량분포에서 얻어진 자료가 결측값을 갖는 불완전한 자료일 때, EM 알고리즘을 이용한 최우추정법을 논의하였다. 본 논문에서는 관찰값들이 부분적으로 분류된 분할표자료에 국한하여 연구되었으며 기존의 동위회귀추정 프로그램을 써서 EM을 수행할 수 있는 이점이 있다. 예를 통하여 제안된 추정법을 설명한다.

  • PDF

인공 위성과 기상 모형을 이용한 증발산 추정 (Estimation of Evapotranspiration using Satellite data and Meteorological Model)

  • 장근창;강신규;김재철;김준
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2009년도 춘계학술대회 논문집
    • /
    • pp.213-218
    • /
    • 2009
  • 에너지 전달 과정과 밀접한 관계가 있는 증발산(Evapotranspiration)은 기후 변화나 육상 생태계 생산성에서 매우 중요한 요소이며, 수문학적 순환과 지역적 물 관리 측면에서 매우 중요하다. 최근 인공위성을 이용하여 증발산을 추정하기 위한 노력이 많이 진행되고 있으며, 특히 MODIS (Moderate Resolution Imaging Spectroradiometer)는 증발산을 추정하기 위한 좋은 정보를 제공하고 있다 하지만, 구름 등에 의한 증발산 입력 자료 결측은 전체 자료의 획득률을 낮추고, 연속적인 증발산 모니터 링을 제한한다. 따라서 본 연구에서는 MODIS 기반의 증발산 입력 자료의 개선하여 서로 다른 식생과 지형 구조를 갖는 플럭스 연구지에 대한 증발산의 추정 및 평가하고, 남한에 대한 MODIS 기반의 증발산 지도 작성하였다. 또한 구름에 의해 결측된 날에 대해서는 MODIS-MM5 4차원 자료동화 기법을 이용한 증발산의 연속적인 모니터링 기법을 개발하였다. MODIS 기반의 증발산을 추정하기 위해 Revised RS-PM 알고리즘을 사용하였다. 증발산을 평가하기 위해 4 곳의 플럭스 연구지(광릉, 해남 이상 대한민국, 타카야마, 토마코아미 이상 일본) 자료와 비교하였고, 매우 신뢰성 있는 결과를 얻을 수 있었다. MODIS 입력 자료의 개선으로 획득률은 2배 가량 증가하였다. 남한에 대한 연간 증발산은 평균적으로 약 35%의 획득률 (365일 중 약 120일)과 함께 산출되었고, 시 공간적인 분포를 잘 나타내었다. 구름 낀 날에 대한 MODIS-MM5 자료 동화 기법의 적용은 증발산의 연속적인 모니터링을 가능하게 하였다.

  • PDF

신용평가에서 로지스틱 회귀를 이용한 미결정자 추론 (Undecided inference using logistic regression for credit evaluation)

  • 홍종선;정민섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.149-157
    • /
    • 2011
  • 본 연구는 신용평가 과정에서 발생하는 미결정자를 결측자료 문제로 간주하여 MAR와 MNAR 가정 하에서 추론한다. MAR 가정에서 미결정자 추론은 결정자들에 대한 로지스틱 회귀모형의 회귀 계수벡터를 이용하여 미결정자의 부도 확률을 구한 후 결정자의 부도확률과 비교하여 미결정자의 미래 상태를 판단한다. 그리고 MNAR 가정에서의 미결정자 추론은 특성변수가 추가한 로지스틱 모형으로부터 미결정자의 부도확률을 구하고 미결정자를 예측하는 방법을 제안하였다. 두 종류의 실제 자료에 대하여 모의실험을 한 결과, MAR 가정에서 미결정자의 비율이 증가하더라도 원자료의 오분류율과 추론한 결과 차이가 없으며, MNAR 가정에서는 추가적인 변수를 고려하여 미결정자를 추정하였기 때문에 미결정자의 오분류율이 MAR 가정에서의 오분류율보다 감소하고 나아가 전체에서 미결정자가 차지하는 비율이 증가함에 따라 전체의 오분류율이 더욱 감소함을 발견하였다.

TCS데이터를 이용한 이상치제거 및 결측보정 알고리즘 개발 (Outlier Filtering and Missing Data Imputation Algorithm using TCS Data)

  • 도명식;이향미;남궁성
    • 대한교통학회지
    • /
    • 제26권4호
    • /
    • pp.241-250
    • /
    • 2008
  • 지능형 교통체계구축과 교통 혼잡이 증가하면서 이용자는 과거보다 양질의 통행시간정보를 요구하고 있다. 기존 연구에서는 단속류, 연속류 모두 AVI검지기 자료를 이용한 이상치제거 및 통행시간 산출에 대한 연구가 많이 이루어져왔다. 현재 한국도로공사에서는 TCS(Toll Collection System)를 기반으로 정보제공을 준비 중에 있으며, TCS 데이터는 운전자가 실제교통상황을 경험한 동적특성을 가진 통행시간이 수집된 자료로 통행시간 추정자료로 잠재력이 크다. 그러나 '시간처짐현상'이 발생하고 속도위반, 휴게소, 고장 등으로 인해 평균통행시간보다 작거나 큰 이상치와 결측데이터가 존재하여 기존 방법을 적용하는데 효과적이지 못한 것으로 나타났다. 따라서 본 연구에서는 TCS 데이터에 맞는 이상치제거 및 결측보정 알고리즘을 개발하였다. 기존알고리즘과 비교한 결과 개발 알고리즘이 더 효과적인 것으로 나타났다.

머신러닝 기반 준실시간 다중 위성 강수 자료 보정 (Bias-correction of near-real-time multi-satellite precipitation products using machine learning)

  • 정성호;레수안히엔;응웬반지앙;이기하
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.280-280
    • /
    • 2023
  • 강수의 정확한 시·공간적 추정은 홍수 대응, 가뭄 관리, 수자원 계획 등 수문학적 모델링의 핵심 기술이다. 우주 기술의 발전으로 전지구 강수량 측정 프로젝트(Global Precipitation Measurement, GPM)가 시작됨에 따라 위성의 여러 센서를 이용하여 다양한 고해상도 강수량 자료가 생산되고 있으며, 기후변화로 인한 수재해의 빈도가 증가함에 따라 준실시간(Near-Real-Time) 위성 강수 자료의 활용성 및 중요성이 높아지고 있다. 하지만 준실시간 위성 강수 자료의 경우 빠른 지연시간(latency) 확보를 위해 관측 이후 최소한의 보정을 거쳐 제공되므로 상대적으로 강수 추정치의 불확실성이 높다. 이에 따라 본 연구에서는 앙상블 머신러닝 기반 수집된 위성 강수 자료들을 관측 자료와 병합하여 보정된 준실시간 강수량 자료를 생성하고자 한다. 모형의 입력에는 시단위 3가지 준실시간 위성 강수 자료(GSMaP_NRT, IMERG_Early, PERSIANN_CCS)와 방재기상관측 (AWS)의 온도, 습도, 강수량 지점 자료를 활용하였다. 지점 강수 자료의 경우 결측치를 고려하여 475개 관측소를 선정하였으며, 공간성을 고려한 랜덤 샘플링으로 375개소(약 80%)는 훈련 자료, 나머지 100개소(약 20%)는 검증 자료로 분리하였다. 모형의 정량적 평가 지표로는 KGE, MAE, RMSE이 사용되었으며, 정성적 평가 지표로 강수 분할표에 따라 POD, SR, BS 그리고 CSI를 사용하였다. 머신러닝 모형은 개별 원시 위성 강수 자료 및 IDW 기법보다 높은 정확도로 강수량을 추정하였으며 공간적으로 안정적인 결과를 나타내었다. 다만, 최대 강수량에서는 다소 과소추정되므로 이는 강수와 관련된 입력 변수의 개수 업데이트로 해결할 수 있을 것으로 판단된다. 따라서 불확실성이 높은 개별 준실시간 위성 자료들을 관측 자료와 병합하여 보정된 최적 강수 자료를 생성하는 머신러닝 기법은 돌발성 수재해에 실시간으로 대응 가능하며 홍수 예보에 신뢰도 높은 정량적인 강수량 추정치를 제공할 수 있다.

  • PDF