• 제목/요약/키워드: 결측

검색결과 430건 처리시간 0.033초

상시조사 교통량 자료의 결측 보정에 관한 연구 (A Study on Imputing the Missing Values of Continuous Traffic Counts)

  • 이상협;신재명
    • 대한토목학회논문집
    • /
    • 제33권5호
    • /
    • pp.2009-2019
    • /
    • 2013
  • 교통량은 교통망 계획, 도로 설계, 도로 관리 등에 직접적으로 활용되는 중요한 기초자료이다. 교통량은 고정식 교통량조사 장비를 설치하여 연속적인 자료를 수집하는 상시조사와 특정일을 조사하는 수시조사로 구분되어 조사되고 있다. 상시조사의 경우 조사 지점에 설치되어 있는 장비의 고장이나 오작동 등으로 인하여 교통량 자료의 결측이 발생하며, 이러한 결측을 보정하기 위하여 다양한 방법이 적용되어 왔다. 본 연구에서는 결측 발생일 전 후의 자료를 활용하는 응용 지수평활화법을 제안하였으며, 평가 결과 교통량 변동계수가 낮은 경우 보정의 정확성이 제고됨을 알 수 있었다. 게다가 지점의 교통량 변동성이 결측 보정의 정확성에 영향을 미치는 중요한 요인으로 작용한다는 것을 확인하였다. 따라서 교통량 결측 보정의 신뢰성을 높이기 위해서는 지점별-시기별 결측 보정 방법이 달리 적용되어야 할 것이다.

대중교통 OD구축을 위한 대중교통카드 데이터의 오류와 결측 분석 및 보정에 관한 연구 (The study on error, missing data and imputation of the smart card data for the transit OD construction)

  • 박준환;김순관;조종석;허민욱
    • 대한교통학회지
    • /
    • 제26권2호
    • /
    • pp.109-119
    • /
    • 2008
  • 대중교통 교통카드 도입 이후, 점차 이용율이 증가되고 있다. 카드 데이터를 통해 얻을 수 있는 자료를 고려할 때 대중교통 카드 이용의 증가는 통행패턴 분석 및 정책적 측면에서 중요한 의미를 가지고 있다. 그 중에서 특히 죤별 대중교통 통행수요(O/D)를 손쉽게 파악할 수 있다는 점에서 높은 중요성을 가진다. 카드데이터를 통해 대중교통 죤별 통행수요(O/D)를 파악함에 있어서 데이터 자체의 오류에 대한 분석이나 결측에 대한 보완 과정이 반드시 필요하다. 본 연구에서는 반드시 선행되어야 할 과제이지만 아직 연구사례가 없었던 카드데이터의 오류와 결측에 관해 살펴보았다. 그 결과, 통행수요(O/D)분석과 관련한 오류나 결측에 대한 특성을 제시하였고, 결측에 대한 보정방안을 제안하였다. 그리고 제시된 결측방안들에 대한 적용 및 평가와 함께 활용방안을 제시하여, 향후 보다 신뢰성있는 대중교통 OD구축을 위한 기반을 마련하였다.

연속적 결측이 존재하는 기온 자료에 대한 결측복원 기법의 비교 (A comparison of imputation methods for the consecutive missing temperature data)

  • 김희경;강인경;이재원;이영섭
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.549-557
    • /
    • 2016
  • 장기간의 기후 자료가 누적되다 보면 자료의 수집과정에서 시스템적 오류나 측정 장비의 고장 등으로 인하여 연속적 결측이 종종 발생하게 된다. 연속적인 결측 형태를 갖는 경우 시계열 결측 자료를 대체하는 것에 어려움이 따른다. 이러한 경우 참조시계열을 이용하여 결측값을 대체할 수 있다. 참조시계열은 결측이 발생한 시계열과 관련성이 높은 주변지점의 시계열로 구성할 수 있다. 본 연구에서는 결측값을 대체시킬 수 있는 3가지 결측복원 기법-수정된 정규화비율 방법, 회귀 방법, IDW 방법-을 비교하는 시뮬레이션을 수행하였다. 우리나라 14개 지점의 기후관측소의 일평균기온값을 대상으로 비교한 결과 남쪽 해안가에 위치한 기후관측소의 자료에 대해서는 IDW 방법이 가장 정확한 것으로 나타났으며, 그 외 지역의 기후관측소 자료에 대해서는 회귀 방법이 가장 정확한 것으로 나타났다.

대체방법별 GEE추정량 비교 (Comparison of GEE Estimators Using Imputation Methods)

  • 김동욱;노영화
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.407-426
    • /
    • 2003
  • 본 연구에서는 범주형 반복측정자료의 일반화추정방정식(GEE)모형에서 결측이 발생할 경우 결측값 대체(imputation)방법들에 대한 성능을 비교하고자 한다. 설명변수 X가 부분적으로 결측을 갖는 경우 GEE추정량을 계산할 수 없다. 본 논문에서는 시점에 따라 값이 변하는 설명변수에 결측이 있는 경우 GEE모형에서 결측값을 추정하는 7가지의 대체방법을 다루며, 실제자료와 모의실험을 통하여 대체방법별 GEE추정량의 성질을 연구한다. 대체방법별 GEE추정량의 성능을 비교하기 위해 우리는 반응변수가 범주형인 반복측정모형에서 완전자료의 GEE추정량과 완전자료에서 결측을 생성하여 결측값에 각 대체방법을 적용하여 대체한 후 구한 GEE추정량을 비교한다. 대체방법으로는 (1) 단순삭제 (2) 표본 평균대체 (3) 행 평균대체 (4) 횡 시점 회귀대체 (5) 이월대체 (6) 베이지안 붓스트랩 (7) 근사적 베이지안 붓스트랩에 대해서 살펴본다. 결측과정(missing mechanism)은 무시할 수 있는 무응답(ignorable nonresponse)을 가정하며, 결측 발생에 대해서는 원자료의 시점 무응답 패턴(wave nonresponse pattern)을 고려하여 발생시키거나 또는 시점 무응답 패턴을 고려하지 않고 단순임의추출로 결측을 발생시키는 방법을 각각 고려한다.

다변수 Bidirectional RNN을 이용한 표층수온 결측 데이터 보간 (Imputation of Missing SST Observation Data Using Multivariate Bidirectional RNN)

  • 신용탁;김동훈;김현재;임채욱;우승범
    • 한국해안·해양공학회논문집
    • /
    • 제34권4호
    • /
    • pp.109-118
    • /
    • 2022
  • 정점 표층 수온 관측 데이터 중 결측 구간의 데이터를 양방향 순환신경망(Bidirectional Recurrent Neural Network, BiRNN) 기법을 이용하여 보간하였다. 인공지능 기법 중 시계열 데이터에 일반적으로 활용되는 Recurrent Neural Networks(RNNs)은 결측 추정 위치까지의 시간 흐름 방향 또는 역방향으로만 추정하기 때문에 장기 결측 구간에는 추정 성능이 떨어진다. 반면, 본 연구에서는 결측 구간 전후의 양방향으로 추정을 하여 장기 결측 데이터에 대해서도 추정 성능을 높일 수 있다. 또한 관측점 주위의 가용한 모든 데이터(수온, 기온, 바람장, 기압, 습도)를 사용함으로써, 이들 상관관계로부터 보간 데이터를 함께 추정하도록 하여 보간 성능을 더욱 높이고자 하였다. 성능 검증을 위하여 통계 기반 모델인 Multivariate Imputation by Chained Equations(MICE)와 기계학습 기반의 Random Forest 모델, 그리고 Long Short-Term Memory(LSTM)을 이용한 RNN 모델과 비교하였다. 7일간의 장기 결측에 대한 보간에 대해서 BiRNN/통계 모델들의 평균 정확도가 각각 70.8%/61.2%이며 평균 오차가 각각 0.28도/0.44도로 BiRNN 모델이 다른 모델보다 좋은 성능을 보인다. 결측 패턴을 나타내는 temporal decay factor를 적용함으로써 BiRNN 기법이 결측 구간이 길어질수록 보간 성능이 기존 방법보다 우수한 것으로 판단된다.

멀티태스크 러닝을 통한 회귀 분석에서의 결측값 처리 (Regression with Missing Data using Multi-task Learning)

  • 이재용;유환조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.116-118
    • /
    • 2012
  • 데이터의 결측치는 데이터 마이닝 알고리즘 성능에 많은 저하를 일으킨다. 따라서 본 논문에서는 멀티태스크 러닝을 이용하여 회귀 분석시에 결측치를 효율적으로 다루는 방법을 제안한다. 데이터를 데이터의 분포에 따라서 무결점 데이터와 결측 데이터를 구분하여 태스크를 나눈 후 각각의 결과를 종합하여 최적화하는 것을 목표로 한다.

다중회귀분석을 이용한 강우량 결측치 보정 (Completion of the Missing Rainfall Data by a Multi-regression method)

  • 이명우;이봉희;김형수;심명필
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.775-779
    • /
    • 2006
  • 강우자료의 구축은 수문해석에 있어 가장 기본적이며 중요한 단계라 할 수 있다. 하지만 수문 관측 자료의 경우 결측치가 존재하여 그에 대한 보정이 필요한 경우가 종종 발생하게 된다. 따라서 수문자료의 분석을 수행하기에 앞서 우선 자료에 대한 검정을 실시하고, 결측치가 존재할 경우는 이를 보정하여 분석을 수행하여야 한다. 본 연구에서는 다변량통계기법의 하나인 다중회귀분석을 이용하여 강우 결측치를 보정하였다. 본 연구에서는 다중공선성과 자기상관에 대하여 고려한 다중회귀모형을 구성하였다. 모형의 구성시 모든 결측지점에 적용이 가능하지 않아 일반성이 떨어짐을 확인 할 수 있었지만, 모형이 구성될 경우 통계적 적합도와 유의수준을 확인 할 수 있는 장점이 있었으며, 다중회귀모형이 구성되는 경우 좋은 보정 결과를 주는 것을 확인 할 수 있었다.

  • PDF

주기성을 갖는 탁도자료의 결측치 보완 기법 (Filling Method for Missing Turbidity Data having Periodicity)

  • 백경오;조홍연;이삼희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.1546-1550
    • /
    • 2006
  • 한강 하구부의 3개 지점에서 수중 계류방식으로 약 5개월에 걸쳐 탁도를 관측하였다. 이 과정에서 관측기기의 한계로 인해 탁도 자료의 결측치가 발생하였고, 이를 효율적으로 보완하기 위해 새로운 결측치 보완기법을 개발하였다. 개발된 기법, 일명 면적비법은 시계열 자료가 단일주기와 상이한 진폭을 갖는다는 가정하에, 각 사이클의 면적비율을 통해 결측치를 보완하는 방법이다. 면적비법과 기존의 최소제곱법을 검증하기 위해 결측치가 없는 정상적인 자료에 적용해 보면, 두 방법 모두 첨두치를 약간 과소 산정하는 경향이 있었다. 하지만 면적비법의 경우, 원자료의 총 면적과 보완자료의 총 면적간의 차이가 거의 없었다. 이 방법들을 한강 하구부에서 관측된 탁도자료에 적용해 본 결과, 면적비법은 합리적으로 결측치를 보완하는 반면, 최소제곱법은 보완자료의 총면적이 원자료에 비해 작아지는 오류가 발생하였다. 따라서 최소제곱법에 비해 면적비법이 결측치 보완에 더 우수한 결과를 제공함을 알 수 있었다. 본 연구에서 개발한 면적비법은 주기성이 뚜렷한 시계열자료의 결측치 보완에 유용하게 쓰일 수 있으리라 기대된다.

  • PDF

레이더 자료를 이용한 시공간적 변동성을 고려한 강우의 결측치 추정 (Estimation of Missing Rainfall Data Considering Spatio-Temporal Variation Using Radar Data)

  • 송창우;송창준;김병식;;김형수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1196-1200
    • /
    • 2010
  • 본 논문에서는 지점 강우의 결측치를 추정하기 위해 전통적인 통계학적 내삽기법을 이용한 역거리가중치법(IDWM), 역지수가중치법(IEWM), 상관계수가중치법(CCWM)과 패턴 인식의 일종인 인공신경망(ANN)기법 그리고 시공간적 강우분포의 측정이 가능한 레이더 자료를 이용해 결측치를 추정하여 각각의 방법을 비교하였다. 임진강 유역의 15개 지상관측소를 대상으로 교차검정(Cross validation) 분석을 실시해 본 결과, CCWM 방법과 ANN기법에 의한 RMSE가 0.46~1.79의 범위를 보였고, 보정레이더를 이용하여 결측치를 추정한 경우RMSE가 0.05~2.26의 범위를 보여 기존의 전통적 결측치 추정방법보다 실측치에 가까운 결과를 보였다. 이는 레이더자료가 지점 강우자료와는 달리 강우의 시공간적 변동성을 고려한 공간분포의 정보를 지니고 있기 때문인 것으로 판단된다.

  • PDF

펫 헬스 케어 서비스를 위한 GATs 기반 센서 데이터 처리 기법 설계 (Design of Sensor Data's Missing Value Handling Technique for Pet Healthcare Service based on Graph Attention Networks)

  • 이지훈;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.463-465
    • /
    • 2021
  • 센서 데이터는 여러가지 원인으로 인해 데이터 결측치가 발생할 수 있으며, 결측치로 인한 데이터의 처리 방식에 따라 데이터 분석 결과가 다르게 해석될 수 있다. 이는 펫 헬스 케어 서비스에서 치명적인 문제로 연결될 수 있다. 따라서 본 논문에서는 펫 웨어러블 디바이스로부터 수집되는 다양한 센서 데이터의 결측치를 처리하기 위해 GATs(Graph Attention neTworks)와 LSTM(Long Short Term Memory)을 결합하여 활용한 데이터 결측치 처리 기법을 제안한다. 펫 웨어러블 디바이스의 센서 데이터가 서로 연관성을 가지고 있다는 점을 바탕으로 인접 노드의 Attention 수치와 Feature map을 도출한다. 이후 Prediction Layer 를 통해 결측치의 Feature 를 예측한다. 예측된 Feature 를 기반으로 Decoding 과정과 함께 결측치 보간이 이루어진다. 제안된 기법은 모델의 변형을 통해 이상치 탐지에도 활용할 수 있을 것으로 기대한다.