• 제목/요약/키워드: 결측자료 추정

검색결과 84건 처리시간 0.027초

결측값이 있는 정준상관 행렬도의 형상변동 연구 (A Study on Shape Variability in Canonical Correlation Biplot with Missing Values)

  • 홍현욱;최용석;신상민;강창완
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.955-966
    • /
    • 2010
  • 정준상관 행렬도는 두 변수군 사이에 연관성이 있는 데이터 행렬을 시각적으로 묘사하고 데이터가 가진 패턴을 찾는데 유용하고, 분석의 더욱 정형화된 방법으로써 결과를 보여주기에도 유용하다. 그럼에도 불구하고, 자료에 결측값이 존재하는 경우에 대부분의 행렬도는 바르게 적용되지 않는다. 이 문제를 해결하기 위해, 결측률에 따라 중앙값과 평균, EM알고리즘, MCMC대체법을 사용해서 결측 자료를 추정한다. 완전하지 않은 자료의 행렬도의 결측값을 추정하더라도, 대체법과 결측률에 따라 행렬도의 모양이 달라진다. 따라서 Shin 둥 (2008)에서 제안한 RMS(root mean square)와 원 행렬도와 추정된 행렬도간의 형상 변동을 측정하고 비교하기 위한 PS(Procrustes statistic)를 사용한다.

시계열자료에서 결측치 추정방법의 비교 (The Comparison of Imputation Methods in Time Series Data with Missing Values)

  • 이성덕;최재혁;김덕기
    • Communications for Statistical Applications and Methods
    • /
    • 제16권4호
    • /
    • pp.723-730
    • /
    • 2009
  • 시계열의 결측값은 미지의 모수로 취급될 수 있으며 최대우도방법 또는 확률변수방법에 의해 추정할 수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할 수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 ARMA 모형을 적용하여 두 가지 추정방법인 최대우도추정방법과 확률변수방법을 이용해 결측값을 대체하는 방법을 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001${\sim}$2006년 동안의 월별 Mumps 자료를 이용하여 앞의 두 가지 추정방법을 예측오차제곱합(SSF)을 구하여 비교한다.

시계열 지자기 측정 자료의 복원, 예측 및 잡음 분석 연구 (Restoration, Prediction and Noise Analysis of Geomagnetic Time-series Data)

  • 지윤수;오석훈;서백수;이덕기
    • 한국지구과학회지
    • /
    • 제32권6호
    • /
    • pp.613-628
    • /
    • 2011
  • 한반도에서 측정되고 있는 시계열 지자기 자료에 대해 결측 자료에 대한 복원과 측정 자료에 기반한 예측, 그리고 기관별 관측 자료에 대한 잡음도를 분석하였다. 결측 자료의 복원을 위해 주성분 분석을 통한 최적화 기법과 지구 통계학적 접근에 의한 방법을 적용하고 그 효과를 비교하였다. 주성분 기법은 자료의 주기성을 효율적으로 반영하는 특성을 보였으며, 지구통계학적 방법은 안정적인 복원 능력을 보였다. 관측소 별 잡음도를 파악하기 위해 이천 및 청양에서 동일 기간에 관측한 지자기 자료에 대해 공간적 분산성을 스캐터그램을 이용해 파악하였다. 그 결과 청양 관측소의 자료가 이천 관측소의 자료보다 연속적이며 안정적인 측정이 이루어진 것을 알 수 있었으며, 복원을 위한 크리깅 추정에서도 실제 자료의 추정이 매우 정확하게 이루어졌다. 결측자료의 복원의 경우 20분 이내의 결측 자료에 대해서는 크리깅 기법과 주성분 기법 모두 유사한 결과를 보였으나, 그 이상의 결측에 대한 복원과 지자기 자료의 예측이 필요한 경우에는 주성분 기법을 적용해야 주파수 영역에서의 특성이 실제와 더욱 유사하게 나타났다. 또한 지자기 자료의 예측을 위해서는 주성분 분석이 효율적으로 이용될 수 있음을 파악하였으며, 하루 정도의 지자기장을 예측할 수 있는 것으로 보인다.

신경망을 이용한 결측 수문자료 추정 및 실시간 자료 보정 (Missing Hydrological Data Estimation using Neural Network and Real Time Data Reconciliation)

  • 오재우;박진혁;김영국
    • 한국수자원학회논문집
    • /
    • 제41권10호
    • /
    • pp.1059-1065
    • /
    • 2008
  • 강우자료는 수문 해석에 있어 가장 기본이 되는 입력 자료이며, 다양한 원인에 의해 결측이 발생된다. 본 연구에서는 복잡한 자연현상 문제 해결에 그 응용성이 입증된 신경망 기법을 이용하여 결측 처리된 강우를 추정하기 위해서 소양강댐 유역 12개 강우량 관측소를 대상으로 신경망 모형을 구축하였으며, 모형의 성능 평가를 위해 실무에서 가장 많이 사용되고 있는 우량 보정 방법인 역거리법(RDS)과 산술평균법(AMM)으로 추정한 값과 비교하여 신경망을 이용한 추정 방법의 우수성을 보였다. 그리고 온라인상에서 보다 신뢰성 있는 수문자료를 재난관련 유관기관으로 전송하기 위해서 신경망 모형을 이용한 상시 실시간 보정이 가능하도록 신경망 학습기로 구성된 자동 보정시스템을 제안하였다.

다변수 Bidirectional RNN을 이용한 표층수온 결측 데이터 보간 (Imputation of Missing SST Observation Data Using Multivariate Bidirectional RNN)

  • 신용탁;김동훈;김현재;임채욱;우승범
    • 한국해안·해양공학회논문집
    • /
    • 제34권4호
    • /
    • pp.109-118
    • /
    • 2022
  • 정점 표층 수온 관측 데이터 중 결측 구간의 데이터를 양방향 순환신경망(Bidirectional Recurrent Neural Network, BiRNN) 기법을 이용하여 보간하였다. 인공지능 기법 중 시계열 데이터에 일반적으로 활용되는 Recurrent Neural Networks(RNNs)은 결측 추정 위치까지의 시간 흐름 방향 또는 역방향으로만 추정하기 때문에 장기 결측 구간에는 추정 성능이 떨어진다. 반면, 본 연구에서는 결측 구간 전후의 양방향으로 추정을 하여 장기 결측 데이터에 대해서도 추정 성능을 높일 수 있다. 또한 관측점 주위의 가용한 모든 데이터(수온, 기온, 바람장, 기압, 습도)를 사용함으로써, 이들 상관관계로부터 보간 데이터를 함께 추정하도록 하여 보간 성능을 더욱 높이고자 하였다. 성능 검증을 위하여 통계 기반 모델인 Multivariate Imputation by Chained Equations(MICE)와 기계학습 기반의 Random Forest 모델, 그리고 Long Short-Term Memory(LSTM)을 이용한 RNN 모델과 비교하였다. 7일간의 장기 결측에 대한 보간에 대해서 BiRNN/통계 모델들의 평균 정확도가 각각 70.8%/61.2%이며 평균 오차가 각각 0.28도/0.44도로 BiRNN 모델이 다른 모델보다 좋은 성능을 보인다. 결측 패턴을 나타내는 temporal decay factor를 적용함으로써 BiRNN 기법이 결측 구간이 길어질수록 보간 성능이 기존 방법보다 우수한 것으로 판단된다.

적응형 뉴로-퍼지 기법을 이용한 수문자료 결측치 추정에 관한 연구 (A Study on the Estimation of Missing Hydrological Data Using Adaptive Network-based Fuzzy Inference System(ANFIS))

  • 신희재;이태희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.264-264
    • /
    • 2020
  • 최근 기후변화로 우리나라는 과거에 비해 태풍이나 국지성 집중호우 및 가뭄 등 극심한 수문현상이 빈번하게 발생하고 그 피해가 더욱 커지고 있는 추세이다. 특히 우리나라의 경우 산지가 많으며 대부분의 하천이 유역면적이 작고 유로연장이 짧아 단시간에 유출이 발생하며 수문학적 특성이 연중 큰 편차를 보이고 있다. 이러한 이상기후에 따른 수문현상 파악 및 피해 경감을 위해 신뢰성 있는 수문자료는 매우 중요하다. 따라서 수문자료에 대한 품질관리는 필수적이지만 자료 결측 및 오측에 대한 신뢰성 높은 품질관리가 이뤄지지 못하고 있는 실정이다. 현재 수위자료의 결측이 발생한 경우 해당 관측소의 수위 자료를 사용해 선형보간 및 운형자법으로 수정하거나 상·하류 관측소의 관계를 이용하여 회귀분석을 통해 자료 결측의 수정 및 보완을 수행하는 등 담당자의 주관적 판단에 의존하고 있다. 본 논문에서는 신뢰성 높은 수문자료의 결측치 보완 및 예측을 위한 방안을 제시하고자 상류의 관측소의 수문자료를 이용한 하류의 단시간 수문 자료예측에 관한 연구를 수행하였다. 이를 위해 자료지향형 모델인 적응형 뉴로-퍼지 기법(Adaptive Network-based Fuzzy Inference System, ANFIS)을 이용한 모형을 적용하였다. 기존의 연구에서 가장 일반적으로 사용되는 물리적 모형은 수문자료를 활용하여 수위 및 유출을 산정함에 있어 매개변수의 결정이 어렵고 많은 오차들을 내포하고 있다. 본 연구에서 사용한 ANFIS는 입력자료와 출력자료만을 고려하여 구축할 수 있기 때문에 자료 수집단계에서 유역의 물리적 자료 및 지형 자료와 같은 방대한 양의 자료 수집이 필요가 없다. 이후 모형이 구축이 된다면 입·출력 자료만을 이용하여 신뢰성 높은 결과를 획득할 수 있지만 입력 자료의 품질에 따라 결과가 좌우되기 때문에 자료의 구성이 매우 중요하다. 본 연구에서는 ANFIS를 통해 무주남대천 유역의 무주군(여의교) 관측소의 수위자료를 입력자료를 사용하여 하류에 위치한 무주군(취수장) 관측소의 수문자료의 결측 보완 및 예측하는 모형을 구축하고 모형의 구조 변화를 통해 가장 정확도 높은 모형을 결정하였다.

  • PDF

범주형 자료의 결측치 추정방법 성능 비교 (Comparing Accuracy of Imputation Methods for Categorical Incomplete Data)

  • 신형원;손소영
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.33-43
    • /
    • 2002
  • 범주형 데이터의 결측치 추정을 위하여 최빈 범주법, 로지스틱 회귀분석, 연관규칙과 같은 다양한 방법이 연구되어 왔다. 본 연구에서는 이러한 방법의 추정 값을 결합하는 신경망 융합과 투표융합 방법을 제안하고 이의 성능을 시뮬레이션을 이용하여 비교하였다. 실험에 사용된 데이터의 특성을 나타내는 인자로는 (1) 입출력 변수간의 연결함수, (2) 데이터의 크기, (3) 노이즈의 크기 (4) 결측치의 비율, (5) 결측발생 함수를 사용하였다. 분석결과는 다음과 같다. 데이터의 크기가 작고 결측 발생 비율이 높으면 최빈 범주법, 연관규칙, 신경망 융합의 성능이 높게 나타났으며 데이터의 크기가 작고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 로지스틱 회귀분석, 신경망 융합의 성능이 높게 나타났다. 데이터의 크기가 크고, 결측치의 비율이 낮으면서, 노이즈가 크고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 신경망 융합의 성능이 높게 나타났다.

혼합원형분포를 이용한 지방국도의 시간교통량 추정모형 (Modeling on Daily Traffic Volume of Local State Road Using Circular Mixture Distributions)

  • 나종화;장영미
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.547-557
    • /
    • 2011
  • 본 논문에서는 우리나라 지방국도의 특정지점에서 수집된 교통량 자료를 이용하여 일일 시간교통량 추정모형을 개발하였다. 본 연구의 특징은 일일 24시의 시간변수를 원형변수로 취급하고, 지방부 교통량 자료의 특성상 출퇴근 시간에 교통량이 집중되는 이봉형의 현상을 감안하여 원형분포의 혼합모형을 고려하였다. 또한 시간대별 교통량의 분포가 요일에 따라 유사한 패턴을 가지는 데 착안하여 요일별 모형을 제시하였다. 혼합원형분포의 모수추정에는 EM알고리즘이 사용되었으며, 모형의 성능비교를 위해 가변수 회귀모형과의 비교를 실시하였다. 제시된 요일별 지방국도의 시간교통량 적합모형은 계측기의 손상 등으로 인한 교통량 결측자료의 추정에 효과적으로 사용될 수 있다.

통행사슬 구조를 이용한 교통카드 이용자의 대중교통 통행종점 추정 (Inferring the Transit Trip Destination Zone of Smart Card User Using Trip Chain Structure)

  • 신강원
    • 대한교통학회지
    • /
    • 제34권5호
    • /
    • pp.437-448
    • /
    • 2016
  • 본 연구는 선행연구에서 제시하고 있는 통행기점 정보만을 제공하고 있는 불완전한 대중교통카드 자료로부터 대중교통 통행의 종점을 통행사슬 구조를 이용하여 추정할 수 있는 모형의 국내 자료 적용 가능성을 살펴보고 모형 적용 결과를 제시하였다. 이를 위해 본 연구는 부산에서 2014년 10월 주중에 수집된 선불 교통카드 승 하차 태그 원시자료 1,846,252건을 대상으로 하루 동안 한 대중교통 이용자가 발생시킨 일련의 통행들을 시 공간적으로 연계시켜 통행사슬을 형성하고, 대중교통 이용자의 결측 종점을 연속된 다음 통행의 승차지점 또는 최초 승차지점이 속한 교통존으로 추정하였다. 모형 검증을 위해 대중교통 통행종점이 관측된 자료에 모형을 적용한 결과 실제 통행종점과 추정 통행종점의 일치도는 82.4%로 나타났으며 이 때 통행종점으로 추정된 정류장과 실제 하차 정류장간 거리의 오차는 최소가 되는 것으로 나타나 제안모형의 유용성은 높은 것으로 분석되었다. 통행사슬 구조를 이용한 통행종점 추정 모형을 종점결측 통행에 적용했을 때 종점결측 통행의 비율은 적용 전 71.40%(718,915통행)에서 21.74%(218,907통행)로 감소하였으며 종점추정이 불가한 218,907통행의 대부분은 모형 적용이 불가한 일일 통행횟수 '1회'인 통행(169,359통행, 77.37%)인 것으로 나타났고, 일일 통행횟수가 '2회 이상'인 통행의 종점결측 비율은 69.56%에서 모형 적용 후 6.27%로 크게 감소하였다. 한편 통행종점 추정 모형 적용에 따른 존간 통행 및 존내 통행분포의 변화를 비교하기 위해 순위상관계수 및 카이제곱 적합도 검정을 수행하였으며, 분석 결과 통행종점 추정 모형 적용에 따라 각 중존별 통행량의 순위는 변화하지 않으나 통행량 분포는 유의한 변화를 보였다. 따라서 통행사슬 구조를 이용한 교통카드 이용자의 통행종점 추정 모형 적용은 통행종점이 결측된 불완전 대중교통카드 자료가 수집되고 있는 도시의 대중교통 통행패턴을 보다 현실적으로 반영할 수 있게 도움을 줄 것으로 판단된다.

WIM 자료를 활용한 화물차량의 축중량 추정 모형 개발에 관한 연구 (Development of Truck Axle Load Estimation Model Using Weigh-In-Motion Data)

  • 오주삼
    • 대한토목학회논문집
    • /
    • 제31권4D호
    • /
    • pp.511-518
    • /
    • 2011
  • 축중계를 통한 화물차량의 축하중 자료는 도로의 설계, 유지관리, 시설물 보호 등의 위해서 필수적인 자료이다. 이와 같은 용도로 고속축중계의 자료는 도로계획, 연구자, 공무들은 고속축중계 자료를 활용한다. 또한 최근에는 중차량에 대한 단속에도 고속축중계의 자료를 활용하고 있다. 따라서 본 연구에서는 일반국도에서 수집된 고속축중계 자료를 활용하여 축하중을 추정하는 모형을 개발하였다. 추정된 축하중 추정 모형은 기존의 평균값을 이용한 방법과의 비교를 통하여 개발된 모형에 대한 비교 평가하였다. 축중량 추정에 있어 기존의 평균값을 적용하는 것보다 회귀모형을 적용하는 것이 모든 차종에 걸쳐서 작은 오차를 보이는 것으로 분석되었다. 향후 이러한 모형은 현장에서 운영되는 고속축중계의 결측자료 보정, 재보정 여부에 대한 평가 등의 목적으로 활용될 수 있을 것이다.