• 제목/요약/키워드: 결측 보정

검색결과 80건 처리시간 0.028초

머신러닝 기반 준실시간 다중 위성 강수 자료 보정 (Bias-correction of near-real-time multi-satellite precipitation products using machine learning)

  • 정성호;레수안히엔;응웬반지앙;이기하
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.280-280
    • /
    • 2023
  • 강수의 정확한 시·공간적 추정은 홍수 대응, 가뭄 관리, 수자원 계획 등 수문학적 모델링의 핵심 기술이다. 우주 기술의 발전으로 전지구 강수량 측정 프로젝트(Global Precipitation Measurement, GPM)가 시작됨에 따라 위성의 여러 센서를 이용하여 다양한 고해상도 강수량 자료가 생산되고 있으며, 기후변화로 인한 수재해의 빈도가 증가함에 따라 준실시간(Near-Real-Time) 위성 강수 자료의 활용성 및 중요성이 높아지고 있다. 하지만 준실시간 위성 강수 자료의 경우 빠른 지연시간(latency) 확보를 위해 관측 이후 최소한의 보정을 거쳐 제공되므로 상대적으로 강수 추정치의 불확실성이 높다. 이에 따라 본 연구에서는 앙상블 머신러닝 기반 수집된 위성 강수 자료들을 관측 자료와 병합하여 보정된 준실시간 강수량 자료를 생성하고자 한다. 모형의 입력에는 시단위 3가지 준실시간 위성 강수 자료(GSMaP_NRT, IMERG_Early, PERSIANN_CCS)와 방재기상관측 (AWS)의 온도, 습도, 강수량 지점 자료를 활용하였다. 지점 강수 자료의 경우 결측치를 고려하여 475개 관측소를 선정하였으며, 공간성을 고려한 랜덤 샘플링으로 375개소(약 80%)는 훈련 자료, 나머지 100개소(약 20%)는 검증 자료로 분리하였다. 모형의 정량적 평가 지표로는 KGE, MAE, RMSE이 사용되었으며, 정성적 평가 지표로 강수 분할표에 따라 POD, SR, BS 그리고 CSI를 사용하였다. 머신러닝 모형은 개별 원시 위성 강수 자료 및 IDW 기법보다 높은 정확도로 강수량을 추정하였으며 공간적으로 안정적인 결과를 나타내었다. 다만, 최대 강수량에서는 다소 과소추정되므로 이는 강수와 관련된 입력 변수의 개수 업데이트로 해결할 수 있을 것으로 판단된다. 따라서 불확실성이 높은 개별 준실시간 위성 자료들을 관측 자료와 병합하여 보정된 최적 강수 자료를 생성하는 머신러닝 기법은 돌발성 수재해에 실시간으로 대응 가능하며 홍수 예보에 신뢰도 높은 정량적인 강수량 추정치를 제공할 수 있다.

  • PDF

데이터 저장소를 이용한 이상치 및 결측치 보정 시스템 (Adjustment System for Outlier and Missing Value using Data Storage)

  • 김광호;김능회
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.47-53
    • /
    • 2023
  • 현재 4차 산업혁명 시대에 오면서 다양하고 많은 데이터가 쌓여왔다. 농업사회도 스마트팜이나 노지에서 작물의 성장에 영향을 주는 환경 데이터를 센서로 수집해왔다. 환경 데이터는 측정하는 지역에 따라 특징을 가지고, 측정하는 시기에 따라서도 특징을 보이는 데이터이다. 수집된 농업 데이터를 활용해 통계, 인공지능을 사용하여 성장을 예측하거나 수확량을 예측하는 연구가 진행되어왔다. 이러한 연구는 기반이 되는 데이터에 따라 결과가 크게 차이난다. 이에 성능 향상을 위해서 데이터의 품질을 개선하기 위한 연구 또한 지속해서 진행되어왔다. 높은 성능을 위하여 많은 양의 데이터가 필요하고, 양이 충분하여도 데이터의 이상치나 결측치가 있을 경우 결과에 큰 영향을 미친다. 따라서 이상치와 결측치 값의 보정은 데이터 전처리 과정에서 필수이다. 이에 본 논문에서는 실제 농가에서 수집된 데이터를 통합하고 이를 기반으로 이상치와 결측치 보정 시스템을 제안한다.

표준화된 KoFlux 에디 공분산 자료 처리 방법의 변화와 개선 (Changes and Improvements of the Standardized Eddy Covariance Data Processing in KoFlux)

  • 강민석;김준;이승훈;김종호;천정화;조성식
    • 한국농림기상학회지
    • /
    • 제20권1호
    • /
    • pp.5-17
    • /
    • 2018
  • KoFlux의 표준화된 에디 공분산 플럭스 자료 처리과정이 갱신되는 과정에서 그 처리 방법에 따른 결과도 조금씩 달라져 왔다. 대부분의 자료 사용자들은 자료 처리 결과의 차이와 이러한 차이가 자신들의 분석결과에 미칠 수 있는 영향에 대해 명확히 인지하지 못하고 자료를 사용하고 있는 실정이다. 본 총설에서는 KoFlux 데이터베이스를 사용하는 연구자들에게 자료처리 과정을 투명하게 정리하여 자료에 대한 신뢰성과 활용성을 확보하기 위해, 과거의 자료 처리 방법이 어떻게 변화되고 개선되었는지를 평탄하고 균질한 해남 논 관측지(HPK)와 복잡하고 비균질한 광릉 활엽수림 관측지(GDK) 자료를 처리하고 그 차이를 확인하여 문서화하였다. 관측 대상지와 관측 장비의 다양화로 인해, 기존에 무시되거나 간소화 되었던 자료 처리 과정(예, 주파수 반응 보정, 정상성 검정 등)을 다시 적용하였고, 메탄 플럭스 결측 메우기와 이산화탄소 플럭스 보정 및 배분 방법을 새롭게 개선하였다. 본 연구결과로부터 에디 공분산 플럭스 관측 자료의 품질에 주파수 반응 보정(HPK: 연적산값의 11~18%의 편향 발생, GDK: 6~10%)과 정상성 점검(HPK: 연적산값의 4~19%의 편향 발생, GDK: 9~23%)이 매우 중요하고, 결측 메우기 및 배분 과정에 있어서 우선적으로 결측을 최소화하는 것이 최선이며, 대상 플럭스의 변동을 설명할 수 있는 적절한 조절 인자의 선택이 처리방법의 선택보다 중요함을 확인 하였다. 장기 KoFlux 관측 자료의 정확성, 투명성 및 연속성 확보를 위해 위의 결과를 반영하는 자료 처리 기술 개발과 문서화를 지속적으로 추진해 나갈 것이다.

유역모형을 활용한 제주도 한천 유역의 관측유량 평가 및 보완 (Evaluation and complementation of observed flow in the Hancheon watershed in Jeju Island using a physically-based watershed model)

  • 김철겸;김남원
    • 한국수자원학회논문집
    • /
    • 제49권11호
    • /
    • pp.951-959
    • /
    • 2016
  • 본 연구에서는 제주도의 한천 유역을 대상으로 유역모델링 기법으로 많이 활용되고 있는 SWAT 모형을 이용하여 실시간 관측되고 있는 하천유량의 신뢰성과 활용성을 평가하였다. 평상시 거의 건천의 형태를 나타내는 간헐하천 특성을 고려하기 위하여 기존 연구에서 검증되었던 간헐하천모의 알고리즘을 적용하였으며, 2008~2013년을 대상으로 유역별 관측사상과 모의사상을 비교 분석하였다. 모형효율과 결정계수를 통해 모형 적용성을 평가한 결과, 보정기간에 대해 모형효율(ME) 0.88, 결정계수($R^2$) 0.93, 검증기간에 대해서는 각각 0.79와 0.89로서 매우 양호한 것으로 분석되었다. 모의치와 관측치의 차이가 크게 나타나는 일부 사상들에 대한 검토 결과, 강수량에 비해 관측유출률이 너무 크거나 낮은 경우가 있었는데 이는 기존 호우시 유출률 및 모델링 결과와 비교할 때 관측유량의 계측 및 수위-유량 산정과정에서의 오류의 가능성을 예상할 수 있었다. 이러한 관측유량에 대한 보완을 위해 모의자료를 이용하여 강수량과 유출량 간의 회귀관계를 도출하였으며, 2009~2010년을 대상으로 회귀식을 적용한 결과 유역모델링에 의한 모의유량과 잘 일치하는 것으로 나타났다. 따라서, 모델링 결과가 충분한 신뢰성을 보장한다는 가정 하에, 유도된 회귀식을 활용하여 신뢰성 있는 유출량을 간편하게 예측할 수 있으며, 관측자료의 결측치나 이상치를 즉각적으로 검증하는 데에도 활용될 수 있을 것으로 판단된다. 본 연구에서와 같이 관측자료의 검증 및 결측치에 대한 보완을 통하여 모형 적용시 보정과정에서의 오류를 최소화함으로써 제주도 지역의 독특한 유출 특성을 고려한 정교한 모델링과 물수지 분석에 크게 기여할 수 있을 것으로 판단된다.

국도의 동질구간 선정과 이상치 제거 방법에 관한 연구 (Development of Homogeneous Road Section Determination and Outlier Filter Algorithm)

  • 도명식;김성현;배현숙;김종식
    • 대한교통학회지
    • /
    • 제22권7호
    • /
    • pp.7-16
    • /
    • 2004
  • 국도의 단속교통류의 특성을 고려한 교통량 동질구간이란 도로의 공급측면에서 주요 신호교차로의 분기, g/C 비율, 신호교차로간 거리등으로 분할할 수 있으며, 교통수요측면에서는 교통량 변화 패턴곡 서로 유사하면서 정량적인 교통특성(예를 들어, 교통량의 크기나 속도의 범위 등)이 거의 같은 인근 검지기들로 이루어진 구간을 말한다. 본 연구에서는 국도 3호선의 곤지암 IC에서 장지 IC간의 10.72km를 대상으로 수집한 구간통행시간 자료와 검지기에서 수집한 지점 교통량과 속도 자료를 이용하여 기존의 이상치 제거방법에서의 문제점을 제시하고 참조자료를 활용한 새로운 유효 데이터 확보방안을 제시한다. 나아가, 향후 통행시간 추정모형 제작 및 검지기 자료의 이상치 및 결측 자료의 보정을 위한 동질구간의 선정방법을 KHCM 방식에 의한 공급자 측면과 교통류의 특성을 고려한 수요자 측면을 동시에 고려하여 제시하였다. 이러한 구간자료와 지점자료를 공유한 국도 구간의 교통류 특성에 관한 연구는 향후 소요시간 추정과 결측 및 데이터 보정에 필요한 기초 자료로 활용될 것으로 기대된다.

국도 단속류 구간에서 DSRC를 활용하여 수집한 개별차량 통행시간의 최적 수집 간격 결정 연구 (Determination of the Optimal Aggregation Interval Size of Individual Vehicle Travel Times Collected by DSRC in Interrupted Traffic Flow Section of National Highway)

  • 박현석;김영찬
    • 대한교통학회지
    • /
    • 제35권1호
    • /
    • pp.63-78
    • /
    • 2017
  • 연구는 국도 단속류 구간에서 DSRC로 수집한 개별차량 통행시간의 대푯값 산정 시 신뢰도를 높이는 최적 수집 간격을 결정하는데 목적이 있다. 이를 위하여, 단속류 구간에서 수집되는 가장 대표적인 개별차량 통행시간의 분포인 양봉형태의 비대칭 분포를 따르는 수집데이터를 활용하고 개별차량 통행시간의 수집 간격 크기를 변화시켜 MSE(Mean Square Error)를 추정함으로 오차가 최소가 되는 최적 수집 간격 크기를 결정한다. MSE 산정을 위한 편의 추정식은 비대칭 분포에서도 활용이 가능한 t-분포의 최대 추정 오차식을 활용하였다. 최적 수집 간격 분석을 위한 데이터 수집 간격은 단속류 구간에서 신호정지로 데이터 수집이 정상적으로 결측 되는 1-2분 수집 간격은 제외하고, 3분 이상의 수집 간격만을 대상으로 하였다. 데이터 수집 시 결측을 발생시키는 수집 간격은 결측 데이터 보정처리 과정에서 또 다른 오차를 유발하게 되어 배제하였다. 분석결과 MSE가 최소가 되는 최적 수집 간격은 3-5분이며, 통행시간 증가 시 최적 수집 간격은 3분으로 짧아짐을 확인하였다. 시스템 운영의 효율성과 통행시간 대푯값 산정의 신뢰도 향상을 모두 고려할 때 기본 수집 간격은 기존과 같이 5분으로 운영하고, 정체 시는 3분으로 수집 간격을 줄여 운영하는 것이 효과적일 것으로 사료된다.

기상모델자료와 기계학습을 이용한 GK-2A/AMI Hourly AOD 산출물의 결측화소 복원 (Spatial Gap-filling of GK-2A/AMI Hourly AOD Products Using Meteorological Data and Machine Learning)

  • 윤유정;강종구;김근아;박강현;최소연;이양원
    • 대한원격탐사학회지
    • /
    • 제38권5_3호
    • /
    • pp.953-966
    • /
    • 2022
  • 에어로솔(aerosol)은 대기 질을 악화시키는 등 인체 건강에 악영향을 끼치므로 에어로솔의 분포 및 특성에 대한 정량적인 관측이 필수적이다. 최근 전 지구 규모에서의 주기적이고 정량적인 정보 획득 수단으로 위성관측 Aerosol Optical Depth (AOD) 영상이 다양한 연구에 활용되지만 광학센서 기반의 위성 AOD 영상은 구름 등의 조건을 가진 일부 지역에서 결측을 가진다. 이에 본 연구는 위성자료의 결측복원을 위하여 격자형 기상자료와 지리적 요소를 입력변수로 하여 Random Forest (RF) 기반 gap-filling 모델을 생성한 이후, gap-free GK-2A/AMI AOD hourly 영상을 산출하였다. 모델의 정확도는 -0.002의 Mean Bias Error (MBE), 0.145의 Root Mean Square Error (RMSE)로, 원자료의 목표 정확도보다 높으며 상관계수 0.714로 복원 대상이 대기변수인 점을 감안하면 상관계수 측면에서도 충분한 설명력을 갖춘 모델이다. 정지궤도 위성의 높은 시간 해상도는 일변화 관측에 적합하며 대기보정을 위한 입력, 지상 미세먼지 농도 추정, 소규모 화재 또는 오염원 분석 등 타 연구를 위한 자료 활용 측면에서 중요하다.

WIM 자료를 활용한 화물차량의 축중량 추정 모형 개발에 관한 연구 (Development of Truck Axle Load Estimation Model Using Weigh-In-Motion Data)

  • 오주삼
    • 대한토목학회논문집
    • /
    • 제31권4D호
    • /
    • pp.511-518
    • /
    • 2011
  • 축중계를 통한 화물차량의 축하중 자료는 도로의 설계, 유지관리, 시설물 보호 등의 위해서 필수적인 자료이다. 이와 같은 용도로 고속축중계의 자료는 도로계획, 연구자, 공무들은 고속축중계 자료를 활용한다. 또한 최근에는 중차량에 대한 단속에도 고속축중계의 자료를 활용하고 있다. 따라서 본 연구에서는 일반국도에서 수집된 고속축중계 자료를 활용하여 축하중을 추정하는 모형을 개발하였다. 추정된 축하중 추정 모형은 기존의 평균값을 이용한 방법과의 비교를 통하여 개발된 모형에 대한 비교 평가하였다. 축중량 추정에 있어 기존의 평균값을 적용하는 것보다 회귀모형을 적용하는 것이 모든 차종에 걸쳐서 작은 오차를 보이는 것으로 분석되었다. 향후 이러한 모형은 현장에서 운영되는 고속축중계의 결측자료 보정, 재보정 여부에 대한 평가 등의 목적으로 활용될 수 있을 것이다.

버스정보 결측시 검지기 자료를 통한 버스 통행시간의 산정 (Estimation of Bus Travel Time Using Detector for in case of Missed Bus Information)

  • 손영태;김원기
    • 한국ITS학회 논문지
    • /
    • 제4권3호
    • /
    • pp.51-59
    • /
    • 2005
  • 버스의 서비스 질을 향상시키기 위해서 시행중인 버스정보시스템은 버스의 도착 예정시간을 산정하기 위해서 일정주기동안 통행한 버스의 데이터를 바탕으로 신경망 모형, 칼만필터링, 이동평균법등의 알고리즘을 사용하여 예측한다. 하지만 버스의 데이터 결측으로 인하여 버스의 도착 예정 시간을 산정하기 어려울 때는 버스의 시간대별 패턴 데이터를 구축하여 이를 활용하지만, 일반적으로 오차의 범위가 크다. 따라서 본 연구에서는 도착 예정 시간을 산정하기 위해 링크에 설치된 대기행렬 검지기 자료를 이용하여 버스의 링크통행 시간을 산정한다. CORSIM Version 5.1 시뮬레이션 패키지를 이용하여 검지기 지점 속도를 보정하여 검지기 지점속도를 바탕으로 버스의 통행시간을 산정한다.

  • PDF

microRNA 발현 데이터의 상관관계 분석을 통한 microRNA Functional Family 탐색 (Defining microRNA functional families through correlation analysis of microRNA microarray data)

  • 남진우;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.13-15
    • /
    • 2006
  • microRNA는 유전자의 전사 후 과정에서 negative regulation을 담당하는 small noncoding RNA의 한 증류이다. 최근까지 330여개의 인간 microRNA가 발견되었지만 그들의 기능이 밝혀진 것은 소수에 불과하다. microRNA의 기능은 3'UTR에 불완전 상보결합을 통해 negative regulation을 받게 되는 유전자의 기능으로부터 유추되는 것이 일반적이다. 특별히 유전체상에 군집화 된 microRNA들은 하나의 전사체로부터 발현되는 것으로 판단되며, 같은 또는 관련된 기능을 하거나 같은 목표 유전자를 조절하기 위한 functional family일 가능성이 높다. 또한 이러한 functional family는 하나의 전사체로부터 발현되기 때문에, 조직별로 조건별로 같은 발현 패턴을 보여야 한다. 본 연구에서는 발현데이터로부터 microRNA functional family를 탐색하기 위해, 5개의 연구 그룹에서 공개한 조직별 microRNA 발현데이터를 표준화 작업을 거친 후 통합하고 k-nearest neighbor 알고리즘을 이용해 결측치를 보정한 후 microRNA 발현사이의 correlation을 계산한다. 이때 데이터 통합에서 생기는 문제에 robust한 결과를 얻기 위해 실제 발현데이터가 아닌 rank 데이터부터 correlation을 측정한다. 계산된 spearman ranked correlation 결과와 microRNA의 genomic coordination 정보로부터 34개의 functional family를 정의할 수 있었다.

  • PDF