• Title/Summary/Keyword: 결측자료 추정

Search Result 84, Processing Time 0.028 seconds

Missing Values Estimation for Time Course Gene Expression Data Using the Sequential Partial Least Squares Regression Fitting (순차적 부분최소제곱 회귀적합에 의한 시간경로 유전자 발현 자료의 결측치 추정)

  • Kim, Kyung-Sook;Oh, Mi-Ra;Baek, Jang-Sun;Son, Young-Sook
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.2
    • /
    • pp.275-290
    • /
    • 2008
  • The size of microarray gene expression data is very big and its observation process is also very complex. Thus missing values are frequently occurred. In this paper we propose the sequential partial least squares(SPLS) regression fitting method to estimate missing values for time course gene expression data that has correlations among observations over time points. The SPLS method is to combine the sequential technique with the partial least squares(PLS) regression fitting method. The usefulness of method proposed is evaluated through some simulation study for three yeast time course data.

Development of Machine Learning Based Precipitation Imputation Method (머신러닝 기반의 강우추정 방법 개발)

  • Heechan Han;Changju Kim;Donghyun Kim
    • Journal of Wetlands Research
    • /
    • v.25 no.3
    • /
    • pp.167-175
    • /
    • 2023
  • Precipitation data is one of the essential input datasets used in various fields such as wetland management, hydrological simulation, and water resource management. In order to efficiently manage water resources using precipitation data, it is essential to secure as much data as possible by minimizing the missing rate of data. In addition, more efficient hydrological simulation is possible if precipitation data for ungauged areas are secured. However, missing precipitation data have been estimated mainly by statistical equations. The purpose of this study is to propose a new method to restore missing precipitation data using machine learning algorithms that can predict new data based on correlations between data. Moreover, compared to existing statistical methods, the applicability of machine learning techniques for restoring missing precipitation data is evaluated. Representative machine learning algorithms, Artificial Neural Network (ANN) and Random Forest (RF), were applied. For the performance of classifying the occurrence of precipitation, the RF algorithm has higher accuracy in classifying the occurrence of precipitation than the ANN algorithm. The F1-score and Accuracy values, which are evaluation indicators of the classification model, were calculated as 0.80 and 0.77, while the ANN was calculated as 0.76 and 0.71. In addition, the performance of estimating precipitation also showed higher accuracy in RF than in ANN algorithm. The RMSE of the RF and ANN algorithms was 2.8 mm/day and 2.9 mm/day, and the values were calculated as 0.68 and 0.73.

Development of Homogeneous Road Section Determination and Outlier Filter Algorithm (국도의 동질구간 선정과 이상치 제거 방법에 관한 연구)

  • Do, Myung-Sik;Kim, Sung-Hyun;Bae, Hyun-Sook;Kim, Jong-Sik
    • Journal of Korean Society of Transportation
    • /
    • v.22 no.7 s.78
    • /
    • pp.7-16
    • /
    • 2004
  • The homogeneous road section is defined as one consisted of similar traffic characteristics focused on demand and supply. The criteria, in the aspect of demand, are the diverging rate and the ratio of green time to cycle time at signalized intersection, and distance between the signalized intersections. The criteria, in that or supply, are the traffic patterns such as traffic volume and its speed. In this study, the effective method to generate valuable data, pointing out the problems of removal method of obscure data, is proposed using data collected from Gonjiam IC to Jangji IC on the national highway No.3. Travel times are collected with licence matching method and traffic volume and speed are collected from detectors. Futhermore, the method of selecting homogeneous road section is proposed considering demand and supply aspect simultaneously. This method using outlier filtering algorithm can be applied to generate the travel time forecasting model and to revise the obscured of missing data transmitting from detectors. The point and link data collected at the same time on the rational highway can be used as a basis predicting the travel time and revising the obscured data in the future.

Filling of Incomplete Rainfall Data Using Fuzzy-Genetic Algorithm (퍼지-유전자 알고리즘을 이용한 결측 강우량의 보정)

  • Kim, Do Jin;Jang, Dae Won;Seoh, Byung Ha;Kim, Hung Soo
    • Journal of Wetlands Research
    • /
    • v.7 no.4
    • /
    • pp.97-107
    • /
    • 2005
  • As the distributed model is developed and widely used, the accuracy of a rainfall measurement and more dense rainfall observation network are required for the reflection of various spatial properties. However, in reality, it is not easy to get the accurate data from dense network. Generally, we could not have the proper rainfall gages in space and even we have proper network for rainfall gages it is not easy to reflect the variations of rainfall in space and time. Often, we do also have missing rainfall data at the rainfall gage stations due to various reasons. We estimate the distribution of mean areal rainfall data from the point rainfalls. So, in the aspect of continuous rainfall property in time, we should fill the missing rainfall data then we can represent the spatial distribution of rainfall data. This study uses the Fuzzy-Genetic algorithm as a interpolation method for filling the missing rainfall data. We compare the Fuzzy-Genetic algorithm with arithmetic average method, inverse distance method, normal ratio method, and ratio of distance and elevation method which are widely used previously. As the results, the previous methods showed the accuracy of 70 to 80 % but the Fuzzy-Genetic algorithm showed that of 90 %. Especially, from the sensitivity analysis, we suggest the values of power in the equation for filling the missing data according to the distance and elevation.

  • PDF

Imputation of missing precipitation data using machine learning algorithms (머신러닝 알고리즘을 이용한 결측 강우 데이터 추정에 관한 연구)

  • Heechan Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.320-320
    • /
    • 2023
  • 강우 데이터는 수문기상, 환경, 농업, 자연재해, 그리고 수자원 시스템 분야에서 가장 필수적인 기본 요소 중 하나이다. 또한 강우 데이터는 수문학적 분석에서 활용되는 필수 입력 자료 중 하나로 관측 데이터의 품질에 따라 수문 모형을 이용한 모의 결과물의 정확도가 결정된다고 할 수 있다. 따라서, 강우 관측소별로 강우 데이터의 품질을 어떻게 관리하느냐에 따라 수문 모형의 활용 범위 및 수자원 관리의 효율성이 결정될 수 있다. 강우의 시공간적 변동성은 수 많은 인자들과 직간접적으로 연계되어 있기 때문에 미계측 강우 자료에 대해 직접 관측이 아닌 수치 모형을 이용하여 강우의 발생과 강우량을 산정하는 것은 매우 복잡한 과제 중 하나이다. 현재 국내에서 운용되고 있는 강우 관측소의 경우에도 미계측 된 강우 데이터가 존재함으로써 강우 데이터의 활용에 제한이 생기는 경우가 있다. 따라서, 이러한 미계측 데이터의 추정 및 보완은 보다 효과적인 수재해 방지, 수자원 관리를 위한 필수 과제 중 하나이다. 일반적으로, 미계측 강우를 산정하기 위해서 Kriging, Thiessen, 등우선법, 그리고 역거리 관측법 등 다양한 수문학적 방법들이 적용되고 있다. 이러한 방법들은 산악효과나 강우 관측소의 분포 상태 등을 고려하지 못하기 때문에 측정하는 지역에 따라 강우 추정 오차가 커질 수 있다는 한계가 있다. 최근에는 데이터 관측 시스템과 빅데이터 기술의 발전과 활용 가능한 데이터의 양이 증가함에 따라 머신러닝을 활용한 사례가 증가하고 있다. 머신러닝은 데이터 사이의 관계를 기반으로 분류, 회귀, 그리고 예측 문제에 주로 사용되는 기법 중 하나이다. 따라서, 본 연구에서는 광주광역시 지역에 위치한 주요 강우 관측 지점들을 대상으로 미계측 된 시강우 데이터를 추정 및 복원하고자 한다. 여기서 데이터 추정 기술이란 미계측 강우의 발생 유무 및 강우량을 추정할 수 있는 기술을 의미한다. 이를 위해 대표적인 머신러닝 알고리즘인 인공신경망(Artificial Neural Network) 및 랜덤포레스트(Random Forest)를 적용하였다.

  • PDF

Analysis of the Hydrological Components of the Seolmacheon Catchment for the Year 2021 (2021년 설마천 유역의 수문성분 분석)

  • Kim, Dong Phil
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.409-409
    • /
    • 2022
  • 환경부 홍수통제소의 경우는 전국단위의 강수량(지상, 레이더), 하천수위, 유사량 관측과 국부적으로 증발산량과 토양수분 관측이 이루어지고 있는 상황이며, 기상청 및 다른 공공기관도 각 목적에 맞게 수문기상관측이 이루어지나 유역(또는 지역) 단위의 물순환 과정(강우량, 유출량, 증발산량, 지하수함양량, 토양수분량 등 포함)을 규명하는 조사·연구는 매우 미비한 실정이다. 개별적인 물순환 성분별 수문조사에서 벗어난 전체적인 관점을 고려한 유역단위의 물순환 과정을 규명하는 것은 매우 중요하다. 즉 물순환 성분별 명확한 수문량 산정 결과는 수자원 개발과 물환경 보전에 중요한 정보를 제공할 수 있다. 따라서 물순환 성분별 명확한 분석을 위해서는 중·소규모 유역 단위를 대상으로 지속적이고 신뢰성 있는 자료의 획득과 축적이 중요하므로 중·소규모 유역 단위의 대표성 있는 시험유역의 운영은 매우 의미가 있다고 볼 수 있다. 본 논문에서는 한국건설기술연구원에서 운영하는 설마천 유역(전적비교 수위관측소 기준, 유역 면적 8.48km2, 유로연장 5.59km, 유로경사 2.15%, 경기도 파주시 적성면 소재)의 2021년 수문관측자료를 이용하여 지표수 물순환 성분인 강우량, 하천유출량, 증발산량을 산정하였다. 기본 관측자료인 강우량은 각 지점강우량의 관측자료의 비교·검토 등 품질관리를 통해 자료를 확정하고 유역평균강우량을 산정하였다. 하천수위는 기준수위표와의 검토를 통해 자료를 확정하였으며, 하천유출량은 기존의 유량측정성과와 단면검토를 통해 수위-유량관계곡선식을 개발하고, 확정된 수위자료를 적용하여 산정하였다. 그리고 증발산량은 유역인근 2개 관측소(동두천 파주)의 기상관측자료를 이용하여 잠재증발산량을 산정하여 추정한 값이며, 그 외 지하수 함양량은 관측 지하수위자료의 결측으로 산정에서 제외하였다. 각 물순환 성분별로 생성된 2021년의 설마천 유역(전적비교 수위관측소 기준)의 총강우량은 1,103.6mm이며, 하천유출량은 620.1mm(총강우량 대비 56.2%), 실제증발산량(잠재증발산량 추정값)은 443.0mm(40.1%)이며, 그 외는 유역 손실량이다. 이와 같이 산정된 물순환 성분별 자료는 유역의 물순환 과정 규명을 위한 기초자료로 매우 유용하게 활용될 수 있으며, 유역 물관리를 위한 의사결정 과정에 중요한 역할을 할 수 있을 것으로 기대된다.

  • PDF

Additive hazards models for interval-censored semi-competing risks data with missing intermediate events (결측되었거나 구간중도절단된 중간사건을 가진 준경쟁적위험 자료에 대한 가산위험모형)

  • Kim, Jayoun;Kim, Jinheum
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.4
    • /
    • pp.539-553
    • /
    • 2017
  • We propose a multi-state model to analyze semi-competing risks data with interval-censored or missing intermediate events. This model is an extension of the three states of the illness-death model: healthy, disease, and dead. The 'diseased' state can be considered as the intermediate event. Two more states are added into the illness-death model to incorporate the missing events, which are caused by a loss of follow-up before the end of a study. One of them is a state of the lost-to-follow-up (LTF), and the other is an unobservable state that represents an intermediate event experienced after the occurrence of LTF. Given covariates, we employ the Lin and Ying additive hazards model with log-normal frailty and construct a conditional likelihood to estimate transition intensities between states in the multi-state model. A marginalization of the full likelihood is completed using adaptive importance sampling, and the optimal solution of the regression parameters is achieved through an iterative quasi-Newton algorithm. Simulation studies are performed to investigate the finite-sample performance of the proposed estimation method in terms of empirical coverage probability of true regression parameters. Our proposed method is also illustrated with a dataset adapted from Helmer et al. (2001).

Spatial Gap-filling of GK-2A/AMI Hourly AOD Products Using Meteorological Data and Machine Learning (기상모델자료와 기계학습을 이용한 GK-2A/AMI Hourly AOD 산출물의 결측화소 복원)

  • Youn, Youjeong;Kang, Jonggu;Kim, Geunah;Park, Ganghyun;Choi, Soyeon;Lee, Yangwon
    • Korean Journal of Remote Sensing
    • /
    • v.38 no.5_3
    • /
    • pp.953-966
    • /
    • 2022
  • Since aerosols adversely affect human health, such as deteriorating air quality, quantitative observation of the distribution and characteristics of aerosols is essential. Recently, satellite-based Aerosol Optical Depth (AOD) data is used in various studies as periodic and quantitative information acquisition means on the global scale, but optical sensor-based satellite AOD images are missing in some areas with cloud conditions. In this study, we produced gap-free GeoKompsat 2A (GK-2A) Advanced Meteorological Imager (AMI) AOD hourly images after generating a Random Forest based gap-filling model using grid meteorological and geographic elements as input variables. The accuracy of the model is Mean Bias Error (MBE) of -0.002 and Root Mean Square Error (RMSE) of 0.145, which is higher than the target accuracy of the original data and considering that the target object is an atmospheric variable with Correlation Coefficient (CC) of 0.714, it is a model with sufficient explanatory power. The high temporal resolution of geostationary satellites is suitable for diurnal variation observation and is an important model for other research such as input for atmospheric correction, estimation of ground PM, analysis of small fires or pollutants.

Prediction of the daily-flow duration curve and streamflow using the regional flow duration curve creation technique (지역화 유황곡선을 작성기법을 이용한 유역의 일유황곡선 및 유량 예측)

  • Choo, Kyung Su;Jeung, Se Jin;Kim, Byung Sik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.132-132
    • /
    • 2020
  • 유황곡선은 하천유량의 변동성을 함축적으로 나타내고 연간유량 분석방법(calendar-year method)과 전 자료기간유량분석방법(total-period method)을 이용하여 작성하고 분석할 수 있다. 본 연구는 유황곡선 상에서 유역특성인자들을 포함시켜 작성하는 방법을 제시하였고 지형 및 기상학적 인자를 통해 지역화 시킨 유황곡선을 통해 미계측 유역의 유황곡선을 추정할 수 있는 곡선을 개발하고자 한다. 이를 위해 유역의 특성인자자료를 수집하여 독립변수로 설정하였고 다중회귀분석을 실시하여 변수들을 지역화 시켰다. 지역화 시킨 변수들을 유황곡선에 반영하여 대상지역에서 하나의 유황곡선으로 나타내었다. 도출한 유황곡선을 자료가 있는 지역을 미계측유역이라 가정하고 검증하였다. 검증결과 실제자료와 유사하게 나타나는 것을 확인할 수 있었고 이를 통해 미계측 유역의 유출량 자료가 부족한 유역에 대한 예측과 과거 많은 부분이 결측된 유역에 대한 유출량 예측도 가능할 것이라 판단된다. 또한 강우시나리오를 통해 지형인자가 고려된 유황곡선을 이용한 다양한 자료분석을 실시할 수 있을 것이라 판단된다.

  • PDF

An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm (Monte-Carlo expectation-maximaization 방법을 이용한 무응답 모형 추정방법)

  • Choi, Boseung;You, Hyeon Sang;Yoon, Yong Hwa
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.3
    • /
    • pp.587-598
    • /
    • 2016
  • In predicting an outcome of election using a variety of methods ahead of the election, non-response is one of the major issues. Therefore, to address the non-response issue, a variety of methods of non-response imputation may be employed, but the result of forecasting tend to vary according to methods. In this study, in order to improve electoral forecasts, we studied a model based method of non-response imputation attempting to apply the Monte Carlo Expectation Maximization (MCEM) algorithm, introduced by Wei and Tanner (1990). The MCEM algorithm using maximum likelihood estimates (MLEs) is applied to solve the boundary solution problem under the non-ignorable non-response mechanism. We performed the simulation studies to compare estimation performance among MCEM, maximum likelihood estimation, and Bayesian estimation method. The results of simulation studies showed that MCEM method can be a reasonable candidate for non-response model estimation. We also applied MCEM method to the Korean presidential election exit poll data of 2012 and investigated prediction performance using modified within precinct error (MWPE) criterion (Bautista et al., 2007).