• Title/Summary/Keyword: 결측자료

Search Result 302, Processing Time 0.027 seconds

An Evaluation System For Freeway Traffic Data Processing Techniques (고속도로 교통자료 처리기법 통합평가 시스템 개발)

  • Oh, Dong-Wook;Oh, Cheol;NamKoong, Sung;Jeon, Se-Kil
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.7 no.4
    • /
    • pp.13-24
    • /
    • 2008
  • Real-time traffic data are readily obtainable by traffic surveillance systems of intelligent transportation systems (ITS). Such data greatly support further applications in the field of traffic operations, planning, and safety. However, traffic data should be appropriately processed to fully exploit the benefits of data collection capability. Rather than developing individual data processing techniques, which is major concern of existing studies, this study proposes a novel methodology for evaluating data processing techniques in an integrated manner. Also, a tool for implementing the proposed methodology is developed. Users can extract useful and more reliable traffic data based upon their ultimate purpose of data usage by the evaluation tool developed in this study. Actual freeway traffic data are, as an example, fed into the evaluation tool, and results are discussed.

  • PDF

Pattern-Mixture Model of the Cox Proportional Hazards Model with Missing Binary Covariates (결측이 있는 이산형 공변량에 대한 Cox비례위험모형의 패턴-혼합 모델)

  • Youk, Tae-Mi;Song, Ju-Won
    • The Korean Journal of Applied Statistics
    • /
    • v.25 no.2
    • /
    • pp.279-291
    • /
    • 2012
  • When fitting a Cox proportional hazards model with missing covariates, it is inefficient to exclude observations with missing values in the analysis. Furthermore, if the missing-data mechanism is not Missing Completely At Random(MCAR), it may lead to biased parameter estimation. Many approaches have been suggested to handle the Cox proportional hazards model when covariates are sometimes missing, but they are based on the selection model. This paper suggest an approach to handle Cox proportional hazards model with missing covariates by using the pattern-mixture model (Little, 1993). The pattern-mixture model is expressed by the joint distribution of survival time and the missing-data mechanism. In the pattern-mixture model, many models can be considered by setting up various restrictions, and different results under various restrictions indicate the sensitivity of the model due to missing covariates. A simulation study was conducted to show the sensitivity of parameter estimation under different restrictions in a pattern-mixture model. The proposed approach was also applied to mouse leukemia data.

A Study on Estimation of Lowflow Ungauged Basin Using Multiple Regression Analysis (다중회귀분석을 이용한 미계측 유역의 갈수유량 산정에 관한 연구)

  • Lim, Ga Kyun;Jeung, Se Jin;Kim, Byung Sik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.133-133
    • /
    • 2020
  • 갈수량이란 1년 중 355일은 유지되는 유량을 말하며 물 공급 계획 및 관리, 저수지 설계, 관개용수의 수량과 수질 관리, 생태계 보존 등에 있어서 갈수량의 크기와 빈도를 파악하는 것은 매우 중요한 과정이다. 갈수량 산정을 위해서는 오랜 기간의 관측 일유량 자료가 필요하지만 우리나라의 경우 관측 유량 자료의 결측자료가 많아 갈수량 산정에 필요한 장기간의 자료가 부족하다. 따라서 본 연구에서는 전국 40개 중권역 유역을 대상으로 갈수 빈도별 갈수량 산정 회귀식 개발을 수행하였다. 갈수량 산정에 적용할 수 있는 18개의 유역인자와 4개의 수문 인자를 상관분석을 통해 다중공선성을 고려하였으며 상관분석 결과를 토대로 미계측 유역에 적용 가능한 인자를 선정하였다. 갈수 빈도 분석과 단계적 회귀분석을 통하여 미계측 유역에 적용할 수 있는 갈수 빈도별 갈수량 산정 회귀식을 개발하였다. 또한 계측 유역을 미계측 유역으로 가정하여 개발된 갈수량 산정 회귀식을 이용하여 갈수량을 산정하고 분석 결과와 실제 갈수량을 비교하여 개발된 회귀식의 적정성을 검토하였다.

  • PDF

Suggestions on the Improvement of the Hydrological Data Operation II (수문관측자료 운영 개선방안에 대한 연구 II)

  • Kim, Hwi-Rin;Cho, Hyo-Seob
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2007.05a
    • /
    • pp.879-882
    • /
    • 2007
  • 수문관측자료 운영 개선방안에 대한 연구(2006, 김휘린, 조효섭)에서 건설교통부 한강홍수통제소에서 수행하고 있는 수문관측자료를 대상으로 하여 관측, 기록, 전송, 품질관리, DB구축 및 정보화의 5단계로 임의 분류하고 각 단계별 현황을 파악하여 문제점을 검토하고 개선방안을 제안하였다. 이는 적극적으로 수용되어 수문관측자료 운영에 대해 개선을 시도하였으며 본 논문에서는 이를 간략히 소개하고자한다. 첫째, 관측소 점검 대장이 조사과와 전기통신과로 이분화되어 있고 각 관측소별로 점검대장이 비치되어 있으나 이를 수기로 작성하고 있으며 자료의 업데이트 및 과거점검대장의 DB 구축과 비전산화를 지적한 바 있다. 이에 '물관련시스템 DB연계 사업'을 통해 수기로 작성된 관측시설 점검대장을 전부 DB로 구축하였고 이를 총괄하여 관리 및 점검사항을 업데이트할 수 있는 관측시설 점검대장 관리 및 입력 프로그램을 구축하였고 현재 한강홍수통제소에서 시험 운영 중에 있다. 향후 보완이 끝난 후에는 낙동강, 금강, 영산강 홍수통제소에도 확대 설치 및 운영을 실시할 예정이다. 둘째, 수문자료의 품질관리에 있어서 전산시스템에 의한 완전 자동화는 실현하기가 어려울 뿐 아니라 바람직하지 못한 결과를 가져올 수 있으므로 담당자의 수동 검토 및 처리과정은 필수적이라고 논한 바 있다. 그 후 수문자료품질관리T/F팀(조사과, 전기통신과, 하천정보센터)이 구성되었고, 홍수기 오 결측자료 발생 확인, 긴급대응 촉구, 이상치 발생원인 추정 및 대책 마련 등 고품질 수문자료를 생성하기 위해 노력하였다. T/F팀 활동사항은 타홍수통제소에서도 벤치마킹이 되고 있다. 보다 정확한 댐운영자료 공유방안을 위한 관련기관과의 협력회의가 개최되어 품질관리된 자료의 정보 공유시기, 공유방식, 자료형태 등이 결정되었다. 이는 유관기관간 품질관리된 댐운영자료의 효율적인 정보 공유체계 확립을 위한 체계를 마련하는 계기라고 사료된다. 또한, 유량측정사업 결과를 익년에 반영하는 기존 방식을 개선하기 위해 유량자료관리및분석시스템(프론티어사업에서 수행, 한국건설기술연구원 개발)을 통제소내에 설치 운영을 추진하고 있다.

  • PDF

Imputation method for missing data based on clustering and measure of property (군집화 및 특성도를 이용한 결측치 대체 방법)

  • Kim, Sunghyun;Kim, Dongjae
    • The Korean Journal of Applied Statistics
    • /
    • v.31 no.1
    • /
    • pp.29-40
    • /
    • 2018
  • There are various reasons for missing values when collecting data. Missing values have some influence on the analysis and results; consequently, various methods of processing missing values have been studied to solve the problem. It is thought that the later point of view may be affected by the initial time point value in the repeated measurement data. However, in the existing method, there was no method for the imputation of missing values using this concept. Therefore, we proposed a new missing value imputation method in this study using clustering in initial time point of the repeated measurement data and the measure of property proposed by Kim and Kim (The Korean Communications in Statistics, 30, 463-473, 2017). We also applied the Monte Carlo simulations to compare the performance of the established method and suggested methods in repeated measurement data.

Extension Techniques of Partially Recorded Stream-flow to Continuous Daily Data (부분관측된 유량자료의 연속 일유량자료로 확장법)

  • Baek, Kyong-Oh;Yim, Dong-Hee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.397-397
    • /
    • 2011
  • 2004년부터 4대강 물환경연구소는 수질오염총량관리제의 원활한 추진을 위해 총량관리단위유역 말단부에서 8일 간격으로 청천(晴天)시를 중심으로 유량과 수질을 동시에 측정하기 시작하였다. 그 결과 연중 하천유량과 수질의 연동 여부 및 변동 추이를 확인하는 것이 가능하게 되었다. 그러나 8일 간격으로 생산되는 유량은 지침의 정의와 맞물려 기준유량의 산정에 또 다른 어려움을 주고 있다. '한강수계 오염총량관리계획수립 지침'에 따르면 '기준유량은 과거 10년간 평균 저수량으로 한다'고 명시되어 있다. 여기서 저수량이란 유량의 크기를 누가일수로서 표시하여 1년을 통하여 275일은 이보다 더 작지 않은 유량으로 정의된다. 따라서 정확한 저수량을 산정하기 위해서는 1년 365개 매일의 유량자료가 필요하다. 하지만 8일 간격으로 유량을 측정하게 되면 1년 365개 대신 최대 45 여개의 일 유량자료만 취득 가능하므로 유황분석에 어려움이 발생할 수밖에 없다. 본 연구에서는 수질오염총량관리단위유역의 말단부에서 8일 간격으로 계측된 유량자료가 있을 때 이를 연속적인 일유량으로 확대할 수 있는 방법론 중 하나를 소개한다. 미 지질조사국(USGS)에서 주로 사용되는 이 방법은 A지점(부분계측이 이루어지는 지점)의 결측치를 동일 유역 혹은 수문학적으로 유사한 유역의 B지점(연속계측이 이루어지는 지점)의 자료를 이용하여 보완하는 방식이다. 이를 위해 먼저 부분계측이 이루어진 날과 같은 날짜의 유량자료를 연속계측자료에서 추출한 다음 두 자료(A지점에서의 모든 유량과 B지점에서의 추출된 유량)의 상관성을 비교해 본다. 두 자료간에 상관도가 높다면 이를 잘 표현하는 방정식을 통해 A지점의 결측치를 내 외삽한다. 여기서 두 자료간 상관도를 잘 묘사할 수 있는 방법으로 본 연구에서는 최소제곱법(Least Square Estimator, LSE)과 분산확장법(Maintenance of Variance Extension, MOVE)을 비교,분석해 보았다. 한강수계 수질오염총량관리단위유역 중 동일지점에 8일 간격 부분계측 유량자료와 일 연속자료가 동시에 존재하는 곳이 6지점이 있었으며 이 자료들을 바탕으로 LSE와 MOVE의 정확도를 검증해 본 결과 MOVE가 일 연속유량 확장에 더 나은 결과를 보였다.

  • PDF

Empirical Bayesian Misclassification Analysis on Categorical Data (범주형 자료에서 경험적 베이지안 오분류 분석)

  • 임한승;홍종선;서문섭
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.1
    • /
    • pp.39-57
    • /
    • 2001
  • Categorical data has sometimes misclassification errors. If this data will be analyzed, then estimated cell probabilities could be biased and the standard Pearson X2 tests may have inflated true type I error rates. On the other hand, if we regard wellclassified data with misclassified one, then we might spend lots of cost and time on adjustment of misclassification. It is a necessary and important step to ask whether categorical data is misclassified before analyzing data. In this paper, when data is misclassified at one of two variables for two-dimensional contingency table and marginal sums of a well-classified variable are fixed. We explore to partition marginal sums into each cells via the concepts of Bound and Collapse of Sebastiani and Ramoni (1997). The double sampling scheme (Tenenbein 1970) is used to obtain informations of misclassification. We propose test statistics in order to solve misclassification problems and examine behaviors of the statistics by simulation studies.

  • PDF

Modeling on Daily Traffic Volume of Local State Road Using Circular Mixture Distributions (혼합원형분포를 이용한 지방국도의 시간교통량 추정모형)

  • Na, Jong-Hwa;Jang, Young-Mi
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.3
    • /
    • pp.547-557
    • /
    • 2011
  • In this paper we developed a statistical model for traffic volume data which collected from a spot of specific local state road. One peculiar property of daily traffic data is that it has bimodal shape which have two peaks on times of both going to office and coming back to home. So, various mixture models of circular distribution are suggested for bimodal traffic data and EM algorithms are applied to estimate the parameters of the suggested models. To compare the accuracy of the suggested models, classical regressions with dummy variables are also considered. The suggested models for traffic volumn data can be effectively used to estimate missing values due to measuring instrument disorder.

A longitudinal study for child aggression with Korea Welfare Panel Study data (한국복지패널 자료를 이용한 아동기 공격성에 대한 경시적 자료 분석)

  • Choi, Nayeon;Huh, Jib
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.6
    • /
    • pp.1439-1447
    • /
    • 2014
  • Most of literatures on Korean child aggression are based on using the cross-sectional data sets. Although there is a related study with a longitudinal data set, it is assumed that the data sets measured repeatedly in the longitudinal data are mutually independent. A longitudinal data analysis for Korean child aggression is then necessary. This study is to analyze the effect of child development outcomes including academic achievement, self-esteem, depression anxiety, delinquency, victimization by peers, abuse by parents and internet using time on child aggression with Korea Welfare Panel Study data observed three times between 2006 and 2012. Since Korea Welfare Panel Study data have missing values, the missing at random is assumed. The linear mixed effect model and the restricted maximum likelihood estimation are considered.

Inferring the Transit Trip Destination Zone of Smart Card User Using Trip Chain Structure (통행사슬 구조를 이용한 교통카드 이용자의 대중교통 통행종점 추정)

  • SHIN, Kangwon
    • Journal of Korean Society of Transportation
    • /
    • v.34 no.5
    • /
    • pp.437-448
    • /
    • 2016
  • Some previous researches suggested a transit trip destination inference method by constructing trip chains with incomplete(missing destination) smart card dataset obtained on the entry fare control systems. To explore the feasibility of the transit trip destination inference method, the transit trip chains are constructed from the pre-paid smart card tagging data collected in Busan on October 2014 weekdays by tracing the card IDs, tagging times(boarding, alighting, transfer), and the trip linking distances between two consecutive transit trips in a daily sequences. Assuming that most trips in the transit trip chains are linked successively, the individual transit trip destination zones are inferred as the consecutive linking trip's origin zones. Applying the model to the complete trips with observed OD reveals that about 82% of the inferred trip destinations are the same as those of the observed trip destinations and the inference error defined as the difference in distance between the inferred and observed alighting stops is minimized when the trip linking distance is less than or equal to 0.5km. When applying the model to the incomplete trips with missing destinations, the overall destination missing rate decreases from 71.40% to 21.74% and approximately 77% of the destination missing trips are the single transit trips for which the destinations can not be inferable. In addition, the model remarkably reduces the destination missing rate of the multiple incomplete transit trips from 69.56% to 6.27%. Spearman's rank correlation and Chi-squared goodness-of-fit tests showed that the ranks for transit trips of each zone are not significantly affected by the inferred trips, but the transit trip distributions only using small complete trips are significantly different from those using complete and inferred trips. Therefore, it is concluded that the model should be applicable to derive a realistic transit trip patterns in cities with the incomplete smart card data.