• 제목/요약/키워드: Missing data

검색결과 1,303건 처리시간 0.03초

Comparison of Five Single Imputation Methods in General Missing Pattern

  • Kang, Shin-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권4호
    • /
    • pp.945-955
    • /
    • 2004
  • 'Complete-case analysis' is easy to carry out and it may be fine with small amount of missing data. However, this method is not recommended in general because the estimates are usually biased and not efficient. There are numerous alternatives to complete-case analysis. One alternative is the single imputation. Some of the most common single imputation methods are reviewed and the performances are compared by simulation studies.

  • PDF

ARIMA 모형에 기초한 수요실적자료 보정기법 개발 (A Correction Technique of Missing Load Data Based on ARIMA Model)

  • 박종배;이찬주;이재용;신중린;이창호
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제53권7호
    • /
    • pp.405-413
    • /
    • 2004
  • Traditionally, electrical power systems had the vertically-integrated industry structures based on the economics of scale. However power systems have been recently reformed to increase the energy efficiency of the power system. According to these trends, Korean power industry has been partially restructured, and the competitive generation market was opened in 2001. In competitive electric markets, correct demand data are one of the most important issue to maintain the flexible electric markets as well as the reliable power systems. However, the measuring load data can have the uncertainty because of mechanical trouble, communication jamming, and other things. To obtain the reliable load data, an efficient evaluation technique to adust the missing load data is needed. This paper analyzes the load pattern of historical real data and then the turned ARIMA (Autoregressive Integrated Moving Average) model, PCHIP(Piecewise Cubic Interporation) and Branch & Bound method are applied to seek the missing parameters. The proposed method is tested under a variety of conditions and tested with historical measured data from the Korea Energy Management Corporation (KEMCO).

A Hybrid Correction Technique of Missing Load Data Based on Time Series Analysis

  • Lee, Chan-Joo;Park, Jong-Bae;Lee, Jae-Yong;Shin, Joong-Rin;Lee, Chang-Ho
    • KIEE International Transactions on Power Engineering
    • /
    • 제4A권4호
    • /
    • pp.254-261
    • /
    • 2004
  • Traditionally, electrical power systems had formed the vertically integrated industry structures based on the economics of scale. However, power systems have been recently reformed to increase their energy efficiency. According to these trends, the Korean power industry underwent partial reorganization and competition in the generation market was initiated in 2001. In competitive electric markets, accurate load data is one of the most important issues to maintaining flexibility in the electric markets as well as reliability in the power systems. In practice, the measuring load data can be uncertain because of mechanical trouble, communication jamming, and other issues. To obtain reliable load data, an efficient evaluation technique to adjust the missing load data is required. This paper analyzes the load pattern of historical real data and then the tuned ARIMA (Autoregressive Integrated Moving Average), PCHIP (Piecewise Cubic Interpolation) and Branch & Bound method are applied to seek the missing parameters. The proposed method is tested under a variety of conditions and also tested against historical measured data from the Korea Energy Management Corporation (KEMCO).

일부 산업장 근로자의 결손치에 관한 영향요인 (Influential Factors upon Missing Tooth of some Industrial Workers)

  • 문선정;이명선
    • 한국콘텐츠학회논문지
    • /
    • 제11권10호
    • /
    • pp.370-379
    • /
    • 2011
  • 산업장 근로자의 구강보건교육 프로그램개발과 향후 근로자의 구강건강을 증진 유지할 수 있는 구강 보건사업 및 제도 개선에 필요한 기초자료를 제공하고자 2009년 6월 1일부터 12월 31일까지 경북 구미시에 소재하는 49개 산업장에 근무하는 근로자 7,185명을 대상으로 치과의사 4인이 산업장을 직접 방문하여 인공조명하에서 치경과 핀셋, 탐침, 설압자를 이용하여 구강검사를 실시한 후 결손치 유무를 조사하였다. 또한 결손치에 영향을 미치는 문항은 구강검진문진표를 이용하여 조사하였고, 회수된 구강검사결과통보서 7,185개 중 응답내용이 부실한 209개를 제외한 6,976개의 자료를 SPSS 12.0으로 분석하였다. 연령층이 높은 경우, 치석제거를 받지 않은 경우, 치아우식증과 치주질환이 있는 경우, 과거에 흡연을 했거나 현재 흡연을 하고 있는 경우, 양치횟수가 적은 경우, 치아가 욱신한 경우, 잇몸에 통증 및 출혈과 혀 및 뺨이 욱신한 경우에 결손치율은 높았다. 근로자들의 구강건강을 증진 유지시켜 주기 위해서는 결손치의 원인인 치면세균막과 치석을 제거할 수 있는 스켈링의 유효성을 인지시켜, 스켈링의 경험률을 높여주고, 금연을 위한 보건교육프로그램을 개발해야 할 것이다. 또한 검진을 통한 충분한 상담과 교육을 통해 근로자들의 구강건강에 대한 의식을 고취시켜, 근로자의 구강건강을 유지하는데 실질적 도움이 되는 방향으로 개선 보완되어져야 할 것이다.

누락교통량자료 보정방법에서 강우의 영향 고려 (Considering of the Rainfall Effect in Missing Traffic Volume Data Imputation Method)

  • 김민현;오주삼
    • 한국ITS학회 논문지
    • /
    • 제14권2호
    • /
    • pp.1-13
    • /
    • 2015
  • 교통량자료는 매우 다양한 분야에서 사용되는 기초자료이다. 교통량자료는 도로교통량조사를 통하여 수집되며, 도로교통량조사 중 기계식 장비를 사용하여 365일 24시간 지속적으로 수집되는 자료를 상시교통량자료라고 한다. 상시교통량자료는 장비의 오작동 및 여러 원인으로 교통량자료누락이 발생하는 경우가 있다. 누락된 교통량자료는 여러 누락보정방법을 적용하여 보정을 수행하고 있다. 하지만, 기존의 누락보정방법론들은 기상에 대한 영향을 전혀 고려하지 않은 실정이다. 따라서 본 연구에서는 기상 중 강우의 영향을 고려한 누락교통량자료 보정방법에 대한 연구를 수행하였다. 이를 위해 우선 일반국도에서 수집한 교통량자료와 기상청의 기상자료의 매칭을 수행하였으며, 이후 일반국도의 특성별로 군집분석 수행 및 분석대상지점 선정을 진행하였다. 세 가지 보정 기법들(평균대체법/자기회귀모형/EM 기법)을 사용하여 전체 자료에서 누락보정을 수행하는 것과 강우일의 자료만을 가지고 누락보정을 수행하여 보정값의 정확도를 평가하였다. 분석 결과 모든 보정방법 및 분석지점에서 과거 강우일의 교통량자료만을 가지고 보정한 경우가 더 정확한 보정값을 산출하는 것으로 분석되었다.

영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법 (Pairwise fusion approach to cluster analysis with applications to movie data)

  • 김희진;박세영
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.265-283
    • /
    • 2022
  • 사용자들의 영화정보를 기록한 MovieLens 데이터는 추천 시스템 연구에서 아이디어를 탐색하고 검증하는데 상당한 가치가 있는 데이터로, 기존 데이터 분할 및 군집화 알고리즘을 사용하여 사용자 평점 데이터를 기반으로 항목 집합을 분할하는 연구 등에 사용되는 데이터이다. 본 논문에서는 기존 연구에서 대표적으로 사용되었던 영화 평점 데이터와 영화 장르 데이터를 통해 사용자의 장르 선호도를 예측하여 선호도 패턴을 기반으로 사용자를 군집화(clustering)하고, 유의미한 정보를 얻는 연구를 진행하였다. MovieLens 데이터는 영화의 전체 개수에 비해 사용자별 평균 영화 평점 수가 낮아 결측 비율이 높다. 이러한 이유로 기존의 군집화 방법을 적용하는 데 한계가 존재한다. 본 논문에서는 MovieLens 데이터 특성에 모티브를 얻어 쌍별 규합 벌점함수(pairwise fused penalty)를 활용한 볼록 군집화(convex clustering) 기반의 방법을 제안한다. 특히 결측치 대체(missing imputation)도 동시에 해결하는 최적화 문제를 통해 기존의 군집화 분석과 차별화하였다. 군집화는 반복 알고리즘인 ADMM을 통해 제안하는 최적화 문제를 풀어 진행한다. 또한 시뮬레이션과 MovieLens 데이터 적용을 통해 제안하는 군집화 방법이 기존의 방법보다 노이즈 및 이상치에 상대적으로 민감하지 않은 것으로 보인다.

앙상블 기법을 활용한 대학생 중도탈락 예측 모형 개발 (A Study on the Development of University Students Dropout Prediction Model Using Ensemble Technique)

  • 박상성
    • 디지털산업정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.109-115
    • /
    • 2021
  • The number of freshmen at universities is decreasing due to the recent decline in the school-age population, and the survival of many universities is threatened. To overcome this situation, universities are seeking ways to use big data within the school to improve the quality of education. A study on the prediction of dropout students is a representative case of using big data in universities. The dropout prediction can prepare a systematic management plan by identifying students who will drop out of school due to reasons such as dropout or expulsion. In the case of actual on-campus data, a large number of missing values are included because it is collected and managed by various departments. For this reason, it is necessary to construct a model by effectively reflecting the missing values. In this study, we propose a university student dropout prediction model based on eXtreme Gradient Boost that can be applied to data with many missing values and shows high performance. In order to examine the practical applicability of the proposed model, an experiment was performed using data from C University in Chungbuk. As a result of the experiment, the prediction performance of the proposed model was found to be excellent. The management strategy of dropout students can be established through the prediction results of the model proposed in this paper.

우리나라 성인의 구강질환과 만성질환의 관련성 (The association of oral diseases and chronic diseases in Korean adult population)

  • 천혜원;유미선;최미혜
    • 한국치위생학회지
    • /
    • 제12권2호
    • /
    • pp.235-249
    • /
    • 2012
  • Objectives : The purpose of this research is to use data from the third year of the 4th National Health and Nutrition Examination Survey to study relationship between oral disease and chronic disease that generally persist from 6 months to over a year, or more specifically, circulatory disease, diabetes, and osteoporosis. Methods : Of the data from the third year of the 4th National Health and Nutrition Examination Survey, 7,893 adults over 19 years old who completed medical examination, health survey, and nutrition survey were selected as the final research subjects. Relationship between chronic disease and oral disease was analyzed by cross tabulation (2-test) and logistic regression analysis using SPSSWIN ver 18.0. Results : 1. Differences in the rate of prevalence of periodontal disease and the rate of prevalence of missing teeth were statistically significant with respect to age, gender, marital status, education level, residential area, income level, and occupation. Rate of prevalence of dental caries was statistically significant with respect to age, education level, and income level. 2. After examining the relationship between existence of chronic disease as diagnosed by doctor with oral disease, rate of prevalence of periodontal disease and missing teeth, hypertension, hyperlipidemia, stroke, myocardial infarction, angina, diabetes, and osteoporosis showed statiscally significant difference. 3. Examination of rate of prevalence of chronic disease with respect to oral disease, periodontal disease and missing teeth exerted statistically significant influence on hypertension, hyperlipidemia, stroke, myocardial infarction, angina, diabetes, and osteoporosis (p<0.05), while dental caries did not have statistically significant effect. 4. Analysis of coupling effect of periodontal disease and missing teeth on chronic disease showed that they were related in all chronic diseases examined in this study (hypertension, hyperlipidemia, stroke, myocardial infarction, angina, diabetes, and osteoporosis) (p<0.05). Conclusions : Periodontal disease and missing teeth were found to increase the rate of prevalence of chronic disease.

당뇨환자의 구강건강행태가 치주질환 및 상실치 유무에 미치는 영향 (Impact of oral health behaviors on the presence or absence of periodontal diseases and missing tooth)

  • 주온주
    • 한국치위생학회지
    • /
    • 제11권4호
    • /
    • pp.511-522
    • /
    • 2011
  • Objectives : The purpose of this study was to provide some information on the development of oral health care programs geared toward diabetics and ways of promoting their oral health. Methods : The subjects in this study were 586 diabetics who were selected from the 2009 third-year raw data of the 4th(2007~2009) National Health & Nutrition Survey. The data were analyzed with the statistical package SPSS 12.0 to grasp the influence of their sociodemographic characteristics and oral health behaviors on the presence or absence of periodontal diseases and missing tooth. Results : 1. Periodontal diseases were twofold more prevalent among the men than the women(p<0.01). By age, those who were in their 60s had 1.11-fold more periodontal diseases than those who were in their 70s and up(p<0.05). 2. The men and women were similar to each other in the number of missing tooth. By age, the number of missing tooth got smaller in proportion to decrease in age. By income, the number of missing tooth was 1.48-fold larger among the patients who earned an income of one million won or less than those who earned an income of two million won or more(p<0.01). Conclusions : The above-mentioned findings suggest that prospective cohort studies should be implemented to present prediction models of periodontal diseases and diabetes instead of merely sticking to cross-sectional studies. And oral health programs should be developed based on the findings of cohort studies to encourage diabetics to care about their oral health, and in which way they should be helped to promote their oral health should carefully be considered.

YOLO 기반 실종자 수색 AI 응용 시스템 구현 (Implementation of YOLO based Missing Person Search Al Application System)

  • 김하연;김종훈;정세훈;심춘보
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.159-170
    • /
    • 2023
  • 실종자 수색은 많은 시간과 인력이 필요하다. 그 해결책의 일환으로 YOLO 기반 모델을 활용하여 실종자 수색 AI 시스템을 구현하였다. 객 객체 탐지 모델을 훈련하기 위해 AI-Hub에서 드론 이동체 인지 영상(도로 고정)을 수집하고 모델을 학습하였다. 또한, 훈련 데이터 세트와 상이한 환경에서의 성능을 평가하기 위해 산악 환경 데이터 세트를 추가 수집하였다. 실종자 수색 AI 시스템의 최적화를 위해 모델 크기 및 하이퍼파라미터에 따른 성능평가, 과대적합 우려에 대한 추가 성능평가를 시행하였다. 성능평가 결과 YOLOv5-L 모델이 우수한 성능을 보이는 것을 확인할 수 있었으며 데이터 증강 기법을 적용함에 따라 모델의 성능이 보다 향상되었다. 이후 웹 서비스에는 데이터 증강 기법을 적용한 YOLOv5-L 모델을 적용하여 실종자 수색의 효율성을 높였다.