• 제목/요약/키워드: Imputation method

검색결과 132건 처리시간 0.047초

절사표본에서 최적 절사점에 관한 연구 (A Study on the Optimal Cut-off Point in the Cut-off Sampling Method)

  • 이상은;조민지;신기일
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.501-512
    • /
    • 2014
  • 상당수의 사업체 조사는 절사표본설계법을 사용하고 있다. 이는 절사표본설계법에서 얻은 전수층이 많은 정보를 포함하고 있어 전체 표본크기를 최소화 할 수 있는 장점이 있기 때문이다. 그러나 최근 전수층에 포함된 사업체들의 무응답률이 높아감에 따라 전수층이 가지고 있는 장점에 한계가 나타나고 있다. 이에 Lee (2011), Shin과 Lee (2013)는 표본설계 단계에서부터 주어진 허용오차를 만족하면서 전수층 규모를 최소화하는 연구를 실시하였다. 본 연구에서는 주어진 허용오차를 만족하고 Hidiroglou (1986)가 제안한 방법으로 산출 된 표본크기를 고정한 상태에서 표본층 분산에 알려진 함수를 적합하여 전수층 크기를 최소화하는 새로운 최적 절사점을 제안하였다. 또한 Hidiroglou (1986)와 Shin과 Lee (2013)가 제안한 절단분포를 이용한 방법과 본 연구에서 제안한 방법을 모의실험과 사례연구를 통해 비교하였다.

결측치가 있는 자료에서의 변동모드분해법 (Variational Mode Decomposition with Missing Data)

  • 최규빈;오희석;이영조;김동호;유경상
    • 응용통계연구
    • /
    • 제28권2호
    • /
    • pp.159-174
    • /
    • 2015
  • 최근에 Dragomiretskiy와 Zosso (2014)는 경험적모드분해의 단점을 보완하여 새로운 신호 분해방법인 변동모드분해법(Variational Mode Decomposition)을 고안하였다. 기본적으로 변동모드분해법은 경험적모드분해법에 비하여 주파수 탐색 및 분리(tone detection and tone separation)에 탁월한 성능을 보인다. 또한 고속퓨리에변환을 기반으로 한 알고리즘을 사용하여 경험적모드분해법보다 잡음에 강건하다는 장점이 있다. 하지만 변동모드분해법은 결측 등으로 신호가 동일한 시간간격 혹은 공간적 간격으로 측정되지 않은 경우 제대로 동작하지 않는 단점이 있다. 이를 보완하기 위해서 본 논문에서는 변동모드분해법에 다단계우도함수를 조합하는 새로운 방법을 제안한다. 여기에서 다단계우도함수는 변동모드분해법이 신호를 적절한 내재모드함수로 분해하기 전에 결측치를 대체하는 효율적인 방법을 제시한다. 모의실험과 실제 자료의 사례연구를 통하여 변동모드분해법이 기존의 방법보다 더 효율적으로 신호를 분해한다는 것을 보일 것이다.

교통 통계 정보를 이용한 속도 패턴 예측에 관한 연구 (A Study for Traffic Forecasting Using Traffic Statistic Information)

  • 최보승;강현철;이성건;한상태
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1177-1190
    • /
    • 2009
  • 도로의 성능을 측정는데 있어서, 주행속도는 가장 중요한 정보가 된다. 또한 도로 교통의 정보를 제공하는데 있어서 현 시점의 교통정보와 더불어 향후 예측되는 교통정보를 함께 제공하는 것은 보다 정확한 예측 시간과 구간을 제공하기 위한 차별화된 기능이라 할 수 있다. 본 연구에서는 그 동안 축적된 도로 구간별 속도 자료를 이용하여 속도 패턴을 다양하게 분석하고 퓨리에 변환 및 삼각함수를 설명변수로 하는 시계열 회귀모형을 이용한 예측모형을 개발하여 구간별 및 시간대별 평균 속도를 예측하였다. 이와 더불어 보다 정확한 예측을 위하여 결측치에 대한 대체 방법 및 특이치 처리 방법을 함께 고려하였고 방대한 데이터에 대한 효율적인 분석을 위하여 유사 속도 구간에 대한 그룹핑(grouping) 방법도 제안하였다.

데이터 확장 기법에서 손실값을 대치하는 확률 추정 방법 (Probability Estimation Method for Imputing Missing Values in Data Expansion Technique)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.91-97
    • /
    • 2021
  • 본 논문은 불완전한 데이터를 처리하기 위해 본래 규칙개선 문제를 위해 고안되었던 데이터 확장 기법을 사용한다. 이 기법은 사건마다 중요도를 의미하는 가중치를 가질 수 있으며 각 변수를 확률값으로 나타낼 수 있는 특징이 있다. 본 논문에서의 핵심 문제가 손실값과 가장 근사한 확률을 구하여 손실값을 확률로 대치하는 것이므로, 3가지 다른 알고리즘으로 손실값에 대한 확률을 구한 후 이 데이터 구조의 형식으로 저장한다. 그리고 각각의 확률 구조에 대한 평가를 위해 SVM 분류 알고리즘으로 각각의 정보 영역을 분류하는 학습을 한 후, 본래의 정보와 비교하여 얼마나 서로 일치하느냐를 측정한다. 손실값의 대치 확률을 위한 3가지 알고리즘들은 같은 데이터 구조를 사용하고 있으나 접근 방법에서는 서로 다른 특징을 가지고 있어 적용 분야에 따라 다양한 용도로 이용될 수 있기를 기대한다.

웨어러블 디바이스 서비스 향상을 위한 개인 맞춤형 데이터 복원 알고리즘 (Personalized Data Restoration Algorithm to Improve Wearable Device Service)

  • 박기군;배혜림
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.51-60
    • /
    • 2021
  • 웨어러블 디바이스의 시장규모는 매년 가파르게 성장하고 있으며, 그 슈요에 발맞춰 전세계 제조업체들은 각자만의 특성을 살린 제품들을 선보이고 있다. 그중 스마트워치는 판매량 지분이 매우 높은 웨어러블 디바이스이며, 실시간으로 수집하는 정보를 활용해 사용자들에게 다양한 서비스를 제공하고 있다. 서비스의 품질은 스마트워치가 수집하는 데이터의 정확성에 의존하게 되는데, 상황에 따라 데이터 측정이 되지 않는 경우가 발생한다. 본 논문은 스마트워치가 수집하지 못한 데이터를 복원하는 방법을 소개한다. 데이터 복원을 위해 시간의 흐름에 따라 측정되는 운동궤적(Trajectory) 정보의 유사도 계산 방법을 다루며, 유사도에 따라 결측 구간을 복원하는 절차를 소개한다. 제안된 방법의 성능을 입증하기 위해 기계학습 알고리즘과의 비교실험을 진행하였으며 마지막으로 본 연구의 기대효과와 향후 연구 방향에 대해 다룬다.

WIM 자료를 활용한 화물차량의 축중량 추정 모형 개발에 관한 연구 (Development of Truck Axle Load Estimation Model Using Weigh-In-Motion Data)

  • 오주삼
    • 대한토목학회논문집
    • /
    • 제31권4D호
    • /
    • pp.511-518
    • /
    • 2011
  • 축중계를 통한 화물차량의 축하중 자료는 도로의 설계, 유지관리, 시설물 보호 등의 위해서 필수적인 자료이다. 이와 같은 용도로 고속축중계의 자료는 도로계획, 연구자, 공무들은 고속축중계 자료를 활용한다. 또한 최근에는 중차량에 대한 단속에도 고속축중계의 자료를 활용하고 있다. 따라서 본 연구에서는 일반국도에서 수집된 고속축중계 자료를 활용하여 축하중을 추정하는 모형을 개발하였다. 추정된 축하중 추정 모형은 기존의 평균값을 이용한 방법과의 비교를 통하여 개발된 모형에 대한 비교 평가하였다. 축중량 추정에 있어 기존의 평균값을 적용하는 것보다 회귀모형을 적용하는 것이 모든 차종에 걸쳐서 작은 오차를 보이는 것으로 분석되었다. 향후 이러한 모형은 현장에서 운영되는 고속축중계의 결측자료 보정, 재보정 여부에 대한 평가 등의 목적으로 활용될 수 있을 것이다.

공장용지 수요 추정 모형 개발 및 수요예측 (Forecasting the Demand Areas of a Factory Site: Based on a Statistical Model and Sampling Survey)

  • 정형철;한근식;김성용
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.465-475
    • /
    • 2011
  • 본 연구에서는 공장용지 면적을 예측하기 위한 통계적 추정을 다루었다. 공장용지에 대해서는 1981년부터 2003년까지 자료가 존재하며, 2004년 이후에는 공장용지보다 좁은 개념인 산업단지 면적에 대한 조사 자료만 존재한다. 한국산업단지공단에서는 2009년 10월 표본조사를 실시하여 당해의 공장용지 면적을 추정하였으며, 동 조사 시 향후 5개년의 공장용지면적에 대한 수요를 조사한 바 있다. 본 연구에서는 과거 절단된 자료를 여러 통계모형을 사용하여 적절히 대체할 수 있는 수요예측모형을 도출하고, 표본조사에 의한 추정치와 통계적 모형에 의한 대체값들을 융합하는 평활기법으로 향후 공장용지 수요를 예측하는 방법을 다루었다.

그래디언트 부스팅 모델을 활용한 상점 매출 예측 (Store Sales Prediction Using Gradient Boosting Model)

  • 최재영;양희윤;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.171-177
    • /
    • 2021
  • 최근 머신러닝의 발전에 따라 일상생활과 산업에서 기술을 적용하는 사례들이 많아지고 있다. 금융 데이터와 머신러닝 기법을 활용한 연구 또한 활발하게 이루어지고 있다. 본 논문은 이러한 동향에 따라 상점 매출 데이터에 머신러닝 기법을 접목해 매출 예측 모델을 구축, 핀테크 산업에서의 활용 방안을 제시한다. 다양한 결측치 처리 기법을 적용하고 그래디언트 부스팅 기반의 머신러닝 기법인 XGBoost, LightGBM, CatBoost를 사용하여 각 모델의 상점 매출예측 성능을 비교한다. 연구 결과, 단일대체법 중 중앙값 대체법을 사용한 데이터셋에 XGBoost를 활용해 예측을 진행한 모델의 성능이 가장 우수했다. 연구를 통해 얻은 모델을 이용하여 상점의 매출 예측을 진행함으로서 핀테크 기업의 고객 상점들은 대출금을 상환하기 전 금융 보조를 받는 근거로, 핀테크 기업은 상환 가능성이 높은 우수 상점에 금융 상품을 제공하는 등 기업과 고객 모두에게 긍정적인 방향으로 활용할 수 있다.

Lung Function Trajectory Types in Never-Smoking Adults With Asthma: Clinical Features and Inflammatory Patterns

  • Kim, Joo-Hee;Chang, Hun Soo;Shin, Seung Woo;Baek, Dong Gyu;Son, Ji-Hye;Park, Choon-Sik;Park, Jong-Sook
    • Allergy, Asthma & Immunology Research
    • /
    • 제10권6호
    • /
    • pp.614-627
    • /
    • 2018
  • Purpose: Asthma is a heterogeneous disease that responds to medications to varying degrees. Cluster analyses have identified several phenotypes and variables related to fixed airway obstruction; however, few longitudinal studies of lung function have been performed on adult asthmatics. We investigated clinical, demographic, and inflammatory factors related to persistent airflow limitation based on lung function trajectories over 1 year. Methods: Serial post-bronchodilator forced expiratory volume (FEV) 1% values were obtained from 1,679 asthmatics who were followed up every 3 months for 1 year. First, a hierarchical cluster analysis was performed using Ward's method to generate a dendrogram for the optimum number of clusters using the complete post-FEV1 sets from 448 subjects. Then, a trajectory cluster analysis of serial post-FEV1 sets was performed using the k-means clustering for the longitudinal data trajectory method. Next, trajectory clustering for the serial post-FEV1 sets of a total of 1,679 asthmatics was performed after imputation of missing post-FEV1 values using regression methods. Results: Trajectories 1 and 2 were associated with normal lung function during the study period, and trajectory 3 was associated with a reversal to normal of the moderately decreased baseline FEV1 within 3 months. Trajectories 4 and 5 were associated with severe asthma with a marked reduction in baseline FEV1. However, the FEV1 associated with trajectory 4 was increased at 3 months, whereas the FEV1 associated with trajectory 5 was persistently disturbed over 1 year. Compared with trajectory 4, trajectory 5 was associated with older asthmatics with less atopy, a lower immunoglobulin E (IgE) level, sputum neutrophilia and higher dosages of oral steroids. In contrast, trajectory 4 was associated with higher sputum and blood eosinophil counts and more frequent exacerbations. Conclusions: Trajectory clustering analysis of FEV1 identified 5 distinct types, representing well-preserved to severely decreased FEV1. Persistent airflow obstruction may be related to non-atopy, a low IgE level, and older age accompanied by neutrophilic inflammation and low baseline FEV1 levels.

머신러닝 기반의 강우추정 방법 개발 (Development of Machine Learning Based Precipitation Imputation Method)

  • 한희찬;김창주;김동현
    • 한국습지학회지
    • /
    • 제25권3호
    • /
    • pp.167-175
    • /
    • 2023
  • 강우 데이터는 습지관리, 수문모의, 수자원 관리와 같은 다양한 분야에서 활용되는 필수 입력자료 중 하나이다. 강우 데이터를 활용하여 효율적인 수자원관리를 위해서는 기본적으로 데이터의 결측률을 최소화 시킴으로써 최대한 많은 데이터를 확보하는 것이 필수적이다. 또한 미계측 지역에 대한 강우 데이터를 확보한다면 보다 효율적인 수문모의가 가능하다. 그러나 결측 강우 데이터는 주로 통계학적 기법에 의해 추정되어 왔다. 본 연구의 목적은 데이터 간의 상관관계를 기반으로 새로운 데이터를 예측할 수 있는 머신러닝 알고리즘을 활용하여 결측 강우 데이터를 복원할 수 있는 새로운 방법을 제안하고자 한다. 또한, 기존의 통계적 방법들과 비교하여 머신러닝 기법의 결측 강우 데이터 복원을 위한 활용가치를 평가하고자 한다. 평가를 위해 대표적인 머신러닝 알고리즘인 Artificial Neural Network (ANN)과 Random Forest (RF)을 적용하였다. 강우의 발생 유무를 분류하는 성능은 RF 알고리즘이 ANN 알고리즘보다 강우 발생유무의 분류 정확도가 높은 것으로 나타났다. 분류 모형의 평가 지표인 F1-score나 Accuracy값이 RF는 0.80, 0.77인 반면에, ANN은 0.76, 0.71로 계산되었다. 또한 강우량을 추정하는 성능 역시 RF가 ANN 알고리즘보다 보다 높은 정확도를 보였다. RF과 ANN 알고리즘의 RMSE은 2.8mm/day과 2.9mm/day이고, R2값은 0.73, 0.68으로 계산되었다.