• Title/Summary/Keyword: Outlier model

검색결과 213건 처리시간 0.031초

이상치 탐지법을 이용한 강건 이분산 검정 (Robust tests for heteroscedasticity using outlier detection methods)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.399-408
    • /
    • 2016
  • 회귀분석에서 이분산이 발생할 경우 표준적 추정절차에 따른 결과는 유효하지 않게 되므로 이를 확인하는 것이 필요하다. 이분산 문제와 더불어 이상치가 함께 존재하면 이분산에 관한 진단은 왜곡될 수 있다. 이상치가 존재할 때 이분산을 진단하는 기존의 방법들은 강건통계량을 이용하거나 이상치를 제거하는 접근법을 사용한다. 이분산 문제에서 이상치를 탐지하기 위하여 여러 가지 접근법이 제시되었다. 본 연구에서는 이분산 진단과정에서 이상치를 배제하기 위하여 기존의 이분산 검정과정에 순차적 이상치 탐지법을 적용하는 절차를 제시한다. 제시된 방법은 모의실험 및 예제를 통해 기존의 검정방법과 검정력을 비교한다.

상시 온도변화 효과를 고려한 모드 유연도행렬 기반의 교량의 손상탐색기법 (Damage Detection in Bridges Using Modal Flexibility Matrices Under Temperature Variation)

  • 구기영;이종재;윤정방
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2007년도 정기 학술대회 논문집
    • /
    • pp.651-656
    • /
    • 2007
  • Changes in measured structural responses induced by a damage could be significantly smaller than those by environmental effects such as temperature and temperature gradients. It is highly desirable to develop a methodology to distinguish the changes due to the structural damage from those by the environmental variations. In this study, a novel method to extract the damage-induced deflection under temperature variations is presented using the outlier analysis on the deflections obtained using the modal flexibility matrices. The main idea is that temperature change in a bridge would produce global increase or decrease in deflections over the whole bridge while structural damages may cause local variations in deflections near the damage locations. Hence, the correlation between the deflection measurements may show high abnormality near the damage locations. A series of laboratory tests were carried out on a bridge model with a steel box-girder for 14 days. It has been found that the damage existence assessment and localization can carried out for a case with relatively small damage under the temperature variations

  • PDF

Evolutionary Computing Driven Extreme Learning Machine for Objected Oriented Software Aging Prediction

  • Ahamad, Shahanawaj
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.232-240
    • /
    • 2022
  • To fulfill user expectations, the rapid evolution of software techniques and approaches has necessitated reliable and flawless software operations. Aging prediction in the software under operation is becoming a basic and unavoidable requirement for ensuring the systems' availability, reliability, and operations. In this paper, an improved evolutionary computing-driven extreme learning scheme (ECD-ELM) has been suggested for object-oriented software aging prediction. To perform aging prediction, we employed a variety of metrics, including program size, McCube complexity metrics, Halstead metrics, runtime failure event metrics, and some unique aging-related metrics (ARM). In our suggested paradigm, extracting OOP software metrics is done after pre-processing, which includes outlier detection and normalization. This technique improved our proposed system's ability to deal with instances with unbalanced biases and metrics. Further, different dimensional reduction and feature selection algorithms such as principal component analysis (PCA), linear discriminant analysis (LDA), and T-Test analysis have been applied. We have suggested a single hidden layer multi-feed forward neural network (SL-MFNN) based ELM, where an adaptive genetic algorithm (AGA) has been applied to estimate the weight and bias parameters for ELM learning. Unlike the traditional neural networks model, the implementation of GA-based ELM with LDA feature selection has outperformed other aging prediction approaches in terms of prediction accuracy, precision, recall, and F-measure. The results affirm that the implementation of outlier detection, normalization of imbalanced metrics, LDA-based feature selection, and GA-based ELM can be the reliable solution for object-oriented software aging prediction.

고혈압 예측을 위한 이상치 탐지 알고리즘 및 데이터 통합 기법 (An Outlier Detection Algorithm and Data Integration Technique for Prediction of Hypertension)

  • 홍고르출;김미혜 ;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.417-419
    • /
    • 2023
  • Hypertension is one of the leading causes of mortality worldwide. In recent years, the incidence of hypertension has increased dramatically, not only among the elderly but also among young people. In this regard, the use of machine-learning methods to diagnose the causes of hypertension has increased in recent years. In this study, we improved the prediction of hypertension detection using Mahalanobis distance-based multivariate outlier removal using the KNHANES database from the Korean national health data and the COVID-19 dataset from Kaggle. This study was divided into two modules. Initially, the data preprocessing step used merged datasets and decision-tree classifier-based feature selection. The next module applies a predictive analysis step to remove multivariate outliers using the Mahalanobis distance from the experimental dataset and makes a prediction of hypertension. In this study, we compared the accuracy of each classification model. The best results showed that the proposed MAH_RF algorithm had an accuracy of 82.66%. The proposed method can be used not only for hypertension but also for the detection of various diseases such as stroke and cardiovascular disease.

유전자 알고리듬을 이용한 다중이상치 탐색

  • 고영현;이혜선;전치혁
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2000년도 추계학술발표회 논문집
    • /
    • pp.173-179
    • /
    • 2000
  • Genetic algorithm(GA) is applied for detecting multiple outliers. GA is a heuristic optimization tool solving for near optimal solution. We compare the performance of GA and the other diagnostic measures commonly used for detecting outliers in regression model. The results show that GA seems to have better performance than the others for the detection of multiple outliers.

  • PDF

On study for change point regression problems using a difference-based regression model

  • Park, Jong Suk;Park, Chun Gun;Lee, Kyeong Eun
    • Communications for Statistical Applications and Methods
    • /
    • 제26권6호
    • /
    • pp.539-556
    • /
    • 2019
  • This paper derive a method to solve change point regression problems via a process for obtaining consequential results using properties of a difference-based intercept estimator first introduced by Park and Kim (Communications in Statistics - Theory Methods, 2019) for outlier detection in multiple linear regression models. We describe the statistical properties of the difference-based regression model in a piecewise simple linear regression model and then propose an efficient algorithm for change point detection. We illustrate the merits of our proposed method in the light of comparison with several existing methods under simulation studies and real data analysis. This methodology is quite valuable, "no matter what regression lines" and "no matter what the number of change points".

구조변화가 발생한 단순 상태공간모형에서의 적응적 예측을 위한 베이지안접근 (A Bayesian Approach for the Adaptive Forecast on the Simple State Space Model)

  • 전덕빈;임철주;이상권
    • 대한산업공학회지
    • /
    • 제24권4호
    • /
    • pp.485-492
    • /
    • 1998
  • Most forecasting models often fail to produce appropriate forecasts because we build a model based on the assumption of the data being generated from the only one stochastic process. However, in many real problems, the time series data are generated from one stochastic process for a while and then abruptly undergo certain structural changes. In this paper, we assume the basic underlying process is the simple state-space model with random level and deterministic drift but interrupted by three types of exogenous shocks: level shift, drift change, outlier. A Bayesian procedure to detect, estimate and adapt to the structural changes is developed and compared with simple, double and adaptive exponential smoothing using simulated data and the U.S. leading composite index.

  • PDF

기계학습법을 이용한 IoMT 핀테크 모델을 기반으로 한 구조화 스토리지에서의 빅데이터 관리 연구 (Big Data Management in Structured Storage Based on Fintech Models for IoMT using Machine Learning Techniques)

  • 김경실
    • 산업과 과학
    • /
    • 1권1호
    • /
    • pp.7-15
    • /
    • 2022
  • 사물인터넷(IoT) 기술은 최근 의료사물인터넷(IoMT)으로 정의된 대량의 의료 데이터를 처리하여 발전을 위해 개발된 의료분야에서 많이 활용되고 있다. 수집된 광범위한 의료 데이터는 수집된 의료 데이터를 처리하기 위해 구조화된 방식으로 클라우드에 저장된다. 그러나 방대한 양의 의료 데이터를 효과적으로 처리하는 것은 쉽지 않기 때문에 의료분야 구조 데이터를 개발하는 것이 필요하다. 본 논문에서는 IoMT에서 수집된 구조화된 건강 관리 데이터를 처리하기 위한 기계 학습 모드를 개발하였다. 광범위한 의료 데이터를 처리하기 위해 본 논문에서는 의료 데이터 처리를 위한 MTGPLSTM 모델을 제안하였다. 제안된 모델은 의료 정보 처리를 위한 선형 회귀 모델을 통합한다. 개발된 모델 이상치 모델은 IoMT에서 수집된 COVID-19 의료 데이터들의 평가 및 예측을 위해 FinTech 모델을 기반으로 구현되었다. 제안된 MTGPLSTM 모델은 감염 확산 방지를 위한 계획 계획을 예측하고 평가하기 위한 회귀 모델로 구성된다. 개발된 모델 성능은 LR, SVR, RFR, LSTM 및 제안된 MTGPLSTM 모델과 같은 서로 다른 분류기를 고려하였으며 1GB, 2GB, 3GB 등 데이터 크기가 다르다는 점도 주요하게 고려되었다. 제안된 MTGPLSTM 모델이 전 세계 데이터에 대해 최대 4% 감소된 MAPE 및 RMSE 값을 달성하였고 중국의 경우 기존 분류기보다 최대 6% 최소인 최소 MAPE(0.97)이 달성되었다.

데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발 (The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error)

  • 박세찬;김덕엽;서강복;이우진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권12호
    • /
    • pp.489-498
    • /
    • 2022
  • 최근 노동 집약적인 성격의 섬유 산업에서는 인공지능을 통해 섬유 방사 공정에 들어가는 비용을 줄이고 품질을 최적화하려고 시도 하고 있다. 그러나 섬유 방사 공정은 데이터 수집에 필요한 비용이 크고 체계적인 데이터 수집 및 처리 시스템이 부족하여 축적된 데이터양이 적다. 또 방사 목적에 따라 특정한 변수에만 변화를 준 데이터만을 우선으로 수집하여 데이터 불균형이 발생하며, 물성 측정 환경의 차이로 인해 동일 방사 조건에서 수집된 샘플 간에도 오차가 존재한다. 이러한 데이터 특성들을 고려하지 않고 인공지능 모델에 활용할 경우 과적합과 성능 저하 등의 문제가 발생할 수 있다. 따라서 본 논문에서는 방사 공정 데이터 특성을 고려한 이상치 처리 기법과 데이터 증강 기법을 제안한다. 그리고 이를 기존 이상치 처리 기법 및 데이터 증강 기법과 비교하여 제안한 기법이 방사 공정 데이터에 더 적합함을 보인다. 또 원본 데이터와 제안한 기법들로 처리된 데이터를 다양한 모델에 적용하여 비교함을 통해 제안한 기법들을 사용한 모델들이 그렇지 않은 모델들에 비해 인장 강신도 예측 모델의 성능이 개선됨을 보인다.

다양한 데이터 특성을 고려한 무기체계 비용추정관계식 개발 연구 (A Study On Developing Weapon System CERs With Considering Various Data Characteristics)

  • 정원일;김동규;강성진
    • 한국국방경영분석학회지
    • /
    • 제36권3호
    • /
    • pp.43-56
    • /
    • 2010
  • 최근 국방 무기체계 획득 환경의 변화는 무기체계 획득비용의 효율적 집행이라는 측면에서 비용분석의 중요성을 더욱 강조하고 있다. 그러나 정책 및 제도적 측면에서 비용분석이 강조되고 있는 반면 비용분석을 위한 국내 기반여건은 매우 부족한 실정이다. 국내에서의 비용추정은 주로 사업초기부터 국외에서 도입한 비용추정 전산모델을 사용하고 있으나 국내 방산환경에 적합하지 않은 많은 제약사항을 가지고 있다. 이러한 이유로 최근 한국형 비용분석 전산모델을 개발하고자 하는 공감대가 형성되었으며 체계적인 연구가 현재 진행되고 있다. 따라서 본 연구에서는 한국형 비용분석 전산모델의 핵심 논리인 비용추정관계식 개발 방법과 절차를 제안하고 있다. 특히 데이터가 가지는 각각의 회귀적 한계, 즉 다중공선성, 이상치, 이분산성 등을 식별하고 이에 적합한 회귀방법을 선택함으로서 데이터의 특성을 고려한 최선의 회귀모형을 구축하는 방법 및 절차를 제안하고자 한다. 제안한 방법은 국내 포병 무기체계 연구개발 자료를 기초로 비용추정관계식 개발방법 및 절차에 대한 이론적 적용가능성을 사례를 통해 검증하였다.