• 제목/요약/키워드: Outliers

검색결과 656건 처리시간 0.021초

다변량 자료에서 특이점 검출 및 시각화 - R 스크립트 (Detecting outliers in multivariate data and visualization-R scripts)

  • 김성수
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.517-528
    • /
    • 2018
  • 다변량 자료에서 특이점을 검출하고, 검출된 특이점을 시각화와 연결한 R 스크립트를 제공한다. 개발된 R 스크립트는 특이점을 검출하는 방법으로서 1) Robust Mahalanobis distance, 2) High Dimensional data, 3) Density-based approach 방법을 이용하였다. 특이점을 연결하면서 데이터 구조를 파악하기 위한 시각화 방법으로는 1) multidimensional scaling (MDS)와 minimal spanning tree (MST)를 K-means 군집분석과 연결하여 표시하는 방법, 2) MDS를 fviz cluster와 연결하는 방법, 3) principal component analysis (PCA)를 fviz cluster와 연결한 방법을 이용하였다. 사례분석의 예로서는 Major League Baseball (MLB) 자료에서 류현진이 적극적으로 활동하던 2013년, 2014년 투수자료를 이용하였다. 개발된 R 스트립트는 "http://www.knou.ac.kr/~sskim/ddpoutlier.html (R 스크립트와 R 패키지도 다운로드 받을 수 있다. 실행방법도 설명되어 있다.)"에서 다운받으면 된다.

적응적 M-estimators 강건 예측 알고리즘 (An Adaptive M-estimators Robust Estimation Algorithm)

  • 장석우;김진욱
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.21-30
    • /
    • 2005
  • 강건 예측 기법은 오류 자료(outliers)를 제거하고 정상 자료(non-outliers)만으로 모델의 파라미터를 구하는 통계적인 방법으로 잘 알려져 있다 기존의 문헌에 소개된 많은 강건 예측 알고리즘들이 있으나 컴퓨터 비전 및 영상 처리 분야에서 가장 많이 사용되는 알고리즘은 M-estimators와 LMS(least-median of squares) 방법이다. 이 중 M-estimators는 어파인 모델(affine model)의 파라미터 측정에 있어 최적의 방법으로 잘 알려져 있다. 그러나 M-estimators는 통계적인 효율성이 높지만 초기화가 적절히 수행되지 않으면 오류 자료를 제거하는 데 문제점을 가진다 따라서 본 논문에서는 이런 문제점을 해결하기 위해 연속적인 시그모이드(sigmoid) 가중치 함수를 사용하여 오류 자료와 정상 자료를 효과적으로 분리하면서 어파인 모델의 파라미터를 효과적으로 측정하는 적응적인 M-estimators 강건 예측 알고리즘을 제안한다. 실험에서는 기존의 강건 예측 방법과 제안된 적응적 강건 예측 방법의 성능을 비교 및 분석하여 제안된 방법의 우수함을 보인다.

  • PDF

이상자료가 연안 환경자료의 통계 척도에 미치는 영향 (Impact of Outliers on the Statistical Measures of the Environmental Monitoring Data in Busan Coastal Sea)

  • 조홍연;이기섭;안순모
    • Ocean and Polar Research
    • /
    • 제38권2호
    • /
    • pp.149-159
    • /
    • 2016
  • The statistical measures of the coastal environmental data are used in a variety of statistical inferences, hypothesis tests, and data-driven modeling. If the measures are biased, then the statistical estimations and models may also be biased and this potential for bias is great when data contain some outliers defined as extraordinary large or small data values. This study aims to suggest more robust statistical measures as alternatives to more commonly used measures and to assess the performance these robust measures through a quantitative evaluation of more typical measures, such as in terms of locations, spreads, and shapes, with regard to environmental monitoring data in the Busan coastal sea. The detection of outliers within the data was carried out on the basis of Rosner's test. About 5-10% of the nutrient data were found to contain outliers based on Rosner's test. After removal (zero-weighting) of the outliers in the data sets, the relative change ratios of the mean and standard deviation between before and after outlier-removal conditions revealed the figures 13 and 33%, respectively. The variation magnitudes of skewness and kurtosis are 1.36 and 8.11 in a decreasing trend, respectively. On the other hand, the change ratios for more robust measures regarding the mean and standard deviation are 3.7-10.5%, and the variation magnitudes of robust skewness and kurtosis are about only 2-4% of the magnitude of the non-robust measures. The robust measures can be regarded as outlier-resistant statistical measures based on the relatively small changes in the scenarios before and after outlier removal conditions.

무선 센서 네트워크에서 C-SCGP를 이용한 RSS/AOA 이상치 제거 기반 표적 위치추정 기법 (Outlier Reduction using C-SCGP for Target Localization based on RSS/AOA in Wireless Sensor Networks)

  • 강세영;이재훈;송종인;정원주
    • 융합정보논문지
    • /
    • 제11권11호
    • /
    • pp.31-37
    • /
    • 2021
  • 본 논문에서는 무선 센서 네트워크에서 이상치를 포함한 수신 신호 강도와 신호의 도달 각도 측정치 기반의 표적위치추정 성능 저하를 방지하기 위한 이상치 검출 알고리즘 C-SCGP를 제안한다. 센서 오작동, 재밍, 심한 잡음과 같은 다양한 이상치 원인으로 인해 표적 위치추정 정확도가 크게 떨어질 수 있어, 모든 이상치를 탐지하고 제거하는 것이 중요하다. 이러한 이상치를 제거하기 위해 single cluster graph partitioning (SCGP) 알고리즘이 널리 사용되고 있다. 기존의 SCGP 알고리즘은 hyperparameter 최적화를 통한 threshold 설정과 이상치 확률 계산이 필수적이므로 다양한 분야에 효율적인 적용이 제한되어왔다. 본 논문에서 제안된 continuous-SCGP (C-SCGP) 알고리즘은 이러한 SCGP의 약점을 극복한다. 다양한 잡음 환경에서 threshold 설정과 이상치 확률 계산이 필요 없는 제안된 C-SCGP 알고리즘과 threshold 설정과 이상치 확률 계산을 요구하는 SCGP 알고리즘의 이상치 제거 성능이 같음을 최종 추정된 표적의 RMSE 성능을 통하여 검증하였다.

LSTM 오토인코더를 활용한 축산 환경 시계열 데이터의 이상치 탐지: 경계값 설정에 따른 성능 비교 (Anomaly Detection in Livestock Environmental Time Series Data Using LSTM Autoencoders: A Comparison of Performance Based on Threshold Settings)

  • 정세연;김상철
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.48-56
    • /
    • 2024
  • 축산업에서 환경의 이상치 탐지와 데이터 예측은 매우 중요한 과제이다. 대부분 시계열 데이터로 수집되는 축산 환경 데이터의 이상치는 급격한 생육환경의 변화와 예상치 못한 전염병의 징후를 나타낼 수 있으므로 이상치를 빠르게 탐지하는 것이 중요하다. 이상치의 빠른 탐지와 효과적인 대응은 가축의 스트레스를 최소화하고 전염병 발생 환경을 조기에 발견하여 농가의 경제적인 손실을 감소시키는 역할을 할 수 있다. 본 연구에서는 축산환경 데이터의 이상치 탐지 분야에서 이상치를 규정하는 경계값(Threshold) 설정에서 두 가지 설정 방법을 이용하여 실험하고 성능을 비교하였다. Mean Squared Error(MSE)를 활용한 이상치 탐지 방법과 Dynamic Threshold를 이용한 이상치 탐지 방법을 이용하여 이를 통해 주어진 이전 데이터의 평균값과의 변동성을 분석하여 이상 상황을 식별하는 연구를 진행하였다. MSE를 활용한 이상치 탐지 방법은 94.98% 정확도를 보였고 표준편차를 활용한 Dynamic Threshold 방법은 99.66%정확도로 성능이 더 우수함을 확인할 수 있었다.

V-mask Type Criterion for Identification of Outliers In Logistic Regression

  • Kim Bu-Yong
    • Communications for Statistical Applications and Methods
    • /
    • 제12권3호
    • /
    • pp.625-634
    • /
    • 2005
  • A procedure is proposed to identify multiple outliers in the logistic regression. It detects the leverage points by means of hierarchical clustering of the robust distances based on the minimum covariance determinant estimator, and then it employs a V-mask type criterion on the scatter plot of robust residuals against robust distances to classify the observations into vertical outliers, bad leverage points, good leverage points, and regular points. Effectiveness of the proposed procedure is evaluated on the basis of the classic and artificial data sets, and it is shown that the procedure deals very well with the masking and swamping effects.

Variable Selection and Outlier Detection for Automated K-means Clustering

  • Kim, Sung-Soo
    • Communications for Statistical Applications and Methods
    • /
    • 제22권1호
    • /
    • pp.55-67
    • /
    • 2015
  • An important problem in cluster analysis is the selection of variables that define cluster structure that also eliminate noisy variables that mask cluster structure; in addition, outlier detection is a fundamental task for cluster analysis. Here we provide an automated K-means clustering process combined with variable selection and outlier identification. The Automated K-means clustering procedure consists of three processes: (i) automatically calculating the cluster number and initial cluster center whenever a new variable is added, (ii) identifying outliers for each cluster depending on used variables, (iii) selecting variables defining cluster structure in a forward manner. To select variables, we applied VS-KM (variable-selection heuristic for K-means clustering) procedure (Brusco and Cradit, 2001). To identify outliers, we used a hybrid approach combining a clustering based approach and distance based approach. Simulation results indicate that the proposed automated K-means clustering procedure is effective to select variables and identify outliers. The implemented R program can be obtained at http://www.knou.ac.kr/~sskim/SVOKmeans.r.

The Weight Function in the Bounded Influence Regression Quantile Estimator for the AR(1) Model with Additive Outliers

  • Jung Byoung Cheol;Han Sang Moon
    • Communications for Statistical Applications and Methods
    • /
    • 제12권1호
    • /
    • pp.169-179
    • /
    • 2005
  • In this study, we investigate the effects of the weight function in the bounded influence regression quantile (BIRQ) estimator for the AR(l) model with additive outliers. In order to down-weight the outliers of X -axis, the Mallows' (1973) weight function has been commonly used in the BIRQ estimator. However, in our Monte Carlo study, the BIRQ estimator using the Tukey's bisquare weight function shows less MSE and bias than that of using the Mallows' weight function or Huber's weight function. Thus, the use of the Tukey's weight function is recommended in the BIRQ estimator for our model.

세 집단 판별분석 상황에서의 영향함수 유도 및 그 응용 (Derivation and Application of In uence Function in Discriminant Analysis for Three Groups)

  • 이혜정;김홍기
    • 응용통계연구
    • /
    • 제24권5호
    • /
    • pp.941-949
    • /
    • 2011
  • 본 논문에서는 세 집단만을 판별분석 할 경우에 계산되는 오분류확률에 영향을 미치는 이상치 판별을 목적으로 하며, 쉽게 응용 가능한 간단한 영향함수식을 제시하였다. 그리고 제시된 수식을 이용하여 안면 데이터로 세 가지 사상체질을 분류해보고 각 관찰값들의 오분류확률에 대한 영향함수를 계산하였다. 이상치를 제거하고 재 판별분석을 하는 데 있어, 오분류확률에 대한 영향함수를 이용하는 것이 효율적인 방법임을 확인하였다.

TIME-VARIANT OUTLIER DETECTION METHOD ON GEOSENSOR NETWORKS

  • Kim, Dong-Phil;I, Gyeong-Min;Lee, Dong-Gyu;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2008년도 International Symposium on Remote Sensing
    • /
    • pp.410-413
    • /
    • 2008
  • Existing Outlier detections have been widely studied in geosensor networks. Recently, machine learning and data mining have been applied the outlier detection method to build a model that distinguishes outliers based on anchored criterion. However, it is difficult for the existing methods to detect outliers against incoming time-variant data, because outlier detection needs to monitor incoming data and classify irregular attacks. Therefore, in order to solve the problem, we propose a time-variant outlier detection using 2-dimensional grid method based on unanchored criterion. In the paper, outliers using geosensor data was performed to classify efficiently. The proposed method can be utilized applications such as network intrusion detection, stock market analysis, and error data detection in bank account.

  • PDF