• 제목/요약/키워드: Multivariate Outliers

검색결과 39건 처리시간 0.023초

MULTIVARIATE JOINT NORMAL LIKELIHOOD DISTANCE

  • Kim, Myung-Geun
    • Journal of applied mathematics & informatics
    • /
    • 제27권5_6호
    • /
    • pp.1429-1433
    • /
    • 2009
  • The likelihood distance for the joint distribution of two multivariate normal distributions with common covariance matrix is explicitly derived. It is useful for identifying outliers which do not follow the joint multivariate normal distribution with common covariance matrix. The likelihood distance derived here is a good ground for the use of a generalized Wilks statistic in influence analysis of two multivariate normal data.

  • PDF

Robust Estimation and Outlier Detection

  • Myung Geun Kim
    • Communications for Statistical Applications and Methods
    • /
    • 제1권1호
    • /
    • pp.33-40
    • /
    • 1994
  • The conditional expectation of a random variable in a multivariate normal random vector is a multiple linear regression on its predecessors. Using this fact, the least median of squares estimation method developed in a multiple linear regression is adapted to a multivariate data to identify influential observations. The resulting method clearly detect outliers and it avoids the masking effect.

  • PDF

다변량 자료에서 특이점 검출 및 시각화 - R 스크립트 (Detecting outliers in multivariate data and visualization-R scripts)

  • 김성수
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.517-528
    • /
    • 2018
  • 다변량 자료에서 특이점을 검출하고, 검출된 특이점을 시각화와 연결한 R 스크립트를 제공한다. 개발된 R 스크립트는 특이점을 검출하는 방법으로서 1) Robust Mahalanobis distance, 2) High Dimensional data, 3) Density-based approach 방법을 이용하였다. 특이점을 연결하면서 데이터 구조를 파악하기 위한 시각화 방법으로는 1) multidimensional scaling (MDS)와 minimal spanning tree (MST)를 K-means 군집분석과 연결하여 표시하는 방법, 2) MDS를 fviz cluster와 연결하는 방법, 3) principal component analysis (PCA)를 fviz cluster와 연결한 방법을 이용하였다. 사례분석의 예로서는 Major League Baseball (MLB) 자료에서 류현진이 적극적으로 활동하던 2013년, 2014년 투수자료를 이용하였다. 개발된 R 스트립트는 "http://www.knou.ac.kr/~sskim/ddpoutlier.html (R 스크립트와 R 패키지도 다운로드 받을 수 있다. 실행방법도 설명되어 있다.)"에서 다운받으면 된다.

Outlier Impact on the Power of Significance Test for Cronbach Alpha Reliability Coefficient

  • Yonghwan Um
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.179-187
    • /
    • 2023
  • 본 논문은 크론바흐 알파 신뢰계수의 유의성 검정에서 이상치가 검정력에 미치는 영향을 연구한 것이다. 표본 크기, 문항들의 수, 이상치의 수, 모집단의 크론바흐 알파 레벨의 네 개의 변수들에 변화를 주었다. 데이터 시물에이션을 위해 다변량 정규분포를 사용했고 균일분포로부터 이상치를 추출하여 사용했다. 크론바흐 알파 신뢰도의 유의성 검정을 위해 모수적 검정(F 검정)과 퍼뮤테이션 검정을 사용하였다. 결과적으로 퍼뮤테이션 검정의 검정력은 F검정의 검정력 보다 크거나 같았고, 두 검정의 검정력은 모두 이상치의 수가 많아질수록 감소하였으며 이러한 이상치의 영향은 모집단의 알파 레벨이 증가할수록 크게 나타났다.

Unmasking Multiple Outliers in Multivariate Data

  • Yoo Jong-Young
    • Communications for Statistical Applications and Methods
    • /
    • 제13권1호
    • /
    • pp.29-38
    • /
    • 2006
  • We proposed a procedure for detecting of multiple outliers in multivariate data. Rousseeuw and van Zomeren (1990) have suggested the robust distance $RD_i$ by using the Resampling Algorithm. But $RD_i$ are based on the assumption that X is in the general position.(X is said to be in the general position when every subsample of size p+1 has rank p) From the practical points of view, this is clearly unrealistic. In this paper, we proposed a computing method for approximating MVE, which is not subject to these problems. The procedure is easy to compute, and works well even if subsample is singular or nearly singular matrix.

A Study on High Breakdown Discriminant Analysis : A Monte Carlo Simulation

  • Moon Sup;Young Joo;Youngjo
    • Communications for Statistical Applications and Methods
    • /
    • 제7권1호
    • /
    • pp.225-232
    • /
    • 2000
  • The linear and quadratic discrimination functions based on normal theory are widely used to classify an observation to one of predefined groups. But the discriminant functions are sensitive to outliers. A high breakdown procedure to estimate location and scatter of multivariate data is the minimum volume ellipsoid or MVE estimator To obtain high breakdown classifiers outliers in multivariate data are detected by using the robust Mahalanobis distance based on MVE estimators and the weighted estimators are inserted in the functions for classification. A samll-sample MOnte Carlo study shows that the high breakdown robust procedures perform better than the classical classifiers.

  • PDF

A Robust Estimator in Multivariate Regression Using Least Quartile Difference

  • Jung Kang-Mo
    • Communications for Statistical Applications and Methods
    • /
    • 제12권1호
    • /
    • pp.39-46
    • /
    • 2005
  • We propose an equivariant and robust estimator in multivariate regression model based on the least quartile difference (LQD) estimator in univariate regression. We call this estimator as the multivariate least quartile difference (MLQD) estimator. The MLQD estimator considers correlations among response variables and it can be shown that the proposed estimator has the appropriate equivariance properties defined in multivariate regressions. The MLQD estimator has high breakdown point as does the univariate LQD estimator. We develop an algorithm for MLQD estimate. Simulations are performed to compare the efficiencies of MLQD estimate with coordinatewise LQD estimate and the multivariate least trimmed squares estimate.

An Equivariant and Robust Estimator in Multivariate Regression Based on Least Trimmed Squares

  • Jung, Kang-Mo
    • Communications for Statistical Applications and Methods
    • /
    • 제10권3호
    • /
    • pp.1037-1046
    • /
    • 2003
  • We propose an equivariant and robust estimator in multivariate regression model based on the least trimmed squares (LTS) estimator in univariate regression. We call this estimator as multivariate least trimmed squares (MLTS) estimator. The MLTS estimator considers correlations among response variables and it can be shown that the proposed estimator has the appropriate equivariance properties defined in multivariate regression. The MLTS estimator has high breakdown point as does LTS estimator in univariate case. We develop an algorithm for MLTS estimate. Simulation are performed to compare the efficiencies of MLTS estimate with coordinatewise LTS estimate and a numerical example is given to illustrate the effectiveness of MLTS estimate in multivariate regression.

다변량 자료에서 다수 이상치 인식의 절차 (A Procedure for Indentifying Outliers in Multivariate Data)

  • 염준근;박종구;김종우
    • 품질경영학회지
    • /
    • 제23권4호
    • /
    • pp.28-41
    • /
    • 1995
  • We consider the problem of identifying multiple outliers in linear model. The available regression diagnostic methods often do not succeed in detecting multiple outliers because of the masking and swamping effect. Recently, among the various robust estimator of reducing the effect of outliers, LMS(Least Meadian Square) estimator has been to be a suitable method proposed to expose outliers and leverage points. However, as you know it, the data analysis method with LMS estimator is to be taken the median of the squared residuals in the sample which is extracted the sample space. Then this model causes the trouble, for the number of the chosen sample is nCp, i.e. as the size of sample space n is increasing, the number is increasing fastly. And the covariance matrix may be the singular matrix, so that matrix is approching collinearity. Thus we propose a procedure ELMS for the resampling in LMS method and study the size of the effective elementary set in this algorithm.

  • PDF

다변량 장기 종속 시계열에서의 이상점 탐지 (Outlier detection for multivariate long memory processes)

  • 김경희;유승연;백창룡
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.395-406
    • /
    • 2022
  • 본 논문에서는 장기 종속 다변량 시계열 자료에 대한 이상점 탐지 기법을 연구한다. 기존 다변량 시계열 이상점 탐지 방법은 단기 종속 시계열 모형인 VARMA에 기반한 방법으로, 장기억성을 띈 다변량 시계열 자료에는 적합하지 않다. 자기회귀 모형을 통해서 장기 종속성, 즉 장기억성을 고려하기 위해서는 높은 차수의 모형이 필요하고, 이는 곧 추정의 불안성으로 이어지기에 장기억성을 효율적으로 다룰 수 없기 때문이다. 따라서, 본 논문은 이러한 문제를 보완하고자 VHAR 구조에 기반한 이상점 탐지 방법을 제시하고자 한다. 또한 더욱 정확한 추론을 위해서 로버스트한 방법을 이용하여 VHAR 계수를 추정하였고 이를 활용하여 이상점을 탐지하였다. 모의실험 결과 우리가 제안한 방법론이 기존 VARMA에 기반한 방법론보다 이상점 탐지에 더 효과적임을 살펴볼 수 있었다. 주가지수에 대한 실증자료 분석에서도 기존의 방법론은 탐지하지 못하는 추가 이상점을 찾음을 확인할 수 있었다.