• 제목/요약/키워드: Multivariate Outliers

검색결과 39건 처리시간 0.023초

다변량 정규성과 이상치 검정을 위한 통계 시스템 개발 (Development of Statistical System for Checking Multivariate Normality and Outliers)

  • 최용석;김종건;강명래
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.223-231
    • /
    • 2001
  • 다변량분석 기법을 위해서는 자료가 정규성(normality)가정을 만족해야한다. 본 연구에서는 GUI환경에서 일변량 및 다변량자료의 정규성검정, 이상치제거 및 변수변환을 하는 시스템을 Visual Basic 언어로서 구축하여 사용자들이 보다 편리하게 사용할 수 있음을 소개 하고자 한다.

  • PDF

A Comparison of Methods for the Detection of Outliers in Multivariate Data

  • Hadi, Ali-S.;Joo, Hye-Seon;Son, Mun-S.
    • Communications for Statistical Applications and Methods
    • /
    • 제3권2호
    • /
    • pp.53-67
    • /
    • 1996
  • Numerous classical as well as robust methods have been proposed in the literature for the detection of multiple outlier in multivariate data. The effectiveness and power of each of these methods have not been thoroughly investigated. In this paper we first reduce the vast number of outlier detection methods to a small number of viable ones. This reduction is based on previous work of other researches and on some theoretical arguments. Then we design and implement a Monte Carlo experiment for comparing these methods. The main goal of our study is to determine which methods are most powerful in the detection of multiple outlier and in dealing with the masking and swamping problems. The results of the Monte Carlo study indicate that two of the methods seem to hace better performances than the others for the detection of multiple outlier in multivariate data.

  • PDF

κ-공간중위 군집방법을 활용한 층화방법 (Stratification Method Using κ-Spatial Medians Clustering)

  • 손순철;전명식
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.677-686
    • /
    • 2009
  • 표본조사에서 널리 쓰이는 모집단의 층화는 추정의 효율을 높이는 방법 중의 하나지만, 이상점을 포함하는 변수가 있는 경우에 여러 가지 문제점을 유발시킬 수 있다. 특히, 이상점이 존재하는 다변량 자료의 경우, 층화를 위한 $\kappa$-평균 군집방법은 이상점에 매우 민감하여 추정의 효율을 떨어뜨릴 수 있다. 본 연구에서는 이상점이 존재하는 다변량 자료의 층화를 위해 $\kappa$-평균 군집방법보다 강건하며 이상점을 따로 식별하는 과정이 배제된 $\kappa$-공간중위수 군집방법을 제안한다. 기존 관련연구인 박진우와 윤석훈 (2008)과 동일한 자료에 대한 사례분석을 통해 층화과정들을 비교, 검토하였으며 이들의 효율성을 추정량의 분산을 통해 비교하였다.

Variable Selection Based on Direction Vectors

  • Kyungmee Choi
    • Communications for Statistical Applications and Methods
    • /
    • 제5권1호
    • /
    • pp.25-33
    • /
    • 1998
  • We review a multivariate version of Kendall's tau based on direction vectors of observations. And with this statistic we propose an analog of the forward variable selection method which selects a set of independent variables for further studies to build the eventual predicting model. This method does not assume the distributions of observations and the linear model and it is strong to the outliers with high asymptotic efficiencies relative to the parametric Pearson's correlation coefficient.

  • PDF

다변량 자료에서 위치모수에 대한 로버스트 검정 (A Robust Test for Location Parameters in Multivariate Data)

  • 소선하;이동희;정병철
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1355-1364
    • /
    • 2009
  • 본 논문에서는 다변량 자료의 위치모수에 대한 로버스트 검정 방법으로 유사등변성과 고붕괴성을 만족하는 MVE와 MCD 추정량에 근거한 로버스트 검정방법을 제안하였다. 일반적으로 이들 추정방법은 낮은 효율성으로 인하여 통계적 추론보다는 잠재적 이상치의 발견과 같은 탐색적분석에서 사용된다. 우리는 검정력을 높이기 위하여 MVE와 MCD 추정량에 근거한 일단계 재가중절차를 사용했는데, 가중치 선정과 관련된 임계값을 조절함으로써 현실적으로 사용가능한 높은 효율성과 정확성을 갖춘 검정방법을 제시하였다. 모의실험 결과 본 연구에서 제안한 검정법은 모분포에 관계없이 모두 명목유의수준을 제대로 유지하고 검정력도 높게 나타났으며, 이상치를 포함하고 있는 사례를 이용하여 실제로 모평균에 대한 가설검정을 수행한 결과 기존 방법과는 달리 영향을 받지 않았다.

붓스트랩을 이용한 다차원척도법의 효율성 연구 (A study on the efficiency of multidimensional scalin using bootstrap method)

  • 김우종;강기훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권2호
    • /
    • pp.301-309
    • /
    • 2009
  • 다차원척도법은 다변량분석에서 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 비유사성을 측정하고, 그 값들 혹은 반복하여 측정된 경우에는 그 값들의 평균을 이용하여 개체들을 저차원의 공간상에 도시화시켜 표현하는 분석방법이다. 본 논문에서는 응답자의 답변에 기초하여 비유사성을 측정할 때 이상치 또는 응답자의 답변이 불성실할 경우 발생하는 변이문제와 개체들 간의 거리에 대한 통계적 추론 문제에 붓스트랩 방법을 적용하는 내용을 다루고, 활용가능성을 무료일간지에 대한 유사성 평가 자료를 이용하여 실증적으로 분석하였다.

  • PDF

Improving data reliability on oligonucleotide microarray

  • Yoon, Yeo-In;Lee, Young-Hak;Park, Jin-Hyun
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2004년도 The 3rd Annual Conference for The Korean Society for Bioinformatics Association of Asian Societies for Bioinformatics 2004 Symposium
    • /
    • pp.107-116
    • /
    • 2004
  • The advent of microarray technologies gives an opportunity to moni tor the expression of ten thousands of genes, simultaneously. Such microarray data can be deteriorated by experimental errors and image artifacts, which generate non-negligible outliers that are estimated by 15% of typical microarray data. Thus, it is an important issue to detect and correct the se faulty probes prior to high-level data analysis such as classification or clustering. In this paper, we propose a systematic procedure for the detection of faulty probes and its proper correction in Genechip array based on multivariate statistical approaches. Principal component analysis (PCA), one of the most widely used multivariate statistical approaches, has been applied to construct a statistical correlation model with 20 pairs of probes for each gene. And, the faulty probes are identified by inspecting the squared prediction error (SPE) of each probe from the PCA model. Then, the outlying probes are reconstructed by the iterative optimization approach minimizing SPE. We used the public data presented from the gene chip project of human fibroblast cell. Through the application study, the proposed approach showed good performance for probe correction without removing faulty probes, which may be desirable in the viewpoint of the maximum use of data information.

  • PDF

고혈압 예측을 위한 이상치 탐지 알고리즘 및 데이터 통합 기법 (An Outlier Detection Algorithm and Data Integration Technique for Prediction of Hypertension)

  • 홍고르출;김미혜 ;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.417-419
    • /
    • 2023
  • Hypertension is one of the leading causes of mortality worldwide. In recent years, the incidence of hypertension has increased dramatically, not only among the elderly but also among young people. In this regard, the use of machine-learning methods to diagnose the causes of hypertension has increased in recent years. In this study, we improved the prediction of hypertension detection using Mahalanobis distance-based multivariate outlier removal using the KNHANES database from the Korean national health data and the COVID-19 dataset from Kaggle. This study was divided into two modules. Initially, the data preprocessing step used merged datasets and decision-tree classifier-based feature selection. The next module applies a predictive analysis step to remove multivariate outliers using the Mahalanobis distance from the experimental dataset and makes a prediction of hypertension. In this study, we compared the accuracy of each classification model. The best results showed that the proposed MAH_RF algorithm had an accuracy of 82.66%. The proposed method can be used not only for hypertension but also for the detection of various diseases such as stroke and cardiovascular disease.

다변량 선형회귀모형의 벌점화 최소거리추정에 관한 연구 (Penalized least distance estimator in the multivariate regression model)

  • 신정민;강종경;방성완
    • 응용통계연구
    • /
    • 제37권1호
    • /
    • pp.1-12
    • /
    • 2024
  • 동일한 설명변수 집합에 여러 개의 반응 변수들이 종속되어 있는 경우를 많은 실제 자료에서 볼 수 있다. 특히, 여러 개의 반응변수가 서로 상관관계를 가지고 있으면 각각의 반응변수에 대한 개별적인 분석보다는 반응변수들 사이의 상관관계를 고려한 동시 추정(simultaneous estimation)이 매우 효과적이다. 이러한 다변량 회귀분석에서 최소거리추정량(least distance estimator; LDE)은 반응변수들간의 상관관계를 모형 적합 과정에 반영하여 다차원 유클리드 공간에서 각 훈련 개체와 추정값 사이의 거리를 최소화하도록 회귀계수들을 동시에 추정한다. 뿐만 아니라 최소거리추정량은 이상치에 대한 강건성을 제공한다. 본 논문에서는 다변량 선형 회귀분석에서의 최소거리추정법에 대해 살펴보고, 나아가 효율적인 변수선택을 위한 벌점화 최소거리추정량을 제시하였다. 본 연구에서 제안하는 adaptive group LASSO 벌점항을 적용한 AGLDE 기법은 반응변수들간의 상관관계를 모형 적합에 반영함과 동시에 설명변수의 중요도에 따라 효율적으로 변수선택을 수행할 수 있다. 제안 방법의 유용성은 모의실험과 실제 자료 분석을 통해 확인하였다.

중성자 방사화분석에 의한 한국산 고고학적 유물의 특성화 연구 (II). 다변량 해석법에 의한 고대 유리제품의 분류 연구 (Characterization of Korean Archaeological Artifacts by Neutron Activation Analysis (II). Multivariate Classification of Korean Ancient Glass Pieces)

  • 이철;권오천;이인종;김낙배
    • 대한화학회지
    • /
    • 제31권6호
    • /
    • pp.567-575
    • /
    • 1987
  • 한국산 고대유리 시료 45종을 입수하여 그속에 함유된 19종의 원소(Ag, As, Br, Ce, Co, Cr, Eu, Fe, Hf, K, La, Lu, Na, Ru, Sb, Sc, Sm, Th, Zn)는 중성자방사화분석에 의하고, Pb는 원자흡수분광분석법에 의해 각각 정량하였다. 이들 20종 원소의 분석데이타를 사용하여 원소 상호간의 상관관계를 상관메트릭스법으로 검토하였다. 그리고 주성분분석법으로 각 시료의 농도분포를 평면에 나타내었으며, 측정된 제조년대 및 발굴위치가 같은 시료가 모이면 이들 시료를 SIMCA를 위한 참조시료로 삼았다. 이들 참조시료 및 시험시료를 SIMCA에 의해 분류하였더니 참조시료 전부와 시험시료중 3종이 주성분분석법에 의한 분류결과와 일치하였다.

  • PDF