• 제목/요약/키워드: Robust Statistics

검색결과 397건 처리시간 0.022초

Robust Cross Validation Score

  • Park, Dong-Ryeon
    • Communications for Statistical Applications and Methods
    • /
    • 제12권2호
    • /
    • pp.413-423
    • /
    • 2005
  • Consider the problem of estimating the underlying regression function from a set of noisy data which is contaminated by a long tailed error distribution. There exist several robust smoothing techniques and these are turned out to be very useful to reduce the influence of outlying observations. However, no matter what kind of robust smoother we use, we should choose the smoothing parameter and relatively less attention has been made for the robust bandwidth selection method. In this paper, we adopt the idea of robust location parameter estimation technique and propose the robust cross validation score functions.

Robust inference with order constraint in microarray study

  • Kang, Joonsung
    • Communications for Statistical Applications and Methods
    • /
    • 제25권5호
    • /
    • pp.559-568
    • /
    • 2018
  • Gene classification can involve complex order-restricted inference. Examining gene expression pattern across groups with order-restriction makes standard statistical inference ineffective and thus, requires different methods. For this problem, Roy's union-intersection principle has some merit. The M-estimator adjusting for outlier arrays in a microarray study produces a robust test statistic with distribution-insensitive clustering of genes. The M-estimator in conjunction with a union-intersection principle provides a nonstandard robust procedure. By exact permutation distribution theory, a conditionally distribution-free test based on the proposed test statistic generates corresponding p-values in a small sample size setup. We apply a false discovery rate (FDR) as a multiple testing procedure to p-values in simulated data and real microarray data. FDR procedure for proposed test statistics controls the FDR at all levels of ${\alpha}$ and ${\pi}_0$ (the proportion of true null); however, the FDR procedure for test statistics based upon normal theory (ANOVA) fails to control FDR.

ROBUST MEASURES OF LOCATION IN WATER-QUALITY DATA

  • Kim, Kyung-Sub;Kim, Bom-Chul;Kim, Jin-Hong
    • Water Engineering Research
    • /
    • 제3권3호
    • /
    • pp.195-202
    • /
    • 2002
  • The mean is generally used as a point estimator in water-quality data. Unfortunately, the nonnormal and skewed distributions of data hinder the direct application of the mean, which is inappropriate statistics in this case. The use of robust statistics such as L, M, and R-estimators are recommended and become more efficient. The median (L-estimator), the biweight (M-estimator), and the Hodges-Lehmann method (R-estimator) are briefly introduced and applied in this paper. From the actual data analyses, it is known that the median does not guarantee robustness for a small number of data sets, and robust measures of location or the arithmetic mean without outliers are highly recommended if the distribution has tails or outliers. Care must be taken to measure the location because water quality level within a water body can change depending on the selected point estimator.

  • PDF

Least clipped absolute deviation for robust regression using skipped median

  • Hao Li;Seokho Lee
    • Communications for Statistical Applications and Methods
    • /
    • 제30권2호
    • /
    • pp.135-147
    • /
    • 2023
  • Skipped median is more robust than median when outliers are not symmetrically distributed. In this work, we propose a novel algorithm to estimate the skipped median. The idea of skipped median and the new algorithm are extended to regression problem, which is called least clipped absolute deviation (LCAD). Since our proposed algorithm for nonconvex LCAD optimization makes use of convex least absolute deviation (LAD) procedure as a subroutine, regularizations developed for LAD can be directly applied, without modification, to LCAD as well. Numerical studies demonstrate that skipped median and LCAD are useful and outperform their counterparts, median and LAD, when outliers intervene asymmetrically. Some extensions of the idea for skipped median and LCAD are discussed.

비 가우시안 잡음이 존재하는 무선 센서 네트워크에서 Robust Statistics를 활용하는 수신신호세기기반의 위치 추정 기법 (A RSS-Based Localization Method Utilizing Robust Statistics for Wireless Sensor Networks under Non-Gaussian Noise)

  • 안태준;구인수
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권3호
    • /
    • pp.23-30
    • /
    • 2011
  • 무선 센서 네트워크에서, 각 센서 노드들로부터 수집된 정보를 효율적으로 활용하기 위해 센서 노드의 정확한 위치 정보는 필수적이다. 센서 노드의 위치를 추정하는 다양한 기법들 중, 일반적으로 많이 사용되는 수신신호세기(RSS)기법은 추가적인 하드웨어 자원 없이 쉽게 구현될 수 있으나 채널 환경에 따라 다양한 표본 데이터들이 수집 될 수 있고, 특히 이상점(outlier)이 포함 될 수 있다. 이러한 이상점들은, 수집된 표본들로부터 통계적 분석(statistical analysis)에 상당한 요인을 미치며 위치 추정 오차를 발생시키는 주요한 원인이 된다. 따라서 본 논문에서는, 이상점이 포함 된 표본들로부터 정확한 위치 추정을 위해 Robust Statistics를 적용한 가우시안 필터 알고리즘을 제안한다. 제안한 알고리즘은 이상점이 포함된 표본들로부터 이상점을 제거하고, 낮은 확률값의 표본들을 배제함으로써 위치 추정의 정확도를 향상시킨다. 시뮬레이션 결과로부터, 이상점이 포함 된 표본들로부터 비 가우시안적 환경에서 제안된 방법의 위치 추정의 정확성 향상과 강인성을 확인하였다.

로버스트 회귀추정에 의한 신뢰구간 구축 (On Confidence Intervals of Robust Regression Estimators)

  • 이동희;박유성;김기환
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.97-110
    • /
    • 2006
  • 대부분의 자료는 여러가지 원인으로 인한 특이치로 오염되어 있으며, 이러한 상황에서 신뢰성 있는 추정량을 얻어내고 이에 대한 통계적 추론을 시행하는 것은 중요한 문제이다. 그러나 이제까지 제안된 로버스트 회귀추정량들은 계산상의 어려움과 정규오차모형에서 최소제곱추정량에 비하여 떨어지는 효율성때문에 통계적 추론의 정확성을 확신할 수 없었다. 최근 제안된 Lee(2004)의 가중자기조율회귀추정량(weighted self-tuning estimator, WSTE)은 다른 로버스트 회귀추정량에 비하여 정확한 계산과정과 그에 따른 추정량의 점근적 정규성 및 고붕괴점을 갖는다. 그러나 통계적 추론을 위하여 이제까지 널리 사용해왔던 로버스트 추정량에 기반한 가중최소제곱추정방법(weighted least squares estimator)은 WSTE에서조차 정규오차모형하에서 최소제곱추정량과 동일한 수준의 효율성을 제공해주지 는 못한다. 본 논문에서는 WSTE에 기반한 또다른 통계적 추론 방법을 제안하고, 이 방법을 사용함으로써 정규오차모형 및 대표본에서 보다 정확한 결과를 얻을 수 있음을 몬테칼로 모의실험을 통해 제시하였다.

로버스트 회귀모형을 이용한 자료결합방법 (Statistical Matching Techniques Using the Robust Regression Model)

  • 전명식;정시송;박혜진
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.981-996
    • /
    • 2008
  • 서로 다른 출처로부터 얻어진 데이터 파일들을 하나의 데이터 파일로 만드는 통계적 자료결합방법은 공통변수와 서로 다른 고유변수를 포함하여 변수들 간에 존재하는 관련성에 대해 살펴볼 수 있다. Robin (1986)이 제안한 일반회귀모형의 예측값을 이용한 통계적 결합방법은 자료에 대한 다변량 정규성을 가정하기 때문에 이 가정을 위반하는 자료를 이용하는 것은 많은 문제를 수반한다. 본 연구는 제공파일의 고유변수에 모분포를 반영하지 못하는 특이점이 존재하는 경우, 일반회귀모형을 이용한 통계적 결합방법의 대안으로 로러스트 회귀추정방법을 이용한 자료결합방법을 제안하였다. 나아가 로버스트 회귀모형을 이용한 결합방법과 일반회귀모형을 이용한 결합방법에서의 상관관계 및 결정계수 보존에 관한 성능을 비교하기 위하여 모의실험을 수행하였다.

로지스틱회귀모형의 로버스트 추정을 위한 알고리즘 (Algorithm for the Robust Estimation in Logistic Regression)

  • 김부용;강명욱;최미애
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.551-559
    • /
    • 2007
  • 로지스틱회귀에서 일반적으로 사용되는 최대우도추정법은 이상점에 대해 로버스트 하지 않다. 따라서 본 논문에서는 로지스틱회귀모형의 로버스트 추정을 위한 알고리즘을 제안하고자 한다. 이 알고리즘은 V-마스크 형태의 경계기준에 의해 나쁜 지렛점과 수직이상점을 식별하고, 식별 결과를 바탕으로 이상점의 영향력을 감소시키기 위한 효과적인 방안을 모색한다. 이상점의 영향력 감소는 가중치와 조정치를 적절히 선정함으로 가능하며, 그 결과 붕괴점이 높은 추정치를 얻게 된다. 제안된 알고리즘을 다양한 자료에 적용하여 정분류율을 측정하여 비교하였는데, 새로운 알고리즘이 최대우도추정보다 정확한 분류를 해 주는 것으로 평가되었다.

A Comparision on CERES & Robust-CERES

  • 오광식;도수희;김대학
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 추계학술대회
    • /
    • pp.93-100
    • /
    • 2003
  • It is necessary to check the curvature of selected covariates in regression diagnostics. There are various graphical methods using residual plots based on least squares fitting. The sensitivity of LS fitting to outliers can distort their residuals, making the identification of the unknown function difficult to impossible. In this paper, we compare combining conditional expectation and residual plots(CERES Plots) between least square fit and robust fits using Huber M-estimator. Robust CERES will be far less distorted than their LS counterparts in the presence of outliers and hence, will be more useful in identifying the unknown function.

  • PDF

Multiple Response Optimization for Robust Design using Desirability Function

  • Kwon, Yong-Man;Hong, Yeon-Woong;Chang, Duk-Joon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권2호
    • /
    • pp.325-335
    • /
    • 2003
  • Robust design is to identify appropriate settings of control factors that make the system's performance robust to to changes in the noise factors that represent the source of variation. In the Taguchi parameter design, the product array approach using orthogonal arrays is mainly used. However, it often requires an excessive number of experiments. An alternative approach, which is called the combined array approach, was suggested by Welch et. al. (1990) and studied by others. In these studies, only single response variable was considered. We propose how to simultaneously optimize multiple responses when we use the combined array approach.

  • PDF