• 제목/요약/키워드: regression outlier

검색결과 116건 처리시간 0.022초

가중치 보정을 이용한 다중대체법 (Multiple Imputation Reducing Outlier Effect using Weight Adjustment Methods)

  • 김진영;신기일
    • 응용통계연구
    • /
    • 제26권4호
    • /
    • pp.635-647
    • /
    • 2013
  • 다중 대체법은 표본조사에서 결측값이 발생하였을 때 가장 흔히 사용하는 방법이다. 이 방법은 여러 요인에 의해 그 성능이 좌우되며 특히 이상점의 영향을 많이 받는다. 본 연구에서는 가중치 보정법을 이용하여 이상점의 영향력을 줄여 다중 대체법의 성능을 향상시키는 방법을 연구하였다. 가중치 보정법을 이용하여 얻어진 최종 가중치를 다중대체에 사용하였으며 SAS의 PROC MI가 다중 대체를 위해 사용되었다. 모의실험과 매월노동통계 자료를 이용한 실제 자료 분석을 통하여 제안된 방법의 우수성을 확인하였다.

소프트웨어 공수 예측의 정확성에 대한 이상치 제거의 영향 분석 (Analyzing Influence of Outlier Elimination on Accuracy of Software Effort Estimation)

  • 서영석;윤경아;배두환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.589-599
    • /
    • 2008
  • 정확한 소프트웨어 공수 예측은 소프트웨어 관련 여러 커뮤니티들에서 예전부터 항상 이슈가 되어 왔다. 소프트웨어 공수 예측의 정확도를 향상시키기 위해 지금까지 많은 연구들에서는 데이타 품질이 공수 예측에 중요한 요소들 중 하나임에도 불구하고 이것에 대한 고려 없이 공수 예측 기법들에만 초점을 맞추어 왔다. 본 연구에서는 소프웨어어 공수 예측 기법과 이상치 제거 기법들 사이의 영향 관계를 공수 예측 정확도의 관점에서 실험적으로 살펴본다. 두 개의 프로젝트 데이타들(ISBSG와 국내의 한 금융 조직으로부터 수집된 데이타)에 대해 일반적으로 많이 사용되는 세 가지 공수 예측 기법(최소제곱법, 신경망 네트워크, 그리고 베이지안 네트워크)과 두 가지 이상치 제거 기법(최소절사제곱법과 K-means 클러스터링)을 적용시켜 결과들을 서로 비교해 보고 이상치 제거 기법을 적용하지 않은 결과와도 비교해 본다.

Fuzzy c-Regression Using Weighted LS-SVM

  • Hwang, Chang-Ha
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 추계학술대회
    • /
    • pp.161-169
    • /
    • 2005
  • In this paper we propose a fuzzy c-regression model based on weighted least squares support vector machine(LS-SVM), which can be used to detect outliers in the switching regression model while preserving simultaneous yielding the estimates of outputs together with a fuzzy c-partitions of data. It can be applied to the nonlinear regression which does not have an explicit form of the regression function. We illustrate the new algorithm with examples which indicate how it can be used to detect outliers and fit the mixed data to the nonlinear regression models.

  • PDF

로버스트 추정법을 이용한 자기상관회귀모형에서의 특이치 검출 (Outlier Detection of Autoregressive Models Using Robust Regression Estimators)

  • 이동희;박유성;김기환
    • 응용통계연구
    • /
    • 제19권2호
    • /
    • pp.305-317
    • /
    • 2006
  • 시계열 자료에서의 특이치, 특히 이 가운데 가법적 특이치가 모형의 식별, 모수의 추정 및 예측과 관련된 분석 전과정을 왜곡하는 것은 잘 알려져 있다. 그러나 특이치가 다수 발생하는 경우, 특히 연속적으로 집단을 이루어 발생할 때 대부분 특이치 검출방법은 가면화효과와 수렁화효과때문에 이들을 정확히 판별하지 못한다. 본 논문에서는 p차 자기상관회귀모형에 대한 고붕괴점 회귀추정량을 이용한 양방향 로버스트 필터방법을 제안했다. 실제 사례와 모의실험을 통해 제안한 방법이 매우 정확하게 시계열 자료에 포함된 특이치들을 검출하고 있음을 확인할 수 있다.

선형모형에서 특정 이상치 후보군에 대한 검정 (A Test on a Specific Set of Outlier Candidates in a Linear Model)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.307-315
    • /
    • 2014
  • 이상치 후보군을 검정할 때 일반적으로 정확한 검정 통계량의 분포가 존재하지 않는다. 이에 따라 전체 관찰치군에 대한 검정대신 개별 관찰치에 대한 검정을 수행하거나 실험에 의해 계산된 유의값을 사용하여 이상치 가설검정을 수행한다. 본 연구에서는 임의의 관찰치 집단 또는 이상치 탐지절차에 따라 이상치 후보로 탐지된 특정 관찰치 집단의 이상치 여부를 검정하는 방법을 제시한다. 제시된 방법은 기존의 이상치 탐지기법에서 사용되는 검정방법과 모의실험을 통해 검정력을 비교한다.

군집 알고리즘을 이용한 순차적 이상치 탐지법 (A sequential outlier detecting method using a clustering algorithm)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.699-706
    • /
    • 2016
  • 검정절차가 생략된 이상치 탐지법은 구조적으로 수렁효과나 가면효과에 취약하기 때문에 다수의 이상치를 제대로 탐지하지 못할 때가 있다. 본 연구에서는 군집화에 의하여 구분된 소수 관찰치군을 이상치로 판정하는 방법에 보완될 검정절차를 다룬다. 이에 관련된 일반적인 방법은 탐지된 이상치 후보군의 개별적인 관찰치에 대해 다양한 종류의 t-검정을 수행하는 것이다. 본 연구에서는 이상치 후보군에 대한 검정을 수행하고 군집나무의 절단기준을 변경시켜 새로운 이상치군을 탐색해 나가는 순차적인 방법을 제안한다. 예제와 모의실험을 통해 제시된 방법과 기존의 방법들을 비교한다.

Outlier Identification in Regression Analysis using Projection Pursuit

  • Kim, Hyojung;Park, Chongsun
    • Communications for Statistical Applications and Methods
    • /
    • 제7권3호
    • /
    • pp.633-641
    • /
    • 2000
  • In this paper, we propose a method to identify multiple outliers in regression analysis with only assumption of smoothness on the regression function. Our method uses single-linkage clustering algorithm and Projection Pursuit Regression (PPR). It was compared with existing methods using several simulated and real examples and turned out to be very useful in regression problem with the regression function which is far from linear.

  • PDF

한국형 기동무기체계 양산비 비용추정관계식 개발에 관한 연구 (A Study on Developing a CER Using Production Cost Data in Korean Maneuver Weapon System)

  • 이두현;김각규
    • 한국경영과학회지
    • /
    • 제39권3호
    • /
    • pp.51-61
    • /
    • 2014
  • In this paper, we deal with developing a cost estimation relationships (CER) for Korean maneuverable weapons systems using historical production cost. To develop the CER, we collected the historical data of the production cost of four tanks and five armored vehicles. We also analyzed the Required Operational Capability (ROC) of the weapons systems and chose cost drivers that can compare operational capabilities of the weapons systems We used Forward selection, Backward selection, Stepwise Regression and $R^2$ selection as the cost drivers which have the greatest influence with the dependent variables. And we used Principle Component Regression, Robust Regression and Weighted Regression to deal with multicollinearity and outlier among the data to develop a more appropriate CER. As a result, we were able to develop a production cost CER for Korean maneuverable weapons systems that have the lowest cost errors. Thus, this research is meaningful in terms of developing a CER based on Korean original cost data without foreign data and these methods will contribute to developing a Korean cost analysis program in the future.

로버스트주성분회귀에서 최적의 주성분선정을 위한 기준 (A Criterion for the Selection of Principal Components in the Robust Principal Component Regression)

  • 김부용
    • Communications for Statistical Applications and Methods
    • /
    • 제18권6호
    • /
    • pp.761-770
    • /
    • 2011
  • 회귀모형에 연관성이 높은 설명변수들이 포함되면 다중공선성의 문제가 야기되며, 동시에 자료에 회귀 이상점들이 포함되면 최소자승추정량에 바탕을 둔 제반 통계적 추론은 심각한 결함을 갖게 된다. 이러한 현상들은 데이터마이닝 분야에서 많이 볼 수 있는데, 본 논문에서는 두 가지 문제를 동시에 해결하기 위한 방안으로서 로버스트주성분회귀를 제안하였다. 특히 최적의 주성분을 선정하기 위한 새로운 기준을 개발하였는데, 설명변수들의 표본공분산 대신에 MVE-추정량을 기반으로 하였으며, 고유치가 아니라 상태지수의 크기에 바탕을 둔 선정기준을 제안하였다. 그리고 주성분모형에서의 추정을 위하여 회귀이상점에 대해 로버스트한 LTS-추정을 도입하였다. 제안된 선정기준이 기존의 기준들보다 다중공선성과 이상점이 유발하는 문제들을 잘 해결할 수 있음을 모의실험을 통하여 확인하였다.

국소가중다항회귀분석을 이용한 이상치제거 및 자료보정기법 개발 (GPS를 이용한 개별차량 주행속도를 중심으로) (Correction of Erroneous Individual Vehicle Speed Data Using Locally Weighted Regression (LWR))

  • 임희섭;오철;박준형;이건우
    • 대한교통학회지
    • /
    • 제27권2호
    • /
    • pp.47-56
    • /
    • 2009
  • 현장에서 수집되는 교통원시자료는 수집장비의 결함 및 주변환경 등에 의해 다양한 이상치가 발생한다. 원시자료의 품질은 추가 가공을 통해 생성되는 교통정보의 신뢰도에 직접적인 영향을 미치는 중요한 요인이다. 실시간으로 수집되는 교통원시자료를 1차 가공하는데 있어서 핵심은 이상치(Outlier)를 검지하고 보정하는 것이라고 할 수 있다. 본 연구에서는 GPS장비를 이용해 얻은 개별차량의 주행속도에서 발생하는 이상치를 제거하고 보정하는 기법을 제안하였다. GPS는 광범위한 교통네트워크상의 차량추적에 용이하게 사용될 수 있는 장점이 있다. 수집된 개별차량의 주행속도에서 이상치를 검지하고 보정하기 위해 국소가중다항회귀분석(LWR: Locally Weighted Regression)을 적용하였다. 또한 국소가중다항회귀분석을 수행하기 위한 파라미터 결정 알고리즘을 개발하여 적용하였다. 개발된 필터링 기법의 성능 평가를 위해 Synthetic Outlier를 생성 및 주입하여 개발된 필터링 기법을 통해 보정시키고 원시자료와 비교 분석 하였고, LWR을 이용한 기법의 상대적 성능 평가를 위해 지수평활화를 이용한 기법과 비교하였다. 평가 결과 LWR기법이 지수평활화를 이용한 기법보다 낮은 오차율을 보여 상대적으로 우수함을 검증하였다. 본 연구에서 제안한 방법론은 교통정보공학 분야의 자료처리 및 정보가공을 위한 도구로서 활용도가 클 것으로 기대된다.