• 제목/요약/키워드: Outliers

검색결과 669건 처리시간 0.021초

선형모형에서 특정 이상치 후보군에 대한 검정 (A Test on a Specific Set of Outlier Candidates in a Linear Model)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.307-315
    • /
    • 2014
  • 이상치 후보군을 검정할 때 일반적으로 정확한 검정 통계량의 분포가 존재하지 않는다. 이에 따라 전체 관찰치군에 대한 검정대신 개별 관찰치에 대한 검정을 수행하거나 실험에 의해 계산된 유의값을 사용하여 이상치 가설검정을 수행한다. 본 연구에서는 임의의 관찰치 집단 또는 이상치 탐지절차에 따라 이상치 후보로 탐지된 특정 관찰치 집단의 이상치 여부를 검정하는 방법을 제시한다. 제시된 방법은 기존의 이상치 탐지기법에서 사용되는 검정방법과 모의실험을 통해 검정력을 비교한다.

Analysis of Outlier Effects on Spatial Indices

  • Kim Si-Wan;Kim Kyoung-Sook;Li Ki-Joune
    • Spatial Information Research
    • /
    • 제12권4호
    • /
    • pp.339-349
    • /
    • 2004
  • 공간 데이터베이스에서 예외자는 R-tree 계열의 공간색인의 성능에 많은 영향을 미친다. 즉, 예외자로 인하여 R-tree 계열의 공간색인에서 최소경계사각형의 넓이가 불필요하게 넓어지고 겹침 현상이 심해지게 되고 이로 인해 질의처리 시 더 많은 디스크 접근을 필요하게 된다. 따라서, 본 논문에서는 예외자가 공간색인에 주는 영향을 분석하여, 예외자를 미리 처리할 경우, 얼마만큼의 성능을 향상시킬 수 있는지 비용모델과 적절한 예외자의 처리방법을 제안한다. 그리고 실험을 통해 예외자를 미리 처리함으로써 어느 정도의 공간색인의 질의처리 성능을 향상시킬 수 있는지 보여준다. 실험결과에 따르면, 본 논문에서 제안된 예외자의 처리방법이 기존의 공간색인의 성능을 평균 $15\%$정도 향상시킬 수 있음을 보여준다.

  • PDF

탄성파 자료의 강인한 최적 가중 겹쌓기 (Robust and Optimum Weighted Stacking of Seismic Data)

  • 지준
    • 지구물리와물리탐사
    • /
    • 제16권1호
    • /
    • pp.1-5
    • /
    • 2013
  • 탄성파 자료처리 과정에서 겹쌓기는 신호대 잡음비율과 영상의 질을 개선하는데 중요한 역할을 한다. 하지만 기존의 겹쌓기 방법은 다양한 분포의 잡음과 특이치 잡음을 만족스러운 수준으로 제거하지는 못한다. 본 논문에서는 특이치에 강인함을 보이는 중앙값 처리와 다양한 분포의 잡음 제거에 효과적인 국지적 상관을 이용한 가중 겹쌓기법을 결합하여, 강인하면서도 최적인 가중 겹쌓기법을 소개한다. 제안한 방법을 합성 자료에 적용하여 다양한 분포의 잡음과 특이치 잡음 모두를 효과적으로 제거함을 확인할 수 있었다.

퍼지 분류기법을 이용한 강건한 카메라 동작 추정 (Robust Estimation of Camera Motion using Fuzzy Classification Method)

  • 이중재;김계영;최형일
    • 정보처리학회논문지B
    • /
    • 제13B권7호
    • /
    • pp.671-678
    • /
    • 2006
  • 본 논문에서는 두 영상간의 대응관계로부터 퍼지 분류기법을 이용한 강건한 카메라 동작 추정 방법을 제안한다. 제안한 방법에서는 이상치가 존재할 때 정확한 카메라 동작을 추정하기 위하여 대표적인 강건 예측기법인 RANSAC 알고리즘을 사용한다. 그런데 RANSAC은 사전에 결정되는 이상치의 비율에 따라 정확도가 좌우되는 샘플링 문제점을 가지고 있다. 이러한 문제점을 개선하기 위해 샘플링 시에 퍼지 분류기법을 이용하여 전체 샘플을 좋은, 모호한, 나쁜 샘플로 분류한다. 그런 후에 좋은 데이터에 대해서만 샘플링을 수행함으로써 이상치 제거에 대한 정확도를 향상시킨다. 실험에서는 호모그래피 계산에 대한 성능을 비교함으로써 제안한 방법의 우수함을 보인다.

일반국도 상시조사 교통량 자료의 이상치 판정 알고리즘 개발 (The Outlier-Filtering Algorithm for National Highway Continuous Traffic Counts Data)

  • 신재명;이상협;김현석
    • 대한토목학회논문집
    • /
    • 제33권2호
    • /
    • pp.691-702
    • /
    • 2013
  • 본 연구에서는 요일별 교통량 변동 패턴 기반 평활화법을 활용하여 정량적 이상치 판정 알고리즘을 개발하였다. 또한 개발된 알고리즘을 활용하여 2010년 일반국도 상시조사 지점 중 14개 지점의 교통량 자료에 대한 이상치 필터링을 수행하여 알고리즘의 적합성 여부를 평가하였다. 그 결과 정상일 필터링율은 98.2%, 이상일 중 오필터링율은 8.0%로 평가되었다. 따라서 본 연구에서 개발된 알고리즘은 수집된 교통량 자료의 1차적인 이상치 필터링에 충분히 적용 가능할 것이다.

ROI 기반 실시간 이미지 정합 알고리즘 구현 (An Implementation of the Real-time Image Stitching Algorithm Based on ROI)

  • 곽재창
    • 전기전자학회논문지
    • /
    • 제19권4호
    • /
    • pp.460-464
    • /
    • 2015
  • 본 논문은 임베디드 환경에서 실시간으로 동작하기 위해 이미지에 ROI를 지정하고 PROSAC 알고리즘을 적용하여 구현한 파노라마 영상 정합을 제안한다. 기존의 방식은 SURF 알고리즘이나 SIFT 알고리즘과 같이 복잡한 연산과 많은 연산 데이터의 알고리즘을 화면 전체에 적용하여 탐색한다. 또한 outlier 제거 알고리즘으로 RANSAC을 적용하여 알고리즘이 가진 무작위성으로 추가적인 검증 시간을 필요로 한다. 본 논문은 파노라마 영상의 특성을 고려하여 ROI를 설정함으로써 불필요한 연산량을 줄이고 outlier 제거 알고리즘을 검증 시간을 줄인 PROSAC 알고리즘으로 채택하여 처리 속도를 개선하였다. 비교 실험은 ARM Cortex-A15가 내장된 ODROID-XU 환경에서 진행 하였다. 제안하는 방식은 기존의 방식보다 처리 시간이 약 54% 개선되었다.

정상 시계열에서의 이상치 발견과 시계열 모형구축 (Outlier detection and time series modelling in the stationary time series)

  • 이종협;최기헌
    • 응용통계연구
    • /
    • 제5권2호
    • /
    • pp.139-156
    • /
    • 1992
  • 최근에 시계열에서의 이상치 발견을 위한 여러 가지 반복적인 방법들이 소개되었으나 이들 대부분은 시계열의 기저모형이 알려져 있거나 식별될 수 있다는 가정하에서 개발되었다. 그 렇지만 실제로 이상치들이 모형식별을 왜곡 시키거나 심지어는 불가능하게 만드는 경우가 발생한다. 본 논문에서는 두 개의 시계열 관측치 사이의 거리에 근거한 새로운 척도를 이용 한 이상치 탐색 방법을 제시하였다. 특히 이방법은 이상치를 발견하는데 시계열 모형에 의 존하지 않는다. 제안된 통계량에 대한 여러 가지 성질을 밝혔으며 이상치의 형태를 구별하 기 위해 전이함수모형을 이용하였다. 그밖에 이상치를 포함하고 있는 시계열의 모형을 구축 하기 위한 반복적인 절차를 제안했다.

  • PDF

선형보간법에 의한 자료 희소성 해결방안의 문제와 대안 (Robust Interpolation Method for Adapting to Sparse Design in Nonparametric Regression)

  • 박동련
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.561-571
    • /
    • 2007
  • 국소선형회귀모형의 추정량은 좋은 특성을 가지고 있는 추정량으로서 가장 흔히 사용되는 비모수적 회귀모형의 추정량이라고 하겠다. 이러한 국소선형 추정량이 자료가 희박한 구간에서는 심하게 왜곡된 추정결과를 보이는 문제가 있으며, Hall과 Turlach(1997)이 제안한 선형보간법이 이러한 문제에 대한 매우 효과적인 해결방안이라는 것은 잘 알려진 사실이다. 그러나 Hall과 Turlach가 제안한 선형보간법이 이상값에 매우 취약하다는 사실은 아직 지적된 적이 없는 문제이다. 이 논문에서는 이상값의 영향력을 감소시킬 수 있는 수정된 선형보간법에 의한 유사자료의 생성방법을 제안하고, 그 특성을 모의실험을 통하여 기존의 방법과 비교하였다.

상수관망의 누수감지를 위한 주성분 분석의 적용 가능성에 대한 연구 (Study on the applicability of the principal component analysis for detecting leaks in water pipe networks)

  • 김기민;박수완
    • 상하수도학회지
    • /
    • 제33권2호
    • /
    • pp.159-167
    • /
    • 2019
  • In this paper the potential of the principal component analysis(PCA) technique for the application of detecting leaks in water pipe networks was evaluated. For this purpose the PCA was conducted to evaluate the relevance of the calculated outliers of a PCA model utilizing the recorded pipe flows and the recorded pipe leak incidents of a case study water distribution system. The PCA technique was enhanced by applying the computational algorithms developed in this study which were designed to extract a partial set of flow data from the original 24 hour flow data so that the effective outlier detection rate was maximized. The relevance of the calculated outliers of a PCA model and the recorded pipe leak incidents was analyzed. The developed algorithm may be applied in determining further leak detection field work for water distribution blocks that have more than 70% of the effective outlier detection rate. However, the analysis suggested that further development on the algorithm is needed to enhance the applicability of the PCA in detecting leaks by considering series of leak reports happening in a relatively short period.

Robustness of model averaging methods for the violation of standard linear regression assumptions

  • Lee, Yongsu;Song, Juwon
    • Communications for Statistical Applications and Methods
    • /
    • 제28권2호
    • /
    • pp.189-204
    • /
    • 2021
  • In a regression analysis, a single best model is usually selected among several candidate models. However, it is often useful to combine several candidate models to achieve better performance, especially, in the prediction viewpoint. Model combining methods such as stacking and Bayesian model averaging (BMA) have been suggested from the perspective of averaging candidate models. When the candidate models include a true model, it is expected that BMA generally gives better performance than stacking. On the other hand, when candidate models do not include the true model, it is known that stacking outperforms BMA. Since stacking and BMA approaches have different properties, it is difficult to determine which method is more appropriate under other situations. In particular, it is not easy to find research papers that compare stacking and BMA when regression model assumptions are violated. Therefore, in the paper, we compare the performance among model averaging methods as well as a single best model in the linear regression analysis when standard linear regression assumptions are violated. Simulations were conducted to compare model averaging methods with the linear regression when data include outliers and data do not include them. We also compared them when data include errors from a non-normal distribution. The model averaging methods were applied to the water pollution data, which have a strong multicollinearity among variables. Simulation studies showed that the stacking method tends to give better performance than BMA or standard linear regression analysis (including the stepwise selection method) in the sense of risks (see (3.1)) or prediction error (see (3.2)) when typical linear regression assumptions are violated.