• 제목/요약/키워드: Outliers detection

검색결과 178건 처리시간 0.022초

시추공 수리 이상점 탐지를 위한 기계학습 알고리즘의 적용성 연구 (A Study on the Applicability of Machine Learning Algorithms for Detecting Hydraulic Outliers in a Borehole)

  • 최승범;박경우;이창수
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.561-573
    • /
    • 2023
  • 한국원자력연구원은 심부 암반의 수리/지화학 특성 분석을 위해 KURT (KAERI Underground Research Tunnel)를 건설하였고, 다수의 조사용 시추공을 시추하여 각종 시험을 수행 중이다. 시추공 조사에서 목적에 적합한 조사 구간 선정은 매우 중요하며 수리 유동 파악 및 지하수 채수가 목적인 경우, 유량이 풍부한 구간이 조사 목적에 부합한다. 본 연구에서는 이러한 구간을 수리 이상점으로 정의했으며, 심도 1km 수준의 시추공 물리검층 자료(온도, 전기전도도)를 활용하여 이를 탐지하고자 하였다. 체계적이고 효율적인 이상점 탐지를 위해 기계학습 알고리즘 중 DBSCAN, OCSVM, kNN, isolation forest을 적용하고 그 적용성을 파악하였다. 데이터 전처리와 알고리즘 최적화를 수행했으며, 그 결과 네 가지 알고리즘은 각각 55, 12, 52, 68개의 수리 이상점을 탐지하였다. 본 논문을 통해 기계학습 알고리즘의 활용 가능성을 확인했으나, 학습에 활용된 입력자료가 제한적이었기 때문에, 향후 추가적인 검증과 보완이 바람직한 것으로 판단된다.

대용량 자료 분석을 위한 밀도기반 이상치 탐지 (Density-based Outlier Detection for Very Large Data)

  • 김승;조남욱;강석호
    • 한국경영과학회지
    • /
    • 제35권2호
    • /
    • pp.71-88
    • /
    • 2010
  • A density-based outlier detection such as an LOF (Local Outlier Factor) tries to find an outlying observation by using density of its surrounding space. In spite of several advantages of a density-based outlier detection method, the computational complexity of outlier detection has been one of major barriers in its application. In this paper, we present an LOF algorithm that can reduce computation time of a density based outlier detection algorithm. A kd-tree indexing and approximated k-nearest neighbor search algorithm (ANN) are adopted in the proposed method. A set of experiments was conducted to examine performance of the proposed algorithm. The results show that the proposed method can effectively detect local outliers in reduced computation time.

클러스터링 기반 앙상블 모델 구성을 이용한 이상치 탐지 (Outlier Detection By Clustering-Based Ensemble Model Construction)

  • 박정희;김태공;김지일;최세목;이경훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권11호
    • /
    • pp.435-442
    • /
    • 2018
  • 이상치 탐지는 정상 데이터 분포를 크게 벗어나는 데이터 샘플을 탐지하는 것을 의미한다. 대부분의 이상치 탐지 방법은 데이터 샘플이 정상 상태를 벗어나는 정도를 나타내는 이상치 지수(outlier score)를 계산하여 주어진 임계값 이상일 때 이상치로 판정한다. 그러나, 데이터마다 이상치 지수의 범위가 다양하고 정상 데이터에 비해 이상치 데이터는 적은 비율로 존재하기 때문에 이상치 지수에 대한 임계값을 결정하기는 매우 어렵다. 또한, 실제 상황에서는 학습에 이용할 수 있는 충분한 양의 이상치를 포함하는 데이터의 획득이 용이하지 않다. 본 논문에서는 정상 데이터가 주어졌을 때 이를 이용하여 정상 데이터 영역을 나타내는 모델을 구성하고 새로운 데이터 샘플에 대해 이상치와 정상치의 이진 분류를 수행하는 방법으로 군집화 기반 이상치 탐지 방법을 제안한다. 그리고, 주어진 정상 데이터를 청크로 나누고 각 청크에 대해 클러스터링 모델을 구성한 후 모델들에 의한 이상치 판정 결과를 결합하는 앙상블 방법과 동적 변화가 있는 스트리밍 데이터에서의 적용 방법으로 확장한다. 실제 데이터와 인공 데이터를 이용한 실험결과는 제안 방법의 높은 성능을 보여준다.

Comparative Analysis of Anomaly Detection Models using AE and Suggestion of Criteria for Determining Outliers

  • Kang, Gun-Ha;Sohn, Jung-Mo;Sim, Gun-Wu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.23-30
    • /
    • 2021
  • 본 연구에선 제조 공정에서의 양/불량 판정을 위한 오토인코더(AE) 기반의 이상 탐지 방법들의 비교 분석과 우수한 성능을 보인 이상치 판별 기준을 제시한다. 제조 현장의 특성상 불량 데이터의 수는 적고, 불량의 형태가 다양하다. 이러한 특성은 정상과 비정상 데이터를 모두 활용하는 인공지능 기반 양/불량 판정 모델의 성능을 저하시키고, 성능 향상을 위한 비정상 데이터의 추가 확보에 시간과 비용을 발생시킨다. 이러한 문제를 해결하기 위해서 정상 데이터만을 이용해 이상 탐지를 수행하는 AE, VAE 등 AE 기반의 모델에 관한 연구들이 진행되고 있다. 본 연구에서는 Convolutional AE, VAE, Dilated VAE 모델을 기반으로 잔차 이미지에 대한 통계치와 MSE, 정보 엔트로피를 이상치 판별 기준으로 선정하여 각 모델의 성능을 비교 분석했다. 특히 Convolutional AE 모델에 대해서 범위 값을 적용했을 때, AUC PRC 0.9570, F1 Score 0.8812, AUC ROC 0.9548, 정확도 87.60%의 가장 우수한 성능을 보였다. 이는 기존의 이상치 판별 기준으로 자주 사용되었던 MSE에 비해 정확도 기준 약 20%P(Percentage Point)의 성능 향상을 보이며, 이상치 판별 기준에 따른 모델 성능 향상이 가능함을 확인하였다.

이상점 영향력 축소를 통한 무응답 대체법 (A Multiple Imputation for Reducing Outlier Effect)

  • 김만겸;신기일
    • 응용통계연구
    • /
    • 제27권7호
    • /
    • pp.1229-1241
    • /
    • 2014
  • 이상점과 무응답이 동시에 존재하는 경우에는 무응답만 있는 경우에 비해 무응답 대체의 성능이 떨어지게 된다. 이러한 경우에는 먼저 이상점을 탐지하고, 탐지된 이상점의 영향력을 축소한 후 무응답 대체를 실시하여야 한다. 본 논문에서는 이상점의 영향력을 축소하여 무응답 대체법의 성능을 향상시키는 방법을 연구하였다. 이를 위해 She and Owen (2011)이 제안한 이상점 탐지법을 살펴보았고, 탐지된 이상점의 영향력을 줄이기 위한 방법으로 흔히 사용되는 가중치 조정법과 이상점 대체법을 살펴보았다. 또한 이상점 처리 방법을 적용한 무응답 대체법을 살펴보았으며 모의실험과 사례분석을 통하여 이상점 영향력 축소 효과를 살펴보았다.

고차원 데이터에서 랜드마크를 이용한 거리 기반 이상치 탐지 방법 (A Distance-based Outlier Detection Method using Landmarks in High Dimensional Data)

  • 박정희
    • 한국멀티미디어학회논문지
    • /
    • 제24권9호
    • /
    • pp.1242-1250
    • /
    • 2021
  • Detection of outliers deviating normal data distribution in high dimensional data is an important technique in many application areas. In this paper, a distance-based outlier detection method using landmarks in high dimensional data is proposed. Given normal training data, the k-means clustering method is applied for the training data in order to extract the centers of the clusters as landmarks which represent normal data distribution. For a test data sample, the distance to the nearest landmark gives the outlier score. In the experiments using high dimensional data such as images and documents, it was shown that the proposed method based on the landmarks of one-tenth of training data can give the comparable outlier detection performance while reducing the time complexity greatly in the testing stage.

회귀모형에서 이상치 검색을 이용한 로버스트 변수변환방법 (Robust Response Transformation Using Outlier Detection in Regression Model)

  • 서한손;이가연;윤민
    • 응용통계연구
    • /
    • 제25권1호
    • /
    • pp.205-213
    • /
    • 2012
  • 선형회귀모형에서 자료를 모형에 적합시킬 때 일반적으로 반응변수 변환을 시도하지만 적절한 변환함수의 결정은 몇개의 이상치들에 민감하게 반응한다는 것이 잘 알려져 있다. 이에 따라 이상치에 영향을 받지 않는 변수변환 방법들이 연구, 개발되고 있으나 최근에 Cheng (2005)에 의해 최소절사제곱추정치에 기반을 둔 절사 우도추정치 방법처럼 이상치의 숫자를 미리 정해야한다거나 많은 계산량이 필요하다는 단점들을 갖고 있다. 본 논문에서는 그와 같은 문제점을 해결하고 추정치의 강건성을 개선하는 새로운 방법을 제안하며 제안된 방법에서는 반응변수 변환에 따른 이상치 탐색법에 있어서 Hadi와 Simonoff (1993)가 제시한 단계적 절차를 응용, 적용한다.

시계열에서 국소구조변화의 탐지에 관한 연구 (Detection of local structural chages in time series)

  • Jae June Lee
    • 응용통계연구
    • /
    • 제7권2호
    • /
    • pp.299-311
    • /
    • 1994
  • 시계열 자료에서 우리는 이상 관측자료들을 흔히 발견하게 된다. 한 점의 이상 관측자료를 탐지하는 방법은 여러가지가 소개되었지만 연속적인 시점에서 이상자료가 존재하는 경우에 기존의 기법은 적절하지 못한 면이 있다. 이 논문에서는 그러한 자료들을 국소구조변화의 결과로 해석하고 그 변화의 크기를 모형화하는 방법을 제시하였다. 이 모형을 이용하여 그러한 국소구조변화를 탐지할 수 있는 통계량과 탐지과정을 제안하였다. 모의실험과 실제 자료의 분석을 수행하여 제안된 기법의 유용성을 평가하였다.

  • PDF

선형회귀에서 변수선택, 변수변환과 이상치 탐지의 동시적 수행을 위한 절차 (A procedure for simultaneous variable selection, variable transformation and outlier identification in linear regression)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.1-10
    • /
    • 2020
  • 본 연구에서는 선형회귀모형에서 이상치와 변수변환을 고려한 변수선택 알고리즘을 다룬다. 제안된 방법은 잠재적 이상치를 탐지하여 제거한 후 변수변환 추정을 위해 최소 절사 제곱 추정법을 적용하며 가능한 모든 회귀모형을 비교하여 최종적으로 변수를 선택한다. 정확한 변수 선택과 추정된 모델의 적합도의 맥락에서 방법의 효율성을 보여주기 위해 실제 데이터 분석 및 시뮬레이션 결과가 제시된다.

Robust CUSUM test for time series of counts and its application to analyzing the polio incidence data

  • Kang, Jiwon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1565-1572
    • /
    • 2015
  • In this paper, we analyze the polio incidence data based on the Poisson autoregressive models, focusing particularly on change-point detection. Since the data include some strongly deviating observations, we employ the robust cumulative sum (CUSUM) test proposed by Kang and Song (2015) to perform the test for parameter change. Contrary to the result of Kang and Lee (2014), our data analysis indicates that there is no significant change in the case of the CUSUM test with strong robustness and the same result is obtained after ridding the polio data of outliers. We additionally consider the comparison of the forecasting performance. All the results demonstrate that the robust CUSUM test performs adequately in the presence of seemingly outliers.