• Title/Summary/Keyword: 이상치 판별

Search Result 62, Processing Time 0.038 seconds

Derivation and Application of In uence Function in Discriminant Analysis for Three Groups (세 집단 판별분석 상황에서의 영향함수 유도 및 그 응용)

  • Lee, Hae-Jung;Kim, Hong-Gie
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.5
    • /
    • pp.941-949
    • /
    • 2011
  • The influence function is used to develop criteria to detect outliers in discriminant analysis. We derive the influence function of observations that estimate the the misclassification probability in discriminant analysis for three groups. The proposed measures are applied to the facial image data to define outliers and redo the discriminant analysis excluding the outliers. The study proves that the derived influence function is more efficient than using the discriminant probability approach.

Outlier Detection and Replacement for Vertical Wind Speed in the Measurement of Actual Evapotranspiration (실제증발산 측정 시 연직 풍속 이상치 탐색 및 대체)

  • Park, Chun Gun;Rim, Chang-Soo;Lim, Kwang-Suop;Chae, Hyo-Sok
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.34 no.5
    • /
    • pp.1455-1461
    • /
    • 2014
  • In this study, using flux data measured in Deokgokje reservoir watershed near Deokyu mountain in May, June, and July 2011, statistical analysis was conducted for outlier detection and replacement for vertical wind speed in the measurement of evapotranspiration based on eddy covariance method. To statistically analyze the outliers of vertical wind speed, the outlier detection method based on interquartile range (IQR) in boxplot was employed and the detected outliers were deleted or replaced with mean. The comparison was conducted for the measured evapotranspiration before and after the outlier replacement. The study results showed that there is a difference between evapotranspiration before outlier replacement and evapotranspiration after outlier replacement, especially during the rainy day. Therefore, based on the study results, the outliers should be deleted or replaced in the measurement of evapotranspiration.

Time Series Analysis of Agricultural Reservoir Water Level Data for Abnormal Behavior Detection (농업용 저수지 이상거동 탐지를 위한 시계열 수위자료 특성 분석)

  • Lee, Sung Hack;Lee, Sang Hyun;Hong, Min Ki;Cho, Jin Young
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.275-275
    • /
    • 2015
  • 최근 기후변화에 따른 극한 강우사상의 증가로 인하여 농업용 저수지의 재해 위험도가 증가하고 있는 추세이며, 사고가 발생할 때 마다 파손/붕괴된 시설물을 보수하는 대응형 유지관리체계에서 벗어나 기반시설의 성능과 생애주기 등을 고려하여 재해 발생을 사전에 예보 및 경보를 알릴 수 있는 예방적 관리체계로의 전환이 필요하다. 한국농어촌공사는 전국 1,500개 저수지에서 10분 단위 수위자료를 측정하고 있으며, 이를 분석하여 재해예방에 활용할 수 있는 기반이 조성되어 있으나 이에 대한 관리가 이루어지지 않고 있고 수집된 자료를 활용하여 재해 징후를 분석할 수 있는 재해 예방적 분석기술이 마련되어 있지 않은 실정이다. 본 연구에서는 농업용 저수지 수위자료를 이용한 저수지 이상거동을 판별하기 위하여 전국 34개 한국농어촌공사 관할 저수의 시계열 수위자료의 특성(Feature)을 분석하고자 한다. 시계열 자료의 시계열 특성을 분석하기 위하여 한국농어촌공사 관할의 전국 34개 저수지를 선정하여 분석을 실시하였다. 대상저수지는 지역별, 저수용량, 안정등급, 붕괴발생, 1개 지사관할 저수지로 각각 구분하여 선정하였으며, 각 저수지의 수위 측정기간(최소 5개년)에 대한 자료를 수집하였다. 농업용 저수지의 시계열 수위 자료의 특성을 분석하기 위하여 자료의 전처리를 수행하였다. 자료의 전처리는 시계열 수위자료의 잡음 특성, 기상자료 관련 변동특성 등 분류(Classification)에 영향을 미치는 노이즈 요소를 제거하는 과정이다. 전처리과정을 거친 자료는 특징(Feature) 추출 과정을 거치게 되고, 추출된 특징의 적합성에 따라 분류 알고리듬 성능에 많은 영향을 미친다. 따라서 시계열 자료의 특성을 파악하고 특징을 추출하는 것은 이상치 탐지에 있어 매우 중요한 과정이다. 본 연구에서는 시계열 자료 특징 추출 방법으로 물리적인 한계치, 확률적인 문턱값(Threshold), 시계열 패턴, 주변 저수지와의 시계열 상관분석 등을 적용하였으며, 이를 데이터베이스로 구축하여 이후 분류알고리듬 학습에 적용하여 정상치와 이상치를 판별하는데 이용될 수 있도록 하였다. 따라서 본 연구에서 제시되는 농업용 저수지의 시계열 특성은 다양한 분류알고리듬에 적용할 수 있으며, 이를 통하여 저수지 이상거동 판별을 위한 최적을 분류알고리듬의 선택에 도움이 될 것이다.

  • PDF

Outlier detection and treatment in industrial sampling survey (경제조사에서의 이상치 탐지와 처리방법)

  • Joo, Young Sun;Cho, Gyo-Young
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.1
    • /
    • pp.131-142
    • /
    • 2016
  • Outliers in surveys can have a large effect on estimates of totals. This is especially true in business surveys where the populations are drawn are typically skewed. In this paper, we discussed the practical development and implementation of methods to identify and deal with outliers. A detection method is based on quartile method and detected outlier is processed in various ways. The study examines two versions of winsorised estimators with three different cut-off thresholds for each one. For the simulation study, four types of weight transformation function have been considered.

Effective Classification Method of Hierarchical CNN for Multi-Class Outlier Detection (다중 클래스 이상치 탐지를 위한 계층 CNN의 효과적인 클래스 분할 방법)

  • Kim, Jee-Hyun;Lee, Seyoung;Kim, Yerim;Ahn, Seo-Yeong;Park, Saerom
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.81-84
    • /
    • 2022
  • 제조 산업에서의 이상치 검출은 생산품의 품질과 운영비용을 절감하기 위한 중요한 요소로 최근 딥러닝을 사용하여 자동화되고 있다. 이상치 검출을 위한 딥러닝 기법에는 CNN이 있으며, CNN을 계층적으로 구성할 경우 단일 CNN 모델에 비해 상대적으로 성능의 향상을 보일 수 있다는 것이 많은 선행 연구에서 나타났다. 이에 MVTec-AD 데이터셋을 이용하여 계층 CNN이 다중 클래스 이상치 판별 문제에 대해 효과적인지를 탐구하고자 하였다. 실험 결과 단일 CNN의 정확도는 0.7715, 계층 CNN의 정확도는 0.7838로 다중 클래스 이상치 판별 문제에 있어 계층 CNN 방식 접근이 다중 클래스 이상치 탐지 문제에서 알고리즘의 성능을 향상할 수 있음을 확인할 수 있었다. 계층 CNN은 모델과 파라미터의 개수와 리소스의 사용이 단일 CNN에 비하여 기하급수적으로 증가한다는 단점이 존재한다. 이에 계층 CNN의 장점을 유지하며 사용 리소스를 절약하고자 하였고 K-means, GMM, 계층적 클러스터링 알고리즘을 통해 제작한 새로운 클래스를 이용해 계층 CNN을 구성하여 각각 정확도 0.7930, 0.7891, 0.7936의 결과를 얻을 수 있었다. 이를 통해 Clustering 알고리즘을 사용하여 적절히 물체를 분류할 경우 물체에 따른 개별 상태 판단 모델을 제작하는 것과 비슷하거나 더 좋은 성능을 내며 리소스 사용을 줄일 수 있음을 확인할 수 있었다.

  • PDF

Comparative Analysis of Anomaly Detection Models using AE and Suggestion of Criteria for Determining Outliers

  • Kang, Gun-Ha;Sohn, Jung-Mo;Sim, Gun-Wu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.8
    • /
    • pp.23-30
    • /
    • 2021
  • In this study, we present a comparative analysis of major autoencoder(AE)-based anomaly detection methods for quality determination in the manufacturing process and a new anomaly discrimination criterion. Due to the characteristics of manufacturing site, anomalous instances are few and their types greatly vary. These properties degrade the performance of an AI-based anomaly detection model using the dataset for both normal and anomalous cases, and incur a lot of time and costs in obtaining additional data for performance improvement. To solve this problem, the studies on AE-based models such as AE and VAE are underway, which perform anomaly detection using only normal data. In this work, based on Convolutional AE, VAE, and Dilated VAE models, statistics on residual images, MSE, and information entropy were selected as outlier discriminant criteria to compare and analyze the performance of each model. In particular, the range value applied to the Convolutional AE model showed the best performance with AUC PRC 0.9570, F1 Score 0.8812 and AUC ROC 0.9548, accuracy 87.60%. This shows a performance improvement of an accuracy about 20%P(Percentage Point) compared to MSE, which was frequently used as a standard for determining outliers, and confirmed that model performance can be improved according to the criteria for determining outliers.

A Study of Somatotype Discrimination for Middle-aged Women (중년여성의 체형분류 및 판별에 관한 연구)

  • Kim, Sora;Jo, Jin-Sook
    • Journal of the Korean Society of Clothing and Textiles
    • /
    • v.25 no.9
    • /
    • pp.1633-1644
    • /
    • 2001
  • 이 연구의 목적은 중년여성들의 체형을 분류하고 이들 체형을 분류하는 판별기준을 세우고자 하는 것이다. 이 연구에서 개발한 판별방법은 중년여성들의 체형을 간편하게 판별할 수 있도록 해주므로 이 방법을 활용하여 중년여성복을 제작할 경우, 소비자들은 인체적합도가 높은 의복을 구입 할 수 있고 의류업 체들은 이에 따른 매출증대를 가져올 수 있다. 연구의 진행절차와 이에 따른 결과는 다음과 같다. 1. 만 40세~59세 중년여성 279명에 대 한 인체 계측을 하였다. 인체 계측항목은 34개의 직접 계측항목과 측면사진 촬영을 통한 3개의 간접계측항목,11개의 지수치, 5개의 계산치 등의 총 53개 항목이다. 인체 계측치에 대한 통계분석 방법으로는 분산분석과 SNK검정, 판별분석 방법을 사용하였다. 2. 피험자는 몇 가지 체형으로 분류되었다. 상반신 체형분류는 인체측면 자세와 유방크기를 분류기준으로 하여 바른-유방중소 체형, 바른-유방대 체형, 젖힌-유방중소 체형 , 숙인/휜-유방중소 체형, 숙인/휜-유방대 체형의 5가지로 분류하였다. 하반신 체형분류는 배와 엉덩이의 돌출정도에 따라 분류하여 배정상-엉덩이정상 체형, 배 정상-엉덩이돌출 체형, 배돌출-엉덩이정상 체형 , 배돌출-엉덩이돌출 체형의 4가지로 분류하였다. 3. 분류된 체형은 다음의 판별변수에 따라 체형이 판별되었다. 상반신 체 형 의 판별변수는 앞품/뒤품, 가슴둘레/밑가슴둘레 , 앞길이/뒤 길이, 앞허리선$\longrightarrow$어깨선 길이/어깨선$\longrightarrow$뒤허 리선 길이의 4가지 항목이고, 하반신 판별변수는 엉덩이상부각도, 배 하부각도, 배상부 각도, 엉덩이둘레/엉덩이 최대둘레, 뒤엉덩이둘레의 5가지 항목이다. 상반신 체 형과 하반신 체형 판별함수 모두 70% 이상의 높은 적중률을 나타내었다.

  • PDF

A study on the difference and calibration of empirical influence function and sample influence function (경험적 영향함수와 표본영향함수의 차이 및 보정에 관한 연구)

  • Kang, Hyunseok;Kim, Honggie
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.5
    • /
    • pp.527-540
    • /
    • 2020
  • While analyzing data, researching outliers, which are out of the main tendency, is as important as researching data that follow the general tendency. In this study we discuss the influence function for outlier discrimination. We derive sample influence functions of sample mean, sample variance, and sample standard deviation, which were not directly derived in previous research. The results enable us to mathematically examine the relationship between the empirical influence function and sample influence function. We can also consider a method to approximate the sample influence function by the empirical influence function. Also, the validity of the relationship between the approximated sample influence function and the empirical influence function is also verified by the simulation of random sampled data in normal distribution. As the result of a simulation, both the relationship between the two influence functions, sample and empirical, and the method of approximating the sample influence function through the emperical influence function were verified. This research has significance in proposing a method that reduces errors in the approximation of the empirical influence function and in proposing an effective and practical method that proceeds from previous research that approximates the sample influence function directly through empirical influence function by constant revision.

Building the Outlier Candidate Discrimination Training Data based on Inventory for Automatic Classification of Transferred Records (이관 기록물 분류 자동화를 위한 목록 기반 이상치 판별 학습데이터 구축)

  • Jeong, Ji-Hye;Lee, Gemma;Wang, Hosung;Oh, Hyo-Jung
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.22 no.1
    • /
    • pp.43-59
    • /
    • 2022
  • Electronic public records are classified simultaneously as production, a preservation period is granted, and after a certain period, they are transferred to an archive and preserved. This study intends to find a way to improve the efficiency in classifying transferred records and maintain consistent standards. To this end, the current record classification work process carried out by the National Archives of Korea was analyzed, and problems were identified. As a way to minimize the manual work of record classification by converging the required improvement, the process of identifying outlier candidates based on a list consisting of classified information of the transferred records was proposed and systemized. Furthermore, the proposed outlier discrimination process was applied to the actual records transferred to the National Archives of Korea. The results were standardized and constructed as a training data format that can be used for machine learning in the future.

Detecting an Outlier in 2X2 Bioequivalence Trial (2X2 생물학적 동등성 시험에서 이상치 검출을 위한 통계적 방법)

  • Jeong, Gyu-Jin;Park, Sang-Gue;Woo, Hwa-Hyoung
    • Communications for Statistical Applications and Methods
    • /
    • v.16 no.5
    • /
    • pp.745-751
    • /
    • 2009
  • Outlying or extreme observations are defined to be subject data for which one or more bioavailability measures are discordant with corresponding data for that subject and/or for the rest of the subjects in a study. The presence of outlying observations can have very serious consequences on the conclusions resulting from a bioequivalence study. Two statistical methods are proposed by generalizing the current well known methods and an illustrated example is presented with discussion.