• 제목/요약/키워드: Outlier Handling

검색결과 13건 처리시간 0.025초

Outlier Tests in Sample Surveys

  • Namkyung, Pyong;Lee, Joon Suk
    • Communications for Statistical Applications and Methods
    • /
    • 제7권2호
    • /
    • pp.447-456
    • /
    • 2000
  • In this paper, we considered three methods for outlier identification sample surveys. First, we studied method of handling and adjusting outliers in normal population. Second, we studied existing methods using mean, maximum and minimum and proposed a test using of median which well reflects characteristic of data regardless of sampling distribution. Finally, we showed our test using median works better than Dixon and mean test through simulation.

  • PDF

국산 복합재료 시험데이터 처리지침 수립을 위한 제언 (A Suggestion to Establish Statistical Treatment Guideline for Aircraft Manufacturer)

  • 서장원
    • 항공우주시스템공학회지
    • /
    • 제8권4호
    • /
    • pp.39-43
    • /
    • 2014
  • This paper examines the statistical process that should be performed with caution in the composite material qualification and equivalency process, and describes statistically significant considerations on outlier finding and handling process, data pooling through normalization process, review for data distributions and design allowables determination process for structural analysis. Based on these considerations, the need for guidance on statistical process for aircraft manufacturers who use the composite material properties database are proposed.

회귀 분석에서 이상치가 미치는 영향 (The Effect of Outliers in Regression Analysis)

  • 김광수;배영주;이진규
    • 품질경영학회지
    • /
    • 제24권2호
    • /
    • pp.158-171
    • /
    • 1996
  • Outlier is one that appears to deviate extremely from other data in collected data. Thus treatment of outlier is very important work, because it is to distort the meaning of whole data in its analysis and to reduce the accuracy and validity for adequate models. The aim of this paper is to present some ways of handling outliers in given data and to investigate the effect of the analysis result before and after outlier reject. As a variety of methods has been proposed, we sellect the linear regression analysis and two linear programming techniques and compare to each result.

  • PDF

Skew Normal Boxplot and Outliers

  • Huh, Myung-Hoe;Lee, Yong-Goo
    • Communications for Statistical Applications and Methods
    • /
    • 제19권4호
    • /
    • pp.591-595
    • /
    • 2012
  • We frequently use Tukey's boxplot to identify outliers in the batch of observations of the continuous variable. In doing so, we implicitly assume that the underlying distribution belongs to the family of normal distributions. Such a practice of data handling is often superficial and improper, since in reality too many variables manifest the skewness. In this short paper, we build a modified boxplot and set the outlier identification procedure by assuming that the observations are generated from the skew normal distribution (Azzalini, 1985), which is an extension of the normal distribution. Statistical performance of the proposed procedure is examined with simulated datasets.

데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발 (The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error)

  • 박세찬;김덕엽;서강복;이우진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권12호
    • /
    • pp.489-498
    • /
    • 2022
  • 최근 노동 집약적인 성격의 섬유 산업에서는 인공지능을 통해 섬유 방사 공정에 들어가는 비용을 줄이고 품질을 최적화하려고 시도 하고 있다. 그러나 섬유 방사 공정은 데이터 수집에 필요한 비용이 크고 체계적인 데이터 수집 및 처리 시스템이 부족하여 축적된 데이터양이 적다. 또 방사 목적에 따라 특정한 변수에만 변화를 준 데이터만을 우선으로 수집하여 데이터 불균형이 발생하며, 물성 측정 환경의 차이로 인해 동일 방사 조건에서 수집된 샘플 간에도 오차가 존재한다. 이러한 데이터 특성들을 고려하지 않고 인공지능 모델에 활용할 경우 과적합과 성능 저하 등의 문제가 발생할 수 있다. 따라서 본 논문에서는 방사 공정 데이터 특성을 고려한 이상치 처리 기법과 데이터 증강 기법을 제안한다. 그리고 이를 기존 이상치 처리 기법 및 데이터 증강 기법과 비교하여 제안한 기법이 방사 공정 데이터에 더 적합함을 보인다. 또 원본 데이터와 제안한 기법들로 처리된 데이터를 다양한 모델에 적용하여 비교함을 통해 제안한 기법들을 사용한 모델들이 그렇지 않은 모델들에 비해 인장 강신도 예측 모델의 성능이 개선됨을 보인다.

자동 손 제거와 개선된 정합방법을 이용한 오프라인 인 핸드 3D 모델링 시스템 (Offline In-Hand 3D Modeling System Using Automatic Hand Removal and Improved Registration Method)

  • 강준석;양현석;임화섭;안상철
    • 한국HCI학회논문지
    • /
    • 제12권3호
    • /
    • pp.13-23
    • /
    • 2017
  • 본 논문에서는 사용자의 편의성을 향상시킨 새로운 인 핸드 3D 모델링 시스템을 제안한다. 기존의 시스템은 사용자의 편의성이 낮은 문제점이 존재하여 물체를 손으로 들고 모델링을 진행하는 인 핸드 모델링 시스템이 연구되어 왔으나 손 제거를 위한 추가적인 장비가 필요하거나 특정 조건에서만 모델링이 가능한 문제가 발생하였다. 이에 본 논문에서는 자동 손 제거를 위한 접촉 상태 변화 감지 알고리즘과 정확한 정합을 위한 이상점 제어가 가능하고 색상정보를 추가적으로 이용하는 개선된 ICP 알고리즘을 제안한다. 제안된 알고리즘을 사용하면 추가적 장비나 어떠한 제한조건 없이 정확한 모델링이 가능하다. 본 논문에서는 실제 데이터를 이용한 실험을 통해 제안된 시스템을 활용하면 어떠한 제한 조건도 없는 일반적인 상황에서 정확한 모델링을 수행할 수 있음을 보였다.

Analysis of Outlier Effects on Spatial Indices

  • Kim Si-Wan;Kim Kyoung-Sook;Li Ki-Joune
    • Spatial Information Research
    • /
    • 제12권4호
    • /
    • pp.339-349
    • /
    • 2004
  • 공간 데이터베이스에서 예외자는 R-tree 계열의 공간색인의 성능에 많은 영향을 미친다. 즉, 예외자로 인하여 R-tree 계열의 공간색인에서 최소경계사각형의 넓이가 불필요하게 넓어지고 겹침 현상이 심해지게 되고 이로 인해 질의처리 시 더 많은 디스크 접근을 필요하게 된다. 따라서, 본 논문에서는 예외자가 공간색인에 주는 영향을 분석하여, 예외자를 미리 처리할 경우, 얼마만큼의 성능을 향상시킬 수 있는지 비용모델과 적절한 예외자의 처리방법을 제안한다. 그리고 실험을 통해 예외자를 미리 처리함으로써 어느 정도의 공간색인의 질의처리 성능을 향상시킬 수 있는지 보여준다. 실험결과에 따르면, 본 논문에서 제안된 예외자의 처리방법이 기존의 공간색인의 성능을 평균 $15\%$정도 향상시킬 수 있음을 보여준다.

  • PDF

온실가루이의 공간시계열 분석 (Space Time Data Analysis for Greenhouse Whitefly)

  • 박진모;신기일
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.403-418
    • /
    • 2004
  • 시간에 따라 얻어진 공간 자료를 공간시계열 자료라 하며 이러한 자료를 분석하기 위해 사용되는 모형이 공간시계열 모형이다. 최근 곤충학과 생태학에서 공간시계열 모형을 이용한 연구가 활발히 진행되고 있다. 본 논문에서는 온실에 있는 곤충의 마리수를 ARMA 모형과 자기회귀 오차모형을 이용한 공간시계열 모형으로 분석하였다. 자료에 포함된 이상점은 분산도(Variogram) 추정에 많은 영향을 주기 때문에 Mugglestone (2000)의 이상점 수정법을 이용하여 수정하였다. 공간시계열 모형들과 시계열 요인을 배제한 공간모형을 MSE와 MAPE를 이용하여 비교하였다.

아웃라이어 처리를 통한 강인한 HDR 영상 복원 방법 (Robust HDR Image Reconstruction via Outlier Handling)

  • 조호진;이승용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.317-319
    • /
    • 2012
  • 본 논문에서는 아웃라이어 처리를 통한 강인한 HDR 영상 복원 방법을 제시한다. 기존의 방법들은 LDR 영상들에서 흔히 발생하는 긴 노출시간으로 인한 블러 현상이나 저노출/과노출로 인한 포화 픽셀(아웃라이어)을 고려하지 않았다. 본 논문이 제시하는 방법은 MAP(Maximum a priori)을 이용하여 블러 및 아웃라이어를 반영하여 HDR 영상 복원 문제를 정확히 모델링하고, 블러 추정 및 EM(Expectation-Maximization) 알고리즘 기반의 아웃라이어 추정을 통해 품질 저하가 없는 선명한 HDR 영상을 복원한다. 실험 결과를 통해 본 논문이 제시하는 방법이 블러 및 아웃라이어를 포함하는 LDR 영상들로부터 우수한 품질의 HDR 영상을 효과적으로 복원할 수 있음을 보이며, 최근에 개발된 방법들과 비교해서도 더 우수한 품질을 갖는 것을 볼 수 있다.

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.