• 제목/요약/키워드: Outlier Data

검색결과 407건 처리시간 0.022초

Unified Estimates for Parameter Changes in a Pareto Model with an Exponential Outlier

  • Ryu, Se-Gi;Lee, Chang-Soo;Chang, Chu-Seock
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권2호
    • /
    • pp.507-514
    • /
    • 2007
  • We shall propose several estimators for the scale parameter in the Pareto distribution with an unidentified exponential outlier when the scale parameter is functions of a known exposure level, and obtain expectations and variances for their proposed estimators. And we shall compare numerically efficiencies for proposed estimators of the scale and shape parameters in the small sample sizes.

  • PDF

Estimates for parameter changes in a uniform model with a generalized uniform outlier

  • Lee, Chang-Soo;Chang, Chu-Seock;Park, Yang-Woo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.581-587
    • /
    • 2010
  • We shall propose several estimators for the scale parameter in a uniform distri-bution with a generalized uniform outlier when the scale parameter is a function of a known exposure level, and obtain expectations and variances for their proposed estima-tors. And we shall compare numerically efficiencies for proposed estimators of changed parameters of the scale in the small sample sizes.

Jackknife Estimation in a Truncated Exponential Distribution with an Uniform Outlier

  • Lee, Chang-Soo;Chang, Chu-Seock;Park, Yang-Woo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권3호
    • /
    • pp.1021-1028
    • /
    • 2006
  • We shall propose ML, ordinary jackknife and biased reducing estimators of the parameter in the right truncated exponential distribution with an unidentified uniform outlier when the truncated point is unknown and their biases and MSE's are compared numerically each other in the small sample sizes.

  • PDF

건설 계측 데이터에 대한 통합 이상치 분석 시스템 개발 (Development of Integrated Outlier Analysis System for Construction Monitoring Data)

  • 전제성
    • 한국지반환경공학회 논문집
    • /
    • 제21권5호
    • /
    • pp.5-11
    • /
    • 2020
  • 구조물의 이상징후 판단 및 장단기 안정성, 장래 거동 등의 판단에 다양한 계측결과가 효율적으로 이용되기 위해서는 계측 데이터 내에 포함한 각종 이상치의 판정 및 제거가 필요하다. 본 연구에서는 장기 시계열 데이터에 대한 이상치 평가를 수행하기 위한 통합 이상치 분석 시스템을 개발하였다. 이상치 평가는 시계열 분석법에 의한 단일 데이터셋 대상의 1차 이상치 분석과 합성신호 기반의 다중 데이터셋에 대한 2차 이상치 분석으로 구분하여 단계별로 수행되었다. 통합 이상치 분석 시스템은 구조물에 대한 종합 안전관리 플랫폼과 실시간 연동되어 구조물의 각종 안전성 평가 및 거동 예측 등을 위한 기초자료를 제공할 수 있도록 개발되었다. 현장 적용을 통해 일정 경향을 보이는 동종의 다수 센서들의 합성신호와 개별 데이터셋 간의 상관성이 크게 증가함을 확인할 수 있었으며, 상관성에 대한 가중치 적용을 통해 차별 거동을 보이는 다양한 센서 계측치들도 모두 통합 이상치 분석에 활용될 수 있음을 확인 할 수 있었다.

고차원 자료의 비지도 부분공간 이상치 탐지기법에 대한 요약 연구 (A survey on unsupervised subspace outlier detection methods for high dimensional data)

  • 안재형;권성훈
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.507-521
    • /
    • 2021
  • 고차원 자료에서 이상치를 탐지하기 위해서는 변수를 선별해야 할 필요성이 있다. 이상치 탐지에 적합한 정보가 종종 일부 변수에만 포함되어 있기 때문이다. 많은 수의 부적합한 변수가 자료에 포함될 경우 모든 관측치의 거리가 비슷해지는 집중효과가 발생하고 이로 인해 모든 관측치의 이상정도가 비슷해지는 문제가 발생하게 된다. 부분공간 이상치 탐지기법은 전체 변수 중 이상치 탐지에 적합한 변수들의 집합을 선별하여 관측치의 이상정도를 측정함으로써 이러한 문제를 극복한다. 본 논문은 대표적인 부분공간 이상치 탐지기법을 부분공간 선정 방식에 따라 세가지 유형으로 분류하고 각 유형에 속한 방법론을 부분공간 선정 기준과 이상 정도 측정 방식에 따라 요약한다. 더하여, 부분공간 이상치 탐지기법들을 적용할 수 있는 컴퓨팅 프로그램을 소개하고 집중효과에 대한 간단한 가상 실험과 자료 분석 결과를 제시한다.

데이터 마이닝을 이용한 고혈압환자의 당뇨질환 동반에 관한 데이터 질 관리 알고리즘 개발 (Developing data quality management algorithm for Hypertension Patients accompanied with Diabetes Mellitus By Data Mining)

  • 황규연;이은숙;김고원;홍성옥;박정선;곽미숙;이예진;임채혁;박태현;박종호;강성홍
    • 디지털융복합연구
    • /
    • 제14권7호
    • /
    • pp.309-319
    • /
    • 2016
  • 보건의료데이터의 질적 수준을 향상시키기 위해서는 데이터 질 관리 알고리즘을 개발할 필요성이 있다. 이에 본 연구에서는 질환의 유병률, 입원율이 높은 고혈압 환자의 당뇨질환 동반에 관련된 데이터 질 관리 알고리즘을 개발하고자 하였다. 이를 위해 2011년, 2012년 퇴원손상심층조사 자료 중 고혈압 환자 61,199건을 추출하여 분석대상으로 하였다. 데이터 마이닝의 대화식 의사결정나무 방법과 Outlier Detection 방법론을 통해 데이터 질 관리 알고리즘 개발한 결과 고혈압 환자가 당뇨병을 동반상병으로 가지는데 영향을 미치는 요인으로는 성별, 연령, 당뇨병성 사구체 장애, 당뇨병성 망막병증, 당병성 다발성 신경병증 등이 있었다. 의사결정나무 결과에 따라 당뇨병을 동반상병으로 가질 확률 값이 80% 이상이거나, 20% 이하인 집단을 Outlier(극단치)로 정의하고, 고혈압 환자의 당뇨 동반에 대한 극단치를 가지는 6개 집단을 발견하였다. 이와 같이 Outlier(극단치) 집단에 포함되는 실제 데이터를 확인하여 데이터의 질적 수준을 향상 시킬 필요가 있다.

어림과 나머지 성분을 이용한 연안 수온자료의 이상자료 감지 (Outlier Detection of the Coastal Water Temperature Monitoring Data Using the Approximate and Detail Components)

  • 조홍연;오지희
    • 한국해양환경ㆍ에너지학회지
    • /
    • 제15권2호
    • /
    • pp.156-162
    • /
    • 2012
  • 연안 환경모니터링 사업이 확대되면서 방대하게 축적되어 있는 연안 환경모니터링 자료의 통계적 분석을 위해서는 모니터링 자료에서 빈번하게 발생하는 이상 자료의 감지 처리가 우선적으로 필요하다. 본 연구에서는 연안 환경모니터링 자료의 어림성분과 나머지(또는 잔차)성분을 이용한 이상자료 진단기법을 제안하였다. 주기함수를 이용한 조화분석 방법과 국지 회귀함수추정 방법을 이용하여 각각 어림성분과 나머지성분을 추출한 후, 추출된 나머지성분 자료에 범용적인 Grubbs 검정기법 및 수정표본점수기법을 적용하여 이상자료를 진단 제거한 후 이상자료가 제거된 자료로 재구성하는 방법이다. 제안된 이 기법을 국립수산과학원 실시간어장정보시스템 제공하는 연안 수온 연속 모니터링 자료에 적용한 결과 이상자료가 성공적으로 제거되는 양상을 보이는 것으로 파악되었다.

Outlier detection of GPS monitoring data using relational analysis and negative selection algorithm

  • Yi, Ting-Hua;Ye, X.W.;Li, Hong-Nan;Guo, Qing
    • Smart Structures and Systems
    • /
    • 제20권2호
    • /
    • pp.219-229
    • /
    • 2017
  • Outlier detection is an imperative task to identify the occurrence of abnormal events before the structures are suffered from sudden failure during their service lives. This paper proposes a two-phase method for the outlier detection of Global Positioning System (GPS) monitoring data. Prompt judgment of the occurrence of abnormal data is firstly carried out by use of the relational analysis as the relationship among the data obtained from the adjacent locations following a certain rule. Then, a negative selection algorithm (NSA) is adopted for further accurate localization of the abnormal data. To reduce the computation cost in the NSA, an improved scheme by integrating the adjustable radius into the training stage is designed and implemented. Numerical simulations and experimental verifications demonstrate that the proposed method is encouraging compared with the original method in the aspects of efficiency and reliability. This method is only based on the monitoring data without the requirement of the engineer expertise on the structural operational characteristics, which can be easily embedded in a software system for the continuous and reliable monitoring of civil infrastructure.

병렬 학습 모듈을 통한 자율무인잠수정의 강인한 위치 추정 (Robust AUV Localization Incorporating Parallel Learning Module)

  • 이권수;이필엽;김호성;이한솔;강형주;이지홍
    • 로봇학회논문지
    • /
    • 제16권4호
    • /
    • pp.306-312
    • /
    • 2021
  • This paper describes localization of autonomous underwater vehicles(AUV), which can be used when some navigation sensor data are an outlier. In that situation, localization through existing navigation algorithms causes problems in long-range localization. Even if an outlier sensor data occurs once, problems of localization will continue. Also, if outlier sensor data is related to azimuth (direction of AUV), it causes bigger problems. Therefore, a parallel localization module, in which different algorithms are performed in a normal and abnormal situation should be designed. Before designing a parallel localization module, it is necessary to study an effective method in the abnormal situation. So, we propose a localization method through machine learning. For this method, a learning model consists of only Fully-Connected and trains through randomly contaminated real sea data. The ground truth of training is displacement between subsequent GPS data. As a result, average error in localization through the learning model is 0.4 times smaller than the average error in localization through the existing navigation algorithm. Through this result, we conclude that it is suitable for a component of the parallel localization module.

한국의 기온자료 품질관리 알고리즘의 검증 (Validation of Quality Control Algorithms for Temperature Data of the Republic of Korea)

  • 박창용;최영은
    • 대기
    • /
    • 제22권3호
    • /
    • pp.299-307
    • /
    • 2012
  • This study is aimed to validate errors for detected suspicious temperature data using various quality control procedures for 61 weather stations in the Republic of Korea. The quality control algorithms for temperature data consist of four main procedures (high-low extreme check, internal consistency check, temporal outlier check, and spatial outlier check). Errors of detected suspicious temperature data are judged by examining temperature data of nearby stations, surface weather charts, hourly temperature data, daily precipitation, and daily maximum wind direction. The number of detected errors in internal consistency check and spatial outlier check showed 4 days (3 stations) and 7 days (5 stations), respectively. Effective and objective methods for validation errors through this study will help to reduce manpower and time for conduct of quality management for temperature data.