• Title/Summary/Keyword: 이상자료 검정

Search Result 592, Processing Time 0.035 seconds

Outlier detection using Grubb test and Cochran test in clinical data (그럽 및 코크란 검정을 이용한 임상자료의 이상치 판단)

  • Sohn, Ki-Cheul;Shin, Im-Hee
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.4
    • /
    • pp.657-663
    • /
    • 2012
  • There are very small values and/or very big values which get out of the normal range for survey data in various fields. The reasons of occurrence for outlier are two. One of them is the error in process of data input and the other is the strange response of the respondent. If the data has outliers, then the summary statistics such as the mean and the variance produce misleading information. Therefore, researcher should be careful in detecting the outlier in data. In particular, it is very important problem for clinical fields because the cost of experiment is very high. This article introduce the Grubb test and Cochran test to detect outliers in the data and we apply this method for clinical data.

A Comparative Study on Methods for Outlier Test of Rainfall in Korea (국내 강우의 이상치검정 방법의 비교 연구)

  • Lee, Jung Sik;Shin, Chang Dong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.359-359
    • /
    • 2018
  • 이상치는 표본자료에서 크게 어긋나 다른 자료들로부터 떨어져 표시되는 자료로써, 실제로 발생할 확률이 매우 낮은 자료로 정의되고 있다. 설계홍수량을 산정하기 위하여 적용하고 있는 극치계열의 연최대치 강우자료에는 기계오작동 및 엔지니어의 표독오류가 발생하고 있으며, 기후변화에 따른 거대태풍 및 국지적인 집중호우 발생 등으로 인한 극치값 등에서 이상치가 관측되고 있다. 통상 이상치들은 통계분석시 자료 본연의 특성을 왜곡시켜 편향된 결과를 산정할 수 있으므로 빈도해석시 이상치해석 절차를 수행하여 자료의 적정성을 확인하여야 한다. 현재 실무에서는 설계홍수량 산정요령과 하천설계기준 해설 등에서 관련 내용을 기술하고 있지만, 국내 강우자료의 기록연수의 부족으로 인하여 빈도해석시 이상치 해석이 미수행되고 있어 이상치에 따른 자료편의가 발생하면 결과물인 확률강우량이 왜곡되게 산정될 수 있다. 따라서, 본 연구에서는 국내 주요 도시의 강우자료를 이용하여 이상치검정을 수행하였다. 대상지점으로는 서울, 부산, 대전, 대구, 인천, 광주, 울산 등의 비교적 긴 관측년수를 보유하고 있는 광역시를 선정하였으며, 지속기간은 10분, 1~24시간의 25개 강우자료를 적용하였다. 이상치검정 방법으로는 타 방법에 비하여 이상치 검정력이 뛰어난 것으로 알려진 2가지 방법을 채택하였으며, 표본자료의 평균과 표준편차로 표준화된 z값을 이용하여 상 하 한계선를 초과하는 값을 확인하는 z-Score 방법중 향상된 중위수 절대편차(MAD)에 의한 수정 z-Score 방법(Hoaglin, 1993)과 Box-Plot 방법(Tukey, 1969)을 적용하였다. Box-Plot 방법(Tukey, 1969)은 전체 자료를 25%씩 사분위로 구분하는 방법으로 정렬된 자료계열을 중앙값, 박스, 수염(whiskers), 이상치로 구분한다. 정렬된 25~75% 값들을 박스로 포함하여 외곽의 수염값들을 이상치로 분류하며, 특히 사분위수의 도식화로 데이터의 분포를 파악하기 좋으며, 이상치들의 위치와 자료의 비대칭 여부를 쉽게 파악할 수 있다. 본 연구의 수행으로 수정 z-Score 방법의 경우에는 서울과 대구지점에는 이상치가 없으며, 부산지점에는 13개, 대전지점 7개, 인천지점 5개, 광주지점 32개, 울산지점 26개가 나타났다. Box-Plot 방법으로는 서울지점 35개, 부산지점 39개, 대전지점 32개, 대구지점 38개, 인천지점 51개, 광주지점 61개, 울산지점 65개의 이상치가 분석되었다. 연구를 수행한 결과, 수정 z-Score 방법에 비하여 Box-Plot 방법에 의한 이상치가 더 많이 발생하였으며, 각각의 방법으로 지속기간 및 연도별 이상치 발생자료를 확인하였다. 방법별 이상치 발생현황 등을 분석하여 지점별 발생횟수를 분석하였으며, 추후 지점 및 자료의 보완이 수행되면 활용성을 증대시킬 수 있을 것으로 판단된다.

  • PDF

Estimation of Probability Rainfall considering Test for Outliers in Korea (이상치검정을 고려한 국내 확률강우량 산정)

  • Lee, Jung Sik;Shin, Chang Dong;Kang, Mi Soon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.309-314
    • /
    • 2016
  • 본 연구에서는 확률강우량 산정을 위한 빈도해석 시 보다 타당하고, 신뢰도 높은 강우자료를 선정하여 수공구조물 설계 및 재난방재계획에 합리적인 기준을 제시하고자 이상치 적용에 따른 확률강우량을 산정 비교하였다. 이상치검정의 비교를 위하여 Grubbs and Beck 방법과 미국 수자원평의회 방법을 적용하였으며, 적용결과에 따라 강우자료를 조정하여 확률강우량을 산정 비교하여 타당성을 검토하였다. 본 연구의 수행으로 이상치검정에 따라 강우자료 년수에 변화가 있었으며, 기존의 방법과 확률강우량을 비교하였을 때, 증감이 나타났다.

  • PDF

Development of Statistical System for Checking Multivariate Normality and Outliers (다변량 정규성과 이상치 검정을 위한 통계 시스템 개발)

  • 최용석;김종건;강명래
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.2
    • /
    • pp.223-231
    • /
    • 2001
  • 다변량분석 기법을 위해서는 자료가 정규성(normality)가정을 만족해야한다. 본 연구에서는 GUI환경에서 일변량 및 다변량자료의 정규성검정, 이상치제거 및 변수변환을 하는 시스템을 Visual Basic 언어로서 구축하여 사용자들이 보다 편리하게 사용할 수 있음을 소개 하고자 한다.

  • PDF

Trend Test of the Mean and Extreme Sea Level Data in the Korean Coast (우리나라 연안의 평균해면 및 최극조위 자료의 추세 검정)

  • Kang, Ju-Whan;Cho, Hong-Yeon;Park, Min-Won;Park, Seon-Jung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2008.05a
    • /
    • pp.2156-2160
    • /
    • 2008
  • 우리나라 연안의 평균해면이 증가하고 있다는 주장과 고극조위, 저극조위가 증가(또는 변동)하고 있다는 주장이 제기되고 있으나, 연구자가 사용한 자료의 기간 및 분석 방법 등에 차이가 있고, 결측자료(missing data) 및 이상자료(outlier) 등을 처리한 방법이 서로 차이가 있기 때문에 전체적으로 또는 부분적으로 분석결과가 차이를 보일 수 있다. 또한 추세분석에서는 통계적인 신뢰수준에 대한 검정과정 없이 단순하게 선형회귀곡선식을 이용하여 기울기의 부호만으로 증가 감소를 판단하는 경우도 있다. 그러나 추세분석은 최적의 추세곡선을 찾아내는 것 이전에 추세의 유무를 통계적인 신뢰수준을 기준으로 검정하는 것이 필요하다. 본 연구에서는 추세분석의 필수과정인 추세검정(추세가 있는가? 없는가?)을 Mann-Kendall 방법을 이용하여 우리나라 전 연안 조위관측소의 평균해수면 및 고극조위, 저극조위 자료에 대하여 수행하였다. 추세검정 결과를 다음과 같이 도출할 수 있었다. 평균해수면은 95% 유의수준으로 분석에 포함된 전체 30개 검조소 중 대산, 보령, 군산, 목포, 통영, 거문도, 부산, 가덕도, 제주, 서귀포, 속초, 포항, 울산, 울릉도 지점 등 19개 지점이 추세가 있는 것으로 파악되었으며, 고극조위, 저극조위는 각각 15개, 17개 지점이 추세가 있는 것으로 파악되었다.

  • PDF

The System for Checking Multivariate Normality and Outliers

  • 강명래;최용석
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2000.11a
    • /
    • pp.253-255
    • /
    • 2000
  • 다변량분석 기법을 사용하기 위해서는 자료가 정규성(normality)가정을 만족해야한다. 본 연구에서는 GUI(graphic user interface)환경 하에서 일변량(univariate)과 다변량자료(multivariate data)의 정규성검정, 이상치(outliers)제거 및 변수변환(variable transformation)을 지원하는 시스템을 구축하여 사용자들이 보다 편리하게 사용할 수 있음을 소개 하고자 한다.

  • PDF

A Study on Estimation of Probability Plot Correlation Coefficient Considering the Skewness for GLO distribution (GLO분포를 대상으로 왜곡도 계수를 고려한 확률도시 상관계수 검정통계량 추정)

  • Ahn, Hyunjun;Shin, Hongjoon;Kim, Sooyoung;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.39-39
    • /
    • 2015
  • 극치 수문(Hydrologic extremes)분야에서는 수문자료의 분포에 따라 Gumbel, GEV, 그리고 GLO 분포와 같은 다양한 확률통계 분포형이 존재한다. GEV와 GLO 분포형의 경우 Gumbel 분포형과 달리 형상매개변수가 포함된 3변수 분포형으로써 이상 기후 현상으로 인한 잦은 극치 수문사상을 표현하는데 좀 더 유연한 것으로 알려져 있다. 특히 GLO 분포형의 경우 영국에서 홍수빈도해석 시 적정분포형으로 선정된바 있다(Institute of Hydrology, 1999). 다양한 분포형 중에서 표본 자료를 대표할 수 있는 분포형을 선정하는 통계적 기법이 적합도 검정이다. 적합도 검정에는 $x^2$-검정, Cramer von-Mises 검정, Kolmogorov-Smirnov 검정, PPCC(probability plot correlation coefficient, 확률도시 상관계수)검정 등이 있으며 그 중 PPCC 검정은 이용방법이 간편하면서도 뛰어난 기각능력을 보이는 것으로 알려져 있다. 본 연구에서는 극치 수문분야에서 널리 이용되고 있는 GLO 분포형을 대상으로 자료의 왜곡도 영향을 고려할 수 있는 확률도시 상관계수 검정의 검정통계량을 추정하여 보았다.

  • PDF

로버스트 축차 확률비 검정의 설계 및 구현

  • Choe, In-Hun;Park, No-Jin
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.10a
    • /
    • pp.91-95
    • /
    • 2003
  • 본 논문에서는 정보 전달 능력이 향상된 변형된 축차확률비검정을 소개한다. 새로운 검정은기존의 검정과 수학적인 면에서 공동된 점들을 갖고 있으나, 이상치의 영향을 덜 받고 더욱이 그 존재에 대하여 시각적으로 보여주며, 또한 자료의 변화에 보다 민감하게 반응하는 특성이 있다. 새롭게 제안된 로버스트 축차확률비검정 시스템을 Microsoft사의 Visual Basic 6.0 언어로 구현하여 본 연구에서 제안한 모델과 기존의 검정모델을 비교한 결과 제안된 검정 모델의 우수성과 실용가능성을 실증적으로 확인하였다.

  • PDF

Change and Trend Analyses of Rainfall Data (강수자료에 대한 변동성 및 경향성 해석)

  • Lee, Sang Bok;Kim, Kyung Duk;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2004.05b
    • /
    • pp.696-700
    • /
    • 2004
  • 본 연구에서는 우리나라 주요 관측소의 연최대강수량과 연강수량을 내상으로 변동 및 경향을 분석하여 그 결과를 비교하였다. 강수 자료의 변화분석을 수행함에 있어 양질의 강수 자료를 수집하기 위하여 기상청 보유 관측소 중 30년 이상 강우 기록을 가지고 있는 관측소를 내상으로 연최대강수량과 연강수량 자료를 추출하였다. 강수 자료의 변화분석은 크게 2가지로 변동분석과 경향분석을 수행하였다. 변동분석은 강수 자료의 평균과 분산의 편차에 따른 변동점 가정을 이용하여 변동점 전${\cdot}$후 강수 자료의 평균과 분산 변화에 내하여 통계적 유의성을 검정하는 방법이다. 경향분석은 강수 자료의 증가 또는 감소의 경향을 매개변수적, 비매개변수적 방법으로 통계적 유의성을 검정하는 방법이다. 본 연구에서 수행한 변동 및 경향분석 결과 어떤 기후적 요인에 의하여 강수량이 변화했다는 길과는 통계적 유의성에서 확인되지 않았다. 그러나 강수량 도시(plot)를 통한 강수량의 변동 및 경향은 존재하는 것으로 나타났으며, 이는 빈도 해석에 의한 확률강수량 산정시 고려 대상이 된다.

  • PDF

Nonparametric test procedures the changepoint problem with multiple observations (다중자료를 갖는 변화시점 모형에서의 비모수적인 검정법)

  • 김경무
    • The Korean Journal of Applied Statistics
    • /
    • v.4 no.1
    • /
    • pp.33-45
    • /
    • 1991
  • In the analysis of changepoint model the situation where single observation is taken at each time point has been considered. In an effort to extend this to the general situation, we may consider the changepoint model with more than one observation at each time point. These tests are developed without assuming any particular form for the underlying distribution, we propose the one-sided and two-sided nonparametric tests by extending the tests that have been considered in the changepoint model with single observation at each time point and obtain their asymptotic null distributions. We compare the empirical powers among the extended changepoint tests under one-sided or two-sided alternatives. We also compare the powers of the extended changepoint tests with those of the original test via the Monte Carlo simulation.

  • PDF