• 제목/요약/키워드: 이상자료 검정

검색결과 592건 처리시간 0.03초

그럽 및 코크란 검정을 이용한 임상자료의 이상치 판단 (Outlier detection using Grubb test and Cochran test in clinical data)

  • 손기철;신임희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.657-663
    • /
    • 2012
  • 많은 분야에서 수집된 자료 중 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값인 이상치가 종종 존재한다. 이런 이상치의 발생원인은 자료의 입력과정에서의 오류 또는 응답 과정에서 응답자의 특이한 답변 때문이다. 만약 자료에서 이상치가 존재할 경우 자료의 요약값인 평균과 분산에 많은 영향을 미쳐서 잘못된 정보가 산출된다는 문제점이 있다. 따라서 연구자는 자료에서 이상치가 존재하는지를 주의깊게 살펴보아야 한다. 특히 사람을 대상으로 실시한 임상자료의 경우 자료의 비용측면에서나 결과의 일관성 측면에서 이상치의 판단은 더욱 중요한 문제이다. 따라서 본 논문에서는 이상치를 판단하는 방법인 Grubb 검정과 Cochran 검정을 이용하여 임상자료에서의 이상치를 판단하는 방법을 소개하고자 한다.

국내 강우의 이상치검정 방법의 비교 연구 (A Comparative Study on Methods for Outlier Test of Rainfall in Korea)

  • 이정식;신창동
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.359-359
    • /
    • 2018
  • 이상치는 표본자료에서 크게 어긋나 다른 자료들로부터 떨어져 표시되는 자료로써, 실제로 발생할 확률이 매우 낮은 자료로 정의되고 있다. 설계홍수량을 산정하기 위하여 적용하고 있는 극치계열의 연최대치 강우자료에는 기계오작동 및 엔지니어의 표독오류가 발생하고 있으며, 기후변화에 따른 거대태풍 및 국지적인 집중호우 발생 등으로 인한 극치값 등에서 이상치가 관측되고 있다. 통상 이상치들은 통계분석시 자료 본연의 특성을 왜곡시켜 편향된 결과를 산정할 수 있으므로 빈도해석시 이상치해석 절차를 수행하여 자료의 적정성을 확인하여야 한다. 현재 실무에서는 설계홍수량 산정요령과 하천설계기준 해설 등에서 관련 내용을 기술하고 있지만, 국내 강우자료의 기록연수의 부족으로 인하여 빈도해석시 이상치 해석이 미수행되고 있어 이상치에 따른 자료편의가 발생하면 결과물인 확률강우량이 왜곡되게 산정될 수 있다. 따라서, 본 연구에서는 국내 주요 도시의 강우자료를 이용하여 이상치검정을 수행하였다. 대상지점으로는 서울, 부산, 대전, 대구, 인천, 광주, 울산 등의 비교적 긴 관측년수를 보유하고 있는 광역시를 선정하였으며, 지속기간은 10분, 1~24시간의 25개 강우자료를 적용하였다. 이상치검정 방법으로는 타 방법에 비하여 이상치 검정력이 뛰어난 것으로 알려진 2가지 방법을 채택하였으며, 표본자료의 평균과 표준편차로 표준화된 z값을 이용하여 상 하 한계선를 초과하는 값을 확인하는 z-Score 방법중 향상된 중위수 절대편차(MAD)에 의한 수정 z-Score 방법(Hoaglin, 1993)과 Box-Plot 방법(Tukey, 1969)을 적용하였다. Box-Plot 방법(Tukey, 1969)은 전체 자료를 25%씩 사분위로 구분하는 방법으로 정렬된 자료계열을 중앙값, 박스, 수염(whiskers), 이상치로 구분한다. 정렬된 25~75% 값들을 박스로 포함하여 외곽의 수염값들을 이상치로 분류하며, 특히 사분위수의 도식화로 데이터의 분포를 파악하기 좋으며, 이상치들의 위치와 자료의 비대칭 여부를 쉽게 파악할 수 있다. 본 연구의 수행으로 수정 z-Score 방법의 경우에는 서울과 대구지점에는 이상치가 없으며, 부산지점에는 13개, 대전지점 7개, 인천지점 5개, 광주지점 32개, 울산지점 26개가 나타났다. Box-Plot 방법으로는 서울지점 35개, 부산지점 39개, 대전지점 32개, 대구지점 38개, 인천지점 51개, 광주지점 61개, 울산지점 65개의 이상치가 분석되었다. 연구를 수행한 결과, 수정 z-Score 방법에 비하여 Box-Plot 방법에 의한 이상치가 더 많이 발생하였으며, 각각의 방법으로 지속기간 및 연도별 이상치 발생자료를 확인하였다. 방법별 이상치 발생현황 등을 분석하여 지점별 발생횟수를 분석하였으며, 추후 지점 및 자료의 보완이 수행되면 활용성을 증대시킬 수 있을 것으로 판단된다.

  • PDF

이상치검정을 고려한 국내 확률강우량 산정 (Estimation of Probability Rainfall considering Test for Outliers in Korea)

  • 이정식;신창동;강미순
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.309-314
    • /
    • 2016
  • 본 연구에서는 확률강우량 산정을 위한 빈도해석 시 보다 타당하고, 신뢰도 높은 강우자료를 선정하여 수공구조물 설계 및 재난방재계획에 합리적인 기준을 제시하고자 이상치 적용에 따른 확률강우량을 산정 비교하였다. 이상치검정의 비교를 위하여 Grubbs and Beck 방법과 미국 수자원평의회 방법을 적용하였으며, 적용결과에 따라 강우자료를 조정하여 확률강우량을 산정 비교하여 타당성을 검토하였다. 본 연구의 수행으로 이상치검정에 따라 강우자료 년수에 변화가 있었으며, 기존의 방법과 확률강우량을 비교하였을 때, 증감이 나타났다.

  • PDF

다변량 정규성과 이상치 검정을 위한 통계 시스템 개발 (Development of Statistical System for Checking Multivariate Normality and Outliers)

  • 최용석;김종건;강명래
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.223-231
    • /
    • 2001
  • 다변량분석 기법을 위해서는 자료가 정규성(normality)가정을 만족해야한다. 본 연구에서는 GUI환경에서 일변량 및 다변량자료의 정규성검정, 이상치제거 및 변수변환을 하는 시스템을 Visual Basic 언어로서 구축하여 사용자들이 보다 편리하게 사용할 수 있음을 소개 하고자 한다.

  • PDF

우리나라 연안의 평균해면 및 최극조위 자료의 추세 검정 (Trend Test of the Mean and Extreme Sea Level Data in the Korean Coast)

  • 강주환;조홍연;박민원;박선중
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2008년도 학술발표회 논문집
    • /
    • pp.2156-2160
    • /
    • 2008
  • 우리나라 연안의 평균해면이 증가하고 있다는 주장과 고극조위, 저극조위가 증가(또는 변동)하고 있다는 주장이 제기되고 있으나, 연구자가 사용한 자료의 기간 및 분석 방법 등에 차이가 있고, 결측자료(missing data) 및 이상자료(outlier) 등을 처리한 방법이 서로 차이가 있기 때문에 전체적으로 또는 부분적으로 분석결과가 차이를 보일 수 있다. 또한 추세분석에서는 통계적인 신뢰수준에 대한 검정과정 없이 단순하게 선형회귀곡선식을 이용하여 기울기의 부호만으로 증가 감소를 판단하는 경우도 있다. 그러나 추세분석은 최적의 추세곡선을 찾아내는 것 이전에 추세의 유무를 통계적인 신뢰수준을 기준으로 검정하는 것이 필요하다. 본 연구에서는 추세분석의 필수과정인 추세검정(추세가 있는가? 없는가?)을 Mann-Kendall 방법을 이용하여 우리나라 전 연안 조위관측소의 평균해수면 및 고극조위, 저극조위 자료에 대하여 수행하였다. 추세검정 결과를 다음과 같이 도출할 수 있었다. 평균해수면은 95% 유의수준으로 분석에 포함된 전체 30개 검조소 중 대산, 보령, 군산, 목포, 통영, 거문도, 부산, 가덕도, 제주, 서귀포, 속초, 포항, 울산, 울릉도 지점 등 19개 지점이 추세가 있는 것으로 파악되었으며, 고극조위, 저극조위는 각각 15개, 17개 지점이 추세가 있는 것으로 파악되었다.

  • PDF

The System for Checking Multivariate Normality and Outliers

  • 강명래;최용석
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2000년도 추계학술발표회 논문집
    • /
    • pp.253-255
    • /
    • 2000
  • 다변량분석 기법을 사용하기 위해서는 자료가 정규성(normality)가정을 만족해야한다. 본 연구에서는 GUI(graphic user interface)환경 하에서 일변량(univariate)과 다변량자료(multivariate data)의 정규성검정, 이상치(outliers)제거 및 변수변환(variable transformation)을 지원하는 시스템을 구축하여 사용자들이 보다 편리하게 사용할 수 있음을 소개 하고자 한다.

  • PDF

GLO분포를 대상으로 왜곡도 계수를 고려한 확률도시 상관계수 검정통계량 추정 (A Study on Estimation of Probability Plot Correlation Coefficient Considering the Skewness for GLO distribution)

  • 안현준;신홍준;김수영;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.39-39
    • /
    • 2015
  • 극치 수문(Hydrologic extremes)분야에서는 수문자료의 분포에 따라 Gumbel, GEV, 그리고 GLO 분포와 같은 다양한 확률통계 분포형이 존재한다. GEV와 GLO 분포형의 경우 Gumbel 분포형과 달리 형상매개변수가 포함된 3변수 분포형으로써 이상 기후 현상으로 인한 잦은 극치 수문사상을 표현하는데 좀 더 유연한 것으로 알려져 있다. 특히 GLO 분포형의 경우 영국에서 홍수빈도해석 시 적정분포형으로 선정된바 있다(Institute of Hydrology, 1999). 다양한 분포형 중에서 표본 자료를 대표할 수 있는 분포형을 선정하는 통계적 기법이 적합도 검정이다. 적합도 검정에는 $x^2$-검정, Cramer von-Mises 검정, Kolmogorov-Smirnov 검정, PPCC(probability plot correlation coefficient, 확률도시 상관계수)검정 등이 있으며 그 중 PPCC 검정은 이용방법이 간편하면서도 뛰어난 기각능력을 보이는 것으로 알려져 있다. 본 연구에서는 극치 수문분야에서 널리 이용되고 있는 GLO 분포형을 대상으로 자료의 왜곡도 영향을 고려할 수 있는 확률도시 상관계수 검정의 검정통계량을 추정하여 보았다.

  • PDF

로버스트 축차 확률비 검정의 설계 및 구현

  • 최인훈;박노진
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.91-95
    • /
    • 2003
  • 본 논문에서는 정보 전달 능력이 향상된 변형된 축차확률비검정을 소개한다. 새로운 검정은기존의 검정과 수학적인 면에서 공동된 점들을 갖고 있으나, 이상치의 영향을 덜 받고 더욱이 그 존재에 대하여 시각적으로 보여주며, 또한 자료의 변화에 보다 민감하게 반응하는 특성이 있다. 새롭게 제안된 로버스트 축차확률비검정 시스템을 Microsoft사의 Visual Basic 6.0 언어로 구현하여 본 연구에서 제안한 모델과 기존의 검정모델을 비교한 결과 제안된 검정 모델의 우수성과 실용가능성을 실증적으로 확인하였다.

  • PDF

강수자료에 대한 변동성 및 경향성 해석 (Change and Trend Analyses of Rainfall Data)

  • 이상복;김경덕;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2004년도 학술발표회
    • /
    • pp.696-700
    • /
    • 2004
  • 본 연구에서는 우리나라 주요 관측소의 연최대강수량과 연강수량을 내상으로 변동 및 경향을 분석하여 그 결과를 비교하였다. 강수 자료의 변화분석을 수행함에 있어 양질의 강수 자료를 수집하기 위하여 기상청 보유 관측소 중 30년 이상 강우 기록을 가지고 있는 관측소를 내상으로 연최대강수량과 연강수량 자료를 추출하였다. 강수 자료의 변화분석은 크게 2가지로 변동분석과 경향분석을 수행하였다. 변동분석은 강수 자료의 평균과 분산의 편차에 따른 변동점 가정을 이용하여 변동점 전${\cdot}$후 강수 자료의 평균과 분산 변화에 내하여 통계적 유의성을 검정하는 방법이다. 경향분석은 강수 자료의 증가 또는 감소의 경향을 매개변수적, 비매개변수적 방법으로 통계적 유의성을 검정하는 방법이다. 본 연구에서 수행한 변동 및 경향분석 결과 어떤 기후적 요인에 의하여 강수량이 변화했다는 길과는 통계적 유의성에서 확인되지 않았다. 그러나 강수량 도시(plot)를 통한 강수량의 변동 및 경향은 존재하는 것으로 나타났으며, 이는 빈도 해석에 의한 확률강수량 산정시 고려 대상이 된다.

  • PDF

다중자료를 갖는 변화시점 모형에서의 비모수적인 검정법 (Nonparametric test procedures the changepoint problem with multiple observations)

  • 김경무
    • 응용통계연구
    • /
    • 제4권1호
    • /
    • pp.33-45
    • /
    • 1991
  • 변화시점 모형은 지금까지 한 시점에서 단 한 개의 관측자료를 갖는 모형만 생각해 왔다. 이러한 모형을 확장시켜 각 시점에 한 개 이상의 관측자료를 갖는 변화시점 모형을 생각한다. 이러한 모형에서 비모수적인 단측 그리고 양측 검정법을 찾았다. 검정 통계량은 지금까지 소개된 검정 통계량 형태를 확장시킨 형태이고 이들의 귀무가설 분포를 구하여 보았다. 또한 Monte Carlo연구를 통해 이들의 검정력을 비교해 보았다.

  • PDF