• 제목/요약/키워드: 극단값 분포

검색결과 24건 처리시간 0.026초

경제조사에서의 이상치 탐지와 처리방법 (Outlier detection and treatment in industrial sampling survey)

  • 주영선;조교영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.131-142
    • /
    • 2016
  • 통계조사에서 이상치는 총계추정에 큰 영향을 줄 수 있다. 통계조사에서 보고된 값은 극단적이 아니지만 그것의 가중치 (weight)가 커서 추정값에 큰 영향을 주거나, 극단값이라 해도 그것이 작은 가중치를 가질 때 추정에 큰 영향을 주지 않는 경우도 있다. 이러한 극단값이나 추정에 영향을 주는 값 들은 표본조사에서 민감하다. 일반적으로 치우친 분포를 가진 모집단에서 추출된 표본으로 조사를 하는 사업체 조사에서는 특별히 더 큰 영향을 준다. 본 연구에서는, 우리는 이상치를 판별하고 처리하는 방법에 대해서 다루고자 한다. 이상치 판별은 분위수에 기초해서 판정하였으며, 판정된 이상치는 여러 가지 다양한 방법을 적용해 보았다. 연구에서는 2가지 winsorised 방법과 세가지 cut-off 방법에 대하여 적용하였다. 그리고 시뮬레이션에서는 4가지 방법의 가중치를 각각 적용하여 진행하였다. 여러 가지 이상치 처리방법들을 비교해 본 결과 type I 윈저화 방법보다는 type II 윈저화 방법이 효율적인 결과값을 보여주었으며, 가중치 변환방법들 중에서는 제곱근 변환을 통한 가중치 감소방법이 다른 처리방법에 비해 좋은 결과값을 보여주었다.

쿨백-레이블러 정보함수에 기초한 와이블분포와 극단값 분포에 대한 적합도 검정 (A Test for Weibull Distribution and Extreme Value Distribution Based on Kullback-Leibler Information)

  • 김종태;이우동
    • 응용통계연구
    • /
    • 제11권2호
    • /
    • pp.351-362
    • /
    • 1998
  • 공학의 응용분야인 신뢰수명론에서 와이블분포는 매우 중요한 역할을 해왔다. 그러나 와이블분포는 분포자체가 가지고 있는 형상모수의 영향으로 인하여 적합도 청정에 있어서 어려움의 대상이 되어 왔다. 이 논문은 쿨백-레이블러 정보 (Kullback-Leibler Information)을 이용한, 와이블 분포의 모수들에 영향을 받지 않은 검정 통계량을 제시함으로 위의 문제점을 해결하고, 제시된 검정 통계량에 대한 점근적 성질들과 결정력을 분석하였다. 제시된 검정 통계량은 기존의 결정 통계량들보다 검정력 비교에 있어서 더 우수한 검정력들을 보였고, 또한 실제 자료에 의한 적합도 검정의 예제를 보였다.

  • PDF

POT방법론을 이용한 자동차보험 손해율 추정 (Estimation of Car Insurance Loss Ratio Using the Peaks over Threshold Method)

  • 김수영;송종우
    • 응용통계연구
    • /
    • 제25권1호
    • /
    • pp.101-114
    • /
    • 2012
  • 자동차보험의 손해율이란 지급보험금의 수입보험료에 대한 비율을 의미한다. 손해율이 매우 큰 값을 갖는 대형손실이 일어나는 경우에는 보험회사의 재무적인 부분에 큰 악영향을 미치게 된다. 따라서 보험회사가 이에 대비할 수 있도록 하기 위하여 손해율의 극단 분위수(extreme quantile)를 추정하는 것은 매우 중요한 일이다. 다른 종류의 보험 관련 데이터와 같이 손해율의 분포는 오른쪽으로 긴 꼬리를 갖는 두꺼운 꼬리분포(heavy-tailed distribution)를 갖는다. 이런 자료에서 극단 분위수룰 추정하기 위하여 가장 많이 사용되는 방법론은 POT(Peaks over threshold)와 Hill 추정(Hill estimation)이다. 본 논문에서는 일반화파레토분포(generalized Pareto distribution; GPD)의 다양한 모수추정방법론의 성능을 모의실험과 실제 손해율 데이터를 사용하여 비교, 분석하였다. 또한 Hill 추정치를 사용하여 극단 분위수를 추정하였다. 그 결과 대부분의 경우에 POT 방법론이 Hill 추정치를 이용한 방법보다 정확한 분위수를 추정하였고, 모수추정방법론 중에서는 MLE, Zhang, NLS-2 방법론이 가장 좋은 결과를 보여주었다.

Praat과 R로 분석한 한국인 대화 음성 말뭉치의 fundamental frequency(f0)값 분포 (The fundamental frequency (f0) distribution of Korean speakers in a dialogue corpus using Praat and R)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.17-25
    • /
    • 2023
  • 이 논문은 국립국어원에서 배포한 한국인 대화 음성 말뭉치에서 화자의 성대의 진동을 나타내는 fundamental frequency(f0)값을 측정해서 한국인이 일상 대화를 할 때 f0값의 기초적인 통계자료를 살펴보고, 나이와 f0값의 분포는 어떤 관계를 보이는지를 조사했다. 연구자료 수집과 분석은 Praat과 R을 이용했고, 개인별 억양구마다 상자도를 구하고 사분위값을 활용하여 극단값을 제거하는 방법으로 최종 f0값 자료를 구했다. 그 결과 전체 한국인들의 f0값의 평균값은 185 Hz이고 중앙값은 187 Hz로 나왔다. 자료의 분포모양을 나타내는 왜도는 0.11의 정적분포를 보였고, 첨도는 -0.09로 정상분포에 거의 가까운 모양을 보였다. 일상대화의 피치값의 변화범위로는 238 Hz로 나타났다. 남녀 간의 f0값의 차이는 남성의 중앙값 114 Hz의 거의 두 배에 해당하는 199 Hz가 여성의 중앙값으로 나타났고 t검증결과 유의미한 차이를 보였다. 분포모양을 나타내는 왜도는 남성이 1.24이었고, 여성은 그것의 반에 해당하는 0.58이었다. 첨도는 남녀집단 각각 5.21과 3.88로 나타나 남성의 값이 34% 정도 더 뾰족한 모양을 보였다. 연령대별로는 남녀집단을 합하여 볼 때, 나이가 들수록 f0값이 서서히 내려가는 경향을 보였다. 연령대별 f0중앙값과 나이 간의 회귀분석을 실행한 결과 기울기가 남성집단에서는 0.15, 여성집단에서는 -0.586으로 서로 반대되는 경향을 기록했다. 결론적으로, 대규모 참여자가 녹음한 대화 음성에서 한국인의 집단별 연령별 다양한 f0분포를 규명할 수 있지만, 나이와 f0관계는 더 정밀한 자료수집이 필요함을 알 수 있었다.

재무비율의 극단치에 대한 통계적 분석 (Statistical Analysis of Extreme Values of Financial Ratios)

  • 주지환
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.247-268
    • /
    • 2021
  • 투자자들은 기업가치를 평가하기 위하여 재무비율을 활용하는데 특히 PER과 PBR은 적정 기업가치를 판단하는데 중요한 역할을 하는 대표적인 수치로 알려져 있다. 금융자료는 꼬리가 매우 두터운 형태의 분포를 따르는 경우가 많은데, PER과 PBR은 첨도가 매우 높으며 해당 재무비율의 극단치들은 기업의 다양한 이해관계자들의 의사결정 시 중요한 역할을 한다. 본 논문에서는 통계학의 극단치이론에서 주로 활용되는 GPD와 최근 새롭게 제안된 분포인 exGPD를 도입하고, 두 분포 간의 성능을 비교하기 위해 시뮬레이션을 수행하여 적합도를 살펴본 후 우측 꼬리에 속하는 90, 95, 99% 퍼센타일 값을 추정하여 실제 값과 비교한다. 다음으로 국내 증권시장에 상장된 정보기술군(IT) 기업들의 PER, PBR 자료에 근거하여 실증분석을 수행한다. 분석 결과 특히 PBR에서 exGPD가 GPD에 비해 자료의 우측 꼬리 영역을 보다 효과적으로 설명함을 확인하였다. 따라서, 재무비율에 기반한 기업가치평가 또는 위험관리 시 극단치의 특성을 효과적으로 반영할 수 있는 exGPD와 같은 분포를 활용한다면 꼬리 영역에 담긴 정보를 보다 정확하게 파악할 수 있다. 이는 기업 내부 위험관리자의 효과적인 지식경영을 돕고, 투자자를 비롯하여 다양한 외부 이해관계자들에게 유용한 지식을 제공할 수 있다.

극단치 분포의 모수 추정방법 비교 연구(회귀 분석법을 기준으로) (Comparison Study of Parameter Estimation Methods for Some Extreme Value Distributions (Focused on the Regression Method))

  • 우지용;김명석
    • Communications for Statistical Applications and Methods
    • /
    • 제16권3호
    • /
    • pp.463-477
    • /
    • 2009
  • 극단치 분포의 모수 추정방법으로 최우추정법, 확률가중적률법, 회귀분석법은 기존 연구에서 활발하게 적용되어져 왔다. 그러나 이들 세 가지 추정방법 가운데, 회귀분석법의 우수성은 엄격하게 평가되어진 적이 없다. 본 논문에서는 몬테칼로 시뮬레이션을 통하여 Generalized Extreme Value(GEV) 분포와 Generalized Pareto(GP) 분포의 모수 추정에 회귀분석법 및 다른 추정방법을 적용하여 비교 연구한다. 시뮬레이션 결과, 표본의 크기가 작은 경우 회귀분석 법은 GEV 분포의 위치모수 추정시 편의 측면과 효율성 측면에서 다른 방법보다 우수한 경향을 나타내었다. GP 분포의 규모모수 추정시에는 표본의 크기 가 작을 경우 회귀분석법이 다른 방법보다 작은 편의를 나타내었다. 회귀분석법은 표본의 크기 가 작거나 적당히 큰 경우에도 GEV 분포나 GP 분포의 형태모수 추정시에 형태모수의 값이 -0.4일 경우, 다른 방법보다 우수한 경향을 나타내었다.

일반화 극단치분포를 이용한 일 최대 교통사고 분석 (An Analysis of Daily Maximum Traffic Accident Using Generalized Extreme Value Distribution)

  • 김준석;김대성;윤상후
    • 디지털융복합연구
    • /
    • 제18권10호
    • /
    • pp.33-39
    • /
    • 2020
  • 대형 교통사고는 많은 인명피해를 동반한다. 교통사고를 효율적으로 대처하기 위해선 하루 동안 발생할 수 있는 최대 교통사고 수와 사망자 수, 중상자 수가 정량적으로 제시되어야 한다. 본 연구는 교통사고분석시스템에서 제공하는 2005년부터 2018년까지 전국에서 발생한 일 최대 교통사고 수, 사망자 수, 중상자 수 자료를 사용하여 15년, 30년, 50년에 한 번 발생할 수 있는 최대값을 제시하고자 한다. 지역별 교통사고의 특성을 살펴보기 위해 수도권, 충청권, 경북권, 호남권, 경남권으로 구분하여 일반화극단치분포(GEV분포)에 적합시켰다. GEV분포의 모수는 L-적률추정법으로 추정하였고, Anderson Darling 검정과 Cramer-von Mises 검정으로 분포의 적합성을 확인하였다. 분석결과 50년에 한 번 발생할 수 있는 일 최대 교통사고 수는 수도권 401건, 경남권 168건, 경북권 455건, 충청권 136건, 호남권 205건이다. 인구수와 자동차 등록수가 많은 수도권에 비해 경북권은 면적이 넓고 산지지형이 많으며 산업공단으로 인한 물류이동이 많아 교통사고 수가 상대적으로 높게 나타났다.

한국지역 집중호우에 대한 반환주기의 베이지안 모형 분석 (A Bayesian Analysis of Return Level for Extreme Precipitation in Korea)

  • 이정진;김남희;권혜지;김용구
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.947-958
    • /
    • 2014
  • 집중호우의 특성을 이해하는 것은 수문관리 및 재해방재 등에서 매우 중요하다. 특히 반환주기는 이러한 집중호우의 특성을 나타내는 측정치로 자주 사용된다. 본 논문에서는 베이지안 계층적 모형을 이용하여 강우의 반환주기에 대한 공간구조를 분석하였다. 먼저 국내 62개 지점에서 측정한 강우 강도을 기초로 하여 연간 일일 최대강우량과 특정한 수준을 초과하는 강우량에 대해서 generalized extreme value(GEV)와 generalized Pareto distribution(GPD)를 각각 가정하여 추정하였다. 집중호우 반환주기에 대한 공간구조는 이 GEV 분포와 GPD 분포의 모수에 공간구조를 가지는 다변량 정규분포를 이용하여 설명하였다. 제안된 모형을 국내 76개 지역에서 39년간 측정된 일별 강우량 관측자료에 적용하였다.

산업 부도의 동조화 현상 연구 (A Study on the Comovement of Industry Default)

  • 전혜현;김소연;김창기
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1289-1312
    • /
    • 2015
  • 본 연구에서는 상장 기업을 중심으로 산업 부도의 동조화 현상에 대해 살펴보았다. 순위상관계수인 스피어만의 로(${\rho}$)와 켄달의 타우(${\tau}$)를 이용하여 부도의 컨코던스 즉, 부도율의 움직임이 얼마나 일치하는지를 측정하였다. 여기서 스피어만의 로와 켄달의 타우는 분포 가정이 필요하지 않고, 자료 숫자가 적거나 극단값을 갖는 경우에도 분석이용이하다는 장점을 가진 비모수 통계적 방법이다. 본 연구의 목적은 산업 부도의 동조화 현상을 살펴봄으로써 향후 일어날 금융위기를 예측하는 데에 있다. 또한 기업 경영인을 비롯하여 모든 시장참여자의 투자결정 및 위험관리, 더 나아가 산업 전반에 대한 이해에 도움이 되길 바란다.

경계핵밀도함수를 이용한 Effective Drought Index 지수의 가뭄빈도해석 (Drouhgt Frequency Analysis for Effective Drought Index using Boundary Kernel Function)

  • 오태석;문영일;권현한;김성실
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1775-1779
    • /
    • 2010
  • 최근의 지구온난화에 따른 기후변화로 인하여 홍수와 가뭄과 같은 극한 사상의 발생 빈도가 증가하고 있는 추세이다. 특히, 가뭄은 장기간에 걸쳐 피해를 유발시키는 대표적인 자연재해 중의 하나이다. 따라서 본 연구에서는 가뭄의 크기와 정도를 정량화 할 수 있는 가뭄빈도해석을 수행하였다. 가뭄빈도해석을 위하여 우리나라의 61개 지점을 대상으로 EDI 가뭄지수를 산정하였다. 일별로 산정된 EDI 지수를 이용하여 연도별로 최저값을 추출하였다. 추출된 EDI 자료를 이용하여 빈도해석을 수행하였다. 빈도해석은 복합 확률 분포형 등의 장점을 갖고 있는 경계핵밀도함수를 이용하여 수행하였다. 분석 결과에서 재현기간 5년 내지 10년에서 극단적으로 건조함을 나타내는 가뭄지수인 -2.0 이하의 값을 갖는 것으로 나타났다. 따라서 가뭄은 평균적으로 재현기간 5년에서 10년 사이에 반복적으로 발생할 수 있다. 그러므로 가뭄에 대한 지속적인 모니터링 시스템의 구축과 가뭄피해를 최소화 할 수 있도록 해야 한다.

  • PDF