• 제목/요약/키워드: conditional quantile

검색결과 40건 처리시간 0.022초

대용량 자료의 분석을 위한 분할정복 커널 분위수 회귀모형 (Divide and conquer kernel quantile regression for massive dataset)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.569-578
    • /
    • 2020
  • 분위수 회귀모형은 반응변수의 조건부 분위수 함수를 추정함으로써 반응변수와 예측변수의 관계에 대한 포괄적인 정보를 제공한다. 특히 커널 분위수 회귀모형은 비선형 관계식을 고려하기 위하여 양정치 커널함수(kernel function)에 의해 만들어지는 재생 커널 힐버트 공간(reproducing kernel Hilbert space)에서 비선형 조건부 분위수 함수를 추정한다. 그러나 KQR은 이차계획법으로 공식화되어 많은 계산비용을 필요로 하므로 컴퓨터 메모리 능력의 제한으로 대용량 자료의 분석은 불가능하다. 이러한 문제점을 해결하기 위하여 본 논문에서는 분할정복(divide and conquer) 알고리즘을 활용한 KQR 추정법(DC-KQR)을 제안한다. DC-KQR은 먼저 전체 훈련자료를 몇 개의 부분집합으로 무작위로 분할(divide)한 후, 각각의 부분집합에 대하여 KQR 분위수 함수를 추정하고 이들의 산술 평균을 이용하여 최종적인 추정량으로 통합(conquer)하는 기법이다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DC-KQR의 효율적인 성능과 활용 가능성을 확인하였다.

Quantile 회귀분석을 이용한 극대강수량 자료의 경향성 분석 (Trend Analysis of Extreme Precipitation Using Quantile Regression)

  • 소병진;권현한;안정희
    • 한국수자원학회논문집
    • /
    • 제45권8호
    • /
    • pp.815-826
    • /
    • 2012
  • 기존 Ordinary Regression (OR) 방법을 이용한 경향성 분석은 경향성을 과소평가하는 문제점을 나타낸다. 이러한 점에서 본 연구에서는 자료의 정규분포 가정과 평균을 중심으로 경향성 평가가 이루어지는 기존 Ordinary Regression (OR) 방법을 개선한 Quantile Regression (QR) 방법을 제안하였다. 본 연구에서는 64개 강우 관측지점의 연 최대 극대강수량 자료에 대하여 QR 방법과 OR 방법에 대하여 통계적 성능을 평가하였다. QR 방법의경향성 분석결과 47개 지점에서 5% 오차수준 내에서 t-검정을 통과한 반면 OR 방법에서는 13개 지점 만이 통계적 유의성을 가지는 것으로 나타났다. 이는 OR 방법이 자료의 평균을 중심으로 경향성을 평가하는 기법인데 반해 QR은 자료의 다양한 분위에서 경향성을 평가함으로써 극대 및 극소 부분에서의 경향성을 보다 유연하게 감지하는 이유로 판단된다. QR 방법을 통한 경향성 평가는 평균 중심의 해석문제점을 개선할 수 있으며 자료가 정규분포를 따르지 않거나 왜곡된 분포형태를 갖는 자료의 수문학적 경향성 평가에 유용하게 사용될 수 있을 것으로 판단된다.

Pointwise Estimation of Density of Heteroscedastistic Response in Regression

  • Hyun, Ji-Hoon;Kim, Si-Won;Lee, Sung-Dong;Byun, Wook-Jae;Son, Mi-Kyoung;Kim, Choong-Rak
    • 응용통계연구
    • /
    • 제25권1호
    • /
    • pp.197-203
    • /
    • 2012
  • In fitting a regression model, we often encounter data sets which do not follow Gaussian distribution and/or do not have equal variance. In this case estimation of the conditional density of a response variable at a given design point is hardly solved by a standard least squares method. To solve this problem, we propose a simple method to estimate the distribution of the fitted vales under heteroscedasticity using the idea of quantile regression and the histogram techniques. Application of this method to a real data sets is given.

벌점화 분위수 회귀나무모형에 대한 연구 (Penalized quantile regression tree)

  • 김재오;조형준;방성완
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1361-1371
    • /
    • 2016
  • 분위수 회귀모형은 설명변수가 반응변수의 조건부 분위수 함수에 어떻게 관계되는지 탐색함으로서 많은 유용한 정보를 제공한다. 그러나 설명변수와 반응변수가 비선형 관계를 갖는다면 선형형태를 가정하는 전통적인 분위수 회귀모형은 적합하지 않다. 또한 고차원 자료 또는 설명변수간 상관관계가 높은 자료에 대해서 변수선택의 방법이 필요하다. 이러한 이유로 본 연구에서는 벌점화 분위수 회귀나무모형을 제안하였다. 한편 제안한 방법의 분할규칙은 과도한 계산시간과 분할변수 선택편향 문제를 극복한 잔차 분석을 기반으로 하였다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

A Reference Value for Cook's Measure

  • Lee, Jae-Jun
    • Communications for Statistical Applications and Methods
    • /
    • 제6권1호
    • /
    • pp.25-32
    • /
    • 1999
  • A single outlier can influence on the least squares estimators and can invalidate analysis based on these estimators. The Cook's statistic has been introduced to measure influence of individual data point on parameter estimation and the quantile of the F distribution is recommended as a reference value. but in practice subjective judgement is applied in the choice of appropriate quantile. A simple reference value is introduced in this paper which is developed by approximating conditional quantities of Cook's measure. The performance of the proposed criterion is evaluated through analysis of real data set.

  • PDF

분위수 회귀나무를 이용한 변수선택 방법 연구 (Variable selection with quantile regression tree)

  • 장영재
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1095-1106
    • /
    • 2016
  • Koenker 등 (1978)에 의해 제안 된 분위수 회귀분석법은 독립변수들이 주어졌을 때, 종속변수의 조건부 분위수에 초점을 맞추어 독립변수들과 종속변수의 해당 특정 분위수와의 관계를 분석하는 방법이다. 선형프로그래밍법 등을 이용한 분위수 회귀의 추정 과정을 생각해 볼 때, 고차원 대용량 자료의 경우에는 모형 적합에 어려움을 겪을 수 밖에 없다. 따라서 분위수 회귀의 문제에 있어서도 차원 축소의 문제, 조금 더 폭을 좁혀 생각해보면 변수선택의 문제를 통해 의사 결정에 영향을 미치는 주요 요인들을 파악하거나 적절한 규모의 모형을 적합하는 과정이 중요하다고 할 수 있다. 본 논문에서는 분위수 회귀의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 응용하여 한국야구위원회에 등록된 선수들의 연봉과 기록 데이터를 분석해 보았다. 분석 결과, 각 분위수 별로 소수의 주요 변수가 선택되어 차원축소의 효과를 얻을 수 있었다. 또한 해당 분위수별로 선택된 변수도 해석상 의미 있는 것으로 평가할 수 있었다.

How Does Financial Development Impact Economic Growth in Pakistan?: New Evidence from Threshold Model

  • TARIQ, Rameez;KHAN, Muhammad Arshad;RAHMAN, Abdul
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제7권8호
    • /
    • pp.161-173
    • /
    • 2020
  • This study examines the nonlinear relationship between financial development and economic growth in Pakistan using the threshold regression model for the period 1980-2017. We also employed quantile regression with 0.25, 0.50, and 0.75 quantiles of conditional distribution. The quantile regression is based on minimizing of sum of squared residuals. The result indicates that economic growth responds positively to financial development when the level of financial development surpasses the threshold value of 0.151. However, when financial development lies below the threshold value (that is, 0.151), its impact on economic growth is negative. Thus, when financial development of Pakistan surpasses the threshold level, it contributes more towards economic growth since greater level of financial development contributes more to boosts economic growth. This finding reveals that economic growth reacts differently to financial development, and the relationship between financial development and economic growth is U-shaped in Pakistan. Among the other variables, physical capital, labor force, and government expenditure exert a positive effect on economic growth. Furthermore, inflation rate and trade openness have an insignificant impact on economic growth. The results of quantile regression also confirm the non-linear relationship between financial development and economic growth in Pakistan. The finding of this study suggests revamping of financial sector policies in Pakistan.

다변량 조건부 꼬리 기대값 (Multivariate conditional tail expectations)

  • 홍종선;김태우
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1201-1212
    • /
    • 2016
  • 시장위험 관리를 위한 Value at Risk(VaR)는 금융기관들이 선호하는 기법이지만, 투자가 실패한 경우에 손실금액에 대하여는 설명할 수 없다는 문제점이 있다. VaR의 한계를 보완하는 대안적인 위험측정도구인 Conditional Tail Expectation(CTE)는 VaR를 초과하는 조건부 기대값으로 정의된다. 포트폴리오에 대한 CTE를 추정하는 실제금융시장에서는. 일반적으로는 다변량 손실률을 일변량 분포로 변환하여 VaR을 추정하고 CTE를 구하지만, 본 연구에서는 다차원 분위벡터를 이용하여 다변량 CTE들을 제안한다. 그리고 일변량 CTE들의 관계를 확장하여 다변량 CTE들의 관계식을 유도하였다. 다양한 분산-공분산행렬을 갖는 이변량과 삼변량의 정규분포로부터 다변량 CTE들을 구하고 CTE들의 관계식을 구현하면서 고차원 분포로의 확장 가능성을 설명하였다. 이변량과 삼변량의 실증 예제를 통해 제안한 이론을 탐색하고, 기존의 CTE와 비교하였다. 다변량 변수들의 분산-공분산행렬과 다변량 분위벡터를 사용한 다변량 CTE가 일변량으로 변환하여 구한 CTE보다 작은 값을 갖는 것을 발견하였다. 그러므로 본 연구에서 제안한 다변량 CTE는 보다 적은 위험성을 나타내는 추정량이며, 포트폴리오를 구성하는 여러 기업을 동시에 고려하는 분산 투자 전략을 세우는 경우에 이런 다변량 CTE를 사용하는 적극적인 투자가 가능하다는 장점이 있다.

분위회귀분석에 의한 수요응답형교통 이용자 만족도 분석 (A Study on the User Satisfaction of Demand Response Transport(DRT) by Quantile Regression Analysis)

  • 장태연;한우진;김정호
    • 한국ITS학회 논문지
    • /
    • 제15권3호
    • /
    • pp.118-128
    • /
    • 2016
  • 농촌지역의 인구감소와 고령화로 인해 이용자가 감소함에 따라 서비스수준이 매우 낮아지고 있는 시내버스의 대체수단으로서 수요응답형교통(DRT)의 이용 만족도에 영향을 미치는 요소를 분위회귀모형을 통해 분석한다. 분위회귀분석은 DRT 이용자 만족도에 영향을 주는 평가요소를 종속변수의 수준별로 독립변수의 영향력이 다르게 나타날 때 유익한 분석방법이다. 2015년 전라북도는 전국에서 최초로 버스형 DRT를 완주군 동상면과 정읍시 산내면에 차량 1대씩 시범운영하였다. 기초통계분석 결과 완주군의 DRT 만족도가 정읍시보다 높게 나왔으며, 분위회귀분석결과에서도 완주군 이용자의 하위분위와 상위분위간 만족도 편차가 크지 않으며 통상최소자승법(Ordinary Least Squares : OLS)의 값도 상위 분위수에 근접한 높은 만족도를 보이고 있어 지속사업으로 진행되는 환경임을 알 수 있었다.

다변량 분위수 회귀나무 모형에 대한 연구 (Multivariate quantile regression tree)

  • 김재오;조형준;방성완
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.533-545
    • /
    • 2017
  • 분위수 회귀모형은 반응변수의 조건부 분포에 대하여 포괄적이고 유용한 통계적 정보를 제공한다. 그러나 많은 실제 자료는 설명변수와 반응변수가 비선형의 관계를 갖고 있어 전통적인 선형 분위수 회귀모형은 왜곡되고 잘못된 결과를 초래할 수 있다. 또한 자료의 복잡성이 증가하여 반응변수가 여러개인 다변량 자료의 분석에 대한 보다 정확한 예측과 더불어 풍부한 해석에 대한 요구가 증가하고 있다. 이러한 이유로 본 연구에서는 다변량 분위수 회귀나무 모형을 제안하였다. 본 연구에서는 기존의 다변량 회귀나무 모형의 분할변수 선택 알고리즘의 문제점을 지적하고 향상된 분할변수 선택 알고리즘을 제안하였다. 제안한 알고리즘은 합리적인 계산시간으로 적용 가능하며 분할변수 선택에서 편향 발생의 문제를 갖지 않는 동시에 기존 방법보다 더 정확하게 분할변수를 선택할 수 있있다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.