• 제목/요약/키워드: Empirical distribution plot

검색결과 8건 처리시간 0.022초

다변량 경험분포그림과 적합도 검정 (Multivariate empirical distribution plot and goodness-of-fit test)

  • 홍종선;박용호;박준
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.579-590
    • /
    • 2017
  • 다변량 자료의 분포함수를 알고 있거나 추정할 수 있으면 다변량 경험분포함수를 정의할 수 있다. 이변량인 경우에는 계단그림과 분위그림을 사용하여 경험분포함수를 시각화할 수 있는데, 본 연구에서는 다변량인 경우에 경험분포함수를 정사각형에 표현할 수 있는 다변량 경험분포그림을 제안하였다. 여러 종류의 다변량 정규분포와 특정한 분포에 대하여 경험분포그림을 작성하고 특징을 살펴보니, 다양한 분산공분산행렬을 포함된 분포함수에 따라 경험분포그림이 민감하게 반응하는 것을 탐색하였다. 이를 바탕으로 경험분포함수를 구할 때 가정한 다변량 분포함수의 적합도 검정방법을 제안하였다. 대표적인 다섯 종류의 적합도 검정방법을 사용하고, 다양한 분포함수들에 대하여 각각의 검정통계량 기각역을 구하였다. 본 연구에서 얻은 기각역은 문헌에서 구할 수 있는 기각역과 큰 차이가 없음을 발견하였다. 그러므로 본 연구에서 제안한 적합도 검정방법을 문헌에서 제시한 기각역으로 쉽게 사용할 수 있는 장점이 있다.

Goodness-of-fit Test for the Weibull Distribution Based on Multiply Type-II Censored Samples

  • Kang, Suk-Bok;Han, Jun-Tae
    • Communications for Statistical Applications and Methods
    • /
    • 제16권2호
    • /
    • pp.349-361
    • /
    • 2009
  • In this paper, we derive the approximate maximum likelihood estimators of the shape parameter and the scale parameter in a Weibull distribution under multiply Type-II censoring by the approximate maximum likelihood estimation method. We develop three modified empirical distribution function type tests for the Weibull distribution based on multiply Type-II censored samples. We also propose modified normalized sample Lorenz curve plot and new test statistic.

Goodness-of-fit tests for the inverse Weibull or extreme value distribution based on multiply type-II censored samples

  • Kang, Suk-Bok;Han, Jun-Tae;Seo, Yeon-Ju;Jeong, Jina
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권4호
    • /
    • pp.903-914
    • /
    • 2014
  • The inverse Weibull distribution has been proposed as a model in the analysis of life testing data. Also, inverse Weibull distribution has been recently derived as a suitable model to describe degradation phenomena of mechanical components such as the dynamic components (pistons, crankshaft, etc.) of diesel engines. In this paper, we derive the approximate maximum likelihood estimators of the scale parameter and the shape parameter in the inverse Weibull distribution under multiply type-II censoring. We also develop four modified empirical distribution function (EDF) type tests for the inverse Weibull or extreme value distribution based on multiply type-II censored samples. We also propose modified normalized sample Lorenz curve plot and new test statistic.

Goodness-of-fit test for the logistic distribution based on multiply type-II censored samples

  • Kang, Suk-Bok;Han, Jun-Tae;Cho, Young-Seuk
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.195-209
    • /
    • 2014
  • In this paper, we derive the estimators of the location parameter and the scale parameter in a logistic distribution based on multiply type-II censored samples by the approximate maximum likelihood estimation method. We use four modified empirical distribution function (EDF) types test for the logistic distribution based on multiply type-II censored samples using proposed approximate maximum likelihood estimators. We also propose the modified normalized sample Lorenz curve plot for the logistic distribution based on multiply type-II censored samples. For each test, Monte Carlo techniques are used to generate the critical values. The powers of these tests are also investigated under several alternative distributions.

An Efficiency Assessment for Reflectance Normalization of RapidEye Employing BRD Components of Wide-Swath satellite

  • Kim, Sang-Il;Han, Kyung-Soo;Yeom, Jong-Min
    • 대한원격탐사학회지
    • /
    • 제27권3호
    • /
    • pp.303-314
    • /
    • 2011
  • Surface albedo is an important parameter of the surface energy budget, and its accurate quantification is of major interest to the global climate modeling community. Therefore, in this paper, we consider the direct solution of kernel based bidirectional reflectance distribution function (BRDF) models for retrieval of normalized reflectance of high resolution satellite. The BRD effects can be seen in satellite data having a wide swath such as SPOT/VGT (VEGETATION) have sufficient angular sampling, but high resolution satellites are impossible to obtain sufficient angular sampling over a pixel during short period because of their narrow swath scanning when applying semi-empirical model. This gives a difficulty to run BRDF model inferring the reflectance normalization of high resolution satellites. The principal purpose of the study is to estimate normalized reflectance of high resolution satellite (RapidEye) through BRDF components from SPOT/VGT. We use semi-empirical BRDF model to estimated BRDF components from SPOT/VGT and reflectance normalization of RapidEye. This study used SPOT/VGT satellite data acquired in the S1 (daily) data, and within this study is the multispectral sensor RapidEye. Isotropic value such as the normalized reflectance was closely related to the BRDF parameters and the kernels. Also, we show scatter plot of the SPOT/VGT and RapidEye isotropic value relationship. The linear relationship between the two linear regression analysis is performed by using the parameters of SPOTNGT like as isotropic value, geometric value and volumetric scattering value, and the kernel values of RapidEye like as geometric and volumetric scattering kernel Because BRDF parameters are difficult to directly calculate from high resolution satellites, we use to BRDF parameter of SPOT/VGT. Also, we make a decision of weighting for geometric value, volumetric scattering value and error through regression models. As a result, the weighting through linear regression analysis produced good agreement. For all sites, the SPOT/VGT isotropic and RapidEye isotropic values had the high correlation (RMSE, bias), and generally are very consistent.

중부지방소나무의 생장특성 및 경험적 임분수확모델 개발 (Characteristics of Growth and Development of Empirical Stand Yield Model on Pinus densiflora in Central Korea)

  • 전주현;손영모;강진택
    • 한국산림과학회지
    • /
    • 제106권2호
    • /
    • pp.267-273
    • /
    • 2017
  • 본 연구는 중부지방소나무에 대하여 현실림을 반영한 수확표를 조제하기 위하여 수행되었다. 현재 사용하고 있는 수확표는 정상적인 생육 이상의 군락을 대상으로 조사 분석한 결과로 현실림보다 과대한 값을 제공하여 법정림 외에 적용하기는 다소 어려운 점이 있었다. 따라서 본 연구에서는 침엽수 대표 수종인 소나무를 대상으로 현실림에 대한 임분 생장량을 추정하였다. 본 연구에 이용한 자료는 국가산림자원조사(National Forest Inventory) 자료 중 1,957개의 중부지방소나무 표본점 자료를 이용하였다. 분석절차는 직경분포의 추정, 적합, 예측의 단계를 거쳤으며, 직경분포모델은 Weibull 함수를 이용하였다. 생장모델 내 평균직경과 평균흉고단면적 추정 시 사용한 모델은 Weibull과 Schumacher였다. 기준임령 30년을 바탕으로 중부지방소나무의 지위지수 범위는 8-14에 있는 것으로 나타났다. 임분수확표 지위 12에 따르면, 30년생일때 연평균생장량(MAI)이 $4.42m^3/ha$로 나타났다. 기존 수확표와 비교하였을 때 본 연구결과의 연평균생장량이 더 낮은 것을 알 수 있으며, 이는 법정림과 현실림의 지위지수별 연령별 재적의 차를 쌍체 T-검정(paired t-test)한 결과, 0.001이하의 p-value를 가져 통계적으로 유의한 차이가 있는 것으로 판단하였다. 본 연구의 결과를 바탕으로 중부지방소나무의 현실적인 산림 경영과 관리정책에 도움을 줄 수 있을 것으로 사료된다.

유통과학분야에서 탐색적 연구를 위한 요인분석 (Factor Analysis for Exploratory Research in the Distribution Science Field)

  • 임명성
    • 유통과학연구
    • /
    • 제13권9호
    • /
    • pp.103-112
    • /
    • 2015
  • Purpose - This paper aims to provide a step-by-step approach to factor analytic procedures, such as principal component analysis (PCA) and exploratory factor analysis (EFA), and to offer a guideline for factor analysis. Authors have argued that the results of PCA and EFA are substantially similar. Additionally, they assert that PCA is a more appropriate technique for factor analysis because PCA produces easily interpreted results that are likely to be the basis of better decisions. For these reasons, many researchers have used PCA as a technique instead of EFA. However, these techniques are clearly different. PCA should be used for data reduction. On the other hand, EFA has been tailored to identify any underlying factor structure, a set of measured variables that cause the manifest variables to covary. Thus, it is needed for a guideline and for procedures to use in factor analysis. To date, however, these two techniques have been indiscriminately misused. Research design, data, and methodology - This research conducted a literature review. For this, we summarized the meaningful and consistent arguments and drew up guidelines and suggested procedures for rigorous EFA. Results - PCA can be used instead of common factor analysis when all measured variables have high communality. However, common factor analysis is recommended for EFA. First, researchers should evaluate the sample size and check for sampling adequacy before conducting factor analysis. If these conditions are not satisfied, then the next steps cannot be followed. Sample size must be at least 100 with communality above 0.5 and a minimum subject to item ratio of at least 5:1, with a minimum of five items in EFA. Next, Bartlett's sphericity test and the Kaiser-Mayer-Olkin (KMO) measure should be assessed for sampling adequacy. The chi-square value for Bartlett's test should be significant. In addition, a KMO of more than 0.8 is recommended. The next step is to conduct a factor analysis. The analysis is composed of three stages. The first stage determines a rotation technique. Generally, ML or PAF will suggest to researchers the best results. Selection of one of the two techniques heavily hinges on data normality. ML requires normally distributed data; on the other hand, PAF does not. The second step is associated with determining the number of factors to retain in the EFA. The best way to determine the number of factors to retain is to apply three methods including eigenvalues greater than 1.0, the scree plot test, and the variance extracted. The last step is to select one of two rotation methods: orthogonal or oblique. If the research suggests some variables that are correlated to each other, then the oblique method should be selected for factor rotation because the method assumes all factors are correlated in the research. If not, the orthogonal method is possible for factor rotation. Conclusions - Recommendations are offered for the best factor analytic practice for empirical research.

Gradient Boosting 모형을 이용한 중소기업 R&D 지원금 결정요인 분석 (Who Gets Government SME R&D Subsidy? Application of Gradient Boosting Model)

  • 강성원;강희찬
    • 한국전자거래학회지
    • /
    • 제25권4호
    • /
    • pp.77-109
    • /
    • 2020
  • 본 논문에서는 그래디언트 부스팅 모형을 활용하여 정부의 중소기업 연구개발 지원 결정에 영향을 미치는 요인들을 파악하였다. 기존 연구가 사후적으로 정부의 연구개발 지원이 수혜 기업에 미친 영향을 분석하는 것에 중점을 두었다면, 본 논문은 정부의 연구개발 지원 결정 방식을 파악하고, 그 방식이 기업에게 제공하는 유인을 분석하고자 하였다. 이를 위하여 본 논문은 지원금 결정에 영향을 미치는 다양한 잠재적 요인들을 선택하고, 기계학습 접근법을 활용하여 추정오차 축소효과가 큰 요인들을 선별하였다. 구체적으로 본 논문은 한국과학기술평가원이 구축한 국가연구개발조사분석 자료와 한국신용평가자료를 연결한 자료에 그래디언트 부스팅(Gradient Boosting) 모형을 적용하여 지원금 추정모형을 구축하였다. 본 논문에서 구축한 그래디언트 부스팅 모형은 선형회귀분석 응용모형에 비해 평균제곱근오차를 7.20% 축소할 수 있었다. 각 변수의 순열 중요도(permutation importance)를 분석한 결과 연구성과지표 및 연구개발비가 추정오차 축소에 기여가 큰 것으로 파악되었다. 그리고 각 변수의 부분의존도(Partial Dependence Plot: PDP) 및 SHAP 값(SHAP value: SHapley Additive exPlanation value)을 분석한 결과 연구성과지표가 좋고 연구개발비 지출이 큰 기업이 많은 연구개발 지원금을 받는 반면, 영업이익이 크고 자기자본회전율이 높은 기업은 적은 지원금을 받는 경향이 발견되었다. 본 연구의 결과는 현재 중소기업 연구개발 지원금 배분 방식이 연구성과지표 제고 및 연구개발투자 증가 유인은 제공하나, 기업 경영성과 제고 유인은 취약함을 시사한다.