• 제목/요약/키워드: univariate statistics

검색결과 169건 처리시간 0.025초

일변량 공간 연관성 측도의 통계적 검정을 위한 일반화된 고차 적률 추출 절차: 정규성 가정의 경우 (A Generalized Procedure to Extract Higher Order Moments of Univariate Spatial Association Measures for Statistical Testing under the Normality Assumption)

  • 이상일
    • 대한지리학회지
    • /
    • 제43권2호
    • /
    • pp.253-262
    • /
    • 2008
  • 이 논문의 주요 목적은 정규성 가정 하에 일변량 공간 연관성 측도의 첫 번째 네 적률을 구해내는 일반화된 추출 절차를 정식화하고, 그것을 바탕으로 각 측도의 가설 검정을 위해 정규근사가 갖는 가능성과 한계를 평가하는 것이다. 중요 연구 결과는 다음과 같다. 첫째, 이전의 연구에 기반함으로써, 정규성 가정 하에 전역적 측도와 국지적 측도에 모두 적용될 수 있는 일반화된 적률 추출절차가 도출되었다. 개별 공간 연관성 측도를 위한 필수적인 메트릭스가 적절히 정의되었을 때, 일반화된 유의성 검정 방법은 각 공간 연관성 측도의 기대값과 분산은 물론 첨도와 왜도를 효과적으로 산출하였다. 둘째, 첫 번째 두 적률에 근거한 정규근사 방법은 전역적 통계량에 대해서는 유효한 것으로 판명되었지만, 국지적 통계량에 대해서는 매우 높은 왜도와 첨도로 말미암아 그 유효성이 현저히 떨어지는 것으로 드러났다.

단변량 및 다변량 함수 데이터에 대한 분산분석의 활용 (Application of functional ANOVA and functional MANOVA)

  • 김미정
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.579-591
    • /
    • 2022
  • 함수 데이터는 다양한 분야에서 수집되고 있으며, 집단 간의 함수 데이터를 비교해야하는 경우가 종종 발생한다. 이럴 경우 점별 분산분석 방법을 이용하여 설명하기에는 무리가 있으며, 통합된 결과를 제시할 필요가 있다. 이에 대한 다양한 연구가 제안되었으며, 최근에 R 패키지 fdANOVA로 구현되었다. 이 논문에서 우선 분산분석 및 다변량 분산분석을 설명하고, 최근에 제안된 다양한 단변량 및 다변량 함수 데이터 분산분석을 설명하고자 한다. 또한 R 패키지 fdANOVA의 사용 방법을 설명하고, 이 패키지를 이용하여 서울과 부산 지역의 주별 기온을 단변량 함수 데이터 분산분석을 통해 비교하고, 손글씨 이미지를 다변량 함수 데이터로 변환하여 다변량 함수 데이터 분산분석을 이용하여 비교하고자 한다.

단변량 및 이변량 순위변수의 비모수적 윌콕슨 검정법에 의한 표본수 결정방법 (Sample Size Determination of Univariate and Bivariate Ordinal Outcomes by Nonparametric Wilcoxon Tests)

  • 박해강;송혜향
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1249-1263
    • /
    • 2009
  • 표본수 결정에서 요구되는 검정력 함수는 연구가설에 상응하는 가장 적절한 검정방법에 의한 것이어야 한다. 의학연구의 논문에 자주 나타나는 순위자료 또는 범주형 빈도자료의 분석에는 비모수적 방법이 적절하며, 본 논문에서는 단변량 및 이변량 순위변수에 대한 윌콕슨-만-휘트니(Wilcoxon-Mann-Whitney; WMW) 검정법에 의한 표본수 결정방법을 제시한다. 단변량 순위변수의 윌콕슨 검정에서는 귀무가설과 대립가설 하의 분산을 이용한 표본수 공식이 귀무가설 하의 분산만 이용한 표본수 공식보다 정확하지만, 대립가설 하의 분산식에 나타나는 확률값이 일반적으로 알려져 있지 않으므로 이 확률값의 추정이 문제가 된다. 모의실험으로 두 방법에 대한 장, 단점을 알아본다. 효능과 안전성의 이변량 순위변수에서는 이변량 WMW 검정법에 의한 표본수 결정방법이 모수적 검정법에 의한 표본수 결정방법보다 더욱 바람직하다.

Multivariate design estimations under copulas constructions. Stage-1: Parametrical density constructions for defining flood marginals for the Kelantan River basin, Malaysia

  • Latif, Shahid;Mustafa, Firuza
    • Ocean Systems Engineering
    • /
    • 제9권3호
    • /
    • pp.287-328
    • /
    • 2019
  • Comprehensive understanding of the flood risk assessments via frequency analysis often demands multivariate designs under the different notations of return periods. Flood is a tri-variate random consequence, which often pointing the unreliability of univariate return period and demands for the joint dependency construction by accounting its multiple intercorrelated flood vectors i.e., flood peak, volume & durations. Selecting the most parsimonious probability functions for demonstrating univariate flood marginals distributions is often a mandatory pre-processing desire before the establishment of joint dependency. Especially under copulas methodology, which often allows the practitioner to model univariate marginals separately from their joint constructions. Parametric density approximations often hypothesized that the random samples must follow some specific or predefine probability density functions, which usually defines different estimates especially in the tail of distributions. Concentrations of the upper tail often seem interesting during flood modelling also, no evidence exhibited in favours of any fixed distributions, which often characterized through the trial and error procedure based on goodness-of-fit measures. On another side, model performance evaluations and selections of best-fitted distributions often demand precise investigations via comparing the relative sample reproducing capabilities otherwise, inconsistencies might reveal uncertainty. Also, the strength & weakness of different fitness statistics usually vary and having different extent during demonstrating gaps and dispensary among fitted distributions. In this literature, selections efforts of marginal distributions of flood variables are incorporated by employing an interactive set of parametric functions for event-based (or Block annual maxima) samples over the 50-years continuously-distributed streamflow characteristics for the Kelantan River basin at Gulliemard Bridge, Malaysia. Model fitness criteria are examined based on the degree of agreements between cumulative empirical and theoretical probabilities. Both the analytical as well as graphically visual inspections are undertaken to strengthen much decisive evidence in favour of best-fitted probability density.

EM 알고리즘에 의한 다변량 치우친 정규분포 혼합모형의 근사적 적합 (An approximate fitting for mixture of multivariate skew normal distribution via EM algorithm)

  • 김승구
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.513-523
    • /
    • 2016
  • 다중 치우침 모수벡터를 가진 다변량 치우친 정규분포 (MSNMix)를 EM 알고리즘으로 적합하려면 E-step에서 다변량 절단 정규분포의 적률과 확률을 계산해야 하는데 이것은 매우 큰 계산 시간을 요구한다. 그래서 비대칭 자료를 적합하는데 흔히 단순 치우침 모수를 가진 모형을 적용한다. 이 모형은 단변량 처리방식으로 적합하는 것이 가능하기 때문에 처리속도가 매우 빠르다. 그러나 단순 치우침 모수를 적용하는 것은 응용에서 비현실적인 경우가 많다. 본 논문에서는 다중 치우침 모수를 가지는 MSNMix의 근사적 추정법을 제안하는데, 이 방법은 단변량 처리방식이 적용되므로 향상된 처리속도를 보장한다. 그리고 제안된 방법의 실효성을 보이기 위해 몇 가지 실험 결과를 제공한다.

정규확률변수 관측치열에 대한 베이지안 변화점 분석 : 서울지역 겨울철 평균기온 자료에의 적용 (Bayesian Change Point Analysis for a Sequence of Normal Observations: Application to the Winter Average Temperature in Seoul)

  • 김경숙;손영숙
    • 응용통계연구
    • /
    • 제17권2호
    • /
    • pp.281-301
    • /
    • 2004
  • 본 논문에서는 일변량 정규분포를 따르는 확률변수의 관측치열에 대한 변화점 문제(change point problem)를 고찰한다. 변화점의 존재유무, 그리고 만일 변화점이 존재한다면 어떠한 유형으로 발생했는지 즉, 변화점 발생 이후로 평균만 변화, 분산만 변화, 또는 평균과 분산 모두가 변화했는지를 밝힌다. 가능한 여러 유형의 변화모형들 가운데 최적의 모형을 선택하기 위해 베이지안 모형선택 기법을 이용하고, 선택된 모형에 내재된 모수를 추정 하기 위해 메트로폴리스-혜스팅스 알고리 즘을 포함한 깁스샘플링 을 이용한다. 이러한 방법론은 모의실험을 통해 검토되고, 또한 서울지역의 겨울철 평균기온 자료에 적용된다.

한국 청소년 폭음 영향 요인: 환경 변인 중심으로 (Factors Influencing Adolescent Binge Drinking: Focused on Environmental Variables)

  • 이진화;권민;남은정
    • 한국학교보건학회지
    • /
    • 제35권3호
    • /
    • pp.133-142
    • /
    • 2022
  • Purpose: The purpose of the study was to investigate the effect of the environment on adolescent binge drinking. Methods: The study was designed as a cross-sectional study. Using statistics from the 17th (20201) Korea Youth Risk Behavior Web-based Survey, the raw data target population was 2,629,588 people, and the sample group used for analysis as the final data was 54,848 people. A Rao-scott 𝑥2 test and univariate multinomial logistic regression analysis were performed using IBM SPSS 27.0. Results: In the results of univariate logistic regression analysis and multivariate logistic regression analysis, common related variables were gender, school level, academic achievement, sleep satisfaction, current smoking, daily smoking, and alcohol education experience. Conclusion: As a result of confirming the factors influencing binge drinking in Korean adolescents, some variables that increase the possibility of problematic drinking behavior in the socio-environmental areas such as individuals, communities, and national policies were identified. For effective prevention and intervention, it is necessary to develop programs to build a healthy environmental support system with support from national policies, including individuals, peer groups, and communities.

국민건강영양조사 자료의 복합표본설계효과와 통계적 추론 (Complex sample design effects and inference for Korea National Health and Nutrition Examination Survey data)

  • 정진은
    • Journal of Nutrition and Health
    • /
    • 제45권6호
    • /
    • pp.600-612
    • /
    • 2012
  • Nutritional researchers world-wide are using large-scale sample survey methods to study nutritional health epidemiology and services utilization in general, non-clinical populations. This article provides a review of important statistical methods and software that apply to descriptive and multivariate analysis of data collected in sample surveys, such as national health and nutrition examination survey. A comparative data analysis of the Korea National Health and Nutrition Examination Survey (KNHANES) was used to illustrate analytical procedures and design effects for survey estimates of population statistics, model parameters, and test statistics. This article focused on the following points, method of approach to analyze of the sample survey data, right software tools available to perform these analyses, and correct survey analysis methods important to interpretation of survey data. It addresses the question of approaches to analysis of complex sample survey data. The latest developments in software tools for analysis of complex sample survey data are covered, and empirical examples are presented that illustrate the impact of survey sample design effects on the parameter estimates, test statistics, and significance probabilities (p values) for univariate and multivariate analyses.

이변량 영과잉-포아송 분포의 적률 (Moments of the Bivariate Zero-Inflated Poisson Distributions)

  • 김경무;이성호;김종태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제9권1호
    • /
    • pp.47-56
    • /
    • 1998
  • 영과잉-포아송모형는 포아송분포와 베르누이 분포의 혼합모형으로 볼 수 있다. 최근 기술의 발달로 생산공정에서 불량품이 거의 나타나지 않는 경우가 많아 기존의 포아송 분포 보다 영과잉-포아송 분포가 많이 응용되어 진다. 일변량 영과잉-포아송 분포를 이변량 영과잉-포아송 분포로 확장하는 일은 다변량으로 확장하기 위한 전초작업으로 중요하다. 본 논문에서는 세가지 형태의 이변량 영과잉-포아송 분포를 제시하고 이들 분포의 적률을 구하여보았다. 또한 적률을 이용하여 세가지 분포를 비교하여 보았다.

  • PDF

Bayesian analysis of longitudinal traits in the Korea Association Resource (KARE) cohort

  • Chung, Wonil;Hwang, Hyunji;Park, Taesung
    • Genomics & Informatics
    • /
    • 제20권2호
    • /
    • pp.16.1-16.12
    • /
    • 2022
  • Various methodologies for the genetic analysis of longitudinal data have been proposed and applied to data from large-scale genome-wide association studies (GWAS) to identify single nucleotide polymorphisms (SNPs) associated with traits of interest and to detect SNP-time interactions. We recently proposed a grid-based Bayesian mixed model for longitudinal genetic data and showed that our Bayesian method increased the statistical power compared to the corresponding univariate method and well detected SNP-time interactions. In this paper, we further analyze longitudinal obesity-related traits such as body mass index, hip circumference, waist circumference, and waist-hip ratio from Korea Association Resource data to evaluate the proposed Bayesian method. We first conducted GWAS analyses of cross-sectional traits and combined the results of GWAS analyses through a meta-analysis based on a trajectory model and a random-effects model. We then applied our Bayesian method to a subset of SNPs selected by meta-analysis to further discover SNPs associated with traits of interest and SNP-time interactions. The proposed Bayesian method identified several novel SNPs associated with longitudinal obesity-related traits, and almost 25% of the identified SNPs had significant p-values for SNP-time interactions.