• 제목/요약/키워드: multivariate categorical data

검색결과 17건 처리시간 0.02초

다목적 다변량 자료분석을 위한 변수선택 (Variable Selection for Multi-Purpose Multivariate Data Analysis)

  • 허명회;임용빈;이용구
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.141-149
    • /
    • 2008
  • 다변량 자료분석에서 최근의 추세는 관측개체의 수 n이 커지는 외에 변수의 수 p가 큰사례들이 많아지고 있다는 것이다. n개 개체 각각에서 획득된 p개 변수들 $X_1$, $X_2$, $\ldots$, $X_p$ 가운데는 이름이나 개념적으로는 구분이 가능하지 만 실제로 거의 중복이 되는 변수들이 있을 수 있는데, 이들 변수들이 모두 분석에 포함되면 여러 문제가 유발될 수 있다. 예컨대 주성분 분석이나 인자분석에서는 중복 변수들이 주축(主軸, principal axis) 결정에, 관측개체 군집 화에서는 개체간 거리 산출에 왜곡된 영향을 줄 수 있다. 또한 목적변수가 지정된 지도학습(supervised learning)에서 설명변수들의 중복성은 추정모형의 안정성을 해치는 결과를 초래한다. 실제 자료 분석에서는 한 자료 세트가 여러 기법으로 탐색되고 다수의 모형이 추출되므로 변수세트를 최대한 절약적(parsimonious)으로 구성할 필요가 있다. 본 연구의 목적은 $X_1$, $X_2$, $\ldots$, $X_p$ 중에서 필요한 변수들은 선적하고 불필요한 변수들은 제거함으로써 주어진 변수세트를 보다 적은 크기의 변수세트로 대치하는 방법을 제시하는 데 있다. 제안 방법을 몇 개의 수치적 사례에 적용해 봄으로써 선적 변수와 제거변수간 관계의 시각화, 회귀모형에서의 유용성, 범주형 자료분석에서의 활용 등에 대해 논의 하고자 한다.

Predictors of Readmission after Inpatient Plastic Surgery

  • Jain, Umang;Salgado, Christopher;Mioton, Lauren;Rambachan, Aksharananda;Kim, John Y.S.
    • Archives of Plastic Surgery
    • /
    • 제41권2호
    • /
    • pp.116-121
    • /
    • 2014
  • Background Understanding risk factors that increase readmission rates may help enhance patient education and set system-wide expectations. We aimed to provide benchmark data on causes and predictors of readmission following inpatient plastic surgery. Methods The 2011 National Surgical Quality Improvement Program dataset was reviewed for patients with both "Plastics" as their recorded surgical specialty and inpatient status. Readmission was tracked through the "Unplanned Readmission" variable. Patient characteristics and outcomes were compared using chi-squared analysis and Student's t-tests for categorical and continuous variables, respectively. Multivariate regression analysis was used for identifying predictors of readmission. Results A total of 3,671 inpatient plastic surgery patients were included. The unplanned readmission rate was 7.11%. Multivariate regression analysis revealed a history of chronic obstructive pulmonary disease (COPD) (odds ratio [OR], 2.01; confidence interval [CI], 1.12- 3.60; P=0.020), previous percutaneous coronary intervention (PCI) (OR, 2.69; CI, 1.21-5.97; P=0.015), hypertension requiring medication (OR, 1.65; CI, 1.22-2.24; P<0.001), bleeding disorders (OR, 1.70; CI, 1.01-2.87; P=0.046), American Society of Anesthesiologists (ASA) class 3 or 4 (OR, 1.57; CI, 1.15-2.15; P=0.004), and obesity (body mass index ${\geq}30$) (OR, 1.43; CI, 1.09-1.88, P=0.011) to be significant predictors of readmission. Conclusions Inpatient plastic surgery has an associated 7.11% unplanned readmission rate. History of COPD, previous PCI, hypertension, ASA class 3 or 4, bleeding disorders, and obesity all proved to be significant risk factors for readmission. These findings will help to benchmark inpatient readmission rates and manage patient and hospital system expectations.

Estimation of Genetic Parameters for Calving Ease by Heifers and Cows Using Multi-trait Threshold Animal Models with Bayesian Approach

  • Lee, D.H.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제15권8호
    • /
    • pp.1085-1090
    • /
    • 2002
  • Genetic parameters for birth weights (BWT), calving ease scores observed from calves born by heifers (CEH), and calving ease scores observed from calves born by cows (CEC) were estimated using Bayesian methodology with Gibbs sampling in different threshold animal models. Data consisted of 77,458 records for calving ease scores and birth weights in Gelbvieh cattle. Gibbs samplers were used to obtain the parameters of interest for the categorical traits in two univariate threshold animal models, a bivariate threshold animal model, and a three-trait linear-threshold animal model. Samples of heritabilities and genetic correlations were calculated from the posterior means of dispersion parameters. In a univariate threshold animal model with CEH (model 1), the posterior means of heritabilities for calving ease was 0.35 for direct genetic effects and 0.18 for maternal genetic effects. In the other univariate threshold model with CEC (model 2), the posterior means of heritabilities of CEC was 0.28 for direct genetic effects and 0.18 for maternal genetic effects. In a bivariate threshold model with CEH and CEC (model 3), heritability estimates were similar to those in unvariate threshold models. In this model, genetic correlation between heifer calving ease and cow calving ease was 0.89 and 0.87 for direct genetic effect and maternal genetic effects, respectively. In a three-trait animal model, which contained two categorical traits (CEH and CEC) and one continuous trait (BWT) (model 4), heritability estimates of CEH and CEC for direct (maternal) genetic effects were 0.40 (0.23) and 0.23 (0.13), respectively. In this model, genetic correlation estimates between CEH and CEC were 0.89 and 0.66 for direct genetic effects and maternal effects, respectively. These estimates were greater than estimates between BWT and CEH (0.82 and 0.34) or BWT and CEC (0.85 and 0.26). This result indicates that CEH and CEC should be high correlated rather than estimates between calving ease and birth weight. Genetic correlation estimates between direct genetic effects and maternal effects were -0.29, -0.31 and 0.15 for BWT, CEH and CEC, respectively. Correlation for permanent environmental effects between BWT and CEC was -0.83 in model 4. This study can provide genetic evaluation for calving ease with other continuous traits jointly with assuming that calving ease from first calving was a same trait to calving ease from later parities calving. Further researches for reliability of dispersion parameters would be needed even if the more correlated traits would be concerned in the model, the higher reliability could be obtained, especially on threshold model with property that categorical traits have little information.

국내 식물 형태 연구에 사용된 다변량분석 논문에 대한 재고 (A Review of Multivariate Analysis Studies Applied for Plant Morphology in Korea)

  • 장계선;오하나;김휘;이흥수;장진성
    • 한국산림과학회지
    • /
    • 제98권3호
    • /
    • pp.215-224
    • /
    • 2009
  • 최근 10여년간(1997-2008년) 국내 식물 형태관련 연구논문중 주요 3개 학회지(한국임학회지, 한국식물분류학회지, 한국육종학회지)와 기타학회지(한국자원식물학회지, 생명과학학회지, 약용작물학회지, 한국양봉학회지, 원예과학기술지, 원예학회지) 등에 발표된 다변량 분석 54개 논문을 재검토하였다. 이들 논문에서 주성분 분석(PCA), 유집분석(CA)이 가장 많이 사용되었는데 본 연구는 이와 관련된 분석방법과 기초 통계 분석의 문제점을 검토하였다. 주성분 분석의 문제점은 기존 표본에 추출과 자료의 정규분포성에 대한 가설을 무시하는 것으로서 분산과 공분산을 구할 수 없는 정성형질을 섞어 사용하여 주성분 분석의 결과를 왜곡하여 분석하는 것이었다. 또한, 유집분석은 분석방법론에 따라 상당한 차이를 보여 정량적 형질 보다는 정성적 형질로 계수화하여 분석함을 권장하지만 대부분 정량적 형질로 분석하여 실제 상호 분석 대상군 간의 관계가 형성되지 않는 계단상 모양을 보였다. 또한, 일부 연구논문에서는 통계적 가설을 무시하고 임의로 자료를 해석하는 것도 자주 발견되는 문제점 중 하나였다. 주성분분석에서 주의해야 할 점은 주로 정량적 형질 사용이 권장되며, 이외 일정 수 이상의 변량(20여개 이상)과 적절한 개체수(40-50개 이상)가 필요하다는 것이다. 유집분석(혹은 군집분석)은 분석 대상을 강제로 유집시키는 성향이 있어 통계적 검증 방법을 사용하지 않고 단순히 거리 계산법 혹은 알고리즘 분석 방법에 의해 결과에 상당한 차이를 보이기 때문에 정량적 형질만을 근간으로 한 유집분석은 자제할 필요가 있다. 모든 자료를 쉽게 분석하기 위해서 단순히 통계적 방법론에 의존하기 보다는 연구목적과 일치한 분석 방법론을 적용하고자 하는 노력이 필수적이다.

The use of data mining methods for dystocia detection in Polish Holstein-Friesian Black-and-White cattle

  • Zaborski, Daniel;Proskura, Witold S.;Grzesiak, Wilhelm
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제31권11호
    • /
    • pp.1700-1713
    • /
    • 2018
  • Objective: The aim of this study was to verify the usefulness of artificial neural networks (ANN), multivariate adaptive regression splines (MARS), naïve Bayes classifier (NBC), general discriminant analysis (GDA), and logistic regression (LR) for dystocia detection in Polish Holstein-Friesian Black-and-White heifers and cows and to indicate the most influential predictors of calving difficulty. Methods: A total of 1,342 and 1,699 calving records including six categorical and four continuous predictors were used. Calving category (difficult vs easy or difficult, moderate and easy) was the dependent variable. Results: The maximum sensitivity, specificity and accuracy achieved for heifers on the independent test set were 0.855 (for ANN), 0.969 (for NBC), and 0.813 (for GDA), respectively, whereas the values for cows were 0.600 (for ANN), 1.000 and 0.965 (for NBC, GDA, and LR), respectively. With the three categories of calving difficulty, the maximum overall accuracy for heifers and cows was 0.589 (for MARS) and 0.649 (for ANN), respectively. The most influential predictors for heifers were an average calving difficulty score for the dam's sire, calving age and the mean yield of the farm, where the heifer was kept, whereas for cows, these additionally included: calf sex, the difficulty of the preceding calving, and the mean daily milk yield for the preceding lactation. Conclusion: The potential application of the investigated models in dairy cattle farming requires, however, their further improvement in order to reduce the rate of dystocia misdiagnosis and to increase detection reliability.

분류 트리 기법을 이용한 국내 일괄사육 양돈장의 차단방역 수준에 영향을 미치는 기여 요인 평가 (Classification Tree Analysis to Assess Contributing Factors Influencing Biosecurity Level on Farrow-to-Finish Pig Farms in Korea)

  • 김규욱;박선일
    • 한국임상수의학회지
    • /
    • 제33권2호
    • /
    • pp.107-112
    • /
    • 2016
  • The objective of this study was to determine potential contributing factors associated with biosecurity level of farrow-to-finish pig farms and to develop a classification tree model to explore how these factors related to each other based on prediction model. To this end, the author analyzed data (n = 193) extracted from a cross-sectional study of 344 farrow-to-finish farms which was conducted between March and September 2014 aimed to explore swine disease status at farm level. Standardized questionnaires with information about basic demographical data and management practices were collected in each farm by on-site visit of trained veterinarians. For the classification of the data sets regarding biosecurity level as a dependent variable and predictor variables, Chi-squared Automatic Interaction Detection (CHAID) algorithm was applied for modeling classification tree. The statistics of misclassification risk was used to evaluate the fitness of the model in terms of prediction results. Categorical multivariate input data (40 variables) was used to construct a classification tree, and the target variable was biosecurity level dichotomized into low versus high. In general, the level of biosecurity was lower in the majority of farms studied, mainly due to the limited implementation of on-farm basic biosecurity measures aimed at controlling the potential introduction and transmission of swine diseases. The CHAID model illustrated the relative importance of significant predictors in explaining the level of biosecurity; maintenance of medical records of treatment and vaccination, use of dedicated clothing to enter the farm, installing fence surrounding the farm perimeter, and periodic monitoring of the herd using written biosecurity plan in place. The misclassification risk estimate of the prediction model was 0.145 with the standard error of 0.025, indicating that 85.5% of the cases could be classified correctly by using the decision rule based on the current tree. Although CHAID approach could provide detailed information and insight about interactions among factors associated with biosecurity level, further evaluation of potential bias intervened in the course of data collection should be included in future studies. In addition, there is still need to validate findings through the external dataset with larger sample size to improve the external validity of the current model.

한우의 도체중, 배장근단면적 및 근내지방도의 유전모수 추정방법 (Methods for Genetic Parameter Estimations of Carcass Weight, Longissimus Muscle Area and Marbling Score in Korean Cattle)

  • 이득환
    • Journal of Animal Science and Technology
    • /
    • 제46권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 한우 종모우 선발을 위한 유전능력 평가에서 고려되는 형질들 중 이산형 형태로 조사되는 근내지방도의 유전변이가 추정방법에 따라 어느 정도 차이가 있는지 알아보기 위한 모의실험을 실시하였다. 모의실험 자료는 연속변량으로 간주되는 도체중 및 배장근단면적과 근내지방도의 잠재변수를 다변량 정규분포함수에서 생성하였고 근내지방도의 잠재변수를 이용하여 특정 임계값을 중심으로 순서화된 근내지방도 점수로 변화 하였따. 근내지방도의 점수 부여방법으로써 비거세우에서 조사된 근내지방도의 점수 1${\sim}$5점 사이에 정규분포에서 크게 어긋나는 분포특성을 갖도록 자료(DSI)를 생성하였고 또한 한우 거세우에서 현재 조사되고 있는 점수 1${\sim}$7점 사이에 정규 분포에 좀더 접근한 분포특성을 갖는 모의 자료(DS2)를 생성하였다. 분석방법간에 유전변이 추정의 정확도를 알아보기 위하여 1) 생성된 이들 자료를 선형으로 간주하고 다형질 혼합 선형 개체모형에서 REML 분석방법으로 유전변이를 추정하였고 2) 특정 임계치를 중심으로 잠재변수가 존재한다는 가정하에 다형질 임계 개체 혼합모형을 설정하여 Gibbs sampling 방법으로 유전변이를 추정하였다. 여기서 추정된 유전변이(유전력, 유전상관 및 잔차상관)에 대하여 모수와의 차이를 검정함으로써 편의되는 정도를 알아보았다. 모의실험은 각 자료에 대하여 10회 실시하였다. 분석결과, 근내지방도의 유전력 추정치는 DS1에서는 다형질 임계개체혼합모형을 설정하여 Gibbs sampling 방법으로 모수에 대한 사후분포의 평균으로 계산한 결과 참값과 유의적인 차이가 없는 것으로 분석되었다. 반면에 근내지방도를 선형으로 간주하고 다형질 선형 개체혼합모형에 의한 유전력 추정치는 모수보다 매우 낮은 유전력을 보였다(0.500 vs 0.315). 유전상관 추정치는 선형모형에서의 REML 방법 또는 임계모형에서의Gibbs sampling 방법에서 모두 모수와 유의적인 차이가 없는 것으로 분석되었으나 근내지방도의 잔차상관에 있어서 REML 방법으로 분석하였을 경우에 모수보다 낮게 추정되었다. 반면에 범주형 모형에서는 모수와 추정치 간에 유의적인 차이가 없는 것으로 분석되었다. 또한 7개의 범주형으로 조사된 자료(DS2)에서 이들 추정치는 DS1에서와 동일한 경향을 보였는데 그 편의 정도는 다소 적어지는 경향을 보였다. 따라서 이산형으로 조사되는 근내지방도에 대한 유전변이를 추정하기 위해서는 범주형 임계모형이 선형모형 보다 사소 정확한 추정을 할 수 있을 것으로 판단 되었다.