• 제목/요약/키워드: Multivariate statistical models

검색결과 126건 처리시간 0.031초

An approach for simultaneous determination for geographical origins of Korean Panax ginseng by UPLC-QTOF/MS coupled with OPLS-DA models

  • Song, Hyuk-Hwan;Kim, Doo-Young;Woo, Soyeun;Lee, Hyeong-Kyu;Oh, Sei-Ryang
    • Journal of Ginseng Research
    • /
    • 제37권3호
    • /
    • pp.341-348
    • /
    • 2013
  • Identification of the origins of Panax ginseng has been issued in Korea scientifically and economically. We describe a metabolomics approach used for discrimination and prediction of ginseng roots from different origins in Korea. The fresh ginseng roots from six ginseng cooperative associations (Gangwon, Gaeseong, Punggi, Chungbuk, Jeonbuk, and Anseong) were analyzed by UPLC-MS-based approach combined with orthogonal projections to latent structure-discriminant analysis multivariate analysis. The ginsengs from Gangwon and Gaeseong were easily differentiated. We further analyzed the metabolomics results in subgroups. Punggi, Chungbuk, Jeonbuk, and Anseong ginseng could be easily differentiated by the first two orthogonal components. As a validation of the discrimination model, we performed blind prediction tests of sample origins using an external test set. Our model predicted their geographical origins as 99.7% probability. The robust discriminatory power and statistical validity of our method suggest its general applicability for determining the origins of P. ginseng samples.

성근 바인 코풀라 모형을 이용한 고차원 금융 자료의 VaR 추정 (Value at Risk calculation using sparse vine copula models)

  • 안광준;백창룡
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.875-887
    • /
    • 2021
  • 최대예상손실액(VaR)은 위험관리수단으로 금융에서 시장위험을 측정하는 대표적인 값이다. 본 논문에서는 다양한 자산으로 이루어진 고차원 금융자료에서 자산들 간의 의존성 구조를 잘 설명할 수 있는 성근 바인 코풀라를 이용한 VaR 추정에 대해서 논의한다. 성근 바인 코풀라는 정규 바인 코풀라 모형에 벌점화를 적용한 방법으로 추정하는 모수의 개수를 벌점화를 통해 축소하는 방법이다. 모의 실험 결과 성근 바인 코풀라를 이용한 VaR 추정이 더 작은 표본 외 예측오차를 줌을 살펴볼수 있었다. 또한 최근 5년간의 코스피 60개 종목을 바탕으로 실시한 실증 자료 분석에서도 성근 바인 코풀라 모형이 더 좋은 예측 성능을 보임을 확인할 수 있었다.

Optimize rainfall prediction utilize multivariate time series, seasonal adjustment and Stacked Long short term memory

  • Nguyen, Thi Huong;Kwon, Yoon Jeong;Yoo, Je-Ho;Kwon, Hyun-Han
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.373-373
    • /
    • 2021
  • Rainfall forecasting is an important issue that is applied in many areas, such as agriculture, flood warning, and water resources management. In this context, this study proposed a statistical and machine learning-based forecasting model for monthly rainfall. The Bayesian Gaussian process was chosen to optimize the hyperparameters of the Stacked Long Short-term memory (SLSTM) model. The proposed SLSTM model was applied for predicting monthly precipitation of Seoul station, South Korea. Data were retrieved from the Korea Meteorological Administration (KMA) in the period between 1960 and 2019. Four schemes were examined in this study: (i) prediction with only rainfall; (ii) with deseasonalized rainfall; (iii) with rainfall and minimum temperature; (iv) with deseasonalized rainfall and minimum temperature. The error of predicted rainfall based on the root mean squared error (RMSE), 16-17 mm, is relatively small compared with the average monthly rainfall at Seoul station is 117mm. The results showed scheme (iv) gives the best prediction result. Therefore, this approach is more straightforward than the hydrological and hydraulic models, which request much more input data. The result indicated that a deep learning network could be applied successfully in the hydrology field. Overall, the proposed method is promising, given a good solution for rainfall prediction.

  • PDF

MPCA 기반의 통계기법을 이용한 진공펌프 상태진단에 관한 연구 (Study on Vacuum Pump Monitoring Using MPCA Statistical Method)

  • 성동원;김재환;정원태;이수갑;정완섭;임종연;정광화
    • 한국진공학회지
    • /
    • 제15권4호
    • /
    • pp.338-346
    • /
    • 2006
  • 반도체 공정에 사용되는 진공펌프는 가혹한 운전조건과 비선형적 특성으로 인하여 고장시점을 정확히 예측해내기가 어려운데 이로 인해 불량품이 양산되거나 불필요한 재원이 낭비되는 등의 문제가 발생하게 된다. 따라서 펌프의 운전상태를 올바르게 모니터링하고 고장 지점을 정확히 인지해 적절한 펌프 교체 시점을 알려주는 진공펌프 상태진단 모델의 개발은 매우 시급하고도 중대한 문제라 할 수 있겠다. 본 연구에서는 다변량 통계기법을 이용하여 영향력 있는 인자들을 종합적으로 고려하였으며 최종적으로 Hotelling's T2 통계량을 이용한 진공펌프 상태진단 모델을 제안하였다. 핵심적인 알고리즘으로는 Multiway Principal Component Analysis(MPCA)와 Dynamic Time Warping Algorithm(DTW Algorithm) 기법 등이 사용되었다.

통계분석을 이용한 경기도 대기 중 미세먼지 및 중금속 분포 특성 (Distribution Characteristics of PM10 and Heavy Metals in Ambient Air of Gyeonggi-do Area using Statistical Analysis)

  • 김종수;홍순모;김명숙;김요용;신은상
    • 한국대기환경학회지
    • /
    • 제30권3호
    • /
    • pp.281-290
    • /
    • 2014
  • This study was conducted to evaluate the distribution characteristics of $PM_{10}$ and heavy metals concentrations in the ambient air of Gyeonggi-do area by region and season from February, 2013 to March, 2014. The regression model for the prediction of formation characteristics and contamination degree of $PM_{10}$ and heavy metals by correlation analysis and regression analysis for using the multivariate statistical analysis was also established. The main wind direction during the investigation period was South East (SE) and West South West (WSW) winds, and the concentration of $SO_2$ at Ansan with industrial region showed 1.6 times higher than Suwon, Euiwang with residential region. The concentrations (median) of Pb, Cu and Ni at Ansan showed 3.2~4.5, 1.9~2.2 and 1.7~2.6 times respectively higher than those at Suwon. By the seasonal concentration variation, the concentrations of $PM_{10}$, Pb, Fe and As in winter and spring (December to May) showed 1.7, 1.9, 1.9 and 2.7 times respectively higher than those in summer and fall (June to November). As, Fe and $PM_{10}$ had a big difference by the seasonal factors, and Cu and Ni were evaluated to be influenced by the regional factors. From the results of correlation analysis among the target items, the correlation coefficient of PM and Mn had 0.82 (p/0.01) and that of Fe and Mn had 0.82 (p/0.01), which showed high correlation. And the correlation coefficients for $SO_2$ and Pb, CO and $PM_{10}$ were 0.66 (p/0.01) and 0.62 (p/0.01) respectively. The multiple linear regression models for $PM_{10}$, Pb, Cu, Cr, As, Ni, Fe and Mn were established by independent variables of CO, $SO_2$ and meteorological factors (wind speed, relative humidity). In the regression models, independent variable $SO_2$ was in cause-and-effect relationship with all dependent variables, and $PM_{10}$, Fe and Mn were influenced by CO and wind speed, and Pb, Cu, Ni and As had a main factor of $SO_2$.

다목적 다변량 자료분석을 위한 변수선택 (Variable Selection for Multi-Purpose Multivariate Data Analysis)

  • 허명회;임용빈;이용구
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.141-149
    • /
    • 2008
  • 다변량 자료분석에서 최근의 추세는 관측개체의 수 n이 커지는 외에 변수의 수 p가 큰사례들이 많아지고 있다는 것이다. n개 개체 각각에서 획득된 p개 변수들 $X_1$, $X_2$, $\ldots$, $X_p$ 가운데는 이름이나 개념적으로는 구분이 가능하지 만 실제로 거의 중복이 되는 변수들이 있을 수 있는데, 이들 변수들이 모두 분석에 포함되면 여러 문제가 유발될 수 있다. 예컨대 주성분 분석이나 인자분석에서는 중복 변수들이 주축(主軸, principal axis) 결정에, 관측개체 군집 화에서는 개체간 거리 산출에 왜곡된 영향을 줄 수 있다. 또한 목적변수가 지정된 지도학습(supervised learning)에서 설명변수들의 중복성은 추정모형의 안정성을 해치는 결과를 초래한다. 실제 자료 분석에서는 한 자료 세트가 여러 기법으로 탐색되고 다수의 모형이 추출되므로 변수세트를 최대한 절약적(parsimonious)으로 구성할 필요가 있다. 본 연구의 목적은 $X_1$, $X_2$, $\ldots$, $X_p$ 중에서 필요한 변수들은 선적하고 불필요한 변수들은 제거함으로써 주어진 변수세트를 보다 적은 크기의 변수세트로 대치하는 방법을 제시하는 데 있다. 제안 방법을 몇 개의 수치적 사례에 적용해 봄으로써 선적 변수와 제거변수간 관계의 시각화, 회귀모형에서의 유용성, 범주형 자료분석에서의 활용 등에 대해 논의 하고자 한다.

인공신경망 기반 호텔 부도예측모형 개발 (A Development of Hotel Bankruptcy Prediction Model on Artificial Neural Network)

  • 최성주;이상원
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.125-133
    • /
    • 2014
  • 본 논문에서는 호텔경영을 위한 인공신경망 기반의 부도예측 모형을 개발한다. 부도예측 모형은 호텔에서 관리하는 사업장의 사업성과 이터를 바탕으로 부도 가능성을 평가하여 호텔 전체사업의 부도를 예측하는 특징을 가진다. 부도예측을 위한 전통적인 통계기법은 다변량 판별분석이나 로짓분석 등이 있는데, 본연구는 이들보다 우수한 예측정확성을 갖는 인공신경망 기법을 이용해서 연구를 진행하였다. 이를 위해 우선 우수기업 100개와 도산기업 100개를 선정하여 전체 실험데이터를 구성하고, 뉴로쉘이라는 인공신경망 도구를 이용하여 부도예측모형을 구성하였다. 본 모형 설계와 실험은 서비스드 레지던스 호텔에서 관리하는 각 브랜치의 부도예측과 재무건전성을 판단하기에 효율성이 높아 호텔 경영의 의사결정에 많은 도움이 될 것이다.

구조방정식 모형을 이용한 이탈리안 라이그라스 생산량에 대한 기후요인의 연구 (Analysis of Climate Effects on Italian Ryegrass Yield via Structural Equation Model)

  • 김문주;성경일;김영주
    • 응용통계연구
    • /
    • 제27권7호
    • /
    • pp.1187-1196
    • /
    • 2014
  • 우리나라 대표적인 동계 사료작물인 이탈리안 라이그라스(Italian Ryegrass: IRG)는 사초의 품질과 수량이 높은 반면 내한성이 낮아 중남부 지방에서 주로 재배되고 있다. 본 연구는 우리나라에서 수행된 IRG 연구 자료(n = 375)와 기상청의 기상자료를 이용하여 IRG 수량과 온도, 강수량 등의 기상 변수들과의 인과관계를 분석하였다. 다변량 정규성가정 하에 계절효과를 지닌 구조방정식모형을 고려하여 분석한 결과, 동계작물인 IRG의 수량은 이듬해 봄의 기온에 직접적인 영향을 받고, 이듬해 봄 강수는 다른 요인을 통하여 영향을 미치는 것으로 나타났다. 즉, 저온으로 월동에 문제가 있는 지역에서 IRG 를 이른 봄에 파종하여도 충분히 생산성이 있다는 것을 의미한다. 이번 연구를 통해서 IRG 수량에 대한 보다 구체적이고 종합적인 인과관계를 고찰하는 계기를 마련하였으며, 앞으로 다른 초종에 대해서도 다양한 구조방정식 모형 연구를 통하여 수량증대에 기여할 것으로 사료된다.

Determinants of Poor Self-rated Health in Korean Adults With Diabetes

  • Lee, Hwi-Won;Song, Minkyo;Yang, Jae Jeong;Kang, Daehee
    • Journal of Preventive Medicine and Public Health
    • /
    • 제48권6호
    • /
    • pp.287-300
    • /
    • 2015
  • Objectives: Self-rated health is a measure of perceived health widely used in epidemiological studies. Our study investigated the determinants of poor self-rated health in middle-aged Korean adults with diabetes. Methods: A cross-sectional study was conducted based on the Health Examinees Study. A total of 9759 adults aged 40 to 69 years who reported having physician-diagnosed diabetes were analyzed with regard to a range of health determinants, including sociodemographic, lifestyle, psychosocial, and physical variables, in association with self-rated health status using multivariate logistic regression models. A p-value <0.05 was considered to indicate statistical significance. Results: We found that negative psychosocial conditions, including frequent stress events and severe distress according to the psychosocial well-being index, were most strongly associated with poor self-rated health (odds ratio $[OR]_{\text{Frequent stress events}}$, 5.40; 95% confidence interval [CI], 4.63 to 6.29; $OR_{\text{Severe distress}}$, 11.08; 95% CI, 8.77 to 14.00). Moreover, younger age and being underweight or obese were shown to be associated with poor self-rated health. Physical factors relating to participants' medical history of diabetes, such as a younger age at diagnosis, a longer duration of diabetes, insulin therapy, hemoglobin A1c levels of 6.5% or more, and comorbidities, were other correlates of poor reported health. Conclusions: Our findings suggest that, in addition to medical variables, unfavorable socioeconomic factors, and adverse lifestyle behaviors, younger age, being underweight or obese, and psychosocial stress could be distinc factors in predicting negative perceived health status in Korean adults with diabetes.

Reproductive Variables and Risk of Breast Malignant and Benign Tumours in Yunnan Province, China

  • Yanhua, Che;Geater, Alan;You, Jing;Li, Li;Shaoqiang, Zhou;Chongsuvivatwong, Virasakdi;Sriplung, Hutcha
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제13권5호
    • /
    • pp.2179-2184
    • /
    • 2012
  • Introduction and aim: To compare reproductive factor influence on patients with pathological diagnosed malignant and benign tumor in the Breast Department, The First Peoples' Hospital of Kunming in Yunnan province, China. Methods: A hospital-based case-control study was conducted on 263 breast cancer (BC) cases and 457 non-breast cancer controls from 2009 to 2011. The cases and controls information on demographics, medical history, and reproductive characteristics variables were collected using a self-administered questionnaire and routine medical records. Histology of breast cancer tissue and benign breast lesion were documented by pathology reports. Since some variables in data analysis had zero count in at least one category, binomial-response GLM using the bias-reduction method was applied to estimate OR's and their 95% confidence intervals (95% CI). To adjust for age and menopause status, a compound variable comprising age and menopausal status was retained in the statistical models. Results: multivariate model analysis revealed significant independent positive associations of BC with short menstrual cycle, old age at first live birth, never breastfeeding, history of oral contraception experience, increased number of abortion, postmenopausal status, and nulliparity. Categorised by age and menopausal status, perimenopausal women had about 3-fold and postmenopausal women had more than 5-fold increased risk of BC compared to premenopausal women. Discussion and Conclusion: This study has confirmed the significant association of BC and estrogen related risk factors of breast cancer including longer menstrual cycle, older age of first live birth, never breastfeeding, nulliparity, and number of abortions more than one. The findings suggest that female hormonal factors, especially the trend of menopause status play a significant role in the development of BC in Yunnan women.