• 제목/요약/키워드: Multivariate statistical models

검색결과 126건 처리시간 0.024초

The use of data mining methods for dystocia detection in Polish Holstein-Friesian Black-and-White cattle

  • Zaborski, Daniel;Proskura, Witold S.;Grzesiak, Wilhelm
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제31권11호
    • /
    • pp.1700-1713
    • /
    • 2018
  • Objective: The aim of this study was to verify the usefulness of artificial neural networks (ANN), multivariate adaptive regression splines (MARS), naïve Bayes classifier (NBC), general discriminant analysis (GDA), and logistic regression (LR) for dystocia detection in Polish Holstein-Friesian Black-and-White heifers and cows and to indicate the most influential predictors of calving difficulty. Methods: A total of 1,342 and 1,699 calving records including six categorical and four continuous predictors were used. Calving category (difficult vs easy or difficult, moderate and easy) was the dependent variable. Results: The maximum sensitivity, specificity and accuracy achieved for heifers on the independent test set were 0.855 (for ANN), 0.969 (for NBC), and 0.813 (for GDA), respectively, whereas the values for cows were 0.600 (for ANN), 1.000 and 0.965 (for NBC, GDA, and LR), respectively. With the three categories of calving difficulty, the maximum overall accuracy for heifers and cows was 0.589 (for MARS) and 0.649 (for ANN), respectively. The most influential predictors for heifers were an average calving difficulty score for the dam's sire, calving age and the mean yield of the farm, where the heifer was kept, whereas for cows, these additionally included: calf sex, the difficulty of the preceding calving, and the mean daily milk yield for the preceding lactation. Conclusion: The potential application of the investigated models in dairy cattle farming requires, however, their further improvement in order to reduce the rate of dystocia misdiagnosis and to increase detection reliability.

SOM에서 개체의 시각화 (Enhancing Visualization in Self-Organizing Maps)

  • 엄익현;허명회
    • 응용통계연구
    • /
    • 제18권1호
    • /
    • pp.83-98
    • /
    • 2005
  • 다변량 자료를 분석하는 데 있어서 관측 개체들의 분포적 양태를 파악하는 것은 자료 특성의 이해에 도움이 될 뿐만 아니라 이후 모형화 과정에도 큰 도움을 준다. 이를 위하여 다변량자료의 저차원 시각화에 대한 많은 연구가 진행되어 왔다. 그 중 하나가 코호넨(T. Kohonen)의 자기조직화지도(Self-Organizing Map; SOM)이다. SOM은 저차원 그리드 공간에 고차원 다변량 자료를 축약하여 시각적으로 나타내는 비지도 학습법의 일종으로 최근 들어 통계 분석자들이 많은 관심을 가지고 있는 분야이다. 그러나 SOM은 개체공간의 연속형으로 표현되는 개체를 저차원 그리드 공간에 승자노드에 의해 비연속적으로 표현한다는 단점을 지니고 있다. 본 논문에서는 SOM을 통계적 목적으로 사용하기 위해 요구되는 그리드 공간에 개체를 연속적으로 표현하는 방법들을 제안하고 환용 예를 제시 하고자 한다.

지역 간 흡연율 격차 영향요인 분석 및 금연사업 상대적 효율성 평가: Clustering Analysis와 Data Envelopment Analysis를 활용하여 (Analysis of Factors Affecting the Smoking Rates Gap between Regions and Evaluation of Relative Efficiency of Smoking Cessation Projects)

  • 김희년;이다호;정지윤;구여정;정형선
    • 보건행정학회지
    • /
    • 제30권2호
    • /
    • pp.199-210
    • /
    • 2020
  • Background: Based on the importance of ceasing smoking programs to control the regional disparity of smoking behavior in Korea, this study aims to reveal the variation of smoke rate and determinants of it for 229 provinces. An evaluation of the relative efficiency of the cease smoking program under the consideration of regional characteristics was followed. Methods: The main sources of data are the Korean Statistical Information Service and a national survey on the expenditure of public health centers. Multivariate regression is performed to figure the determinants of regional variation of smoking rate. Based on the result of the regression model, clustering analysis was conducted to group 229 regions by their characteristics. Three clusters were generated. Using data envelopment analysis (DEA), relative efficiency scores are calculated. Results from the pooled model which put 229 provinces in one model to score relative efficiency were compared with the cluster-separated model of each cluster. Results: First, the maximum variation of the smoking rate was 16.9%p. Second, sex ration, the proportion of the elder, and high risk drinking alcohol behavior have a significant role in the regional variation of smoking. Third, the population and proportion of the elder are the main variables for clustering. Fourth, dissimilarity on the results of relative efficiency was found between the pooled model and cluster-separated model, especially for cluster 2. Conclusion: This study figured regional variation of smoking rate and its determinants on the regional level. Unconformity of the DEA results between different models implies the issues on regional features when the regional evaluation performed especially on the programs of public health centers.

그리드 단체 위의 디리슐레 분포에서 마르코프 연쇄 몬테 칼로 표집 (MCMC Algorithm for Dirichlet Distribution over Gridded Simplex)

  • 신봉기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권1호
    • /
    • pp.94-99
    • /
    • 2015
  • 비모수 베이스 통계학, 확률적 표집에 기반한 추론 등이 기계학습의 주요 패러다임으로 등장하면서 디리슐레(Dirichlet) 분포는 최근 다양한 그래프 모형 곳곳에 등장하고 있다. 디리슐레 분포는 일변수 감마 분포를 벡터 분포로 확장한 형태의 하나이다. 본 논문에서는 감마 분포를 갖는 임의의 자연수 X를 K개의 자연수의 합으로 임의 분할 할 때 각 부분의 크기 비율을 디리슐레 분포에서 표집하는 방법을 제안한다. 일반적으로 디리슐레 분포는 연속적인 (K-1)-단체(simplex) 위에 정의 되지만 자연수로 분할하는 표본은 자연수라는 조건 때문에 단체 내부의 이산 그리드 점에만 정의된다. 본 논문에서는 단체 위의 그리드 상의 이웃 점들의 확률 분포로부터 마르코프연쇄 몬테 칼로(MCMC) 제안 분포를 정의하고 일련의 표본들의 마르코프 연쇄를 구현하는 알고리듬을 제안한다. 본 방법은 마르코프 모델, HMM 및 준-HMM 등에서 각 상태별 시간 지속 분포를 표현하는데 활용 가능하다. 나아가 최근 제안된 전역-지역(global-local) 상태지속 분포를 동시에 모형화하는 감마-디리슐레 HMM에도 응용가능하다.

Comparative Study of NIR-based Prediction Methods for Biomass Weight Loss Profiles

  • Cho, Hyun-Woo;Liu, J. Jay
    • 청정기술
    • /
    • 제18권1호
    • /
    • pp.31-37
    • /
    • 2012
  • 바이오매스가 가진 재생 가능성과 환경적인 장점으로 인해 바이오매스는 바이오에너지와 다른 제품의 주요 원료가 되었다. 바이오매스의 중요 성질을 예측하기 위해 분광학 데이터를 이용하는 연구를 포함한 많은 연구가 수행되었는데 근적외선 분광학은 빠르고 신뢰성 있는 결과를 저비용으로 제공하는 비파괴 방법이기 때문에 널리 사용되었다. 이 연구에서는 서로 다른 여섯가지의 목질계 바이오매스의 근적외선 스펙트럼 데이터를 기반으로 질량 손실 프로파일을 예측하는 다변량 통계기법을 개발하였으며, 상관없는 잡음을 제거하고 근적외선 데이터를 잘 설명하는 파장대역을 선택하기 위해 웨이블릿 분석이 사용되었다. 실제 근적외선 데이터를 가지고 개발된 방법을 예시하였는데 이 때 여러가지 예측모델이 예측 성능을 기준으로 평가되었고 적절한 근적외선 스펙트럼 전처리법의 장점 또한 설명되었다. 웨이블릿으로 압축된 근적외선 스펙트럼을 이용한 부분최소자승법 예측모델이 가장 좋은 성능을 보였으며 개발된 방법은 바이오매스의 빠른 분석에 쉽게 적용될 수 있음 또한 증명되었다.

A Study on the Effect of Media Education in Patients with Temporomandibular Joint Disorders

  • Min Chang;Jeong-Seung Kwon;Seong-Taek Kim;Jong-Hoon Choi;Hyung-Joon Ahn
    • Journal of Oral Medicine and Pain
    • /
    • 제47권4호
    • /
    • pp.198-205
    • /
    • 2022
  • Purpose: The first-line treatment of temporomandibular joint disorders (TMDs) should include self-management and education. Self-management techniques include moist heat application, stretching, diet control, and mandibular rest position adjustment. Although the effectiveness of video educational resources has been studied in multiple sectors, their application in TMD management has not yet been explored. This study seeks to assess how effective media education was at motivating TMD patients to self-management and improve symptoms. Methods: Data were obtained from the hospital records of TMD patients who visited the Department of Oral Medicine, Yonsei University Dental Hospital, between May 2020 and December 2021. First, without any differences between groups, a significance analysis was conducted between the degree of self-management and symptom improvement over time. At the second visit, one group received media education (n=31) linked to TMD management, while the other received written-oriented education (n=45). At the third visit, the number of precautions taken by the patients was determined and contrasted to that recorded in the previous visit between the groups. Generalized estimated equation multivariate models were applied for statistical analysis. Results: In the media education group, the frequency of stretching and the number of patients on pain-free diets increased substantially. Taking precautions improved daily pain intensity, maximum mouth opening, and pain intensity during the maximum unassisted opening. Conclusions: Media education could be beneficial for TMD patients because it allows them to take self-management precautions. The symptoms of the media education group improved, with no considerable distinction between both groups.

Pathologic conditions associated with impacted third molars: A retrospective study of panoramic radiographs in a Southern Brazilian population

  • Gabriela Brum Cardoso;Gleica Dal' Ongaro Savegnago;Waneza Dias Borges Hirsch;Mariana Boessio Vizzotto;Gabriela Salatino Liedke
    • Imaging Science in Dentistry
    • /
    • 제53권4호
    • /
    • pp.303-312
    • /
    • 2023
  • Purpose: This study investigated the prevalence of developmental and acquired pathologic conditions associated with impacted third molars (3Ms) in a Southern Brazilian population and evaluated whether demographic and tooth characteristics were correlated with the presence of bone or tooth lesions. Materials and Methods: Panoramic radiographs were assessed for developmental (bone-related) or acquired (tooth-related) pathoses associated with impacted upper or lower 3Ms. Data on tooth positioning, tooth development, and patient demographics were collected. A trained, calibrated postgraduate student evaluated all images. Binary and multivariate logistic regression models were used to assess associations between outcomes and the demographic and radiographic variables. The threshold for statistical significance was set at 5% (P<0.05). Results: The sample comprised panoramic radiographs from 2054 patients, predominantly female (59.2%), with a mean age of 27.2±11.5 years. Overall, 4066 impacted 3Ms were evaluated, revealing 471 (11.6%) developmental and 710 (17.5%) acquired pathoses. Among the developmental pathoses, 460 (95.2%) were indicative of dentigerous cysts. Male sex, lower 3M location, vertical or distoangular positioning, and incomplete root formation were associated with an elevated likelihood of developmental pathology. Lower tooth position, complete root formation, and partial eruption were linked to an increased probability of an acquired pathology in the third or second molar. Conclusion: The prevalence of pathologic conditions associated with impacted 3Ms was low. Male sex, lower 3M placement, horizontal or distoangular positioning, and incomplete root formation were associated with developmental pathoses, while lower tooth position, complete root formation, and partial eruption were related to acquired pathoses.

경시적 영과잉 가산자료와 생존자료의 결합모형 (A joint modeling of longitudinal zero-inflated count data and time to event data)

  • 김동욱;천지훈
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1459-1473
    • /
    • 2016
  • 시간의 흐름에 따라 관측되는 경시적(longitudinal) 자료의 경우, 경시적 자료와 생존(survival) 자료가 종종 동시에 수집된다. 이 때 경시적 자료에서 발생하는 결측이 생존자료와의 연관성으로 인해 발생한 무시할 수 없는 결측(non-ignorable missing)이라면, 경시적 자료분석 방법만으로는 두 자료 간의 연관성을 고려하지 않아 독립변수에 대한 효과는 편향된 결과를 얻게 된다. 이러한 문제를 해결하기 위해서 결측의 원인이 생존시간과 연관되어 있으므로 생존모형을 고려하여 불편추정량을 얻기 위해 경시적 자료와 생존자료의 결합모형에 대한 연구가 이루어져 왔다. 본 논문은 경시적 자료의 형태가 영이 많이 존재하는 영과잉 가산자료(zero-inflated count data)와 생존자료의 결합모형을 연구하였다. 경시적 영과잉 가산자료와 생존자료는 각각 허들모형(hurdle model)과 비례위험모형(proportional hazards model)의 부 모형을 적용하였고, 두 부 모형들의 변량효과가 다변량 정규분포를 따른다는 가정을 통하여 결합하였다. 모수의 최우추정법으로 EM 알고리즘을 활용하였고, 추정된 표준오차를 계산하기 위해 프로파일 우도(profile likelihood)를 이용하였다. 최종적으로 모의실험을 통해 두 부 모형의 변량효과 간 상관관계가 존재하는 경우 결합모형이 개별적 모형보다 편의와 포함확률(coverage probability)의 측면에서 더 우수함을 보였다.

풍기 지역 지하수의 수리지구화학 및 환경동위원소 특성 연구 (Hydrogeochemical and Environmental Isotope Study of Groundwaters in the Pungki Area)

  • 윤성택;채기탁;고용권;김상렬;최병영;이병호;김성용
    • 대한지하수환경학회지
    • /
    • 제5권4호
    • /
    • pp.177-191
    • /
    • 1998
  • 경북 풍기읍 일대의 선캠브리아기 편마암 지역에 부존하는 지하수계의 수리지구화학.수리지질학적 특성을 규명하기 위하여, 지표수, 천층 지하수(심도<70 m) 및 심층 지하수(심도 500~810 m)를 대상으로 수리화학, 다변량 통계, 열역학, 환경 동위원소(삼중수소, 산소-수소, 탄소, 황) 및 질량 보존 모델링을 포함한 종합적인 연구를 수행하였다. 천층 지하수의 수질은 Ca, Mg, SO$_4$및 NO$_3$의 함량이 높은 'Ca-HCO$_3$' 유형으로 특징되는 반면, 심층 지하수는 Na, Ba, Li, H$_2$S, F 및 Cl의 함량이 높고 방해석에 대해 포화 상태를 보이는 'Na-HCO$_3$' 유형으로 특징된다. 본 지역 자연수의 수질은 크게 두 유형, 즉 1) 지표수 및 천층 지하수와 2) 심층 지하수 및 일부천층 지하수로 대분되며, 앞의 유형은 계절적인 조성 변화를 나타낸다. 다변량 통계 분석 결과, 심층 지하수의 수질을 지배하는 세 개의 요인이 도출되었다. 이들 요인은 총 86%의 설명력을 가지는데, 1) 사장석의 용해와 방해석의 침전, 2) 황산염의 환원, 3) 수산화 광물(특히 운모류)의 산성 가수 분해 반응으로 요약될 수 있다. 열역학적 해석 결과와 결합한 질량 보존 모델링을 통하여, 심층 지하수의 수질 특성을 지배하는 수/암 반응을 적절히 설명해 주는 네 개의 모델을 제시하였다. 각 모델은 사장석, 고령토 및 운모류 용해와 방해석, 일라이트, 로몬타이트, 녹니석 및 스멕타이트의 침전을 보여준다. 산소 및 수소 동위원소 연구 결과, 심층 지하수의 경우는 먼 거리의 고지대(소백산 일대)에서 충진된 강우로부터 기원한 후 광역적인 심층 순환을 하면서 상당한 정도의 수/암 반응을 수반한 반면, 천층 지하수는 근처의 저지대에서 충진되었음을 알 수 있다. 삼중수소 자료에 따르면, 심층 지하수(0.2 TU)의 충진 연령은 핵실험 이전인 반면, 천층 지하수(5.66~7.79 TU)는 핵실험 이후였다. 용존 황산염의 황동위원소 조성 분석을 통하여, 본 지역의 심층 지하수에서 특징적으로 높은 함량을 보이는 황화수소(최대 3.9mg/l) 는 황산염의 환원에 기인함을 밝혔다. 또한, 용존 탄산염의 탄소 동위원소비는 토양 이산화탄소에 의한 탄산염 광물의 용해(천층 지하수의 경우), 또는 방해석의 재침전(심층 지하수의 경우)에 의해 조절되고 있음을 확인하였다. 본 지역에 부존하는 지하수의 기원과 유동 및 화학적 진화를 종합적으로 보여주는 모델을 제시한다.

  • PDF

불완전한 반복측정 자료의 보정방법 (Methods for Handling Incomplete Repeated Measures Data)

  • 우해봉;윤인진
    • 한국조사연구학회지:조사연구
    • /
    • 제9권2호
    • /
    • pp.1-27
    • /
    • 2008
  • 사회조사 자료를 활용한 통계분석에 있어서 불완전 자료의 문제는 거의 모든 연구자들이 경험하는 하나의 보편적인 문제이다. 불완전 자료의 문제는 특히 패널조사와 같은 종단적 자료를 활용한 연구에 있어서 중요한 이슈가 된다. 본 연구의 목적은 최근까지 이루어진 불완전 자료에 대한 보정방범을 소개하는 것이다. 특히, 본 연구는 패널자괴에서 발생한 불완전 자료의 처리에 대한 관심이 부족한 점을 고려하여 최근까지 이루어진 보정방법들을 반복측정 패널자료 분석에 적용하는데 초점을 맞춘다. 첫째, 본 연구는 불완전 자료에 대한 적절하지 못한 사후처리는 분석결과에 있어서 유의미한 차이로 이어 수 있음을 시사한다. 특히, 분석결과는 반복측정 자료를 사용하는 연구의 경우 불완전 자료의 발생은 궤적의 초기값보다는 시간의 경과에 따른 궤적의 변화를 적절히 추정하는데 문제를 가질 수 있음을 시사하고 있다. 둘째, 분석결과는 완전제거법이나 평균대체법이 EM, FIML, MICE 방법들에 비해 불완전 자료의 처리효과가 상대적으로 떨어짐을 보여준다. 특히, 완전제거법이나 평균대체법과 같은 방법에 비해 최대우도법이나 다중대체법이 갖는 상대적 우위는 MCAR 가정에 비해 보다 현실적인 가정이라고 할 수 있는 MAR 조건하에서 크게 나타난다. 본 연구의 분석결과는 또한 비록 결측치의 발생기제가 MNAR 상황이라고 하더라도 연구자가 결측치의 발생과 관련된 변수들을 보정과정에서 적절하게 활용하면 편의의 상당부분을 감소시킬 수 있음을 시사한다.

  • PDF