• 제목/요약/키워드: 혼합다변량정규분포

검색결과 7건 처리시간 0.021초

EM 알고리즘에 의한 다변량 치우친 정규분포 혼합모형의 근사적 적합 (An approximate fitting for mixture of multivariate skew normal distribution via EM algorithm)

  • 김승구
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.513-523
    • /
    • 2016
  • 다중 치우침 모수벡터를 가진 다변량 치우친 정규분포 (MSNMix)를 EM 알고리즘으로 적합하려면 E-step에서 다변량 절단 정규분포의 적률과 확률을 계산해야 하는데 이것은 매우 큰 계산 시간을 요구한다. 그래서 비대칭 자료를 적합하는데 흔히 단순 치우침 모수를 가진 모형을 적용한다. 이 모형은 단변량 처리방식으로 적합하는 것이 가능하기 때문에 처리속도가 매우 빠르다. 그러나 단순 치우침 모수를 적용하는 것은 응용에서 비현실적인 경우가 많다. 본 논문에서는 다중 치우침 모수를 가지는 MSNMix의 근사적 추정법을 제안하는데, 이 방법은 단변량 처리방식이 적용되므로 향상된 처리속도를 보장한다. 그리고 제안된 방법의 실효성을 보이기 위해 몇 가지 실험 결과를 제공한다.

다변량 경험분포그림과 적합도 검정 (Multivariate empirical distribution plot and goodness-of-fit test)

  • 홍종선;박용호;박준
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.579-590
    • /
    • 2017
  • 다변량 자료의 분포함수를 알고 있거나 추정할 수 있으면 다변량 경험분포함수를 정의할 수 있다. 이변량인 경우에는 계단그림과 분위그림을 사용하여 경험분포함수를 시각화할 수 있는데, 본 연구에서는 다변량인 경우에 경험분포함수를 정사각형에 표현할 수 있는 다변량 경험분포그림을 제안하였다. 여러 종류의 다변량 정규분포와 특정한 분포에 대하여 경험분포그림을 작성하고 특징을 살펴보니, 다양한 분산공분산행렬을 포함된 분포함수에 따라 경험분포그림이 민감하게 반응하는 것을 탐색하였다. 이를 바탕으로 경험분포함수를 구할 때 가정한 다변량 분포함수의 적합도 검정방법을 제안하였다. 대표적인 다섯 종류의 적합도 검정방법을 사용하고, 다양한 분포함수들에 대하여 각각의 검정통계량 기각역을 구하였다. 본 연구에서 얻은 기각역은 문헌에서 구할 수 있는 기각역과 큰 차이가 없음을 발견하였다. 그러므로 본 연구에서 제안한 적합도 검정방법을 문헌에서 제시한 기각역으로 쉽게 사용할 수 있는 장점이 있다.

다변량 지구과학 데이터와 가우시안 혼합 모델을 이용한 공간 분포 추정 (Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data)

  • 김호림;유순영;윤성택;김경호;이군택;이정호;허철호;류동우
    • 자원환경지질
    • /
    • 제55권4호
    • /
    • pp.353-366
    • /
    • 2022
  • 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICP-AES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICP-AES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다 변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다.

반복측정의 분할구 자료에 대한 혼합모형 (A mixed model for repeated split-plot data)

  • 최재성
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.1-9
    • /
    • 2010
  • 본 논문은 분할구 실험에서 반복측정 요인이 처치의 한 요인으로 고려될 때, 실험자료의 분석을 위한 혼합모형과 모형내 미지모수의 추론을 위한 방법을 논의한다. 반복측정 요인으로 공간요인을 고려하고 공간요인의 수준은 분할구에 할당되나 연구자가 임의로 배정할 수 없는 실험환경이 가정된다. 이러한 실험의 특성을 갖는 자료벡터의 확률분포로 복합대칭의 공분산 구조를 갖는 다변량 정규분포를 논의하고 있다. 또한, 가정된 실험환경에 부합하는 적합한 자료의 예를 통하여 제시된 모형의 타당성과 관련모수들의 추론방법을 다루고 있다.

혼합설계의 교호작용에 대한 여러 검정법들과 결사평균을 이용하여 변형한 검정법들의 강인성 비교

  • 김현철
    • Communications for Statistical Applications and Methods
    • /
    • 제5권3호
    • /
    • pp.633-644
    • /
    • 1998
  • 혼합설계의 교호작용에 대한 F 검정이 유효하려면 다표본 구형성(multisample sphericity) 가정과 다변량 정규분포 가정이 만족되어야 한다. F 검정을 실시하기 위한 가정들이 위반된 조건하에서 혼합설계의 교호작용에 대한 검정법들의 1종오류가 비교되었다. 비교된 검정법들은 (1) F 검정(F), (2) 절사평균을 사용한 F 검정($F_T$)(3)$\varepsilon$-수정 F 검정($\varepsilon)$(4) 절사평균을 사용한 $\varepsilon$-수정 F 검정$(\varepsilon_T$) (5) CIGA검정(CIGA), (6) 절사평균을 사용한 CIGA검정($CIGA_T$)이었다. 결과는 CIGA와 $CIGA_T$는 1종오류를 대체로 잘 관리하나, F검정들과 ($\varepsilon$)검정들은 일부 조건에서 아주 작은 1종오류나 아주 큰 1종오류를 갖는 것으로 나타났다.

  • PDF

이중 K-평균 군집화 (Double K-Means Clustering)

  • 허명회
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.343-352
    • /
    • 2000
  • K-평균 군집화(K-means clustering)는 비계층적 군집화 방법이 하나로서 큰 자료에서 개체 군집화에 효율적인 것으로 알려져 있다. 그러나 종종 비교적 균일한 대군집의 일부를 소군집에 떼어주는 오류를 범하기도 한다. 이 연구에서는 그러한 현상을 정확히 인지하고 이에 대한 대책으로서 ‘이중 K-평균 군집화(double K-means clustering)’방법을 제시한다. 또한 실증적 사례에 새 방법론을 적용해보고 토의한다.

  • PDF

한우의 도체중, 배장근단면적 및 근내지방도의 유전모수 추정방법 (Methods for Genetic Parameter Estimations of Carcass Weight, Longissimus Muscle Area and Marbling Score in Korean Cattle)

  • 이득환
    • Journal of Animal Science and Technology
    • /
    • 제46권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 한우 종모우 선발을 위한 유전능력 평가에서 고려되는 형질들 중 이산형 형태로 조사되는 근내지방도의 유전변이가 추정방법에 따라 어느 정도 차이가 있는지 알아보기 위한 모의실험을 실시하였다. 모의실험 자료는 연속변량으로 간주되는 도체중 및 배장근단면적과 근내지방도의 잠재변수를 다변량 정규분포함수에서 생성하였고 근내지방도의 잠재변수를 이용하여 특정 임계값을 중심으로 순서화된 근내지방도 점수로 변화 하였따. 근내지방도의 점수 부여방법으로써 비거세우에서 조사된 근내지방도의 점수 1${\sim}$5점 사이에 정규분포에서 크게 어긋나는 분포특성을 갖도록 자료(DSI)를 생성하였고 또한 한우 거세우에서 현재 조사되고 있는 점수 1${\sim}$7점 사이에 정규 분포에 좀더 접근한 분포특성을 갖는 모의 자료(DS2)를 생성하였다. 분석방법간에 유전변이 추정의 정확도를 알아보기 위하여 1) 생성된 이들 자료를 선형으로 간주하고 다형질 혼합 선형 개체모형에서 REML 분석방법으로 유전변이를 추정하였고 2) 특정 임계치를 중심으로 잠재변수가 존재한다는 가정하에 다형질 임계 개체 혼합모형을 설정하여 Gibbs sampling 방법으로 유전변이를 추정하였다. 여기서 추정된 유전변이(유전력, 유전상관 및 잔차상관)에 대하여 모수와의 차이를 검정함으로써 편의되는 정도를 알아보았다. 모의실험은 각 자료에 대하여 10회 실시하였다. 분석결과, 근내지방도의 유전력 추정치는 DS1에서는 다형질 임계개체혼합모형을 설정하여 Gibbs sampling 방법으로 모수에 대한 사후분포의 평균으로 계산한 결과 참값과 유의적인 차이가 없는 것으로 분석되었다. 반면에 근내지방도를 선형으로 간주하고 다형질 선형 개체혼합모형에 의한 유전력 추정치는 모수보다 매우 낮은 유전력을 보였다(0.500 vs 0.315). 유전상관 추정치는 선형모형에서의 REML 방법 또는 임계모형에서의Gibbs sampling 방법에서 모두 모수와 유의적인 차이가 없는 것으로 분석되었으나 근내지방도의 잔차상관에 있어서 REML 방법으로 분석하였을 경우에 모수보다 낮게 추정되었다. 반면에 범주형 모형에서는 모수와 추정치 간에 유의적인 차이가 없는 것으로 분석되었다. 또한 7개의 범주형으로 조사된 자료(DS2)에서 이들 추정치는 DS1에서와 동일한 경향을 보였는데 그 편의 정도는 다소 적어지는 경향을 보였다. 따라서 이산형으로 조사되는 근내지방도에 대한 유전변이를 추정하기 위해서는 범주형 임계모형이 선형모형 보다 사소 정확한 추정을 할 수 있을 것으로 판단 되었다.