• 제목/요약/키워드: Markov chain Monte Carlo algorithm

검색결과 70건 처리시간 0.02초

Gas dynamics and star formation in dwarf galaxies: the case of DDO 210

  • Oh, Se-Heon;Zheng, Yun;Wang, Jing
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.75.4-75.4
    • /
    • 2019
  • We present a quantitative analysis of the relationship between the gas dynamics and star formation history of DDO 210 which is an irregular dwarf galaxy in the local Universe. We perform profile analysis of an high-resolution neutral hydrogen (HI) data cube of the galaxy taken with the large Very Large Array (VLA) survey, LITTLE THINGS using newly developed algorithm based on a Bayesian Markov Chain Monte Carlo (MCMC) technique. The complex HI structure and kinematics of the galaxy are decomposed into multiple kinematic components in a quantitative way like 1) bulk motions which are most likely to follow the underlying circular rotation of the disk, 2) non-circular motions deviating from the bulk motions, and 3) kinematically cold and warm components with narrower and wider velocity dispersion. The decomposed kinematic components are then spatially correlated with the distribution of stellar populations obtained from the color-magnitude diagram (CMD) fitting method. The cold and warm gas components show negative and positive correlations between their velocity dispersions and the surface star formation rates of the populations with ages of < 40 Myr and 100~400 Myr, respectively. The cold gas is most likely to be associated with the young stellar populations. Then the stellar feedback of the young populations could influence the warm gas. The age difference between the populations which show the correlations indicates the time delay of the stellar feedback.

  • PDF

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

Non-Simultaneous Sampling Deactivation during the Parameter Approximation of a Topic Model

  • Jeong, Young-Seob;Jin, Sou-Young;Choi, Ho-Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권1호
    • /
    • pp.81-98
    • /
    • 2013
  • Since Probabilistic Latent Semantic Analysis (PLSA) and Latent Dirichlet Allocation (LDA) were introduced, many revised or extended topic models have appeared. Due to the intractable likelihood of these models, training any topic model requires to use some approximation algorithm such as variational approximation, Laplace approximation, or Markov chain Monte Carlo (MCMC). Although these approximation algorithms perform well, training a topic model is still computationally expensive given the large amount of data it requires. In this paper, we propose a new method, called non-simultaneous sampling deactivation, for efficient approximation of parameters in a topic model. While each random variable is normally sampled or obtained by a single predefined burn-in period in the traditional approximation algorithms, our new method is based on the observation that the random variable nodes in one topic model have all different periods of convergence. During the iterative approximation process, the proposed method allows each random variable node to be terminated or deactivated when it is converged. Therefore, compared to the traditional approximation ways in which usually every node is deactivated concurrently, the proposed method achieves the inference efficiency in terms of time and memory. We do not propose a new approximation algorithm, but a new process applicable to the existing approximation algorithms. Through experiments, we show the time and memory efficiency of the method, and discuss about the tradeoff between the efficiency of the approximation process and the parameter consistency.

Survival Analysis of Gastric Cancer Patients with Incomplete Data

  • Moghimbeigi, Abbas;Tapak, Lily;Roshanaei, Ghodaratolla;Mahjub, Hossein
    • Journal of Gastric Cancer
    • /
    • 제14권4호
    • /
    • pp.259-265
    • /
    • 2014
  • Purpose: Survival analysis of gastric cancer patients requires knowledge about factors that affect survival time. This paper attempted to analyze the survival of patients with incomplete registered data by using imputation methods. Materials and Methods: Three missing data imputation methods, including regression, expectation maximization algorithm, and multiple imputation (MI) using Monte Carlo Markov Chain methods, were applied to the data of cancer patients referred to the cancer institute at Imam Khomeini Hospital in Tehran in 2003 to 2008. The data included demographic variables, survival times, and censored variable of 471 patients with gastric cancer. After using imputation methods to account for missing covariate data, the data were analyzed using a Cox regression model and the results were compared. Results: The mean patient survival time after diagnosis was $49.1{\pm}4.4$ months. In the complete case analysis, which used information from 100 of the 471 patients, very wide and uninformative confidence intervals were obtained for the chemotherapy and surgery hazard ratios (HRs). However, after imputation, the maximum confidence interval widths for the chemotherapy and surgery HRs were 8.470 and 0.806, respectively. The minimum width corresponded with MI. Furthermore, the minimum Bayesian and Akaike information criteria values correlated with MI (-821.236 and -827.866, respectively). Conclusions: Missing value imputation increased the estimate precision and accuracy. In addition, MI yielded better results when compared with the expectation maximization algorithm and regression simple imputation methods.

Structural modal identification and MCMC-based model updating by a Bayesian approach

  • Zhang, F.L.;Yang, Y.P.;Ye, X.W.;Yang, J.H.;Han, B.K.
    • Smart Structures and Systems
    • /
    • 제24권5호
    • /
    • pp.631-639
    • /
    • 2019
  • Finite element analysis is one of the important methods to study the structural performance. Due to the simplification, discretization and error of structural parameters, numerical model errors always exist. Besides, structural characteristics may also change because of material aging, structural damage, etc., making the initial finite element model cannot simulate the operational response of the structure accurately. Based on Bayesian methods, the initial model can be updated to obtain a more accurate numerical model. This paper presents the work on the field test, modal identification and model updating of a Chinese reinforced concrete pagoda. Based on the ambient vibration test, the acceleration response of the structure under operational environment was collected. The first six translational modes of the structure were identified by the enhanced frequency domain decomposition method. The initial finite element model of the pagoda was established, and the elastic modulus of columns, beams and slabs were selected as model parameters to be updated. Assuming the error between the measured mode and the calculated one follows a Gaussian distribution, the posterior probability density function (PDF) of the parameter to be updated is obtained and the uncertainty is quantitatively evaluated based on the Bayesian statistical theory and the Metropolis-Hastings algorithm, and then the optimal values of model parameters can be obtained. The results show that the difference between the calculated frequency of the finite element model and the measured one is reduced, and the modal correlation of the mode shape is improved. The updated numerical model can be used to evaluate the safety of the structure as a benchmark model for structural health monitoring (SHM).

랜덤효과를 포함한 영과잉 포아송 회귀모형에 대한 베이지안 추론: 흡연 자료에의 적용 (A Bayesian zero-inflated Poisson regression model with random effects with application to smoking behavior)

  • 김연경;황범석
    • 응용통계연구
    • /
    • 제31권2호
    • /
    • pp.287-301
    • /
    • 2018
  • 0이 과도하게 많이 나타나는 자료는 여러 다양한 분야에서 흔히 볼 수 있다. 이러한 자료들을 분석할 때 대표적으로 영과잉 포아송 모형이 사용된다. 특히 반응변수들 사이에 상관관계가 존재할 때에는 랜덤효과를 영과잉 포아송 모형에 도입해서 분석해야 한다. 이러한 모형은 주로 빈도론자들의 접근방법으로 분석되어왔는데, 최근에는 베이지안 기법을 사용한 분석도 다양하게 발전되어 왔다. 본 논문에서는 반응변수들 사이에 상관관계가 존재하는 경우 랜덤효과가 포함된 영과잉 포아송 회귀모형을 베이지안 추론 방법을 토대로 제안하였다. 이 모형의 적합성을 판단하기 위해 모의 실험을 통해 랜덤효과를 고려하지 않은 모형과 비교 분석하였다. 또한, 실제 지역사회 건강조사 흡연 자료에 직접 응용하여 그 결과를 살펴보았다.

잠재변수를 이용한 NHPP 베이지안 소프트웨어 신뢰성 모형에 관한 연구 (The NHPP Bayesian Software Reliability Model Using Latent Variables)

  • 김희철;신현철
    • 융합보안논문지
    • /
    • 제6권3호
    • /
    • pp.117-126
    • /
    • 2006
  • 본 논문은 소프트웨어 신뢰성장 모형에 대한 베이지안 모수추론과 모형선택 방법이 연구되었다. 소프트웨어 성장 모형은 내재되어 있는 오류와 고장 간격시간으로 모형화하면 소프트웨어 개발 단계에서 유용하게 사용할 수 있다. 본 논문에서는 사후 분포의 정보를 얻기 위한 다중 적분문제에 있어서 일종의 마코브 체인 몬테칼로 방법인 깁스 샘플링을 사용하여 사후 분포의 계산이 이루어졌다. 확산 사전 분포를 가진 소프트웨어 신뢰성에 의존된 일반적 순서 통계량 모형에 대하여 베이지안 모수 추정이 이루어 졌고 효율적인 모형의 선택방법도 시행되었다. 모형 설정과 선택 판단기준은 편차 자승합을 이용한 적합도 검정과 추세 검정이 사용되었다. 본 논문에서 사용된 소프트웨어 고장 자료는 Minitab(version 14) 통계 페키지에 있는 와이블분포(형상모수가 2이고 척도모수가 5)에서 발생시킨 30개의 난수를 이용한 모의 실험자료를 이용하여 고장자료 분석을 시행하였다.

  • PDF

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.789-792
    • /
    • 2004
  • 웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

베이지안 기법에 기반한 수명자료 분석에 관한 문헌 연구: 2000~2016 (A Review on the Analysis of Life Data Based on Bayesian Method: 2000~2016)

  • 원동연;임준형;심현수;성시일;임헌상;김용수
    • 한국신뢰성학회지:신뢰성응용연구
    • /
    • 제17권3호
    • /
    • pp.213-223
    • /
    • 2017
  • Purpose: The purpose of this study is to arrange the life data analysis literatures based on the Bayesian method quantitatively and provide it as tables. Methods: The Bayesian method produces a more accurate estimates of other traditional methods in a small sample size, and it requires specific algorithm and prior information. Based on these three characteristics of the Bayesian method, the criteria for classifying the literature were taken into account. Results: In many studies, there are comparisons of estimation methods for the Bayesian method and maximum likelihood estimation (MLE), and sample size was greater than 10 and not more than 25. In probability distributions, a variety of distributions were found in addition to the distributions of Weibull commonly used in life data analysis, and MCMC and Lindley's Approximation were used evenly. Finally, Gamma, Uniform, Jeffrey and extension of Jeffrey distributions were evenly used as prior information. Conclusion: To verify the characteristics of the Bayesian method which are more superior to other methods in a smaller sample size, studies in less than 10 samples should be carried out. Also, comparative study is required by various distributions, thereby providing guidelines necessary.

고준위 방사성 폐기물 처분장 확률론적 안전성평가 신뢰도 제고를 위한 입력 파라미터 연속 베이지안 업데이팅 모듈 개발 (Sequential Bayesian Updating Module of Input Parameter Distributions for More Reliable Probabilistic Safety Assessment of HLW Radioactive Repository)

  • 이연명;조동건
    • 방사성폐기물학회지
    • /
    • 제18권2호
    • /
    • pp.179-194
    • /
    • 2020
  • 기존의 확률론적 안전성 평가의 신뢰도 제고를 위하여 잘 알려진 입력 파라미터의 일반적인 분포에 새롭게 측정된 신뢰도 있는 데이터를 결합하여 사후분포를 구할 수 있는 베이지안 업데이팅 방법론을 제안하였다. 마코프체인 몬테 칼로 샘플링 기법의 알고리듬을 통한 GoldSim 모듈도 개발하였다. 복수의 입력 파라미터의 사전분포에 대해 연속적으로 사후분포를 구해낼 수 있는 베이지안 업데이팅이 가능하도록 개발된 이 모듈을 GoldSim 템플릿 형태의 기존의 GSTSPA 프로그램으로 이행하여 보다 신뢰도 있는 확률론적 방사성폐기물 처분 시스템 안전성 평가가 가능하도록 하였다. 이는 기존에 존재하는 사전분포의 일반적인 형태는 취하되 새롭게 얻어지는 실제 측정치나 전문가들의 의견을 기존의 분포에 적용하여 보다 더 높은 믿음을 갖는 입력 파라미터의 사후분포를 얻을 수 있게 한다. 균열암반 내 핵종 이동에 관련된 몇 개의 입력 파라미터의 사전분포의 세차례의 연속적 업데이팅을 통해 프로그램의 유용성도 예시하였다. 이 연구를 통하여 처분시스템과 같이 장기적 평가가 필요하고 넓은 모델링 지역을 가지며 측정된 입력자료가 부족한 경우 보다 더 믿음직한 방법으로 안전성 평가를 수행할 수 있는 것을 보였다.