DOI QR코드

DOI QR Code

그리드 단체 위의 디리슐레 분포에서 마르코프 연쇄 몬테 칼로 표집

MCMC Algorithm for Dirichlet Distribution over Gridded Simplex

  • 신봉기 (부경대학교 IT융합응용공학과)
  • 투고 : 2014.09.05
  • 심사 : 2014.11.04
  • 발행 : 2015.01.15

초록

비모수 베이스 통계학, 확률적 표집에 기반한 추론 등이 기계학습의 주요 패러다임으로 등장하면서 디리슐레(Dirichlet) 분포는 최근 다양한 그래프 모형 곳곳에 등장하고 있다. 디리슐레 분포는 일변수 감마 분포를 벡터 분포로 확장한 형태의 하나이다. 본 논문에서는 감마 분포를 갖는 임의의 자연수 X를 K개의 자연수의 합으로 임의 분할 할 때 각 부분의 크기 비율을 디리슐레 분포에서 표집하는 방법을 제안한다. 일반적으로 디리슐레 분포는 연속적인 (K-1)-단체(simplex) 위에 정의 되지만 자연수로 분할하는 표본은 자연수라는 조건 때문에 단체 내부의 이산 그리드 점에만 정의된다. 본 논문에서는 단체 위의 그리드 상의 이웃 점들의 확률 분포로부터 마르코프연쇄 몬테 칼로(MCMC) 제안 분포를 정의하고 일련의 표본들의 마르코프 연쇄를 구현하는 알고리듬을 제안한다. 본 방법은 마르코프 모델, HMM 및 준-HMM 등에서 각 상태별 시간 지속 분포를 표현하는데 활용 가능하다. 나아가 최근 제안된 전역-지역(global-local) 상태지속 분포를 동시에 모형화하는 감마-디리슐레 HMM에도 응용가능하다.

With the recent machine learning paradigm of using nonparametric Bayesian statistics and statistical inference based on random sampling, the Dirichlet distribution finds many uses in a variety of graphical models. It is a multivariate generalization of the gamma distribution and is defined on a continuous (K-1)-simplex. This paper presents a sampling method for a Dirichlet distribution for the problem of dividing an integer X into a sequence of K integers which sum to X. The target samples in our problem are all positive integer vectors when multiplied by a given X. They must be sampled from the correspondingly gridded simplex. In this paper we develop a Markov Chain Monte Carlo (MCMC) proposal distribution for the neighborhood grid points on the simplex and then present the complete algorithm based on the Metropolis-Hastings algorithm. The proposed algorithm can be used for the Markov model, HMM, and Semi-Markov model for accurate state-duration modeling. It can also be used for the Gamma-Dirichlet HMM to model q the global-local duration distributions.

키워드

과제정보

연구 과제 주관 기관 : 부경대학교

참고문헌

  1. C. Bishop. Pattern Recognition and Machine Learning, Berlin: Springer, 2006.
  2. C. Andrieu, N. D. Freitas, A. Doucet, and M. Jordan, "An Introduction to MCMC for Machine Learning," Machine Learning, Vol. 50, pp. 5-43, 2003. https://doi.org/10.1023/A:1020281327116
  3. B.-K. Sin, "Gamma CDF-based HMM State Duration Modeling," Journal of KIISE: Software and Applications, Vol. 40, No. 12, pp. 757-763, Dec. 2013. (in Korean)
  4. B.-K. Sin, "Gamma-Dirichlet HMM Inference using MCMC Sampling," Proc. of the KIISE Korea Computer Congress 2014, pp. 783-785, Jun. 2014. (in Korean)
  5. S.-Z. Yu, "Hidden Semi-Markov Models," Artificial Intelligence, Vol. 174, No. 2, pp. 215-243, 2009. https://doi.org/10.1016/j.artint.2009.11.011
  6. P. G. Moschopooulos, "The distribution of the sum of independent gamma random variables," Annals of Inst. of Statistical mathematics, Vol. 37, pp. 541-544, 1985. https://doi.org/10.1007/BF02481123
  7. H. Coxeter, Regular Polytopes, 3ed, Dover ed., 1973.
  8. T. Minka, "Estimating a Dirichlet distribution," unpublished paper, 2003.