• 제목/요약/키워드: 베이지안 샘플링 알고리즘

검색결과 16건 처리시간 0.018초

나이브베이즈 문서분류시스템을 위한 선택적샘플링 기반 EM 가속 알고리즘 (Accelerating the EM Algorithm through Selective Sampling for Naive Bayes Text Classifier)

  • 장재영;김한준
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.369-376
    • /
    • 2006
  • 본 논문은 온라인 전자문서환경에서 전통적 베이지안 통계기반 문서분류시스템의 분류성능을 개선하기 위해 EM(Expectation Maximization) 가속 알고리즘을 접목한 방법을 제안한다. 기계학습 기반의 문서분류시스템의 중요한 문제 중의 하나는 양질의 학습문서를 확보하는 것이다. EM 알고리즘은 소량의 학습문서집합으로 베이지안 문서분류 알고리즘의 성능을 높이는데 활용된다. 그러나 EM 알고리즘은 최적화 과정에서 느린 수렴성과 성능 저하 현상을 나타내는데, EM 알고리즘의 기본 가정을 따르지 않는 온라인 전자문서환경에서 특히 그러하다. 제안 기법의 주요 아이디어는 전통적 EM 알고리즘을 개선하기 위해 불확정성도 기반 선택적 샘플링 기법을 활용한 것이다. 성능평가를 위해 Reuter-21578 문서집합을 사용하여, 제안 알고리즘의 빠른 수렴성을 보이고 전통적 베이지안 알고리즘의 분류 정확성을 향상시켰음을 보인다.

고차상관관계를 표현하는 랜덤 하이퍼그래프 모델 진화를 위한 베이지안 샘플링 알고리즘 (A Bayesian Sampling Algorithm for Evolving Random Hypergraph Models Representing Higher-Order Correlations)

  • 이시은;이인희;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.208-216
    • /
    • 2009
  • 유전자알고리즘의 교차나 돌연변이 연산을 직접적으로 사용하지 않고 개체군의 확률분포를 추정하여 보다 효율적인 탐색을 수행하려는 분포추정알고리즘이 여러 방법으로 제안되었다. 그러나 실제로 변수들간의 고차상관관계를 파악하는 일은 쉽지 않은 일이라 대부분의 경우 낮은 차수의 상관관계를 제한된 가정하에 추정하게 된다. 본 논문에서는 데이타의 고차상관관계를 표현할 수 있고 최적 해를 좀 더 효율적으로 찾을 수 있는 새로운 분포추정알고리즘을 제안한다. 제안된 알고리즘에서는 상관관계가 있을 것으로 추정되는 변수들의 집합으로 정의된 하이퍼에지로 구성된 랜덤 하이퍼그래프 모델을 구축하여 변수들 간의 고차상관관계를 표현하고, 베이지안 샘플링 알고리즘(Bayesian Sampling Algorithm)을 통해 다음 세대의 개체를 생성한다. 기만하는 빌딩블럭(deceptive building blocks)을 가진 분해가능(decomposable) 함수에 대하여 실험한 결과 성공적으로 최적해를 구할 수 있었으며 단순 유전자알고리즘과 BOA (Bayesian Optimization Algorithm)와 비교하여 좋은 성능을 얻을 수 있었다.

MCMC를 이용한 비동질적 포아송과정에서 일반화 순서통계량 모형의 연구

  • 최기헌;김희철
    • Communications for Statistical Applications and Methods
    • /
    • 제4권3호
    • /
    • pp.753-763
    • /
    • 1997
  • 컴퓨터의 발전에 따른 MCMC를 비동질적 포아송 과정에 이용하였다. 베이지안 추론에서 조건부 분포를 가지고 사후분포를 결정하는데 있어서의 계산 문제를 고려하였다. 특히 분포가 이중지수, 곰페르츠, 랄리, 감마, 그리고 검벨인 일반 순서통계량 모형에 대하여 깁스 샘플링과 메트로폴리스 알고리즘을 활용한 베이지안 계산과 모형선택을 제시하였다.

  • PDF

소프트웨어 신뢰모형에 대한 베이지안 접근 (Bayesian Approach for Software Reliability Models)

  • 최기헌
    • Journal of the Korean Data and Information Science Society
    • /
    • 제10권1호
    • /
    • pp.119-133
    • /
    • 1999
  • 마코브체인 몬테칼로 방법을 소프트웨어 신뢰모형에 이용하였다. 베이지안 추론에서 조건부 분포를 가지고 사후분포를 결정하는데 있어서의 계산 문제를 고찰하였다. 특히 레코드값을 통계량을 갖고서 혼합과정과 중첩과정에 대하여 깁스샘플링 알고리즘과 메트로폴리스 알고리즘을 활용하여 베이지안 계산과 모형 선택을 제시하고 모의실험자료를 이용하여 수치적 인 계산을 시행하고 그 결과를 비교하였다.

  • PDF

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

베이지안 통계 추론 (On the Bayesian Statistical Inference)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.263-266
    • /
    • 2007
  • 본 논문은 베이지안 통계 추론에 대하여 논의한다. 논문은 베이지안 추론, Markov Chain과 Monte Carlo 적분, MCMC(Markov Chain Monte Carlo) 기법, Metropolis-Hastings 알고리즘, Gibbs 샘플링, Maximum Likelihood Estimation, EM 알고리즘, 상실된 데이터 보완 기법, BMA(Bayesian Model Averaging) 순서로 논의를 진행한다. 이러한 통계적 기법들은 대용량의 데이터를 처리하는 생물학, 의학, 생명 공학, 과학과 공학, 그리고 일반 데이터 조사와 처리 등에 사용되고 있으며, 최적의 추론 결과를 이끌어 내는데 중요한 방법을 제공하고 있다. 그리고 마지막으로 PC(Principal Component) 분석 기법에 대하여 논의한다. PC 분석 기법도 데이터 분석과 연구에 많이 활용된다.

  • PDF

소량자료를 위한 베이지안 다중 변환점 모형 (Bayesian Multiple Change-Point for Small Data)

  • 전수영
    • Communications for Statistical Applications and Methods
    • /
    • 제19권2호
    • /
    • pp.237-246
    • /
    • 2012
  • 다중 변환점(multiple change-point) 추론에 있어 소량자료에 관한 연구는 많지 않다. 본 논문에서는 소량 자료의 다중 변환점 추정을 위해 베이지안 비중심(noncentral) t 분포 변환점 모형을 제안하고, 제안된 모형 추론을 위해 메트로폴리스-해스팅스를 포함한 깁스 샘플링(Metropolis-Hastings-Within-Gibbs sampling) 알고리즘을 이용하였다. 모의실험 및 태풍 발생 수의 실증 분석결과는 제안된 모형과 알고리즘의 우수성을 보여 준다.

RAYLEIGH와 ERLANG 추세를 가진 혼합 고장모형에 대한 베이지안 추론에 관한 연구 (Bayesian Inference for Mixture Failure Model of Rayleigh and Erlang Pattern)

  • 김희철;이승주
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.505-514
    • /
    • 2000
  • 마코브체인 몬테칼로방법중에서 깁스 추출방법을 혼합 고장모형에 이용하였다. 베이자안 추론에서 조건부분포를 가지고 사후 분포를 결정하는데 있어서 계산 문제와 이론적인 정당성을 고려하여 감마족인 Rayleigh와 Erlang추세를 가진 혼합모형에 대하여 깁스샘플링 알고리즘을 이용하여 베이지안 계산과 신뢰도 추이를 알아보고 모의실험자료를 이용하여 수치적인 계산을 시행하고 그 결과를 제시하였다.

  • PDF

정규확률변수 관측치열에 대한 베이지안 변화점 분석 : 서울지역 겨울철 평균기온 자료에의 적용 (Bayesian Change Point Analysis for a Sequence of Normal Observations: Application to the Winter Average Temperature in Seoul)

  • 김경숙;손영숙
    • 응용통계연구
    • /
    • 제17권2호
    • /
    • pp.281-301
    • /
    • 2004
  • 본 논문에서는 일변량 정규분포를 따르는 확률변수의 관측치열에 대한 변화점 문제(change point problem)를 고찰한다. 변화점의 존재유무, 그리고 만일 변화점이 존재한다면 어떠한 유형으로 발생했는지 즉, 변화점 발생 이후로 평균만 변화, 분산만 변화, 또는 평균과 분산 모두가 변화했는지를 밝힌다. 가능한 여러 유형의 변화모형들 가운데 최적의 모형을 선택하기 위해 베이지안 모형선택 기법을 이용하고, 선택된 모형에 내재된 모수를 추정 하기 위해 메트로폴리스-혜스팅스 알고리 즘을 포함한 깁스샘플링 을 이용한다. 이러한 방법론은 모의실험을 통해 검토되고, 또한 서울지역의 겨울철 평균기온 자료에 적용된다.

포아송 실행시간 모형에 의존한 소프트웨어 최적방출시기에 대한 베이지안 접근 방법에 대한 연구 (The Bayesian Approach of Software Optimal Release Time Based on Log Poisson Execution Time Model)

  • 김희철;신현철
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권7호
    • /
    • pp.1-8
    • /
    • 2009
  • 본 연구에서는 소프트웨어 제품을 개발하여 테스팅을 거친 후 사용자에게 인도하는 시기를 결정하는 방출문제에 대하여 연구하였다. 따라서 최적 소프트웨어 방출 정책은 소프트웨어 요구 신뢰도를 만족시키고 소프트웨어 개발 및 유지 총비용을 최소화 시키는 정책을 수용해야 한다. 본 논문에서는 로그포아송 실행시간모형에 대하여 베이지안 모수 추정법(마코브체인 몬테칼로(MCMC) 기법 중에 하나인 깁스 샘플링과 메트로폴리스 알고리즘을 이용한 근사기법)이 사용되었다. 본 논문의 수치적인 예에서는 Musa의 T1 자료를 적용하여 최우수추정법과 베이지안 모수 추정과의 관계를 빅교하고 또한 최적 방출시기를 추정하였다.