• 제목/요약/키워드: Hierarchical Dirichlet process

검색결과 9건 처리시간 0.027초

준모수적 계층적 선택모형에 대한 베이지안 방법 (A Bayesian Method to Semiparametric Hierarchical Selection Models)

  • 정윤식;장정훈
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.161-175
    • /
    • 2001
  • 메타분석(Meta-analysis)은 서로 독립적으로 연구되어진 결과들을 전체적인 하나의 결과로 도출하기 위해 사용되어지는 통계적 방법이다. 이러한 통계적 방법을 설명할 모형으로는 선택모형(selection model)을 포함한 계층적 모형(hierarchical model)을 사용하며, 이러한 모형들은 베이지안 메타분석에 유용한 것으로 알려져 있다. 그러나, 메타분석의 자료들은 일반적으로 출판편의(publication bias)를 갖고 있으므로 이를 극복하고자 가중함수(weight function)를 이용하여 분포함수를 새롭게 정의하여 사용한다. 최근에 Silliman(1997)은 계층적 모형(hierarchical model)에 가중함수를 첨부한 계층적 선택모형(hierarchical selection model)을 정의하고 모수적 베이지안 방법을 제시하였다. 본 연구에서는 미관측된 연구효과에 디리슈레 과정 사전분포(Dirichlet process prior)를 적용한 준모수적 계층적 선택모형(semiparametric hierarchical selection models)을 소개한다. 여기서 제시된 준모수적 계층적 선택모형을 베이지안 방법으로 추정하기 위하여 마코프 연쇄 몬테칼로(Markov chain Monte Carlo)방법을 이용한다. 제시된 방법을 적용하기 위하여 실제 자료(Johnson, 1993)인 충치를 예방하기 위한 두 가지의 예방약의 효과에 대한 차이를 비교하기 위해 얻어진 12개의 연구를 이용하여 메타분석을 한다.

  • PDF

Out-Of-Domain Detection Using Hierarchical Dirichlet Process

  • Jeong, Young-Seob
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권1호
    • /
    • pp.17-24
    • /
    • 2018
  • With improvement of speech recognition and natural language processing, dialog systems are recently adapted to various service domains. It became possible to get desirable services by conversation through the dialog system, but it is still necessary to improve separate modules, such as domain detection, intention detection, named entity recognition, and out-of-domain detection, in order to achieve stable service offer. When it misclassifies an in-domain sentence of conversation as out-of-domain, it will result in poor customer satisfaction and finally lost business. As there have been relatively small number of studies related to the out-of-domain detection, in this paper, we introduce a new method using a hierarchical Dirichlet process and demonstrate the effectiveness of it by experimental results on Korean dataset.

A Semantic Aspect-Based Vector Space Model to Identify the Event Evolution Relationship within Topics

  • Xi, Yaoyi;Li, Bicheng;Liu, Yang
    • Journal of Computing Science and Engineering
    • /
    • 제9권2호
    • /
    • pp.73-82
    • /
    • 2015
  • Understanding how the topic evolves is an important and challenging task. A topic usually consists of multiple related events, and the accurate identification of event evolution relationship plays an important role in topic evolution analysis. Existing research has used the traditional vector space model to represent the event, which cannot be used to accurately compute the semantic similarity between events. This has led to poor performance in identifying event evolution relationship. This paper suggests constructing a semantic aspect-based vector space model to represent the event: First, use hierarchical Dirichlet process to mine the semantic aspects. Then, construct a semantic aspect-based vector space model according to these aspects. Finally, represent each event as a point and measure the semantic relatedness between events in the space. According to our evaluation experiments, the performance of our proposed technique is promising and significantly outperforms the baseline methods.

Bayesian Multiple Comparisons for Normal Variances

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제29권2호
    • /
    • pp.155-168
    • /
    • 2000
  • Regarding to multiple comparison problem (MCP) of k normal population variances, we suggest a Bayesian method for calculating posterior probabilities for various hypotheses of equality among population variances. This leads to a simple method for obtaining pairwise comparisons of variances in a statistical experiment with a partition on the parameter space induced by equality and inequality relationships among the variances. The method is derived from the fact that certain features of the hierarchical nonparametric family of Dirichlet process priors, in general, make it amenable to solving the MCP and estimating the posterior probabilities by means of posterior simulation, the Gibbs sampling. Two examples are illustrated for the method. For these examples, the method is straightforward for specifying distributionally and to implement computationally, with output readily adapted for required comparison.

  • PDF

국내 학술논문 주제 분류 알고리즘 비교 및 분석 (Comparison and Analysis of Subject Classification for Domestic Research Data)

  • 최원준;설재욱;정희석;윤화묵
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.178-186
    • /
    • 2018
  • 학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.

Bayesian HMM 기반의 건강 상태 분류 및 예측 (Health State Clustering and Prediction Based on Bayesian HMM)

  • 신봉기
    • 정보과학회 논문지
    • /
    • 제44권10호
    • /
    • pp.1026-1033
    • /
    • 2017
  • 본 논문은 계층적 디리슐레 과정(HDP)과 은닉 마르코프 모형(HMM)이 결합된 베이스 통계학적 방법과 HMM의 상태 지속 정보를 이용한 건강 상태 예측 방법을 제안한다. HDP-HMM은 베이스 방법의 HMM 확장 모형으로서 건강의 동적 특성을 고려하여 불확실하고 가늠하기조차도 어려운 건강 상태의 수를 추정할 수 있게 해준다. 모의 데이터와 실제 건건 검진 데이터를 이용한 시험을 통하여 흥미 있는 행동 특성을 볼 수 있었으며 최대 5년까지로 제한한 미래 예측도 충분한 가능함을 확인하였다. 미래는 불확실하며 예측 문제는 본질적으로 어렵다. 그러나 본 연구의 실험 결과로 동적인 문맥 하에서 다중 후보 가설을 제시함으로서 실용 가능한 건강상태의 장기 예측이 가능하다는 것을 읽을 수 있었다.

왜도 타원형 분포를 이용한 준모수적 계층적 선택 모형 (Semiparametric Bayesian Hierarchical Selection Models with Skewed Elliptical Distribution)

  • 정윤식;장정훈
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.101-115
    • /
    • 2003
  • 본 논문에서는 Chen, Dey와 Shao(1999), Branco와 Dey(2001)가 제안한 왜도가 있는 두터운 꼬리를 가지는 오차 분포와 디리슈레 과정 사전분포를 이용한 베이지안 메타분석 (meta-analysis)을 하고자 한다. 베이지안 메타분석을 위하여 가중함수를 고려한 계층적 선택 모형을 이용한다. 이때의 오차항은 왜도가 있는 비정규 분포로 가정한다. 이를 위하여 우선 왜도 타원형 분포의 일반적인 족을 소개한다 이 분포족중 왜도 정규분포와 왜도 t 분포를 오차항 분포로 이용한 베이지안 계층적 선택 모형을 고려하며, 이 때 발생하는 복잡한 베이지안 계산은 MCMC 방법으로 해결한다. 마지막으로, 실제 자료(Johnson, 1993)인 두 가지의 충치예방약의 효과에 대한 차이를 비교하기 위해 얻어진 12개의 연구 자료를 이용하여 본 연구에서 제시된 베이지안 방법을 이용하여 메타분석을 한다.

A pooled Bayes test of independence using restricted pooling model for contingency tables from small areas

  • Jo, Aejeong;Kim, Dal Ho
    • Communications for Statistical Applications and Methods
    • /
    • 제29권5호
    • /
    • pp.547-559
    • /
    • 2022
  • For a chi-squared test, which is a statistical method used to test the independence of a contingency table of two factors, the expected frequency of each cell must be greater than 5. The percentage of cells with an expected frequency below 5 must be less than 20% of all cells. However, there are many cases in which the regional expected frequency is below 5 in general small area studies. Even in large-scale surveys, it is difficult to forecast the expected frequency to be greater than 5 when there is small area estimation with subgroup analysis. Another statistical method to test independence is to use the Bayes factor, but since there is a high ratio of data dependency due to the nature of the Bayesian approach, the low expected frequency tends to decrease the precision of the test results. To overcome these limitations, we will borrow information from areas with similar characteristics and pool the data statistically to propose a pooled Bayes test of independence in target areas. Jo et al. (2021) suggested hierarchical Bayesian pooling models for small area estimation of categorical data, and we will introduce the pooled Bayes factors calculated by expanding their restricted pooling model. We applied the pooled Bayes factors using bone mineral density and body mass index data from the Third National Health and Nutrition Examination Survey conducted in the United States and compared them with chi-squared tests often used in tests of independence.

국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 - (Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP)

  • 박준형;오효정
    • 한국도서관정보학회지
    • /
    • 제48권4호
    • /
    • pp.235-258
    • /
    • 2017
  • 본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.