• 제목/요약/키워드: Dirichlet distribution

검색결과 75건 처리시간 0.021초

A Bayes Sequential Selection of the Least Probale Event

  • Hwang, Hyung-Tae;Kim, Woo-Chul
    • Journal of the Korean Statistical Society
    • /
    • 제11권1호
    • /
    • pp.25-35
    • /
    • 1982
  • A problem of selecting the least probable cell in a multinomial distribution is studied in a Bayesian framework. We consider two loss components the cost of sampling and the difference in cell probabilities between the selected and the least probable cells. A Bayes sequential selection rule is derived with respect to a Dirichlet prior, and it is compared with the best fixed sample size selection rule. The continuation sets with respect to the vague prior are tabulated for certain cases.

  • PDF

Bayesian Inference for Multinomial Group Testing

  • Heo, Tae-Young;Kim, Jong-Min
    • Communications for Statistical Applications and Methods
    • /
    • 제14권1호
    • /
    • pp.81-92
    • /
    • 2007
  • This paper consider trinomial group testing concerned with classification of N given units into one of k disjoint categories. In this paper, we propose Bayesian inference for estimating individual category proportions using the trinomial group testing model proposed by Bar-Lev et al. (2005). We compared a relative efficience (RE) based on the mean squared error (MSE) of MLE and Bayes estimators with various prior information. The impact of different prior specifications on the estimates is also investigated using selected prior distribution. The impact of different priors on the Bayes estimates is modest when the sample size and group size we large.

Topic Modeling and Sentiment Analysis of Twitter Discussions on COVID-19 from Spatial and Temporal Perspectives

  • AlAgha, Iyad
    • Journal of Information Science Theory and Practice
    • /
    • 제9권1호
    • /
    • pp.35-53
    • /
    • 2021
  • The study reported in this paper aimed to evaluate the topics and opinions of COVID-19 discussion found on Twitter. It performed topic modeling and sentiment analysis of tweets posted during the COVID-19 outbreak, and compared these results over space and time. In addition, by covering a more recent and a longer period of the pandemic timeline, several patterns not previously reported in the literature were revealed. Author-pooled Latent Dirichlet Allocation (LDA) was used to generate twenty topics that discuss different aspects related to the pandemic. Time-series analysis of the distribution of tweets over topics was performed to explore how the discussion on each topic changed over time, and the potential reasons behind the change. In addition, spatial analysis of topics was performed by comparing the percentage of tweets in each topic among top tweeting countries. Afterward, sentiment analysis of tweets was performed at both temporal and spatial levels. Our intention was to analyze how the sentiment differs between countries and in response to certain events. The performance of the topic model was assessed by being compared with other alternative topic modeling techniques. The topic coherence was measured for the different techniques while changing the number of topics. Results showed that the pooling by author before performing LDA significantly improved the produced topic models.

Estimating dose-response curves using splines: a nonparametric Bayesian knot selection method

  • Lee, Jiwon;Kim, Yongku;Kim, Young Min
    • Communications for Statistical Applications and Methods
    • /
    • 제29권3호
    • /
    • pp.287-299
    • /
    • 2022
  • In radiation epidemiology, the excess relative risk (ERR) model is used to determine the dose-response relationship. In general, the dose-response relationship for the ERR model is assumed to be linear, linear-quadratic, linear-threshold, quadratic, and so on. However, since none of these functions dominate other functions for expressing the dose-response relationship, a Bayesian semiparametric method using splines has recently been proposed. Thus, we improve the Bayesian semiparametric method for the selection of the tuning parameters for splines as the number and location of knots using a Bayesian knot selection method. Equally spaced knots cannot capture the characteristic of radiation exposed dose distribution which is highly skewed in general. Therefore, we propose a nonparametric Bayesian knot selection method based on a Dirichlet process mixture model. Inference of the spline coefficients after obtaining the number and location of knots is performed in the Bayesian framework. We apply this approach to the life span study cohort data from the radiation effects research foundation in Japan, and the results illustrate that the proposed method provides competitive curve estimates for the dose-response curve and relatively stable credible intervals for the curve.

확률 분포와 추론에 의한 이메일 분류 및 정리 방법 (Classification and Allocation method of e-mail using possibility distribution and prediction)

  • 고남현;김지윤;최만규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.95-96
    • /
    • 2016
  • 본 논문에서는 디리클레 분포와 베이즈 추론 모델을 활용하여 전자우편을 분류하고 정리하는 방법을 제안한다. 과거 원치 않는 광고성 이메일인 스팸 탐지에서 시작한 전자우편 분류는 지속적인 송수신 량의 증가와 내용의 다양화로 인해 광고성과 정보성의 판단 기준이 모호해진 상태이다. 스팸 탐지와 같은 이분법적 분류 방식이 아닌 내용의 주제 별로 자동 분류할 수 있는 방법이 필요하다. 본 논문에서 다루는 제안 기법은 전자우편의 내용에서 다뤄질 수 있는 주제의 종류를 예측하기 위한 방법을 제공한다. 발신하거나 수신된 전자우편이 속한 주제를 자동으로 정할 수 있다. 본 제안 기법의 활용을 통해 전자우편의 분류만이 아닌 업무 및 시장 동향 분석과 정보보안 분야에서는 악성코드 분류에 사용될 수 있을 것으로 기대된다.

  • PDF

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소 (Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation)

  • 김선호;윤준태;서정연
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.652-665
    • /
    • 2014
  • 생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.

Topic Extraction and Classification Method Based on Comment Sets

  • Tan, Xiaodong
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.329-342
    • /
    • 2020
  • In recent years, emotional text classification is one of the essential research contents in the field of natural language processing. It has been widely used in the sentiment analysis of commodities like hotels, and other commentary corpus. This paper proposes an improved W-LDA (weighted latent Dirichlet allocation) topic model to improve the shortcomings of traditional LDA topic models. In the process of the topic of word sampling and its word distribution expectation calculation of the Gibbs of the W-LDA topic model. An average weighted value is adopted to avoid topic-related words from being submerged by high-frequency words, to improve the distinction of the topic. It further integrates the highest classification of the algorithm of support vector machine based on the extracted high-quality document-topic distribution and topic-word vectors. Finally, an efficient integration method is constructed for the analysis and extraction of emotional words, topic distribution calculations, and sentiment classification. Through tests on real teaching evaluation data and test set of public comment set, the results show that the method proposed in the paper has distinct advantages compared with other two typical algorithms in terms of subject differentiation, classification precision, and F1-measure.

Online Shopping Research Trend Analysis Using BERTopic and LDA

  • Yoon-Hwang, JU;Woo-Ryeong, YANG;Hoe-Chang, YANG
    • 융합경영연구
    • /
    • 제11권1호
    • /
    • pp.21-30
    • /
    • 2023
  • Purpose: As one of the ongoing studies on the distribution industry, the purpose of this study is to identify the research trends on online shopping so far to propose not only the development of online shopping companies but also the possibility of coexistence between online and offline retailers and the development of the distribution industry. Research design, data and methodology: In this study, the English abstracts of 645 papers on online shopping registered in scienceON were obtained. For the analysis through BERTopic and LDA using Python 3.7 and identifying which topics were interesting to researchers. Results: As a result of word frequency analysis and co-occurrence analysis, it was found that studies related to online shopping were frequently conducted on factors such as products, services, and shopping malls. As a result of BERTopic, five topics such as 'service quality' and 'sales strategy' were derived, and as a result of LDA, three topics including 'purchase experience' were derived. It was confirmed that 'Customer Recommendation' and 'Fashion Mall' showed relatively high interest, and 'Sales Strategy' showed relatively low interest. Conclusions: It was suggested that more diverse studies related to the online shopping mall platform, sales content, and usage influencing factors are needed to develop the online shopping industry.

냉동저장 공동 주변의 온도분포 예측을 위한 해석해 및 수치모델 적용에 관한 연구 (Analytical and Numerical Model Study to Predict the Temperature Distribution Around an Underground Food Cold Storage Pilot Cavern)

  • 이대혁;김호영
    • 터널과지하공간
    • /
    • 제12권3호
    • /
    • pp.142-151
    • /
    • 2002
  • 대전 식품냉동저장창고 파일럿 공동주위의 거리에 따른 비정상상태의 온도 분포를 산정하기 위해 Claesson(2001)의 해석해 및 Dirichlet과 Neuman 내부 경계조건을 갖는 수치모델들을 검토하였다. 온도 강하 단계동안 일정 표면 온도 경계조건에 기초하고 있는 Claesson의 해석해를 활용한 결과, 실제 암반에서의 온도 계측결과를 오차 평균 0.89$^{\circ}C$ 수준으로서 비교적 정확히 예측할 수 있었는데, $0^{\circ}C$근처의 실험실 암석 열물성을 입력하였고 현지 암반 조건을 표현하기 위한 특별한 물성 보정을 하지 않았다. 내부 공동 암반 벽면을 통한 열유속을 갖는 수치해석의 경우, 대류 열전달계수와 공동 내부 온도가 냉각시간에 따라 변화하기 때문에 경계조건을 가하기 어려운 단점을 극복하기 위해 새로운 경계조건 설정 기법을 제안하였다. 그 결과 오차 평균 1.58$^{\circ}C$의 수준으로서 온도 계측치와 부합하였다. 또한 공동 벽면에서 고정 온도 조건을 갖는 수치해와 비교하였다. 마지막으로 Claesson의 해석해 및 다양한 내부 경계조건을 갖는 수치모델을 활용하여, 공동 주변의 온도 분포를 정확히 예측할 수 있는 일련의 해석 단계 프로그램을 제안하였다.

감시 영상에서의 장면 분석을 통한 이상행위 검출 (Detection of Abnormal Behavior by Scene Analysis in Surveillance Video)

  • 배건태;어영정;곽수영;변혜란
    • 한국통신학회논문지
    • /
    • 제36권12C호
    • /
    • pp.744-752
    • /
    • 2011
  • 지능형 감시 분야에서 이상행위를 검출하는 것은 오랫동안 연구되어온 주제로 다양한 방법들이 제안되어 왔다. 그러나 많은 연구가 움직이는 객체의 개별적인 추적이 가능하다는 것을 전제로 하여 찾은 가려짐이 발생하는 실생활에 적용하는데 한계가 있다. 본 논문에서는 객체 추적이 어려운 복잡한 환경에서 장면의 주된 움직임을 분석하여 비정상적인 행위를 검출하는 방법을 제안한다. 먼저, 입력영상에서 움직임 정보를 추출하여 Visual Word와 Visual Document를 생성하고, 문서 분석 기법 중 하나인 LDA(Latent Dirichlet Allocation 알고리즘을 이용하여 장면의 주요한 움직임 정보j위치, 크기, 방향, 분포)를 추출한다. 이렇게 분석된 장면의 주요한 움직임과 입력영상에서 발생한 움직임과의 유사도를 분석하여 주요한 움직임에서 벗어나는 움직임을 비정상적인 움직임으로 간주하고 이를 이상행위로 검출하는 방법을 제안한다.