• 제목/요약/키워드: dirichlet distribution

검색결과 75건 처리시간 0.024초

Learning Probabilistic Kernel from Latent Dirichlet Allocation

  • Lv, Qi;Pang, Lin;Li, Xiong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2527-2545
    • /
    • 2016
  • Measuring the similarity of given samples is a key problem of recognition, clustering, retrieval and related applications. A number of works, e.g. kernel method and metric learning, have been contributed to this problem. The challenge of similarity learning is to find a similarity robust to intra-class variance and simultaneously selective to inter-class characteristic. We observed that, the similarity measure can be improved if the data distribution and hidden semantic information are exploited in a more sophisticated way. In this paper, we propose a similarity learning approach for retrieval and recognition. The approach, termed as LDA-FEK, derives free energy kernel (FEK) from Latent Dirichlet Allocation (LDA). First, it trains LDA and constructs kernel using the parameters and variables of the trained model. Then, the unknown kernel parameters are learned by a discriminative learning approach. The main contributions of the proposed method are twofold: (1) the method is computationally efficient and scalable since the parameters in kernel are determined in a staged way; (2) the method exploits data distribution and semantic level hidden information by means of LDA. To evaluate the performance of LDA-FEK, we apply it for image retrieval over two data sets and for text categorization on four popular data sets. The results show the competitive performance of our method.

Topics and Sentiment Analysis Based on Reviews of Omni-Channel Retailing

  • KIM, Soon-Hong;YOO, Byong-Kook
    • 유통과학연구
    • /
    • 제19권4호
    • /
    • pp.25-35
    • /
    • 2021
  • Purpose: This study aims to analyze the factors affecting customer satisfaction in the customer reviews of omni-channel, posted on Internet blogs, cafes, and YouTube using text mining analysis. Research, data, and Methodology: In this study, frequency analysis is performed and the LDA (Latent Dirichlet Allocation) is used to analyze social big data to respond to reviewers' reaction to the recently opened omni-channel shopping reviews by L Shopping Company. Additionally, based on the topic analysis, we conduct a sentiment analysis on purchase reviews and analyze the characteristics of each topic on the positive or negative sentiments of omni-channel app users. Results: As a result of a topic analysis, four main topics are derived: delivery and events, economic value, recommendations and convenience, and product quality and brand awareness. The emotional analysis reveals that the reviewers have many positive evaluations for price policy and product promotion, but negative evaluations for app use, delivery, and product quality. Conclusions: Retailers can establish customized marketing strategies by identifying the customer's major interests through text mining analysis. Additionally, the analysis of sentiment by subject becomes an important indicator for developing products and services that customers want by identifying areas that satisfy customers and areas that evoke negative reactions.

왜도 타원형 분포를 이용한 준모수적 계층적 선택 모형 (Semiparametric Bayesian Hierarchical Selection Models with Skewed Elliptical Distribution)

  • 정윤식;장정훈
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.101-115
    • /
    • 2003
  • 본 논문에서는 Chen, Dey와 Shao(1999), Branco와 Dey(2001)가 제안한 왜도가 있는 두터운 꼬리를 가지는 오차 분포와 디리슈레 과정 사전분포를 이용한 베이지안 메타분석 (meta-analysis)을 하고자 한다. 베이지안 메타분석을 위하여 가중함수를 고려한 계층적 선택 모형을 이용한다. 이때의 오차항은 왜도가 있는 비정규 분포로 가정한다. 이를 위하여 우선 왜도 타원형 분포의 일반적인 족을 소개한다 이 분포족중 왜도 정규분포와 왜도 t 분포를 오차항 분포로 이용한 베이지안 계층적 선택 모형을 고려하며, 이 때 발생하는 복잡한 베이지안 계산은 MCMC 방법으로 해결한다. 마지막으로, 실제 자료(Johnson, 1993)인 두 가지의 충치예방약의 효과에 대한 차이를 비교하기 위해 얻어진 12개의 연구 자료를 이용하여 본 연구에서 제시된 베이지안 방법을 이용하여 메타분석을 한다.

Gamma-Dirichlet 분포에 의한 HMM의 전역 및 지역 시간지속 모델 (Stochastic Time Duration Model with Gamma-Dirichlet Distribution for Global and Local Duration of HMM)

  • 신봉기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.517-521
    • /
    • 2008
  • HMM의 약점인 상태 지속 분포를 개선하는 새로운 개념의 확률적 전역+지역 시간 지속 분포 segment 모델(GL-STDM)을 제안한다. 즉, 시계열 신호의 전역적 시간 정보를 표현하고, 각 상태 별 duration 모델과 각 상태의 duration 정보 사이의 상관관계를 표현하는 global pattern (shape 또는 long-term dependency)을 제안한다. 그러나 제안 모델은, Markov 가정을 깨뜨리기 때문에 dynamic programming이 자랑하는 단순함, 효율성을 유지하지는 못한다. 하지만 최근 부각되는 방법인 Monte Carlo 표본 기법을 이용하여 효과적으로 문제를 해결하는 방법을 제시하였다. 본 논문에서는 제안 모델 GL-STDM의 개념과 정의, 그리고 추론 방법과 모델 평가 방법을 기술하였다.

  • PDF

LDA 기반 은닉 토픽 추론을 이용한 TV 프로그램 자동 추천 (Automatic TV Program Recommendation using LDA based Latent Topic Inference)

  • 김은희;표신지;김문철
    • 방송공학회논문지
    • /
    • 제17권2호
    • /
    • pp.270-283
    • /
    • 2012
  • 다채널 TV, IPTV 및 Smart TV 서비스의 등장으로 인해 수많은 방송 채널과 방대한 TV 프로그램 콘텐츠가 시청자 단말로 제공됨으로써 시청자들은 자신이 원하는 콘텐츠를 쉽게 찾고 소비하는 것이 어려운 TV 시청 환경을 맞게 되었다. 따라서 TV 사용자들에게 자신이 선호하는 콘텐츠를 자동 추천해 줌으로써 원하는 콘텐츠로의 접근성을 증대시키는 것은 미래의 지능형 TV 서비스에 있어서 주요한 이슈이다. 이에 본 논문에서는 사용자의 선호 취향과 대중의 선호취향을 모두 고려한 협업필터링 개념의 통계적 기계학습 기반 TV 프로그램 추천 모델을 제시한다. 이를 위해 시청한 TV 콘텐츠에 대한 선호 토픽을 사용자의 시청 선호도로 보고, 최근 널리 활용되고 있는 LDA(Latent Dirichlet Allocation)모델을 TV 프로그램 추천 모델에 적용하였다. LDA 기반 TV 프로그램 추천 성능을 개선하기 위해 본 논문에서는 TV시청 이용내역 데이터를 기반으로, TV 사용자들의 관심 토픽을 은닉 변수로 하고, TV 사용자들의 관심 토픽에 대한 다양성을 반영하기 위해 은닉 변수의 확률분포 특성을 비대칭 디리클레(Dirichlet) 분포로 모형화하여 실험에 적용하였다. 제안된 LDA 기반 TV 프로그램 자동 추천 방법의 성능을 검증하기 위해, 유사 시청 특성을 갖는 사용자 그룹에 대해 상위 5개의 TV 프로그램을 일주일 단위로 추천하였을 경우 평균 66.5%, 2개월 단위의 추천에 대해서는 평균 77.9%의 precision 추천 성능을 확인할 수 있었다.

비모수 베이지안 방법을 이용한 영상 잡음 제거 알고리즘 (Noise reduction algorithm for an image using nonparametric Bayesian method)

  • 우호영;김영화
    • 응용통계연구
    • /
    • 제31권5호
    • /
    • pp.555-572
    • /
    • 2018
  • 영상처리 분야의 중요한 주제인 영상의 잡음 제거 과정은 원래의 순수한 영상이 다양한 원인으로 발생한 잡음에 의해 오염되었을때 이 잡음을 제거하거나 줄이는 것을 의미한다. 잡음 제거 과정에서는 영상에 추가된 잡음과 원 영상이 가진 고유한 특징들을 구별해내는 것이 중요하며 이에 대한 많은 연구가 진행되고 있다. 적응적 필터와 시그마 필터는 잡음 제거를 위하여 사용하는 대표적인 잡음 제거 필터이며 이 필터들의 효용성은 정확한 잡음 추정에 영향을 받는다. 따라서 본 연구에서는 디리클레 정규 혼합모형을 토대로 영상을 오염시키고 있는 잡음의 분포를 생성하고 이를 토대로 영상의 특징과 잡음을 구별하기 위한 베이지안 방법을 제시한다. 특히 잡음의 분포와 특징의 분포를 구별하기 위해 베이지안 추론을 전개하고 영상에 포함된 잡음을 제거하는 알고리즘을 제시하고자 한다.

비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장 (Feature Expansion based on LDA Word Distribution for Performance Improvement of Informal Document Classification)

  • 이호경;양선;고영중
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1008-1014
    • /
    • 2016
  • 트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.

윈드프로파일러의 평균모멘트 값을 이용한 도플러 파워 스펙트럼 및 시계열 원시신호 시뮬레이션기법 개발 (Development of Simulation Method of Doppler Power Spectrum and Raw Time Series Signal Using Average Moments of Radar Wind Profiler)

  • 이상윤;이규원
    • 한국전자통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.1037-1044
    • /
    • 2020
  • 윈드프로파일러(RWP, radar wind profiler)는 기상 상태와 관계없이 시공간 분해능이 높은 바람장 자료를 제공하며 생산된 바람의 정확도나 품질에 대한 검증이 필수적이다. 기존 정확도 검증 방식은 레윈존데와의 동시 관측을 통해 윈드프로파일러에서 생성된 바람 벡터를 기준 자료로 활용하는 것이다. 본 연구에서는 평균 모멘트 자료로부터 스펙트럼과 원시 시계열 자료를 시뮬레이션하는 알고리즘을 통해 윈드프로파일러의 신호처리 알고리즘을 단계별로 검증하는 방안을 제시하고, LAP-3000의 원시 자료와의 비교를 통해 해당 알고리즘의 가능성을 확인하였다. 기상 신호의 밀도 함수를 모멘트값을 인자로 하는 왜곡된 정규 분포의 밀도 함수로 가정하여 생성하였고, 난수를 통해 시뮬레이션 스펙트럼을 생성하였다. 또한, 난수 위상과 역 이산푸리에 변환으로 간섭 평균된 시뮬레이션 원시 시계열 자료를 생성하고 최종적으로 디리클레 분포(Dirichlet distribution)를 통해 간섭 평균 전 단계의 원시 시계열 자료를 생성하였다.

A Bayes Reliability Estimation from Life Test in a Stress-Strength Model

  • Park, Sung-Sub;Kim, Jae-Joo
    • Journal of the Korean Statistical Society
    • /
    • 제12권1호
    • /
    • pp.1-9
    • /
    • 1983
  • A stress-strength model is formulated for s out of k system of identical components. We consider the estimation of system reliability from survival count data from a Bayesian viewpoint. We assume a quadratic loss and a Dirichlet prior distribution. It is shown that a Bayes sequential procedure can be established. The Bayes estimator is compared with the UMVUE obtained by Bhattacharyya and with an estimator based on Mann-Whitney statistic.

  • PDF

A Penalized Likelihood Method for Model Complexity

  • Ahn, Sung M.
    • Communications for Statistical Applications and Methods
    • /
    • 제8권1호
    • /
    • pp.173-184
    • /
    • 2001
  • We present an algorithm for the complexity reduction of a general Gaussian mixture model by using a penalized likelihood method. One of our important assumptions is that we begin with an overfitted model in terms of the number of components. So our main goal is to eliminate redundant components in the overfitted model. As shown in the section of simulation results, the algorithm works well with the selected densities.

  • PDF