• 제목/요약/키워드: Latent Dirichlet allocation

검색결과 214건 처리시간 0.027초

LDA 기반 은닉 토픽 추론을 이용한 TV 프로그램 자동 추천 (Automatic TV Program Recommendation using LDA based Latent Topic Inference)

  • 김은희;표신지;김문철
    • 방송공학회논문지
    • /
    • 제17권2호
    • /
    • pp.270-283
    • /
    • 2012
  • 다채널 TV, IPTV 및 Smart TV 서비스의 등장으로 인해 수많은 방송 채널과 방대한 TV 프로그램 콘텐츠가 시청자 단말로 제공됨으로써 시청자들은 자신이 원하는 콘텐츠를 쉽게 찾고 소비하는 것이 어려운 TV 시청 환경을 맞게 되었다. 따라서 TV 사용자들에게 자신이 선호하는 콘텐츠를 자동 추천해 줌으로써 원하는 콘텐츠로의 접근성을 증대시키는 것은 미래의 지능형 TV 서비스에 있어서 주요한 이슈이다. 이에 본 논문에서는 사용자의 선호 취향과 대중의 선호취향을 모두 고려한 협업필터링 개념의 통계적 기계학습 기반 TV 프로그램 추천 모델을 제시한다. 이를 위해 시청한 TV 콘텐츠에 대한 선호 토픽을 사용자의 시청 선호도로 보고, 최근 널리 활용되고 있는 LDA(Latent Dirichlet Allocation)모델을 TV 프로그램 추천 모델에 적용하였다. LDA 기반 TV 프로그램 추천 성능을 개선하기 위해 본 논문에서는 TV시청 이용내역 데이터를 기반으로, TV 사용자들의 관심 토픽을 은닉 변수로 하고, TV 사용자들의 관심 토픽에 대한 다양성을 반영하기 위해 은닉 변수의 확률분포 특성을 비대칭 디리클레(Dirichlet) 분포로 모형화하여 실험에 적용하였다. 제안된 LDA 기반 TV 프로그램 자동 추천 방법의 성능을 검증하기 위해, 유사 시청 특성을 갖는 사용자 그룹에 대해 상위 5개의 TV 프로그램을 일주일 단위로 추천하였을 경우 평균 66.5%, 2개월 단위의 추천에 대해서는 평균 77.9%의 precision 추천 성능을 확인할 수 있었다.

잠재디리클레할당을 이용한 한국학술지인용색인의 풍력에너지 문헌검토 (Review of Wind Energy Publications in Korea Citation Index using Latent Dirichlet Allocation)

  • 김현구;이제현;오명찬
    • 신재생에너지
    • /
    • 제16권4호
    • /
    • pp.33-40
    • /
    • 2020
  • The research topics of more than 1,900 wind energy papers registered in the Korean Journal Citation Index (KCI) were modeled into 25 topics using latent directory allocation (LDA), and their consistency was cross-validated through principal component analysis (PCA) of the document word matrix. Key research topics in the wind energy field were identified as "offshore, wind farm," "blade, design," "generator, voltage, control," 'dynamic, load, noise," and "performance test." As a new method to determine the similarity between research topics in journals, a systematic evaluation method was proposed to analyze the correlation between topics by constructing a journal-topic matrix (JTM) and clustering them based on topic similarity between journals. By evaluating 24 journals that published more than 20 wind energy papers, it was confirmed that they were classified into meaningful clusters of mechanical engineering, electrical engineering, marine engineering, and renewable energy. It is expected that the proposed systematic method can be applied to the evaluation of the specificity of subsequent journals.

국내 학술논문 주제 분류 알고리즘 비교 및 분석 (Comparison and Analysis of Subject Classification for Domestic Research Data)

  • 최원준;설재욱;정희석;윤화묵
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.178-186
    • /
    • 2018
  • 학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.

Topic Masks for Image Segmentation

  • Jeong, Young-Seob;Lim, Chae-Gyun;Jeong, Byeong-Soo;Choi, Ho-Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권12호
    • /
    • pp.3274-3292
    • /
    • 2013
  • Unsupervised methods for image segmentation are recently drawing attention because most images do not have labels or tags. A topic model is such an unsupervised probabilistic method that captures latent aspects of data, where each latent aspect, or a topic, is associated with one homogeneous region. The results of topic models, however, usually have noises, which decreases the overall segmentation performance. In this paper, to improve the performance of image segmentation using topic models, we propose two topic masks applicable to topic assignments of homogeneous regions obtained from topic models. The topic masks capture the noises among the assigned topic assignments or topic labels, and remove the noises by replacements, just like image masks for pixels. However, as the nature of topic assignments is different from image pixels, the topic masks have properties that are different from the existing image masks for pixels. There are two contributions of this paper. First, the topic masks can be used to reduce the noises of topic assignments obtained from topic models for image segmentation tasks. Second, we test the effectiveness of the topic masks by applying them to segmented images obtained from the Latent Dirichlet Allocation model and the Spatial Latent Dirichlet Allocation model upon the MSRC image dataset. The empirical results show that one of the masks successfully reduces the topic noises.

Variational Expectation-Maximization Algorithm in Posterior Distribution of a Latent Dirichlet Allocation Model for Research Topic Analysis

  • Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권7호
    • /
    • pp.883-890
    • /
    • 2020
  • In this paper, we propose a variational expectation-maximization algorithm that computes posterior probabilities from Latent Dirichlet Allocation (LDA) model. The algorithm approximates the intractable posterior distribution of a document term matrix generated from a corpus made up by 50 papers. It approximates the posterior by searching the local optima using lower bound of the true posterior distribution. Moreover, it maximizes the lower bound of the log-likelihood of the true posterior by minimizing the relative entropy of the prior and the posterior distribution known as KL-Divergence. The experimental results indicate that documents clustered to image classification and segmentation are correlated at 0.79 while those clustered to object detection and image segmentation are highly correlated at 0.96. The proposed variational inference algorithm performs efficiently and faster than Gibbs sampling at a computational time of 0.029s.

토픽 모델링을 활용한 다문화 연구의 이슈 추적 연구 (A Study on Issue Tracking on Multi-cultural Studies Using Topic Modeling)

  • 박종도
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.273-289
    • /
    • 2019
  • 본 논문은 국내 다문화 관련 분야의 연구동향을 규명하기 위하여 다문화와 관련한 국내 학술 문헌을 수집하여 LDA (Latent Dirichlet Allocation) 기반의 토픽 모델링을 통해 토픽을 분석하였다. 이를 통해 국내 다문화 관련 연구에서의 중심 연구 토픽을 시기별로 추적하여 그 변화의 양상을 관찰하였고, 그 결과 핫 토픽으로는 '다문화 사회통합'과 '학교 다문화 교육'이 관찰되었으며 콜드 토픽으로는 '문화정체성과 민족주의' 관련 토픽이 관찰되었다.

Rearch of Late Adolcent Activity based on Using Big Data Analysis

  • Hye-Sun, Lee
    • International Journal of Advanced Culture Technology
    • /
    • 제10권4호
    • /
    • pp.361-368
    • /
    • 2022
  • This study seeks to determine the research trend of late adolescents by utilizing big data. Also, seek for research trends related to activity participation, treatment, and mediation to provide academic implications. For this process, gathered 1.000 academic papers and used TF-IDF analysis method, and the topic modeling based on co-occurrence word network analysis method LDA (Latent Dirichlet Allocation) to analyze. In conclusion this study conducted analysis of activity participation, treatment, and mediation of late adolescents by TF-IDF analysis method, co-occurrence word network analysis method, and topic modeling analysis based on LDA(Latent Dirichlet Allocation). The results were proposed through visualization, and carries significance as this study analyzed activity, treatment, mediation factors of late adolescents, and provides new analysis methods to figure out the basic materials of activity participation trends, treatment, and mediation of late adolescents.

비지도학습 기반 자동 특허문서 분류 시스템 (Unsupervised learning-based automated patent document classification system)

  • 김상백;김지호;이홍철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.421-422
    • /
    • 2021
  • 국내·외 기업들의 기술을 보호하고자 매년 100만개의 특허가 출원되고 있다. 등록된 특허 수가 증가될수록 전문가의 판단만으로 원하는 기술 분야의 유효한 특허문서를 선별하는 것은 효율적이지 않으며 객관적인 결과를 기대하기 어려워진다. 본 연구에서는 유효 특허문서 분류 정확성과 전문가의 업무 효율성을 제고하고자 비지도학습 모델인 잠재 디리클레 할당 알고리즘(Latent Dirichlet Allocation, LDA)과 딥러닝을 활용하여 자동 특허문서 분류 시스템을 제안하고자 한다.

  • PDF

Exploring trends in blockchain publications with topic modeling: Implications for forecasting the emergence of industry applications

  • Jeongho Lee;Hangjung Zo;Tom Steinberger
    • ETRI Journal
    • /
    • 제45권6호
    • /
    • pp.982-995
    • /
    • 2023
  • Technological innovation generates products, services, and processes that can disrupt existing industries and lead to the emergence of new fields. Distributed ledger technology, or blockchain, offers novel transparency, security, and anonymity characteristics in transaction data that may disrupt existing industries. However, research attention has largely examined its application to finance. Less is known of any broader applications, particularly in Industry 4.0. This study investigates academic research publications on blockchain and predicts emerging industries using academia-industry dynamics. This study adopts latent Dirichlet allocation and dynamic topic models to analyze large text data with a high capacity for dimensionality reduction. Prior studies confirm that research contributes to technological innovation through spillover, including products, processes, and services. This study predicts emerging industries that will likely incorporate blockchain technology using insights from the knowledge structure of publications.

비정형 텍스트 기반의 토픽 모델링을 이용한 건설 안전사고 동향 분석 (A Study on the Trends of Construction Safety Accident in Unstructured Text Using Topic Modeling)

  • 이상규
    • 한국산학기술학회논문지
    • /
    • 제19권10호
    • /
    • pp.176-182
    • /
    • 2018
  • 본 연구는 건설 안전사고에 대한 트랜드 분석을 위해 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링(Topic Modeling)을 제시하여 분석하고자 한다. 특히, 건설산업의 안전사고를 예방하기 위해 제시되고 있는 기존의 다양한 정형데이터 분석에서 벗어난 비정형 데이터 분석 기반의 토픽 모델링을 통해 건설 안전사고 주요 핵심 키워드의 흐름에 대해 파악이 가능하다. 본 방법론을 적용하기 위해 540개의 건설 안전사고 관련 뉴스데이터를 수집하였다. 이를 기반으로, 10가지 토픽과 각 토픽 내의 10가지 키워드를 통해 주요 이슈를 도출하였고 각 토픽에 대한 2017년 1월부터 2018년 2월까지의 뉴스 데이터를 월별 시계열 분석을 통해 향후 토픽에 관한 이슈를 예측한다. 본 연구를 바탕으로 향후 건설 안전사고의 다양한 이슈를 선제적으로 예측하고 이를 기반으로 건설 안전사고 정책과 연구에 좋은 방향을 제시할 것으로 판단한다.