• 제목/요약/키워드: LDA model

검색결과 170건 처리시간 0.025초

LDA 모델을 이용한 트위터 데이터 분석 시스템 (Twitter Data Analysis System using LDA model)

  • 이일섭;장정현;류관희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.389-390
    • /
    • 2017
  • 현재 많은 사용자들이 모바일 기기를 통해 소셜 네트워크 서비스(이하 SNS)를 이용하고 있으며, SNS를 통해 수많은 데이터가 생성되고 있다. SNS상의 정보는 다양하고 신속하게 다루어지기 때문에 시대의 주요 사건을 잘 표현한다. 본 논문은 2015년 1월부터 2017년 8월까지의 약 191만개의 트위터 데이터를 수집한 후, LDA 모델링을 통해 주요 키워드를 추출하고 시대별 주요 토픽과 단어를 파악할 수 있는 시스템을 제안한다.

What Topics Have Been Studied in Korean Mathematics Education for 15 Years: Latent Topic Modeling Analysis

  • Hwang, Jihyun
    • 한국수학교육학회지시리즈D:수학교육연구
    • /
    • 제24권4호
    • /
    • pp.313-335
    • /
    • 2021
  • The purpose of this research is to identify topics discussed by Korean mathematics education studies and examine research trends for 15 years. I applied latent Dirichlet allocation (LDA) to the original text datasets including English abstracts of 3,157 articles published in eight journals indexed by the Korean Citation Index (KCI) from 1997 to 2019. I identified an LDA model with 60 topics, then research trends in 2,884 articles between 2002 and 2018 were as follows; mathematics educators have paid most attention to teacher education through 2010 to 2015 and curriculum analysis after 2016. The findings in this research can contribute to understand what have been discussed in Korean mathematics education society as well as what will and need to be emphasized more in the future compared to the global research trends. In addition, LDA has potentials to identify topics and keywords of manuscripts newly written and submitted to any journals in addition to information provided by authors.

Generative probabilistic model with Dirichlet prior distribution for similarity analysis of research topic

  • Milyahilu, John;Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권4호
    • /
    • pp.595-602
    • /
    • 2020
  • We propose a generative probabilistic model with Dirichlet prior distribution for topic modeling and text similarity analysis. It assigns a topic and calculates text correlation between documents within a corpus. It also provides posterior probabilities that are assigned to each topic of a document based on the prior distribution in the corpus. We then present a Gibbs sampling algorithm for inference about the posterior distribution and compute text correlation among 50 abstracts from the papers published by IEEE. We also conduct a supervised learning to set a benchmark that justifies the performance of the LDA (Latent Dirichlet Allocation). The experiments show that the accuracy for topic assignment to a certain document is 76% for LDA. The results for supervised learning show the accuracy of 61%, the precision of 93% and the f1-score of 96%. A discussion for experimental results indicates a thorough justification based on probabilities, distributions, evaluation metrics and correlation coefficients with respect to topic assignment.

PCA와 LDA를 결합한 데이터 전 처리와 다항식 기반 RBFNNs을 이용한 얼굴 인식 알고리즘 설계 (Design of Face Recognition algorithm Using PCA&LDA combined for Data Pre-Processing and Polynomial-based RBF Neural Networks)

  • 오성권;유성훈
    • 전기학회논문지
    • /
    • 제61권5호
    • /
    • pp.744-752
    • /
    • 2012
  • In this study, the Polynomial-based Radial Basis Function Neural Networks is proposed as an one of the recognition part of overall face recognition system that consists of two parts such as the preprocessing part and recognition part. The design methodology and procedure of the proposed pRBFNNs are presented to obtain the solution to high-dimensional pattern recognition problems. In data preprocessing part, Principal Component Analysis(PCA) which is generally used in face recognition, which is useful to express some classes using reduction, since it is effective to maintain the rate of recognition and to reduce the amount of data at the same time. However, because of there of the whole face image, it can not guarantee the detection rate about the change of viewpoint and whole image. Thus, to compensate for the defects, Linear Discriminant Analysis(LDA) is used to enhance the separation of different classes. In this paper, we combine the PCA&LDA algorithm and design the optimized pRBFNNs for recognition module. The proposed pRBFNNs architecture consists of three functional modules such as the condition part, the conclusion part, and the inference part as fuzzy rules formed in 'If-then' format. In the condition part of fuzzy rules, input space is partitioned with Fuzzy C-Means clustering. In the conclusion part of rules, the connection weight of pRBFNNs is represented as two kinds of polynomials such as constant, and linear. The coefficients of connection weight identified with back-propagation using gradient descent method. The output of the pRBFNNs model is obtained by fuzzy inference method in the inference part of fuzzy rules. The essential design parameters (including learning rate, momentum coefficient and fuzzification coefficient) of the networks are optimized by means of Differential Evolution. The proposed pRBFNNs are applied to face image(ex Yale, AT&T) datasets and then demonstrated from the viewpoint of the output performance and recognition rate.

명품 하울 유튜브 영상 댓글에 나타난 상대적 박탈감 여부와 특징 분석 - TF-IDF, Word2vec, LDA, LSTM을 이용한 현대인의 감정 분석을 중심으로 - (Analysis of whether the feeling of relative deprivation is shown in the comments of the Luxury Howl YouTube video - Focusing on modern sentiment analysis using TF-IDF, Word2vec, LDA and LSTM -)

  • 최정민;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권3호
    • /
    • pp.355-360
    • /
    • 2021
  • 최근 유튜브가 큰 인기를 얻고 있다. 많은 연구에 따르면 소셜 미디어에서 상대적 박탈감이 나타나듯이 본 연구에서는 유튜브에서도 상대적 박탈감이 나타나는지 확인해보고자 한다. 그중에서도 유튜버의 경제적 지위를 잘 드러내는 명품 하울 영상을 중심으로 연구를 진행하였다. 명품 하울이란 많은 양의 명품 제품을 구매하여 보여주는 콘텐츠를 의미한다. LDA, TF-IDF, Word2Vec 기법을 이용하여 유튜브 댓글 분석을 진행하였다. 추가로 LSTM 학습 모델을 기반으로 댓글을 긍정적 그룹과 부정적 그룹으로 분류하였다. 연구 결과에 따르면 다수의 댓글이 긍정적인 의미를 내포하지만, 상대적 박탈감 등을 나타내는 부정적 의미의 키워드를 가진 댓글도 나타났다. 이러한 댓글에서는 자신과 유튜버의 경제적 모습을 비교하는 표현이 등장하였다. 특히 유튜버의 나이가 상대적으로 어리거나 스스로 명품제품을 구매할 능력이 되지 않은 것으로 보이면 상대적 박탈감을 표현하는 댓글이 증가하였다. 따라서 본 연구에서는 유튜브도 다른 소셜 미디어와 같이 이용자가 상대적 박탈감을 느낀 다는 것을 확인 할 수 있었다.

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

Cyber risk measurement via loss distribution approach and GARCH model

  • Sanghee Kim;Seongjoo Song
    • Communications for Statistical Applications and Methods
    • /
    • 제30권1호
    • /
    • pp.75-94
    • /
    • 2023
  • The growing trend of cyber risk has put forward the importance of cyber risk management. Cyber risk is defined as an accidental or intentional risk related to information and technology assets. Although cyber risk is a subset of operational risk, it is reported to be handled differently from operational risk due to its different features of the loss distribution. In this study, we aim to detect the characteristics of cyber loss and find a suitable model by measuring value at risk (VaR). We use the loss distribution approach (LDA) and the time series model to describe cyber losses of financial and non-financial business sectors, provided in SAS® OpRisk Global Data. Peaks over threshold (POT) method is also incorporated to improve the risk measurement. For the financial sector, the LDA and GARCH model with POT perform better than those without POT, respectively. The same result is obtained for the non-financial sector, although the differences are not significant. We also build a two-dimensional model reflecting the dependence structure between financial and non-financial sectors through a bivariate copula and check the model adequacy through VaR.

LDA 토픽 모델을 활용한 포스트 Covid-19 시대의 소상공인 지원정책 분석 (An Analysis of the Support Policy for Small Businesses in the Post-Covid-19 Era Using the LDA Topic Model)

  • 서경도;최정일;최판암;정재림
    • 산업융합연구
    • /
    • 제22권6호
    • /
    • pp.51-59
    • /
    • 2024
  • 본 논문은 COVID-19와 같은 팬데믹 상황에서 소상공인에게 실질적으로 도움이 되는 정부 정책을 제언하는데 목적이 있다. 이를 위해 'COVID-19 소상공인 지원', 'COVID-19 감염병 대응체계에 따른 소상공인 영향', 'COVID-19 소상공인 경제정책' 키워드를 중심으로 뉴스 기사를 크롤링하여 텍스트 마이닝 분석의 키워드 빈도분석과 워드클라우드 분석을 수행하였고, LDA 토픽 모델링 분석을 통해 주요 이슈를 파악하였다. LDA 토픽 모델링을 수행한 결과 소상공인 지원 정책은 정부의 현금성 지원과 금융지원으로 토픽 레이블을 구성하였고, COVID-19 감염병 대응체계에 따른 소상공인 영향은 정부 주도의 방역체계와 개인 주도의 방역체계로 토픽 레이블을 구성하였으며, COVID-19 경제정책은 경제위기와 자생력을 갖추기 위한 소상공인 정책으로 토픽 레이블을 구성하였다. 구성한 토픽레이블을 중심으로 향후 팬데믹 상황에서 소상공인 피해 감면 정책과 소상공인이 시장경쟁력 제고 정책에 대해 파악할 수 있는 기초자료를 제공하고자 하였다.

Jointly Image Topic and Emotion Detection using Multi-Modal Hierarchical Latent Dirichlet Allocation

  • Ding, Wanying;Zhu, Junhuan;Guo, Lifan;Hu, Xiaohua;Luo, Jiebo;Wang, Haohong
    • Journal of Multimedia Information System
    • /
    • 제1권1호
    • /
    • pp.55-67
    • /
    • 2014
  • Image topic and emotion analysis is an important component of online image retrieval, which nowadays has become very popular in the widely growing social media community. However, due to the gaps between images and texts, there is very limited work in literature to detect one image's Topics and Emotions in a unified framework, although topics and emotions are two levels of semantics that often work together to comprehensively describe one image. In this work, a unified model, Joint Topic/Emotion Multi-Modal Hierarchical Latent Dirichlet Allocation (JTE-MMHLDA) model, which extends previous LDA, mmLDA, and JST model to capture topic and emotion information at the same time from heterogeneous data, is proposed. Specifically, a two level graphical structured model is built to realize sharing topics and emotions among the whole document collection. The experimental results on a Flickr dataset indicate that the proposed model efficiently discovers images' topics and emotions, and significantly outperform the text-only system by 4.4%, vision-only system by 18.1% in topic detection, and outperforms the text-only system by 7.1%, vision-only system by 39.7% in emotion detection.

  • PDF

데이터 증가를 통한 선형 모델의 일반화 성능 개량 (중심극한정리를 기반으로) (Improvement of generalization of linear model through data augmentation based on Central Limit Theorem)

  • 황두환
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.19-31
    • /
    • 2022
  • 기계학습 모델 구축 간 트레이닝 데이터를 활용하며, 훈련 간 사용되지 않은 테스트 데이터를 활용하여 모델의 정확도와 일반화 성능을 판단한다. 일반화 성능이 낮은 모델의 경우 새롭게 받아들이게 되는 데이터에 대한 예측 정확도가 현저히 감소하게 되며 이러한 현상을 두고 모델이 과적합 되었다고 한다. 본 연구는 중심극한정리를 기반으로 데이터를 생성 및 기존의 훈련용 데이터와 결합하여 새로운 훈련용 데이터를 구성하고 데이터의 정규성을 증가시킴과 동시에 이를 활용하여 모델의 일반화 성능을 증가시키는 방법에 대한 것이다. 이를 위해 중심극한정리의 성질을 활용해 데이터의 각 특성별로 표본평균 및 표준편차를 활용하여 데이터를 생성하였고, 새로운 훈련용 데이터의 정규성 증가 정도를 파악하기 위하여 Kolmogorov-Smirnov 정규성 검정을 진행한 결과, 새로운 훈련용 데이터가 기존의 데이터에 비해 정규성이 증가하였음을 확인할 수 있었다. 일반화 성능은 훈련용 데이터와 테스트용 데이터에 대한 예측 정확도의 차이를 통해 측정하였다. 새롭게 생성된 데이터를 K-Nearest Neighbors(KNN), Logistic Regression, Linear Discriminant Analysis(LDA)에 적용하여 훈련시키고 일반화 성능 증가정도를 파악한 결과, 비모수(non-parametric) 기법인 KNN과 모델 구성 간 정규성을 가정으로 갖는 LDA의 경우에 대하여 일반화 성능이 향상되었음을 확인할 수 있었다.