• 제목/요약/키워드: LDA Topic Model

검색결과 109건 처리시간 0.026초

Improvement of recommendation system using attribute-based opinion mining of online customer reviews

  • Misun Lee;Hyunchul Ahn
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.259-266
    • /
    • 2023
  • 본 논문에서는 속성기반 오피니언 마이닝(ABOM)을 적용한 협업 필터링의 정확도 성능을 개선할 수 있는 알고리즘을 제안한다. 실험을 위해 국내 스마트폰 사용자의 스마트폰 앱에 대한 총 1,227건의 온라인 소비자 리뷰 데이터가 분석에 사용되었다. KKMA(꼬꼬마)분석기를 이용하여 형태소 분석 및 KOSAC를 사용하여 감성어 분석 후 LDA 토픽 모델링을 사용하여 속성 추출한 가중치 값을 부여한 리뷰별로 토픽 모델링 결과를 이용하여 협업필터링의 평점과 감성스코어의 평점을 합산한 평균값 정확도 오차를 계산한 통계모형 성능 평가인 MAE, MAPE, RMSE를 사용하였다. 실험을 통해 추천 알고리즘 중 전통적인 협업필터링과 LDA 속성 추출과 감성분석을 결합한 속성기반 오피니언 마이닝(Aspect-Based Opinion Mining, ABOM) 기법을 결합하여 온라인 고객의 앱 평점(APP_Score) 대한 정확도를 예측하였다. 분석 결과 전통적인 협업필터링을 구현한 평점의 정확도 보다 속성기반 오피니언 마이닝 CF를 적용한 평점의 예측 정확도가 더 우수한 것으로 나타났다.

건설신기술에 대한 토픽 모델링 및 토픽 변화추이 분석 (Topic modeling and topic change trend analysis for advanced construction technologies)

  • 정성윤;김남곤
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.102-110
    • /
    • 2021
  • 현재 국내 건설기술의 발전을 도모하기 위해 건설신기술 지정 제도를 운영하고 있다. 이 제도를 통해 지정된 건설신기술과 관련하여 중요도가 높은 출현 어휘와 어휘들 간의 관계를 분석함으로써 건설신기술에 내재된 암묵적인 의미를 살펴보고자 하였다. 이를 위해 918건의 건설신기술정보를 수집하였다. 수집된 건설신기술의 고시연도와 요약 내용을 기초로 하여 건설신기술별로 출현어휘의 중요도를 측정하였다. LDA 모형을 기반으로 한 4개의 토픽별로 연관된 어휘들 간의 영향정도를 평가하였다. 기술적용분야에 따른 토픽을 분석하였다. 1990년부터 2021년까지의 토픽별로 영향력이 높은 어휘들의 변화 추이를 유추하였다. 향후 환경·기계·설비 토픽과 구조물의 보수 보강 토픽의 영향정도 변화와 이에 관련한 적용기술 분야를 예측하였다. 토픽의 개발방향을 예측하였다.

텍스트마이닝 기법을 활용한 미국산업응용수학 학회지의 연구 현황 및 동향 분석 (Analysis on Status and Trends of SIAM Journal Papers using Text Mining)

  • 김성연
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.212-222
    • /
    • 2020
  • 본 연구의 목적은 전 세계 산업수학의 흐름을 주도하는 미국산업응용수학 학회에서 출판하는 논문들의 연구현황 및 동향을 거시적으로 파악하는 데 있다. 이를 위해 2016년부터 2019년까지 6,255편의 논문 제목 및 초록을 수집하였으며, LDA 기법을 활용한 토픽모델링과 시계열회귀모형 분석을 수행하였다. 분석 결과 첫째, 산업수학 분야는 해석학을 중심으로 기하학, 대수학, 위상수학, 이산수학, 확률 및 통계 등 다양한 분야에서 연구가 진행되었다. 둘째, 시간이 흐름에 따라 상승하는 연구 주제는 수리유체역학, 그래프이론, 확률미분방정식이었으며, 하강하는 연구 주제는 계산이론과 고전기하로 나타났다. 연구 결과는 산업수학 분야의 지적 구조에 대한 전체적인 흐름 및 변화에 대한 이해를 바탕으로 연구자들에게는 향후 연구 방향에 대해서, 그리고 교육 현장에는 시대 변화를 반영한 산업수학 교육과정을 수립하는데 시사점을 제공할 것이다.

토픽모델링과 시계열 분석을 활용한 클라우드 보안 분야 연구 동향 분석 : NTIS 과제를 중심으로 (Analysis of Research Trends in Cloud Security Using Topic Modeling and Time-Series Analysis: Focusing on NTIS Projects)

  • 윤선영;조남옥
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.31-38
    • /
    • 2024
  • 최근 클라우드 서비스 사용이 확산하면서 클라우드 보안의 중요성이 증가하였다. 본 연구의 목적은 클라우드 보안 분야의 최근 연구 동향을 분석하고 시사점을 도출하는 것이다. 이를 위해 2010년부터 2023년까지 국가과학기술지식정보서비스(NTIS)에서 제공하는 R&D 과제 데이터를 활용하여 클라우드 보안 연구 동향을 분석하였다. LDA 토픽모델링과 ARIMA 시계열 분석을 통해 클라우드 보안 연구의 핵심 토픽 15개를 도출하였으며, AI를 활용한 보안 기술, 개인정보 및 데이터보안, IoT 환경에서의 보안 문제 해결이 연구에서 중요한 영역임을 확인했다. 이는 클라우드 기술의 확산과 기반 시설의 디지털 전환으로 인해 발생할 수 있는 보안 위협에 대응하기 위해 관련 연구가 필요함을 시사한다. 도출된 토픽들을 기반으로 클라우드 보안 분야를 네 가지 범주로 나누어 기술참조모델을 정의하였으며, 전문가 인터뷰를 통해 해당 기술참조모델을 개선하였다. 본 연구는 클라우드 보안 발전의 방향을 제시하며 학계 및 산업계에 미래 연구와 투자에 대한 중요한 지침을 제공할 것으로 기대된다.

Non-Simultaneous Sampling Deactivation during the Parameter Approximation of a Topic Model

  • Jeong, Young-Seob;Jin, Sou-Young;Choi, Ho-Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권1호
    • /
    • pp.81-98
    • /
    • 2013
  • Since Probabilistic Latent Semantic Analysis (PLSA) and Latent Dirichlet Allocation (LDA) were introduced, many revised or extended topic models have appeared. Due to the intractable likelihood of these models, training any topic model requires to use some approximation algorithm such as variational approximation, Laplace approximation, or Markov chain Monte Carlo (MCMC). Although these approximation algorithms perform well, training a topic model is still computationally expensive given the large amount of data it requires. In this paper, we propose a new method, called non-simultaneous sampling deactivation, for efficient approximation of parameters in a topic model. While each random variable is normally sampled or obtained by a single predefined burn-in period in the traditional approximation algorithms, our new method is based on the observation that the random variable nodes in one topic model have all different periods of convergence. During the iterative approximation process, the proposed method allows each random variable node to be terminated or deactivated when it is converged. Therefore, compared to the traditional approximation ways in which usually every node is deactivated concurrently, the proposed method achieves the inference efficiency in terms of time and memory. We do not propose a new approximation algorithm, but a new process applicable to the existing approximation algorithms. Through experiments, we show the time and memory efficiency of the method, and discuss about the tradeoff between the efficiency of the approximation process and the parameter consistency.

관리도를 활용한 국민청원 토픽 모니터링 연구 (Topic change monitoring study based on Blue House national petition using a control chart)

  • 이희연;최지은;이성임;손원
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.795-806
    • /
    • 2021
  • 최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

LDA 토픽 모델링을 활용한 무선이어폰 소비자 구매 의도 및 만족도 비교 분석: 쿠팡에서의 삼성과 애플 무선이어폰 리뷰를 중심으로 (Wireless Earphone Consumers Using LDA Topic Modeling Comparative Analysis of Purchase Intention and Satisfaction: Focused on Samsung and Apple wireless earphone reviews in Coupang)

  • 영덩톨;강태구
    • 산업융합연구
    • /
    • 제21권8호
    • /
    • pp.23-33
    • /
    • 2023
  • 소비자 리뷰분석은 제품 개발, 고객 만족, 경쟁 우위 및 효과적인 마케팅을 위해 중요하다. 무선이어폰 사용 증가는 생활 방식의 성장과 함께 2026년까지 457억 달러에 이를 것으로 예상된다. 따라서 시장의 성장과 중요성을 고려하여, 애플과 삼성의 무선이어폰에 대한 소비자 리뷰를 분석하였다. 본 연구에서는 쿠팡에서 판매되고 있는 애플, 삼성의 무선이어폰 리뷰 11,320건을 수집하여 텍스트마이닝의 빈도, 감성, LDA 토픽 모델 분석을 통해 소비자의 구매의도를 분석하고 소비자 만족도를 분석에 대한 결과를 도출하였다. 토픽 모델링 결과 16개 토픽이 도출되어, 음질, 연결, 쇼핑몰 서비스, 구매의도, 배터리, 배송, 가격 등으로 분류되었다. 브랜드 비교 결과 삼성은 선물 목적으로 구매를 많이 하였고, 가격에 긍정 감정이 높았고, 애플은 배터리, 음질, 연결, 서비스, 배송에 대한 긍정 감정이 높은 결과로 나타났다. 본 연구의 결과는 제조업, 소매업, 마케터 및 소비자를 포함한 고객 만족도, 품질 및 시장 동향에 대한 개선과 통찰력을 얻을 수 있는 연구 결과로 관련 산업의 자료로 활용될 수 있을 것이다.

TLS 마이닝을 이용한 '정보시스템연구' 동향 분석 (Analysis on the Trend of The Journal of Information Systems Using TLS Mining)

  • 윤지혜;오창규;이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권1호
    • /
    • pp.289-304
    • /
    • 2022
  • Purpose The development of the network and mobile industries has induced companies to invest in information systems, leading a new industrial revolution. The Journal of Information Systems, which developed the information system field into a theoretical and practical study in the 1990s, retains a 30-year history of information systems. This study aims to identify academic values and research trends of JIS by analyzing the trends. Design/methodology/approach This study aims to analyze the trend of JIS by compounding various methods, named as TLS mining analysis. TLS mining analysis consists of a series of analysis including Term Frequency-Inverse Document Frequency (TF-IDF) weight model, Latent Dirichlet Allocation (LDA) topic modeling, and a text mining with Semantic Network Analysis. Firstly, keywords are extracted from the research data using the TF-IDF weight model, and after that, topic modeling is performed using the Latent Dirichlet Allocation (LDA) algorithm to identify issue keywords. Findings The current study used the summery service of the published research paper provided by Korea Citation Index to analyze JIS. 714 papers that were published from 2002 to 2012 were divided into two periods: 2002-2011 and 2012-2021. In the first period (2002-2011), the research trend in the information system field had focused on E-business strategies as most of the companies adopted online business models. In the second period (2012-2021), data-based information technology and new industrial revolution technologies such as artificial intelligence, SNS, and mobile had been the main research issues in the information system field. In addition, keywords for improving the JIS citation index were presented.

직무 리뷰 분석을 통한 산업군별 직무만족/존속 요인 및 직무불만족/이직 요인에 관한 연구 (A Study on Job Satisfaction/Retention Factors and Job Unsatisfaction/Turnover Factors by Industries using Job Reviews)

  • 이종서;김성근;강주영
    • 한국IT서비스학회지
    • /
    • 제16권1호
    • /
    • pp.1-26
    • /
    • 2017
  • Keeping good, talented people is one of the most significant factors in a company's success. HR analytics is an important area for applying big data analysis techniques to human resources. It provides organizational insight that enables effective management of employees, allowing management to reach their business goals quickly and efficiently. Job satisfaction and employee turnover analysis are the keys to HR analytics. Job review web services have been becoming popular. Because people exchange information about job satisfaction and turnover through these web services, useful information about HR Analytics is accumulated on the job review web sites. In this paper, we identified factors of employee retention by analyzing a Job Satisfaction/Retention group, and the factors of employee turnover by analyzing a Job Unsatisfaction/Turnover group. In order to do this, we first classified employees according to whether their self-reported job satisfaction or turnover was true. We collected and analyzed data from Jobplanet, a popular job review site. Through dominance analysis and LDA topic modeling, we found major factors, topics, and keywords of the classified groups by IT, service, and manufacturing domains. Our approach is a novel model to apply the analysis of reviews and text mining to the HR domain, and it will be practically helpful for setting new strategies that improve job satisfaction.

국내 산업공학 연구 주제 2001~2015 (Research Topics in Industrial Engineering 2001~2015)

  • 정보권;이학연
    • 대한산업공학회지
    • /
    • 제42권6호
    • /
    • pp.421-431
    • /
    • 2016
  • Over the last four decades, industrial engineering (IE) research in Korea has continued to evolve and expand to respond to social needs. This paper aims to identify research topics in IE research and explore their dynamic changes over time. The topic modeling approach, which automatically discovers topics that pervade a large and unstructured collection of documents, is adopted to identify research topics in domestic IE research. 1,242 articles published from 2001 to 2015 in two IE journals issued by the Korean Institute of Industrial Engineers were collected and their English abstracts were analyzed. Applying the Latent Dirichlet Allocation model led us to uncover 50 topics of domestic IE research. The top 10 most popular topics are revealed, and topic trends are explored by examining the dynamic changes over time. The four topics, technology management, financial engineering, data mining (supervised learning), efficiency analysis, are selected as hot topics while several traditional topics related with manufacturing are revealed as cold topics. The findings are expected to provide fruitful implications for IE researchers.