• 제목/요약/키워드: Bertopic

검색결과 27건 처리시간 0.019초

LDA 및 BERTopic 기반 해외건설시장 뉴스 기사 토픽모델링 성능평가 (Evaluation of Topic Modeling Performance for Overseas Construction Market Analysis Using LDA and BERTopic on News Articles)

  • 백준우;정세환;지석호
    • 대한토목학회논문집
    • /
    • 제43권6호
    • /
    • pp.811-819
    • /
    • 2023
  • 해외건설사업 시, 현지 상황을 정확하고 빠르게 파악하는 것은 프로젝트 성공을 위해 매우 중요한 요소이다. 이는 토픽모델링을 활용한 뉴스 기사 분석을 통해 실현될 수 있다. 본 연구는 Latent Dirichlet Allocation(LDA)과 BERTopic 두 토픽모델링 기법을 활용하여 뉴스 기사를 분석하고, 최적의 기법을 찾고자 하였다. 모델링 결과로 자동생성된 토픽과 실제 문서 주제와의 일치 여부를 확인하기 위해 BBC 뉴스 기사 6,273건 을 수집하여 ground truth를 생성하고, 이를 모델링된 토픽과 비교하였다. 그 결과 LDA의 F1 score는 0.011, BERTopic은 0.244로 나타났다. 이를 통해 BERTopic이 실제 뉴스 기사의 주제를 잘 파악하며, 해외건설시장의 주요 이슈를 자동으로 이해하는 데 더욱 용이하다는 것을 확인할 수 있었다

BERTopic을 활용한 텍스트마이닝 기반 인공지능 반도체 기술 및 연구동향 분석 (Topic Modeling on Patent and Article Big Data Using BERTopic and Analyzing Technological Trends of AI Semiconductor Industry)

  • 김현경;이정훈;강선구
    • Journal of Information Technology Applications and Management
    • /
    • 제31권1호
    • /
    • pp.139-161
    • /
    • 2024
  • The Fourth Industrial Revolution has spurred widespread adoption of AI-based services, driving global interest in AI semiconductors for efficient large-scale computation. Text mining research, historically using LDA, has evolved with machine learning integration, exemplified by the 2021 BERTopic technology. This study employs BERTopic to analyze AI semiconductor-related patents and research data, generating 48 topics from 2,256 patents and 40 topics from 1,112 publications. While providing valuable insights into technology trends, the study acknowledges limitations in taking a macro approach to the entire AI semiconductor industry. Future research may explore specific technologies for more nuanced insights as the industry matures.

LDA와 BERTopic을 이용한 토픽모델링의 증강과 확장 기법 연구 (Topic Model Augmentation and Extension Method using LDA and BERTopic)

  • 김선욱;양기덕
    • 정보관리학회지
    • /
    • 제39권3호
    • /
    • pp.99-132
    • /
    • 2022
  • 본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

토픽모델링을 활용한 한국산업경영시스템학회지의 최근 연구주제 분석 (Recent Research Trend Analysis for the Journal of Society of Korea Industrial and Systems Engineering Using Topic Modeling)

  • 박동준;구평회;오형술;윤 민
    • 산업경영시스템학회지
    • /
    • 제46권3호
    • /
    • pp.170-185
    • /
    • 2023
  • The advent of big data has brought about the need for analytics. Natural language processing (NLP), a field of big data, has received a lot of attention. Topic modeling among NLP is widely applied to identify key topics in various academic journals. The Korean Society of Industrial and Systems Engineering (KSIE) has published academic journals since 1978. To enhance its status, it is imperative to recognize the diversity of research domains. We have already discovered eight major research topics for papers published by KSIE from 1978 to 1999. As a follow-up study, we aim to identify major topics of research papers published in KSIE from 2000 to 2022. We performed topic modeling on 1,742 research papers during this period by using LDA and BERTopic which has recently attracted attention. BERTopic outperformed LDA by providing a set of coherent topic keywords that can effectively distinguish 36 topics found out this study. In terms of visualization techniques, pyLDAvis presented better two-dimensional scatter plots for the intertopic distance map than BERTopic. However, BERTopic provided much more diverse visualization methods to explore the relevance of 36 topics. BERTopic was also able to classify hot and cold topics by presenting 'topic over time' graphs that can identify topic trends over time.

LDA, Top2Vec, BERTopic 모형의 토픽모델링 비교 연구 - 국외 문헌정보학 분야를 중심으로 - (A Comparative Study on Topic Modeling of LDA, Top2Vec, and BERTopic Models Using LIS Journals in WoS)

  • 이용구;김선욱
    • 한국문헌정보학회지
    • /
    • 제58권1호
    • /
    • pp.5-30
    • /
    • 2024
  • 이 연구는 토픽모델링 모형인 LDA, Top2Vec, BERTopic을 대상으로 실험데이터에서 토픽을 추출하고, 그 결과를 비교 분석함으로써 각각의 모형 간의 특성과 차이를 파악하는데 목적이 있다. 실험데이터는 Web of Science(WoS)에 등재된 문헌정보학 분야 학술지 85종에 게재된 논문 55,442편을 대상으로 하였다. 실험 과정으로 우선 각 모형의 파라미터를 기본값 그대로 이용하여 1차 토픽모델링 결과를 얻었고, 최적의 토픽 수를 설정하여 각 모형의 2차 토픽모델링 결과를 얻었으며, 이들을 각 모형과 단계별로 비교분석하였다. 1차 토픽모델링 단계에서는 LDA, Top2Vec, BERTopic 모형이 각각 100개, 350개, 550개의 토픽을 생성하여 세 모형은 각각 매우 다른 크기의 토픽 개수를 가져왔으며, LDA 모형에 비해 Top2Vec이나 BERTopic 모형이 토픽을 3배, 5배 더 세분화하였다. 또한 세 모형은 토픽 당 문서 수의 평균이나 표준편차에서도 많은 차이가 났다. 구체적으로 LDA 모형은 비교적 적은 수의 토픽에 많은 문서를 부여하는 반면, BERTopic 모형은 반대의 경향을 보였다. 25개의 토픽 수를 생성하는 2차 토픽모델링 단계에서는 다른 모형에 비해 Top2Vec 모형이 평균적으로 토픽 당 많은 문서를 부여하고 토픽간에 고르게 문서를 할당하여 상대적으로 편차가 작았다. 또한 모형간의 유사 토픽의 생성여부를 비교하면, LDA와 Top2Vec 모형이 전체 25개 중에 18개(72%)의 공통된 토픽을 생성하여 BERTopic 모형에 비해 두 모형이 더 유사한 결과를 보였다. 향후 토픽모델링 결과에서 각 토픽과 부여된 문서들이 주제적으로 올바르게 형성되었는지에 대한 전문가의 평가를 통해 보다 완전한 분석이 필요하다.

Research Trend Analysis on Customer Satisfaction in Service Field Using BERTopic and LDA

  • YANG, Woo-Ryeong;YANG, Hoe-Chang
    • 융합경영연구
    • /
    • 제10권6호
    • /
    • pp.27-37
    • /
    • 2022
  • Purpose: The purpose of this study is to derive various ways to realize customer satisfaction for the development of the service industry by exploring research trends related to customer satisfaction, which is presented as an important goal in the service industry. Research design, data and methodology: To this end, 1,456 papers with English abstracts using scienceON were used for analysis. Using Python 3.7, word frequency and co-occurrence analysis were confirmed, and topics related to research trends were classified through BERTopic and LDA. Results: As a result of word frequency and co-occurrence frequency analysis, words such as quality, intention, and loyalty appeared frequently. As a result of BERTopic and LDA, 11 topics such as 'catering service' and 'brand justice' were derived. As a result of trend analysis, it was confirmed that 'brand justice' and 'internet shopping' are emerging as relatively important research topics, but CRM is less interested. Conclusions: The results of this study showed that the 7P marketing strategy is working to some extent. Therefore, it is proposed to conduct research related to acquisition of good customers through service price, customer lifetime value application, and customer segmentation that are expected to be needed for the development of the service industry.

A Study on Leadership Trends from the Perspective of Domestic Researcher's Using BERTopic and LDA

  • Sung-Su, SHIN;Hoe-Chang, Yang
    • 동아시아경상학회지
    • /
    • 제11권1호
    • /
    • pp.53-71
    • /
    • 2023
  • Purpose - This study aims to find clues necessary for the direction of leadership development suitable for the current situation by exploring the direction in which leadership has been studied from the perspective of domestic researchers, along with the arrangement of leadership theories studied in various ways. Research design, data, and methodology - A total of 7,425 papers were obtained due to the search, and 5,810 papers with English abstracts were used for analysis. For analysis, word frequency analysis, word clouding, and co-occurrence were confirmed using Python 3.7. In addition, after classifying topics related to research trends through BERTopic and LDA, trends were identified through dynamic topic modeling and OLS regression analysis. Result - As a result of the BERTopic, 14 topics such as 'Leadership management and performance' and 'Sports leadership' were derived. As a result of conducting LDA on 1,976 outliers, five topics were derived. As a result of trend analysis on topics by year, it was confirmed that five topics, such as 'military police leadership' received relative attention. Conclusion - Through the results of this study, a study on the reinterpretation of past leadership studies, a study on LMX with an expanded perspective, and a study on integrated leadership sub-factors of modern leadership theory were proposed.

Online Shopping Research Trend Analysis Using BERTopic and LDA

  • Yoon-Hwang, JU;Woo-Ryeong, YANG;Hoe-Chang, YANG
    • 융합경영연구
    • /
    • 제11권1호
    • /
    • pp.21-30
    • /
    • 2023
  • Purpose: As one of the ongoing studies on the distribution industry, the purpose of this study is to identify the research trends on online shopping so far to propose not only the development of online shopping companies but also the possibility of coexistence between online and offline retailers and the development of the distribution industry. Research design, data and methodology: In this study, the English abstracts of 645 papers on online shopping registered in scienceON were obtained. For the analysis through BERTopic and LDA using Python 3.7 and identifying which topics were interesting to researchers. Results: As a result of word frequency analysis and co-occurrence analysis, it was found that studies related to online shopping were frequently conducted on factors such as products, services, and shopping malls. As a result of BERTopic, five topics such as 'service quality' and 'sales strategy' were derived, and as a result of LDA, three topics including 'purchase experience' were derived. It was confirmed that 'Customer Recommendation' and 'Fashion Mall' showed relatively high interest, and 'Sales Strategy' showed relatively low interest. Conclusions: It was suggested that more diverse studies related to the online shopping mall platform, sales content, and usage influencing factors are needed to develop the online shopping industry.

버토픽과 텍스트랭크의 융합을 통한 토픽모델링의 개선 및 사례 분석 (Improvement of topic modeling and case analysis through convergence of Bertopic and TextRank)

  • 김근형;강재정
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제33권3호
    • /
    • pp.105-121
    • /
    • 2024
  • Purpose The purpose of this paper is to develop a method to improve topic representation by incorporating the TextRank technique in Bertopic-based topic modeling and additional indicators for determining the optimal number of topics. Design/methodology/approach In this paper, we propose a method to extract important documents from documents assigned to each topic of a topic model using the TextRank technique, and to calculate secondary diversity and generate topic representations based on the results. First, we integrate the TextRank algorithm into the Bertopic-based topic modeling process to set local secondary labels for each topic. The secondary labels of each topic are derived through extractive summarization based on the TextRank algorithm. Second, we improve the accuracy of selecting the optimal number of topics by calculating the secondary diversity index based on the extractive summary results of each topic. Third, we improve the efficiency by utilizing ChatGPT when deriving the labels of each topic. Findings As a result of performing case analysis and analysis evaluation using the proposed method, it was confirmed that topic representation based on TextRank results generated more accurate topic labels and that the secondary diversity index was a more effective index for determining the optimal number of topics.

BERTopic을 활용한 인간-로봇 상호작용 동향 연구 (A Study on Human-Robot Interaction Trends Using BERTopic)

  • 김정훈;곽기영
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.185-209
    • /
    • 2023
  • 4차 산업혁명의 도래와 함께 다양한 기술이 주목을 받고 있다. 4차 산업혁명과 관련된 기술로는 IoT(Internet of Things), 빅데이터, 인공지능, VR(Virtual Reality), 3D 프린터, 로봇공학 등이 있으며 이러한 기술은 종종 융합된다. 특히 로봇 분야는 빅데이터, 인공지능, VR, 디지털 트윈과 같은 기술과 결합할 것으로 기대된다. 이에 따라 로봇을 활용한 연구가 다수 진행되고 있으며 유통, 공항, 호텔, 레스토랑, 교통 분야 등에 적용되고 있다. 이러한 상황에서 인간-로봇 상호작용에 대한 연구가 주목을 받고 있지만 아직 만족할 만한 수준에는 이르지 못하고 있다. 하지만 완벽한 의사소통이 가능한 로봇에 대한 연구가 꾸준히 이루어지고 있고 이는 인간의 감정노동을 대신할 수 있을 것으로 기대된다. 따라서 현재의 인간-로봇 상호작용 기술을 비즈니스에 적용할 수 있는지에 대한 논의가 필요하다. 이를 위해 본 연구는 첫째, 인간로봇 상호작용 기술의 동향을 살펴본다. 둘째, LDA(Latent Dirichlet Allocation) 토픽모델링과 BERTopic 토픽모델링 방법을 비교한다. 연구 결과, 1992년~2002년 간의 연구에서는 인간-로봇 상호작용에 대한 개념과 기초적인 상호작용에 대해 논의되고 있었다. 2003년~2012년에는 사회적 표현에 대한 연구가 많이 진행되었으며 얼굴검출, 인식 등과 같이 판단과 관련된 연구도 수행되었다. 2013년~2022년에는 노인 간호, 교육, 자폐 치료와 같은 서비스 토픽들이 등장하였으며, 사회적 표현에 대한 연구가 지속되었다. 그러나 아직까지 비즈니스에 적용할 수 있는 수준에는 이르지 못한 것으로 보인다. 그리고 LDA토픽모델링과 BERTopic 토픽모델링 방법을 비교한 결과 LDA에 비해 BERTopic이 더 우수한 방법임을 확인하였다.