• 제목/요약/키워드: topic modeling analysis

검색결과 672건 처리시간 0.026초

Generative probabilistic model with Dirichlet prior distribution for similarity analysis of research topic

  • Milyahilu, John;Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권4호
    • /
    • pp.595-602
    • /
    • 2020
  • We propose a generative probabilistic model with Dirichlet prior distribution for topic modeling and text similarity analysis. It assigns a topic and calculates text correlation between documents within a corpus. It also provides posterior probabilities that are assigned to each topic of a document based on the prior distribution in the corpus. We then present a Gibbs sampling algorithm for inference about the posterior distribution and compute text correlation among 50 abstracts from the papers published by IEEE. We also conduct a supervised learning to set a benchmark that justifies the performance of the LDA (Latent Dirichlet Allocation). The experiments show that the accuracy for topic assignment to a certain document is 76% for LDA. The results for supervised learning show the accuracy of 61%, the precision of 93% and the f1-score of 96%. A discussion for experimental results indicates a thorough justification based on probabilities, distributions, evaluation metrics and correlation coefficients with respect to topic assignment.

간호관련 국민청원 분석: 텍스트네트워크 분석 및 토픽모델링 (National Petition Analysis Related to Nursing: Text Network Analysis and Topic Modeling)

  • 고현정;정석희;이은지;김희선
    • 대한간호학회지
    • /
    • 제53권6호
    • /
    • pp.635-651
    • /
    • 2023
  • Purpose: This study aimed to identify the main keyword, network structure, and main topics of the national petition related to "nursing" in South Korea. Methods: Data were gathered from petitions related to the national petition in Korea Blue House related to the topic "nursing" or "nurse" from August 17, 2017, to May 9, 2022. A total of 5,154 petitions were searched, and 995 were selected for the final analysis. Text network analysis and topic modeling were analyzed using the Netminer 4.5.0 program. Results: Regarding network characteristics, a density of 0.03, an average degree of 144.483, and an average distance of 1.943 were found. Compared to results of degree centrality and betweenness centrality, keywords such as "work environment," "nursing university," "license," and "education" appeared typically in the eigenvector centrality analysis. Topic modeling derived four topics: (1) "Improving the working environment and dealing with nursing professionals," (2) "requesting investigation and punishment related to medical accidents," (3) "requiring clear role regulation and legislation of medical and nonmedical professions," and (4) "demanding improvement of healthcare-related systems and services." Conclusion: This is the first study to analyze Korea's national petitions in the field of nursing. This study's results confirmed both the internal needs and external demands for nurses in South Korea. Policies and laws that reflect these results should be developed.

토픽 모델링과 네트워크 분석을 활용한 사물주소 도입에 대한 언론보도 분석 (An Analysis of the Media's Report on the Adoption of the Address of Things using Topic Modeling and Network Analysis)

  • 모성훈;임철현;김현재;이정우
    • 스마트미디어저널
    • /
    • 제10권2호
    • /
    • pp.38-47
    • /
    • 2021
  • 본 연구는 주소를 둘러싼 국내외 환경변화 속에서 관계 법령 개정 및 시범사업 등에 의해 본격적으로 도입이 이루어지고 있는 사물주소에 대한 언론보도를 분석하였다. 네이버 뉴스 플랫폼에서 2018년 4월부터 2020년 9월까지 기간동안 '사물주소'라고 검색하여 수집된 언론보도기사의 제목과 원문을 수집하여 토픽 모델링 및 네트워크 분석을 실시하였다. 분석 결과, 보도주제는 4가지 유형으로 '사물주소체계 추진', '사물주소 부여대상 실증', '도로명주소 사용 개선', '주소 활성화를 위한 교육·홍보'로 나타났으며, 해당 기간동안 '사물주소 부여 실증' 주제가 주요 의제였음을 확인하였다. 분석 결과를 행정안전부의 「제3차 주소정책 기본계획(2018-2022)」과 비교하여 정책적 시사점을 제시하였다.

고객 선호 변화를 고려한 토픽 모델링 기반 추천 시스템 (A Topic Modeling-based Recommender System Considering Changes in User Preferences)

  • 강소영;김재경;최일영;강창동
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.43-56
    • /
    • 2020
  • 추천 시스템은 사용자가 다양한 옵션 중에서 최선의 선택을 할 수 있도록 도와준다. 그러나 추천 시스템이 상업적으로 성공하기 위해서는 극복할 몇 개의 문제점이 존재한다. 첫째, 추천시스템의 투명성 부족 문제이다. 즉, 추천된 상품이 왜 추천되었는지 사용자들이 알 수 없다. 둘째, 추천시스템이 사용자 선호의 변화를 즉각적으로 반영할 수 없는 문제이다. 즉, 사용자의 상품에 대한 선호는 시간이 지남에 따라 변함에도 불구하고, 추천시스템이 사용자 선호를 반영하기 위해서는 다시 모델을 재구축해야 한다. 따라서 본연구에서는 이러한 문제를 해결하기 위해 토픽 모델링과 순차 연관 규칙을 이용한 추천 방법론을 제안하였다. 토픽 모델링은 사용자에게 아이템이 왜 추천되었는지 설명하는데 유용하며, 순차 연관 규칙은 변화하는 사용자의 선호를 파악하는데 유용하다. 본 연구에서 제안한 방법은 크게 토픽 모델링 및 사용자 프로파일 생성 등 토픽 모델링에 기반한 사용자 프로파일 생성 단계와 토픽에 사용자 선호 확인 및 순차 연관 규칙 발견 등 순차 연관 규칙에 기반한 추천 단계로 구분된다. 벤치마크 시스템으로 협업 필터링 기반 추천 시스템을 개발하고, 아마존의 리뷰 데이터 셋을 이용하여 제안한 방법론의 성능을 비교 평가하였다. 비교 분석 결과, 제안한 방법론이 협업 필터링 기반 추천시스템보다 뛰어난 성능을 보였다. 따라서 본 연구에서 제안하는 추천 방법을 통해 추천 시스템의 투명성을 확보할 수 있을 뿐만 아니라, 시간에 따라 변화하는 사용자의 선호를 반영할 수 있다. 그러나 본 연구는 토픽과 관련된 상품을 추천하기 때문에, 토픽에 포함된 상품의 수가 많을 경우 추천이 정교하지 못하는 한계점이 있다. 또한 토픽의 수가 적기 때문에 토픽에 대한 순차 연관 규칙이 너무 적은 문제점이 있다. 향후 연구에서 이러한 문제점을 해결한다면 좋은 연구가 될 것으로 판단된다.

텍스트마이닝과 ChatGPT 분석을 활용한 기업과 대중의 ESG 인식 비교: 지속가능경영보고서와 소셜미디어를 기반으로 (Comparing Corporate and Public ESG Perceptions Using Text Mining and ChatGPT Analysis: Based on Sustainability Reports and Social Media)

  • 최재훈;양성병;윤상혁
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.347-373
    • /
    • 2023
  • 최근 기업의 지속가능한 성장을 이끄는 ESG(Environmental, Social, and Governance) 관리의 중요성이 강조되고 있다. 이에, 본 연구는 기업과 일반 대중 간의 ESG에 대한 인식 차이를 실증적으로 밝히고, ESG 정책의 시행을 방해하는 부정적인 여론과 그 배경을 규명하는 것을 목표로 한다. 이를 위해, LDA(Latent Dirichlet Allocation) 토픽모델링, JST(Joint Sentiment Topic Modeling) 및 의미연결망분석 기법을 사용하여 지속가능경영보고서와 소셜미디어에서의 주요 키워드와 토픽, 그리고 그 연결관계를 분석하였다. 또한, ChatGPT를 활용하여, 텍스트마이닝 분석의 결과를 보완하였다. 분석 결과, 기업과 일반 대중 간 ESG에 대한 인식과 중요도에 상당한 차이가 있음을 확인하였다. 구체적으로, 기업들은 위기 관리, 투명한 지배구조, 윤리적 경영 등에 집중하여 신뢰를 구축하려 했으나, '그린워싱', '중대재해', '불매운동' 등과 같은 부정적 키워드가 자주 소셜네트워크에서 등장하여, 많은 대중들이 기업의 ESG 이슈 처리에 대해 의심하고 있음을 확인하였다. 본 연구는 기업, 정부 기관, 고객 및 투자자를 위한 ESG 전략수립에 도움이 될 수 있는 가이드라인을 제공한다는 점에서 의의가 있다.

Rearch of Late Adolcent Activity based on Using Big Data Analysis

  • Hye-Sun, Lee
    • International Journal of Advanced Culture Technology
    • /
    • 제10권4호
    • /
    • pp.361-368
    • /
    • 2022
  • This study seeks to determine the research trend of late adolescents by utilizing big data. Also, seek for research trends related to activity participation, treatment, and mediation to provide academic implications. For this process, gathered 1.000 academic papers and used TF-IDF analysis method, and the topic modeling based on co-occurrence word network analysis method LDA (Latent Dirichlet Allocation) to analyze. In conclusion this study conducted analysis of activity participation, treatment, and mediation of late adolescents by TF-IDF analysis method, co-occurrence word network analysis method, and topic modeling analysis based on LDA(Latent Dirichlet Allocation). The results were proposed through visualization, and carries significance as this study analyzed activity, treatment, mediation factors of late adolescents, and provides new analysis methods to figure out the basic materials of activity participation trends, treatment, and mediation of late adolescents.

온라인 리뷰의 텍스트 마이닝에 기반한 한국방문 외국인 관광객의 문화적 특성 연구 (A study on cultural characteristics of foreign tourists visiting Korea based on text mining of online review)

  • 야오즈옌;김은미;홍태호
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권4호
    • /
    • pp.171-191
    • /
    • 2020
  • Purpose The study aims to compare the online review writing behavior of users in China and the United States through text mining on online reviews' text content. In particular, existing studies have verified that there are differences in online reviews between different cultures. Therefore, the purpose of this study is to compare the differences between reviews written by Chinese and American tourists by analyzing text contents of online reviews based on cultural theory. Design/methodology/approach This study collected and analyzed online review data for hotels, targeting Chinese and US tourists who visited Korea. Then, we analyzed review data through text mining like sentiment analysis and topic modeling analysis method based on previous research analysis. Findings The results showed that Chinese tourists gave higher ratings and relatively less negative ratings than American tourists. And American tourists have more negative sentiments and emotions in writing online reviews than Chinese tourists. Also, through the analysis results using topic modeling, it was confirmed that Chinese tourists mentioned more topics about the hotel location, room, and price, while American tourists mentioned more topics about hotel service. American tourists also mention more topics about hotels than Chinese tourists, indicating that American tourists tend to provide more information through online reviews.

COVID-19 발생 전·후 언론보도에 나타난 간호사 이미지에 대한 텍스트 네트워크 분석 및 토픽 모델링 (Images of Nurses Appeared in Media Reports Before and After Outbreak of COVID-19: Text Network Analysis and Topic Modeling)

  • 박민영;정석희;김희선;이은지
    • 대한간호학회지
    • /
    • 제52권3호
    • /
    • pp.291-307
    • /
    • 2022
  • Purpose: The aims of study were to identify the main keywords, the network structure, and the main topics of press articles related to nurses that have appeared in media reports. Methods: Data were media articles related to the topic "nurse" reported in 16 central media within a one-year period spanning July 1, 2019 to June 30, 2020. Data were collected from the Big Kinds database. A total of 7,800 articles were searched, and 1,038 were used for the final analysis. Text network analysis and topic modeling were performed using NetMiner 4.4. Results: The number of media reports related to nurses increased by 3.86 times after the novel coronavirus (COVID-19) outbreak compared to prior. Pre- and post-COVID-19 network characteristics were density 0.002, 0.001; average degree 4.63, 4.92; and average distance 4.25, 4.01, respectively. Four topics were derived before and after the COVID-19 outbreak, respectively. Pre-COVID-19 example topics are "a nurse who committed suicide because she could not withstand the Taewoom at work" and "a nurse as a perpetrator of a newborn abuse case," while post-COVID-19 examples are "a nurse as a victim of COVID-19," "a nurse working with the support of the people," and "a nurse as a top contributor and a warrior to protect from COVID-19." Conclusion: Topic modeling shows that topics become more positive after the COVID-19 outbreak. Individual nurses and nursing organizations should continuously monitor and conduct further research on nurses' image.

자율주행자동차 R&D 동향분석과 논리모형 개발에 대한 연구 (A Study on the Analysis of R&D Trends and the Development of Logic Models for Autonomous Vehicles)

  • 김길래
    • 디지털융복합연구
    • /
    • 제19권5호
    • /
    • pp.31-39
    • /
    • 2021
  • 본 연구는 국내외 자율주행자동차 연구개발과정에서 나타나고 있는 다양한 이슈를 파악하기 위해 자율주행자동차 연구개발 관련 영문 뉴스 기사 1,870개를 수집하고 데이터 전처리 과정을 거쳐 토픽 모델링을 수행하였다. 토픽모델링 결과 20개의 토픽을 추출하였으며, 토픽에 대한 명명작업을 수행하고 의미를 해석하였다. 도출된 토픽을 투입, 활동, 산출, 성과의 연구개발과정에 대응시켜 자율주행자동차 연구개발사업 논리모형을 제시하였다. 본 연구의 분석결과는 국내외 자율주행자동차 연구개발사업의 추진 상황을 정확하게 판단하고 빠르게 변화하고 있는 기술개발에 대비할 수 있는 기초자료로 활용할 수 있을 것이다.

Latent Dirichlet Allocation 토픽모델링을 이용한 한방 의료 서비스 분석에 관한 연구 : 의료 소비자의 온라인 리뷰를 중심으로 (A Study on the Analysis of Korean Medical Services using Latent Dirichlet Allocation Topic Modeling : Focusing on online reviews by medical consumers)

  • 손채연;송연우;이승호
    • 대한예방한의학회지
    • /
    • 제26권1호
    • /
    • pp.43-57
    • /
    • 2022
  • Objective : This study aims to understand the consumer's needs for Korean medicine medical service using online review analysis of medical consumers. Methods : We analyzed the purpose and satisfaction factors of medical service use using LDA (Latent Dirichlet Allocation) topic modeling. The data used in the study was 120,727 screened reviews written by medical consumers registered on Naver. The analyzed results were compared with the "2020 Korean Medicine Utilization Survey". Results : From 2018 to 2021, the five most frequently used terms were "kindness", "treatment", "doctor", "Korean medicine", and "acupuncture". The main purpose of visiting Korean medicine medical clinic and hospital was to treat "traffic accidents" in 2018, "waist(back) pain" in 2019, "musculoskeletal pain" in 2020 & 2021. Based on the rating, reviewers were satisfied with "explanation of treatment" and "treatment attitude", and dissatisfied with "accessibility to the institution". Conclusion : We concluded that the main purpose of use of Korean medicine institution was to treat musculoskeletal disorders. Based on the results of this study, it is expected that it will be used to improve Korean medicine medical service in the future.