• 제목/요약/키워드: topic modeling

검색결과 841건 처리시간 0.024초

토픽모델링과 사회연결망 분석을 통한 우리나라 유엔 평화유지활동 동향 탐색 (Exploring trends in U.N. Peacekeeping Activities in Korea through Topic Modeling and Social Network Analysis)

  • 정동현;김찬송;이강민;배소은;서연;설현주
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.246-262
    • /
    • 2023
  • The purpose of this study is to identify the major peacekeeping activities that the Korean armed forces has performed from the past to the present. To do this, we collected 692 press releases from the National Defense Daily over the past 20 years and performed topic modeling and social network analysis. As a result of topic modeling analysis, 112 major keywords and 8 topics were derived, and as a result of examining the Korean armed forces's peacekeeping activities based on the topics, 6 major activities and 2 related matters were identified. The six major activities were 'Northeast Asian defense cooperation', 'multinational force activities', 'civil operations', 'defense diplomacy', 'ceasefire monitoring group', and 'pro-Korean activities', and 'general troop deployment' related to troop deployment in general. Next, social network analysis was performed to examine the relationship between keywords and major keywords related to topic decision, and the keywords 'overseas', 'dispatch', and 'high level' were derived as key words in the network. This study is meaningful in that it first examined the topic of the Korean armed forces's peacekeeping activities over the past 20 years by applying big data techniques based on the National Defense Daily, an unstructured document. In addition, it is expected that the derived topics can be used as a basis for exploring the direction of development of Korea's peacekeeping activities in the future.

토픽 모델링과 이해관계자 요구 산출물을 이용한 요구사항 자동 우선순위화 (Automatic Prioritization of Requirements using Topic Modeling and Stakeholder Needs-Artifacts)

  • 장종인;백종문
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.196-203
    • /
    • 2016
  • 소프트웨어 개발에 투자되는 자원은 한정되어 있으므로 요구사항들을 우선순위화하여 중요한 요구사항부터 충족시켜야 한다. 기존 요구사항 우선순위화 기법들은 인간의 수동화된 판단에 의존하므로 요구사항의 수가 많은 경우에는 적용하기가 힘든 확장성 문제와 이해관계자 개개인의 편향된 가치판단에 노출되는 편향성 문제를 가지고 있다. 이 문제들을 해결하고자 본 논문은 요구사항 도출 단계에서 얻어지는 이해관계자 요구 산출물과 텍스트의 의미적 주제를 추리하는 토픽 모델링 기법을 이용한 자동 요구사항 우선순위화 기법, ToMSN(Topic Modeling Stakeholder Needs for requirements prioritization)을 제안한다. 이 기법을 사용자 30,000명 규모의 실제 소프트웨어 요구사항 데이터로 평가한 결과, 인간의 개입이 필요 없는 자동화 과정으로 확장성과 편향성 문제를 해결함과 더불어 우선순위화 정확도 또한 기존 수동화 기법들과 유사함을 확인할 수 있었다.

감성분석과 토픽모델링을 활용한 농촌태양광 관련 이슈 연구 : 언론 기사와 블로그 포스트 비교 (Application of Sentiment Analysis and Topic Modeling on Rural Solar PV Issues : Comparison of News Articles and Blog Posts)

  • 기재홍;안승혁
    • 디지털융복합연구
    • /
    • 제18권9호
    • /
    • pp.17-27
    • /
    • 2020
  • 사회적 의제 설정 영향력을 지닌 미디어인 언론 기사와 블로그 포스트에서 농촌태양광이 어떻게 다루어지고 있는지 분석하기 위해 텍스트 마이닝 방법을 활용하였다. 농촌태양광을 키워드로 웹스크래핑을 통해 기사와 블로그 포스트의 텍스트 자료를 수집하고, 이에 대해 감성분석과 토픽모델 기법을 적용하여 연구를 수행했다. 감성분석 결과 농촌태양광에 대한 텍스트에서 두 매체 모두 긍정적인 입장을 가지는 비율이 높았는데, 블로그의 경우 기사에 비해 부정적인 내용을 담은 텍스트의 비중이 훨씬 낮은 것을 확인할 수 있었다. 그리고 토픽모델링 결과로 긍정 기사는 정부의 보급계획 관련 토픽들의 비중이 컸고, 부정 기사는 다양한 토픽들의 비중이 고르게 분포하였다. 블로그는 긍정 포스트의 경우 농촌 지역 설치 관련 토픽들이, 부정 포스트는 환경 피해 관련 토픽들이 가장 큰 부분을 차지했다. 기존에 별개로 이루어지던 감성분석과 토픽모델링을 결합하는 연구 방식을 제시함으로써 농촌태양광에 대한 이슈를 효과적으로 파악할 수 있었다.

토픽 모델링 및 바이그램 네트워크 분석 기법을 통한 여대생의 건강관리 및 웨어러블 디바이스 인식에 관한 연구 (Analyzing Female College Student's Recognition of Health Monitoring and Wearable Device Using Topic Modeling and Bi-gram Network Analysis)

  • 정우경;신동희
    • 정보관리학회지
    • /
    • 제38권4호
    • /
    • pp.129-152
    • /
    • 2021
  • 본 연구는 토픽 모델링 및 네트워크 분석 기법을 활용하여 여대생들의 웨어러블 디바이스에 대한 인식 및 선호도 분석, 건강관리에 대한 요구를 분석함으로써 여대생에게 맞는 웨어러블 디바이스 개발 방안을 제시하였다. 이를 위하여 S여자대학교 재학생들이 사용하는 커뮤니티에서 건강관리 및 웨어러블 디바이스와 관련된 게시글 2,457건을 수집하였고. 수집된 게시글과 댓글 데이터를 전처리한 뒤 LDA 기반의 토픽 모델링을 실시하였다. 토픽 모델링 기법을 통해 건강관리 및 웨어러블 디바이스와 관련하여 여대생들의 주요 쟁점들을 도출하고, 관련 키워드가 포함된 포스팅에 대해 바이그램 분석과 네트워크 분석을 수행하여 여대생들이 웨어러블 기기에 대해 가지고 있는 견해를 파악하고자 한다.

토픽모델링을 활용한 물리학 독서감상문 텍스트의 교육과정 연계성 분석 (Curriculum Relevance Analysis of Physics Book Report Text Using Topic Modeling)

  • 임정훈
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.333-353
    • /
    • 2022
  • 본 연구는 '물리학' 수업에서 교과독서 활동으로 작성된 독후감상문의 교육과정 연계성을 분석하는데 목적이 있다. 연구를 수행하기 위해 교과독서 활동으로 작성한 332편의 물리학 독서감상문을 수집하여 키워드와 키워드들의 연결 관계를 분석하고, STM(Structural Topic Modeling)을 적용하여 토픽을 추출하였다. 분석 결과, 물리학 독서감상문의 주요 키워드는 '생각', '내용', '설명', '이론', '사람', '이해' 등으로 나타났으며, 도출된 키워드의 영향력과 연결 관계를 살펴보기 위해 연결중심성, 매개중심성, 위세중심성을 제시하였다. 토픽모델링 분석 결과, 물리학 교육과정과 관련된 11개 토픽이 추출되었으며, 3과목(물리학I, 물리학II, 과학사), 6개 영역(힘과 운동, 현대물리, 파동, 열과 에너지, 서양과학사, 과학이란 무엇인가)에서 교육과정 연계성을 확인할 수 있었다. 본 연구의 결과는 추후 교과 특성을 반영한 교과독서를 보다 체계적으로 시행할 수 있는 근거자료로 활용할 수 있을 것이다.

LDA 및 BERTopic 기반 해외건설시장 뉴스 기사 토픽모델링 성능평가 (Evaluation of Topic Modeling Performance for Overseas Construction Market Analysis Using LDA and BERTopic on News Articles)

  • 백준우;정세환;지석호
    • 대한토목학회논문집
    • /
    • 제43권6호
    • /
    • pp.811-819
    • /
    • 2023
  • 해외건설사업 시, 현지 상황을 정확하고 빠르게 파악하는 것은 프로젝트 성공을 위해 매우 중요한 요소이다. 이는 토픽모델링을 활용한 뉴스 기사 분석을 통해 실현될 수 있다. 본 연구는 Latent Dirichlet Allocation(LDA)과 BERTopic 두 토픽모델링 기법을 활용하여 뉴스 기사를 분석하고, 최적의 기법을 찾고자 하였다. 모델링 결과로 자동생성된 토픽과 실제 문서 주제와의 일치 여부를 확인하기 위해 BBC 뉴스 기사 6,273건 을 수집하여 ground truth를 생성하고, 이를 모델링된 토픽과 비교하였다. 그 결과 LDA의 F1 score는 0.011, BERTopic은 0.244로 나타났다. 이를 통해 BERTopic이 실제 뉴스 기사의 주제를 잘 파악하며, 해외건설시장의 주요 이슈를 자동으로 이해하는 데 더욱 용이하다는 것을 확인할 수 있었다

KOSPI index prediction using topic modeling and LSTM

  • Jin-Hyeon Joo;Geun-Duk Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.73-80
    • /
    • 2024
  • 본 연구는 토픽 모델링과 장단기 기억(LSTM) 신경망을 결합하여 한국 종합주가지수(KOSPI) 예측의 정확도를 향상하는 방법을 제안한다. 본 논문에서는 LDA(Latent Dirichlet Allocation) 기법을 이용해 금융 뉴스 데이터에서 금리 인상 및 인하와 관련된 10개의 주요 주제를 추출하고, 추출된 주제를 과거 KOSPI 지수와 함께 LSTM 모델에 입력하여 KOSPI 지수를 예측하는 모델을 제안한다. 제안된 모델은 과거 KOSPI 지수를 LSTM 모델에 입력하여 시계열 예측 방법과 뉴스 데이터를 입력하여 토픽 모델링하는 방법을 결합하여 KOSPI 지수를 예측하는 특성을 가진다. 제안된 모델의 성능을 검증하기 위해, 본 논문에서는 LSTM의 입력 데이터의 종류에 따라 4개의 모델(LSTM_K 모델, LSTM_KNS 모델, LDA_K 모델, LDA_KNS 모델)을 설계하고 각 모델의 예측 성능을 제시하였다. 예측 성능을 비교한 결과, 금융 뉴스 주제 데이터와 과거 KOSPI 지수 데이터를 입력으로 하는 LSTM 모델(LDA_K 모델)이 가장 낮은 RMSE(Root Mean Square Error)를 기록하여 가장 좋은 예측 성능을 보였다.

토픽 레이블링을 위한 토픽 키워드 산출 방법 (A Method of Calculating Topic Keywords for Topic Labeling)

  • 김은회;서유화
    • 디지털산업정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.25-36
    • /
    • 2020
  • Topics calculated using LDA topic modeling have to be labeled separately. When labeling a topic, we look at the words that represent the topic, and label the topic. Therefore, it is important to first make a good set of words that represent the topic. This paper proposes a method of calculating a set of words representing a topic using TextRank, which extracts the keywords of a document. The proposed method uses Relevance to select words related to the topic with discrimination. It extracts topic keywords using the TextRank algorithm and connects keywords with a high frequency of simultaneous occurrence to express the topic with a higher coverage.

토픽모델링을 이용한 국내 미세먼지 연구 분류 및 연구동향 분석 (A Study on the Research Topics and Trends in South Korea: Focusing on Particulate Matter)

  • 박혜민;김태용;권대웅;허준용;이주연;양민준
    • 대한원격탐사학회지
    • /
    • 제38권5_3호
    • /
    • pp.873-885
    • /
    • 2022
  • 전 세계적으로 미세먼지(particulate matter, PM)와 사망률 및 유병률 증가의 관련성이 보고되면서 다양한 연구가 수행되었으며, 우리나라에서는 1990년대 후반을 기점으로 PM에 대한 중요성을 인식하고, PM에 대한 다양한 연구가 수행되었다. 본 연구에서는 '미세먼지' 관련 연구들의 주제를 분류하고, 각 주제별 연구 동향을 확인하기 위해 Research Information Sharing Service (RISS)에 게재된 미세먼지 관련 2,764편의 논문을 대상으로 Latent Dirichlet Allocate (LDA) 분석을 수행하였다. 연구 결과, 총 10개의 주제로 분류하는 것이 가장 적합하였으며, 미세먼지 관련 연구주제는 '미세먼지 저감(Topic 1)', '정부 정책 및 관리(Topic 2)', '미세먼지 특성(Topic 3)', '미세먼지 모델(Topic 4)', '환경교육(Topic 5)', '바이오(Topic 6)', '교통수단(Topic 7)', '황사(Topic 8)', '실내 미세먼지 오염(Topic 9)', '인체 위해성(Topic 10)'의 주제로 분류할 수 있었다. 특히, '정부 정책 및 관리(Topic 2)', '미세먼지 모델(Topic 4)', '환경교육(Topic 5)'. '바이오(Topic 6)' 관련 연구주제들이 시간에 따라 전체 논문에 대한 비율이 증가하는 추세를 보여 성행하는 것을 확인하였다(linear slope>0). 본 연구의 결과는 미세먼지 관련 다양한 분야의 연구자들에게 새로운 문헌 고찰의 방법론을 제시하고, 미세먼지 분야의 역사와 발전에 대한 이해를 제공했음에 의의가 있다.

고객 선호 변화를 고려한 토픽 모델링 기반 추천 시스템 (A Topic Modeling-based Recommender System Considering Changes in User Preferences)

  • 강소영;김재경;최일영;강창동
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.43-56
    • /
    • 2020
  • 추천 시스템은 사용자가 다양한 옵션 중에서 최선의 선택을 할 수 있도록 도와준다. 그러나 추천 시스템이 상업적으로 성공하기 위해서는 극복할 몇 개의 문제점이 존재한다. 첫째, 추천시스템의 투명성 부족 문제이다. 즉, 추천된 상품이 왜 추천되었는지 사용자들이 알 수 없다. 둘째, 추천시스템이 사용자 선호의 변화를 즉각적으로 반영할 수 없는 문제이다. 즉, 사용자의 상품에 대한 선호는 시간이 지남에 따라 변함에도 불구하고, 추천시스템이 사용자 선호를 반영하기 위해서는 다시 모델을 재구축해야 한다. 따라서 본연구에서는 이러한 문제를 해결하기 위해 토픽 모델링과 순차 연관 규칙을 이용한 추천 방법론을 제안하였다. 토픽 모델링은 사용자에게 아이템이 왜 추천되었는지 설명하는데 유용하며, 순차 연관 규칙은 변화하는 사용자의 선호를 파악하는데 유용하다. 본 연구에서 제안한 방법은 크게 토픽 모델링 및 사용자 프로파일 생성 등 토픽 모델링에 기반한 사용자 프로파일 생성 단계와 토픽에 사용자 선호 확인 및 순차 연관 규칙 발견 등 순차 연관 규칙에 기반한 추천 단계로 구분된다. 벤치마크 시스템으로 협업 필터링 기반 추천 시스템을 개발하고, 아마존의 리뷰 데이터 셋을 이용하여 제안한 방법론의 성능을 비교 평가하였다. 비교 분석 결과, 제안한 방법론이 협업 필터링 기반 추천시스템보다 뛰어난 성능을 보였다. 따라서 본 연구에서 제안하는 추천 방법을 통해 추천 시스템의 투명성을 확보할 수 있을 뿐만 아니라, 시간에 따라 변화하는 사용자의 선호를 반영할 수 있다. 그러나 본 연구는 토픽과 관련된 상품을 추천하기 때문에, 토픽에 포함된 상품의 수가 많을 경우 추천이 정교하지 못하는 한계점이 있다. 또한 토픽의 수가 적기 때문에 토픽에 대한 순차 연관 규칙이 너무 적은 문제점이 있다. 향후 연구에서 이러한 문제점을 해결한다면 좋은 연구가 될 것으로 판단된다.