• 제목/요약/키워드: Latent Dirichlet allocation

검색결과 208건 처리시간 0.034초

LDA 기법을 이용한 버스 승객의 잠재적 이동패턴 분석 (Latent mobility pattern analysis of bus passengers with LDA)

  • 조아;이경희;조완섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1061-1069
    • /
    • 2015
  • 최근 교통 분야에서 발생하는 교통 빅데이터 (교통카드 데이터, ATMS 데이터 등)의 분석결과를 교통 정책에 활용하는 사례가 늘어나고 있는 추세이다. 또한 교통 데이터 분석 기법을 기존의 단순 빈도 분석 기법에서 다양한 데이터 마이닝 기법으로 확장하여 교통 데이터 속에 숨어있는 의미를 파악하려는 연구도 진행되고 있다. 본 연구에서는 교통카드 데이터에 대하여 토픽모델링 기법 중의 하나인 LDA (Latent Dirichlet Allocation) 기법을 적용하여 청주시 버스 승객들의 이동패턴을 분석한다. 이를 위해 교통카드 데이터의 하차 결측치를 추정하고, LDA 기법을 적용하여 이동패턴을 추출하였다. 또한 LDA 분석으로 도출된 값을 측정값으로 하여 다차원적 분석을 함으로써 청주시 버스 승객들의 이동패턴 특징을 파악할 수 있다. 분석 결과, 청주시의 경우 크게 1) 시외지역에서 터미널을 이용해 청주시에서 유입되는 패턴, 2) 주거지역에서 상업지역으로 이동하는 패턴, 3) 청주 인근 학교에서 상업 지역 (청주 중심가)로 이동하는 패턴을 발견할 수 있었다. 이동패턴은 도시 계획, 대중교통서비스 향상, 버스 노선 신설 등 다양한 교통정책의 수립에 활용될 수 있을 것으로 기대된다.

잠재디리클레할당 분석을 이용한 '노인일자리' 관련 신문기사 토픽분석 (Topic Modeling of Newspaper Articles on Government 'Senior job program' via Latent Dirichlet Allocation.)

  • 이소정
    • 디지털융복합연구
    • /
    • 제18권10호
    • /
    • pp.537-546
    • /
    • 2020
  • 본 연구는 노인일자리사업의 사회적 논의구조를 분석하기 위해 대표적인 대중매체인 신문기사에서 다루어지는 노인일자리 관련 주요 토픽들과 시계열적 특성을 분석하였다. 이를 위해 뉴스 통합 데이터베이스인 빅카인즈에 수록된 11개 중앙지와 8개 경제지의 노인일자리사업 관련 기사 1107개에 대해 잠재디리클레할당 방법을 이용한 토픽분석을 실시해 언론 기사에 내재된 노인일자리사업의 잠재토픽을 추출하였다. 분석결과 노인일자리사업에 대한 일반적 정보전달, 지자체 사업 홍보, 노후생활, 고용효과, 시장연계 등 5개의 잠재토픽이 추출되었는데 2015년까지 대부분의 언론기사가 일반적 정보전달과 지자체 사업홍보에 국한되어 있어 노인일자리사업의 정체성에 대한 사회적 논의가 형성되지 못하였음을 알 수 있었던 반면 2015년 이후부터 노인일자리사업의 소득, 안전 등 노후생활 효과 관련 주제가 다루어지는 비중이 증가했으며 특히 문재인 정부 출범이후 고용효과와 관련된 기사가 압도적인 비중을 차지하게 되었음을 발견할 수 있었다. 본 연구는 이러한 결과에 근거해 향후 노인일자리사업의 질적측면 및 고용효과 측면을 증진시킬 수 있는 방안에 대한 고민의 필요성과 고용프레임 이외의 대안적 프레임 제시의 필요성을 제안하였다.

Generative probabilistic model with Dirichlet prior distribution for similarity analysis of research topic

  • Milyahilu, John;Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권4호
    • /
    • pp.595-602
    • /
    • 2020
  • We propose a generative probabilistic model with Dirichlet prior distribution for topic modeling and text similarity analysis. It assigns a topic and calculates text correlation between documents within a corpus. It also provides posterior probabilities that are assigned to each topic of a document based on the prior distribution in the corpus. We then present a Gibbs sampling algorithm for inference about the posterior distribution and compute text correlation among 50 abstracts from the papers published by IEEE. We also conduct a supervised learning to set a benchmark that justifies the performance of the LDA (Latent Dirichlet Allocation). The experiments show that the accuracy for topic assignment to a certain document is 76% for LDA. The results for supervised learning show the accuracy of 61%, the precision of 93% and the f1-score of 96%. A discussion for experimental results indicates a thorough justification based on probabilities, distributions, evaluation metrics and correlation coefficients with respect to topic assignment.

사고보고문서를 이용한 텍스트 기반 사고발생 유형 및 관계 분석 (Text Analytics for Classifying Types of Accident Occurrence Using Accident Report Documents)

  • 김범수;장성록;서용윤
    • 한국안전학회지
    • /
    • 제33권3호
    • /
    • pp.58-64
    • /
    • 2018
  • Recently, a lot of accident report documents have accumulated in almost all of industries, including critical information of accidents. Accordingly, text data contained in accident report documents are considered useful information for understanding accident processes. However, there has been a lack of systematic approaches to analyzing accident report documents. In this respect, this paper aims at proposing text analytics approach to extracting critical information on accident processes. To be specific, major causes of the accident occurrence are classified based on text information contained in accident report documents by using both textmining and latent Dirichlet allocation (LDA) algorithms. The textmining algorithm is used to structure the document-term matrix and the LDA algorithm is applied to extract latent topics included in a lot of accident report documents. We extract ten topics of accidents as accident types and related keywords of accidents with respect to each accident type. The cause-and-effect diagram is then depicted as a tool for navigating processes of the accident occurrence by structuring causes extracted from LDA. Further, the trends of accidents are identified to explore patterns of accident occurrence in each of types. Three patterns of increasing to decreasing, decreasing to increasing, or only increasing are presented in the case of a chemical plant. The proposed approach helps safety managers systematically supervise the causes and processes of accidents through analysis of text information contained in accident report documents.

토픽 모형과 ChatGPT를 활용한 스마트팩토리 연관 특허 빅데이터 분석에 관한 연구 (A Study on Big Data Analysis of Related Patents in Smart Factories Using Topic Models and ChatGPT)

  • 김상국;윤민영;권태훈;임정선
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.15-31
    • /
    • 2023
  • In this study, we propose a novel approach to analyze big data related to patents in the field of smart factories, utilizing the Latent Dirichlet Allocation (LDA) topic modeling method and the generative artificial intelligence technology, ChatGPT. Our method includes extracting valuable insights from a large data-set of associated patents using LDA to identify latent topics and their corresponding patent documents. Additionally, we validate the suitability of the topics generated using generative AI technology and review the results with domain experts. We also employ the powerful big data analysis tool, KNIME, to preprocess and visualize the patent data, facilitating a better understanding of the global patent landscape and enabling a comparative analysis with the domestic patent environment. In order to explore quantitative and qualitative comparative advantages at this juncture, we have selected six indicators for conducting a quantitative analysis. Consequently, our approach allows us to explore the distinctive characteristics and investment directions of individual countries in the context of research and development and commercialization, based on a global-scale patent analysis in the field of smart factories. We anticipate that our findings, based on the analysis of global patent data in the field of smart factories, will serve as vital guidance for determining individual countries' directions in research and development investment. Furthermore, we propose a novel utilization of GhatGPT as a tool for validating the suitability of selected topics for policy makers who must choose topics across various scientific and technological domains.

LDA를 활용한 네트워크 위협 시그니처 추출기법 (Extraction of Network Threat Signatures Using Latent Dirichlet Allocation)

  • 이성일;이수철;이준락;염흥열
    • 인터넷정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-10
    • /
    • 2018
  • 인터넷 웜, 컴퓨터 바이러스 등 네트워크에 위협적인 악성트래픽이 증가하고 있다. 특히 최근에는 지능형 지속 위협 공격 (APT: Advanced Persistent Threat), 랜섬웨어 등 수법이 점차 고도화되고 그 복잡성(Complexity)이 증대되고 있다. 지난 몇 년간 침입탐지시스템(IDS: Intrusion Detection System)은 네트워크 보안 솔루션으로서 중추적 역할을 수행해왔다. 침입탐지시스템의 효과적 활용을 위해서는 탐지규칙(Rule)을 적절히 작성하여야 한다. 탐지규칙은 탐지하고자 하는 악성트래픽의 핵심 시그니처를 포함하며, 시그니처를 포함한 악성트래픽이 침입탐지시스템을 통과할 경우 해당 악성트래픽을 탐지하도록 한다. 그러나 악성트래픽의 핵심 시그니처를 찾는 일은 쉽지 않다. 먼저 악성트래픽에 대한 분석이 선행되어야 하며, 분석결과를 바탕으로 해당 악성트래픽에서만 발견되는 비트패턴을 시그니처로 사용해야 한다. 만약 정상 트래픽에서 흔히 발견되는 비트패턴을 시그니처로 사용하면 수많은 오탐(誤探)을 발생시키게 될 것이다. 본고에서는 네트워크 트래픽을 분석하여 핵심 시그니처를 추출하는 기법을 제안한다. 제안 기법은 LDA(Latent Dirichlet Allocation) 알고리즘을 활용하여, 어떠한 네트워크 트래픽에 포함된 시그니처가 해당 트래픽을 얼마나 대표하는지를 정량화한다. 대표성이 높은 시그니처는 해당 네트워크 트래픽을 탐지할 수 있는 침입탐지시스템의 탐지규칙으로 활용될 수 있다.

토픽모델링을 이용한 대한원격탐사학회지의 연구주제 분류 및 연구동향 분석: 자연·환경재해 분야를 중심으로 (A Study on the Research Topics and Trends in Korean Journal of Remote Sensing: Focusing on Natural & Environmental Disasters)

  • 김태용;박혜민;허준용;양민준
    • 대한원격탐사학회지
    • /
    • 제37권6_2호
    • /
    • pp.1869-1880
    • /
    • 2021
  • 대한원격탐사학회지는 국내 원격탐사 분야를 대표하는 학술지로 원격탐사를 바탕으로 다학제 간 융합연구를 통해 수행된 다양한 분야의 연구논문들이 게재되고 있다. 본 연구는 대한원격탐사학회지에 게재된 논문을 바탕으로 토픽모델링을 수행하여 원격탐사 분야의 역사와 발전에 대해 논의하고자 한다. 1985년부터 2021년까지 총 1,847편의 논문 제목, 주제어, 다국어 초록을 수집하였다. 대한원격탐사학회지의 전반적인 연구 동향과 자연·환경재해 분야의 연구동향을 확인하기 위해 Latent Dirichlet Allocation (LDA)를 수행하였으며, 연구주제를 분류하고 연구동향을 확인하였다. 대한원격탐사학회지 전체 논문을 대상으로 LDA를 수행한 결과 4개의 연구주제('극권', '수권', '지권', '기권')로 분류할 수 있었으며, 시간에 따라 '기권'과 관련된 연구주제들이 성행하는 것을 확인하였다(linear slope=3.51 × 10-3, p< 0.05). 전체 논문 중 자연·환경재해 분야를 대상으로 LDA를 수행한 결과 7개의 연구주제('해양 오염', '대기 오염', '화산재해', '산불', '홍수', '가뭄', '폭우')로 분류할 수 있었으며, 시간에 따라 '대기 오염'과 관련된 연구주제들이 성행하는 것을 확인하였다(linear slope=2.61 × 10-3, p<0.05). 본 연구의 결과는 원격탐사를 다루는 다양한 분야의 연구자들에게 원격탐사 분야와 자연·환경재해 분야의 역사와 발전에 대한 이해를 제공했음에 의의가 있다.

기계학습 기반 토픽모델링을 이용한 학술지 "자원환경지질"의 연구주제 분류 및 연구동향 분석 (Topic Model Analysis of Research Themes and Trends in the Journal of Economic and Environmental Geology)

  • 김태용;박혜민;허준용;양민준
    • 자원환경지질
    • /
    • 제54권3호
    • /
    • pp.353-364
    • /
    • 2021
  • 국내 지질학의 연구 분야는 20세기 중반 이후부터 꾸준하게 발전되어왔다. 학술지 "자원환경지질"은 국내 지질학을 대표하는 역사가 긴 학술지로 지질학을 바탕으로 하는 융복합연구 논문이 게재되고 있다. 본 연구는 학술지 "자원환경지질"에 게재된 논문을 대상으로 문헌 고찰(literature review)을 수행하여 지질학의 역사와 발전에 대해 논의하고자 한다. 1968년부터 2020년까지 총 2,571편의 논문 제목, 주제어, 다국어 초록을 수집하였으며, Latent Dirichlet Allocation (LDA) 기반 토픽모델링을 실시하여 연구 주제를 분류하고 연구 동향과 주제간 연관성을 확인하였다. 학술지 "자원환경지질"은 총 8개의 연구주제('암석학 및 지구화학', '수문학 및 수리지질학', '광상학', '화산학', '토양오염 및 복원학', '기초지질 및 구조지질학', '지구물리 및 물리탐사', '점토광물')로 분류할 수 있었다. 1994년 이전에는 '광상학', '화산학', '기초지질 및 구조지질학'의 연구주제들이 활발하게 연구되었으며, 이후 '수문학 및 수리지질학', '토양오염 및 복원학', '지구물리 및 물리탐사', '점토광물'의 연구주제들이 성행하였다. 연관성분석(network analysis)결과, 학술지 "자원환경지질"은 '광상학'을 기반으로 융복합적 연구 논문들이 게재되었다는 것을 확인하였다. 본 연구의 결과는 지질학을 다루는 연구자들에게 문헌 고찰의 새로운 방법론을 제시하여 지질학의 역사에 대한 이해를 제공했음에 의의가 있다.

텍스트마이닝을 활용한 도로분야 ITS 정책이슈 탐색기법 정립 (Establishment of ITS Policy Issues Investigation Method in the Road Section applied Textmining)

  • 오창석;이용택;고민수
    • 한국ITS학회 논문지
    • /
    • 제15권6호
    • /
    • pp.10-23
    • /
    • 2016
  • 본 연구는 빅데이터를 활용하여 감사 시 유의해서 살펴보아야 할 ITS 관련 정책이슈 탐색방법 개발 및 적용을 목적으로 한다. 이를 위해 본 연구에서는 William Dunn이 제안한 경계분석을 이론적 토대로 하여, 여기에 감사원 감사실무 프로세스를 접목한 감사이슈 분석 틀을 제안했다. 그리고 이 분석 틀을 전산으로 구현하기 위해 메타문제를 추정하는 개념이 경계분석과 유사한 텍스트마이닝 기법을 응용했다. 텍스트마이닝의 구체적 모형은 David Blei가 제안한 Latent Dirichlet Allocation(LDA) 모형을 기반으로 하는 비대칭-대칭 혼합 어휘소 기반 LDA를 응용했다. 사례분석 결과, 경찰청에서 운영하는 도시교통정보시스템의 교통정보 수집률 저조와 국토교통부의 첨단교통관리시스템과의 중복 문제, 디지털 운행기록계의 주행거리 조작 등이 주요 이슈로 도출됐다.

공유경제 기반의 고객리뷰를 이용한 토픽모델링 분석: 공유주차를 중심으로 (A Study on Analysis of Topic Modeling using Customer Reviews based on Sharing Economy: Focusing on Sharing Parking)

  • 이태원
    • 한국산업정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.39-51
    • /
    • 2020
  • 본 연구에서는 공유경제의 다양한 비즈니스 모델 중 공유주차로 범위를 제한하고, 이와 관련된 리뷰를 수집한 후 텍스트마이닝 분석을 통해 공유주차가 갖고 있는 사회적 이슈와 소비자 인식에 대해 살펴보고자 한다. 본 실험에서는 TFIDF (Term frequency inverse document frequency) 기법과 LDA (Latent dirichlet allocation) 기법을 이용하여 키워드별 토픽을 추출하여 분석한 결과 소비자들이 필요로 하거나 원하는 정보들을 파악할 수 있었으며, 토픽으로 분류한 결과 지자체 협약, 주차공간협소, 주차문화개선, 시민참여 등 시민들의 불만과 시민의식이 공유주차 서비스를 시행하는데 중요한 역할을 하고 있다는 것을 확인할 수 있었다. 본 연구는 정성적 연구, 기업 및 지역의 사례를 이용하여 기존의 탐색적 연구를 수행한 선행 연구와는 차별화된 연구로 학술적 기여도가 높다고 할 수 있다. LDA 분석을 본 연구에 활용하여 나타난 결과를 바탕으로 지역경제 활성화를 위한 공유경제 정책 수립에 응용하거나 활용할 수 있다는 실무적 기여도가 있다.