• 제목/요약/키워드: LDA 토픽 모델링

검색결과 228건 처리시간 0.028초

토픽모델링을 활용한 인공지능 관련 이슈 분석 (Analysis of Issues Related to Artificial Intelligence Based on Topic Modeling)

  • 노설현
    • 디지털융복합연구
    • /
    • 제18권5호
    • /
    • pp.75-87
    • /
    • 2020
  • 본 연구는 국내의 인공지능과 관련된 기사들을 LDA 알고리즘에 기반한 토픽모델링 기법으로 분석하여 인공지능 관련 주요 이슈들을 도출하고 세부적으로 분석함으로써 인공지능 기술이 전(全) 산업 분야와 융합을 통해 창출할 수 있는 새로운 가치를 통찰하고, 인공지능 기술을 지식 경영에 적용할 수 있는 분야를 도출하는데 유용한 정보를 생산하고자 하였다. 본 연구에서는 '인공지능'을 검색어로 하여 추출된 11개의 중앙지와 8개의 경제지, 주요 방송사의 2016년부터 2019년까지 3,889건의 기사를 대상으로 오픈 소프트웨어인 R을 활용한 토픽모델링 기법을 사용하여 토픽 별 키워드들을 추출하였다. 각 토픽의 키워드 간 연관성을 나타내는 PMI(Pointwise Mutual Information) 측도를 높이도록 relevance 파라미터 λ를 최적화하여 토픽 별 키워드를 추출하였으며, 키워드들로부터 타당한 근거를 바탕으로 토픽명을 추론하였다. 추출된 토픽들은 인공지능 기술의 응용 분야와 사회, 경제, 산업, 문화 전반에서 일어나고 있는 변화 및 정부의 지원 정책과 비전을 폭 넓게 나타냈다.

LDA 토픽 모델링을 이용한 액티브 시니어 콘텐츠 트렌드 분석 (Active Senior Contents Trend Analysis using LDA Topic Modeling)

  • 이동우;김유신;신은정
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.35-45
    • /
    • 2021
  • 베이비 부머 세대가 고령인구로 진입하면서 기존의 시니어와는 달리 활동적인 모습을 보이는 시니어들이 액티브 시니어라는 신조어로 불리며 새로운 소비자 층으로 떠오르고 있다. 많은 국가들과 기업들도 이들을 주목하고 관련 정책이나 서비스를 제공하고자 하지만 액티브 시니어 트렌드에 대한 연구는 매우 부족한 실정이다. 본 논문에서는 이러한 액티브 시니어에 대한 특징과 이들이 생산하고 소비하는 온라인 미디어 콘텐츠 트렌드를 파악하여, 액티브 시니어를 적극 포용하고 지원할 수 있는 온라인 미디어에 대한 정책 및 서비스 방향성을 제시하고자한다. 이를 위해 소셜 미디어에서 액티브 시니어를 수집 키워드로 2018년 1월 1일부터 2021년 6월 31일까지 8,740건의 데이터를 수집하여 키워드 빈도 분석, TF-IDF 분석, LDA 토픽 모델링 분석을 하였다. 키워드 빈도 분석 및 TF-IDF 분석을 통해서 액티브시니어에 대한 관심도가 급증하고 있다는 것을 파악하였으며 LDA 토픽 모델링 분석을통해서 온라인 콘텐츠의 주제 영역을 10가지로 분류하고 라이프 스타일, 혜택, 쇼핑, 정부 사업, 정부 교육, 건강, 사회/경제, 케어 산업, 실버 주택, 여가로 명명하였다.

KOSPI index prediction using topic modeling and LSTM

  • Jin-Hyeon Joo;Geun-Duk Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.73-80
    • /
    • 2024
  • 본 연구는 토픽 모델링과 장단기 기억(LSTM) 신경망을 결합하여 한국 종합주가지수(KOSPI) 예측의 정확도를 향상하는 방법을 제안한다. 본 논문에서는 LDA(Latent Dirichlet Allocation) 기법을 이용해 금융 뉴스 데이터에서 금리 인상 및 인하와 관련된 10개의 주요 주제를 추출하고, 추출된 주제를 과거 KOSPI 지수와 함께 LSTM 모델에 입력하여 KOSPI 지수를 예측하는 모델을 제안한다. 제안된 모델은 과거 KOSPI 지수를 LSTM 모델에 입력하여 시계열 예측 방법과 뉴스 데이터를 입력하여 토픽 모델링하는 방법을 결합하여 KOSPI 지수를 예측하는 특성을 가진다. 제안된 모델의 성능을 검증하기 위해, 본 논문에서는 LSTM의 입력 데이터의 종류에 따라 4개의 모델(LSTM_K 모델, LSTM_KNS 모델, LDA_K 모델, LDA_KNS 모델)을 설계하고 각 모델의 예측 성능을 제시하였다. 예측 성능을 비교한 결과, 금융 뉴스 주제 데이터와 과거 KOSPI 지수 데이터를 입력으로 하는 LSTM 모델(LDA_K 모델)이 가장 낮은 RMSE(Root Mean Square Error)를 기록하여 가장 좋은 예측 성능을 보였다.

비정형 텍스트 기반의 토픽 모델링을 이용한 건설 안전사고 동향 분석 (A Study on the Trends of Construction Safety Accident in Unstructured Text Using Topic Modeling)

  • 이상규
    • 한국산학기술학회논문지
    • /
    • 제19권10호
    • /
    • pp.176-182
    • /
    • 2018
  • 본 연구는 건설 안전사고에 대한 트랜드 분석을 위해 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링(Topic Modeling)을 제시하여 분석하고자 한다. 특히, 건설산업의 안전사고를 예방하기 위해 제시되고 있는 기존의 다양한 정형데이터 분석에서 벗어난 비정형 데이터 분석 기반의 토픽 모델링을 통해 건설 안전사고 주요 핵심 키워드의 흐름에 대해 파악이 가능하다. 본 방법론을 적용하기 위해 540개의 건설 안전사고 관련 뉴스데이터를 수집하였다. 이를 기반으로, 10가지 토픽과 각 토픽 내의 10가지 키워드를 통해 주요 이슈를 도출하였고 각 토픽에 대한 2017년 1월부터 2018년 2월까지의 뉴스 데이터를 월별 시계열 분석을 통해 향후 토픽에 관한 이슈를 예측한다. 본 연구를 바탕으로 향후 건설 안전사고의 다양한 이슈를 선제적으로 예측하고 이를 기반으로 건설 안전사고 정책과 연구에 좋은 방향을 제시할 것으로 판단한다.

독후감 텍스트의 토픽모델링 적용에 관한 탐색적 연구 (A Study on the Application of Topic Modeling for the Book Report Text)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.1-18
    • /
    • 2016
  • 이 연구는 독후감 텍스트의 주제분석에 토픽모델링의 활용방안을 탐색하는 것을 목적으로 하고 있다. 텍스트의 주제분석 방안으로서 토픽모델링 분석방법을 이해하고, R에서 제공하는 "topicmodels" 패키지의 LDA 함수를 사용하여 23건의 사례 독후감 텍스트들을 대상으로 실제의 분석작업을 수행하였다 토픽모델링 분석결과 16개의 토픽들을 추출하였고 토픽과 구성 단어들의 관계에서 토픽 네트워크 사례 독후감과 토픽들의 관계에서 독후감 네트워크를 구성하였다. 이후 토픽 네트워크와 독후감 네트워크를 대상으로 중심성 분석을 수행하였으며 분석결과는 다음과 같다. 첫째 16개의 토픽들이 1개의 컴포넌트를 가지는 네트워크로 나타났다. 이것은 16개 토픽들이 상호 연관되어 있다는 것을 의미한다. 둘째, 독후감 네트워크에서는 연결정도 중심성이 높은 독후감들과 낮은 독후감들로 구분이 되었다. 전자의 독후감들은 다른 독후감들과 주제적으로 유사성을 가지며 후자의 독후감들은 다른 독후감들과 주제적으로 상이성을 가지는 것으로 해석하였다. 토픽모델링의 결과를 네트워크 분석과 결합함으로써 독후감의 주제파악에 유용한 결과들을 얻게 되었다.

LDA 토픽모델링을 활용한 인공지능 관련 국가R&D 연구동향 분석 (A Study on Analysis of national R&D research trends for Artificial Intelligence using LDA topic modeling)

  • 양명석;이성희;박근희;최광남;김태현
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.47-55
    • /
    • 2021
  • 특정 주제분야에 대한 연구동향 분석은 대부분 논문, 특허 등 문헌정보를 대상으로 한 키워드 추출을 통해 토픽모델링 기법을 적용하여 주요 연구주제와 연도별 추이 등을 살펴보는 방식을 활용하고 있다. 본 논문에서는 국가과학기술지식정보서비스(NTIS)에서 제공하는 인공지능 관련 국가연구개발사업 과제정보를 대상으로 LDA(Latent Dirichlet Allocation) 토픽모델링 기법을 활용하여 연구주제와 관련된 토픽들을 추출·분석하여 국가연구개발사업에 대한 연구주제와 투자방향에 대하여 분석하고자 한다. NTIS는 국가연구개발사업·과제정보를 비롯하여, 논문, 특허, 보고서 등 연구를 통해 생성된 주요 연구개발성과에 이르기까지 방대한 양의 국가R&D 정보를 제공하고 있다. 본 논문에서는 NTIS 통합검색에서 인공지능 키워드와 관련된 분류 검색을 수행하여 검색결과를 확인하고, 최근 3개년 과제정보를 다운로드 받아 기초데이터를 구축하였다. 파이썬에서 제공하는 LDA 토픽모델링 라이브러리를 활용하여 기초데이터 (연구목표, 연구내용, 기대효과, 키워드 등)를 대상으로 관련 토픽과 주제어를 추출하고 분석하여 연구투자방향에 대한 인사이트를 도출하였다.

LDA 기법을 이용한 미세먼지 이슈의 토픽모델링 분석 (Topic Modeling on Fine Dust Issues Using LDA Analysis)

  • 윤순욱;김민철
    • 에너지공학
    • /
    • 제29권2호
    • /
    • pp.23-29
    • /
    • 2020
  • 본 연구에서는 최근 10년간의 미세먼지 관련 뉴스 데이터를 수집하여 LDA 분석을 통해 최적 토픽을 도출하였다. 최적 토픽으로 선별된 80개의 이슈를 미세먼지 정책의 시각에서 해석하였다. 연구결과, 기온과 같은 날씨와 관련된 정보와 미세먼지 농도가 관련되어서 이슈화되는 경향이 있었다. 다음으로 미세먼지 저감 대책의 일환으로 노후경유차 운행 제한 제도와 저감 장치 부착과 같은 이슈의 빈도수가 높았다. 국민에 대한 제도 변경 안내를 포함하여 시민과 운수업자와의 갈등도 주요한 토픽으로 나타났다. 미세먼지 문제의 해결을 위한 수소차 보급과 같은 대안도 주요 토픽으로 분석되었다. 또한 미세먼지 관련 공기청정기 등 제품 관련 주제, 취약계층을 미세먼지로부터 보호하는 정책과 관련된 주제, 연구개발을 통한 미세먼지 저감 관련 주제가 주요 화두로 제기되었다. 미세먼지 대책은 사회 이슈로 정부 정책과 밀접한 관련이 있다고 볼 수 있다. 또한 본 연구를 통해 토픽 상에서는 거시적인 정부정책 자체보다는 시민의 안전, 시혜적인 정책이나 이해관계자간의 갈등이 정부정책 변화와 연동하여 중요한 의미를 지니는 것으로 나타났다.

토픽모델링을 활용한 과학기술동향 및 예측에 관한 연구 (A Study on Science Technology Trend and Prediction Using Topic Modeling)

  • 박주섭;홍순구;김종원
    • 한국산업정보학회논문지
    • /
    • 제22권4호
    • /
    • pp.19-28
    • /
    • 2017
  • 기업이나 정부에서는 연구나 기술 동향을 파악하고 예측하기 위해 주로 델파이 기법이 활용하여 왔다. 이 기법은 많은 시간과 비용이 소요되는 단점이 있기에 본 논문에서는 LDA 토픽모델링 기법을 활용하여 과학기술의 동향 및 예측에 관한 연구를 실시하였다. 이를 위해 미국 특허 문서중 AI(Artificial Intelligence) 초록을 대상으로 LDA 토픽모델링 기법을 활용하여 20개의 AI 세부기술을 추출하였다. 도출된 세부기술에 대해 핵심기술을 파악하고, 연도별 비중 추이 분석을 통하여 Hot기술과 Cold기술을 분류하였다. 텍스트 탐색, 컴퓨터 관리, 프로그래밍 구문, 네트워크 관리, 멀티미디어, 무선 네트워크 기술 등이 Hot 기술로 도출되었다. 이런 기술들은 최근 AI 분야에서 활발하게 연구되는 핵심 기술들이다. 본 논문에서 제시한 방법론은 사회문제나 지역혁신, 경영 등 다양한 분야에서의 동향분석이나 정책 도출 또는 기술 수요 예측에 활용되어 질 수 있을 것이다.

코로나19 보도와 정파적 의제설정: 토픽모델링과 설문조사 연결분석 (News Coverage on COVID-19 and Partisan Agenda-setting: An Analysis of Topic Modeling Results and Survey Data)

  • 차채영;왕위시앙;이종혁
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.86-98
    • /
    • 2022
  • 본 연구는 코로나19 보도에 있어 보수와 진보 언론의 의제를 확인하고, 각 언론이 정치성향이 같은 수용자에 미치는 정파적 의제설정 효과를 검증했다. 이를 위해 조선일보, 중앙일보, 동아일보, 한겨레신문, 경향신문의 코로나19 관련 기사 5,286건을 수집했고, 진보-중도-보수 응답자 1,067명의 설문조사 데이터를 분석했다. 이어서 본 연구진은 LDA 토픽모델링을 활용해 의제를 추출하고, 설문조사 응답자들의 의제 중요도 인식과 상관관계를 분석했다. 연구 결과, 언론 의제로는 감염, 백신, 경제위기 등 15개 토픽이 나타났으며, 보수와 진보 언론 사이에 주요 의제의 차이가 드러났다. 한편, 보수 언론은 보수 응답자는 물론 진보 응답자에게도 의제설정 영향력을 발휘했지만, 진보 언론은 진보 응답자에게 유의미한 영향을 미치지 못했다. 본 연구는 토픽모델링과 설문조사를 결합해 의제설정 효과를 검증하는 새로운 방식을 선보여, 의제설정 연구의 방법론적 확장에 기여했다.

빈도 분석 및 토픽모델링을 활용한 수학 교과에서 기초학력 관련 연구 동향 분석 (An Analysis of Research Trends on Basic Academic Abilities in Mathematics with Frequency Analysis and Topic Modeling)

  • 조미경
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제37권4호
    • /
    • pp.615-633
    • /
    • 2023
  • 본 연구는 수학 교과에서 기초학력 및 학습부진에 관련한 연구가 나아갈 방향을 제안하고자 2023년 8월까지의 국내 연구 동향을 분석하였다. 이를 위해 국내 연구 197편의 국문 초록을 자료로 수집하여 빈도 분석 및 LDA 기반 토픽모델링을 실시하였다. 연구결과, 첫째, TF 및 TF-IDF 기준으로 '학업성취', '영향', '효과', '변인'은 모두 상위권에 위치하였다. 둘째, LDA 기반 토픽모델링을 실시한 결과, 기초학력 미달 발생 원인, 수학 학습부진학생의 학습 실태, 수학 학습부진학생 지도 교사의 전문성, 수학 학습부진학생 지원 프로그램, 국가수준 학업성취도 평가 결과로 5개 토픽이 도출되었다. 이러한 결과를 바탕으로 향후 수학 교과의 기초학력 및 학습부진에 관한 연구가 나아가야 할 방향으로 학습부진학생의 성장에 초점을 둔 연구, 수학 교과에서 학습지원을 필요로 하는 학생에게 제공하는 프로그램을 체계화하는 연구, 수학 교과에서 학습지원대상학생을 지도하기 위한 교사의 전문성 신장에 관한 연구 등을 제안하였다.