• 제목/요약/키워드: 토픽분석

검색결과 660건 처리시간 0.035초

토픽모델링과 군집분석을 통한 지방 소멸 위험지역과 요인의 탐색 (Exploring Regional Decline Risk Areas and Factors Using Topic Modeling and Cluster Analysis)

  • 김지민;조희련
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.349-350
    • /
    • 2023
  • 우리나라는 지속적인 저출산과 고령화로 인해 지방 소멸 위험지역이 점차 늘어나고 있다. 본 연구는 지방 소멸과 관련된 다양한 요인을 '인구 소멸'이라는 키워드를 포함하는 신문 기사에 대한 토픽모델링을 통해 발견하고, 추출된 토픽과 관련된 공공 데이터를 수집하여 비슷한 특징을 가지는 지역을 묶는 군집분석을 수행한다. 그리고 지방소멸위험지수로 분류된 소멸 위험지역과 군집분석 결과를 비교한다.

소셜 검색 향상을 위한 토픽별 인적속성의 영향력 산출 (Assessing Influence of Human Factors according to Topics for Enhancing Social Search)

  • 권오상;박건우;이상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.142-145
    • /
    • 2010
  • 정보의 양이 폭발적으로 증가함에 따라 방대한 정보 속에서 사용자의 검색 의도에 맞는 정보를 효과적으로 제공하기란 매우 어려워졌다. 따라서 웹 사용자들의 요구사항을 충족시키기 위한 연구들이 활발히 수행되고 있으며, 많은 방법론들이 제시되고 있다. 본 논문에서는 회귀분석이라는 통계학적 기법을 통해 검색 토픽에 대한 사용자의 인적속성들이 미치는 영향력을 산출하였다. 이는 인간이 가진 내재적 특성이 토픽별 검색 성향과 어떠한 연관관계가 있는지를 규명한 것이다. 또한 특정 토픽에 대해 영향력이 높은 인적속성의 일치 여부가 해당 토픽에 대한 사용자 검색성향의 유사정도와 매우 큰 상관관계가 있는 것을 증명하였다. 이와 같은 사실을 기반으로 사용자가 특정 토픽에 대해 검색 시 해당 토픽에 대해 영향력이 높은 인적속성을 확인하고, 이 속성이 일치하는 사람들의 검색 정보를 제공한다면, 사용자는 보다 만족된 검색결과를 얻을 수 있을 것이다.

토픽 모델링을 활용한 국내 초등 정보교육 연구동향 분석 (Analysis of Research Trends in Elementary Information Education in Korea using Topic Modeling)

  • 심재권
    • 정보교육학회논문지
    • /
    • 제25권2호
    • /
    • pp.347-354
    • /
    • 2021
  • 초등학생을 대상으로 인공지능교육에 대한 관심이 증대되면서 기존에 수행된 초등 정보교육 연구를 거시적인 관점에서 분석하여 현재의 상황을 이해하고 후속연구의 시사점을 제공하기 위한 노력이 필요한 시점이라 할 수 있다. 본 연구는 우리나라 초등 정보교육의 연구동향을 조망하고자 하는 목적으로 정보교육학회논문지를 분석하였다. 분석을 위한 데이터는 정보교육학회논문지의 창간호에서 2020년까지 출간된 논문을 모두 선정하였고, 토픽모델링하여 연구주제 11개를 도출하였다. 연구결과, 가장 높은 비중인 토픽 T1은 약 38%을 차지하는 것으로 분석되었고, 토픽 T1에 기여도 순에 따라 교육, 연구, 분석, 초등, 정보의 키워드가 도출었다. 토픽들의 연도별 회귀분석 결과, 연구의 트랜드가 컴퓨팅사고력, 소프트웨어교육, 인공지능교육 등으로 변화하고 있는 것으로 나타났다. 본 연구의 의의는 초등 정보교육과 관련된 텍스트 데이터를 객관적으로 클러스터링하였다는 점에서 의미가 있다고 할 수 있다.

Analysis of trends in deep learning and reinforcement learning

  • Dong-In Choi;Chungsoo Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.55-65
    • /
    • 2023
  • 본 논문에서는 딥러닝 및 강화학습 연구에 대해 KeyBERT(Keyword extraction with Bidirectional Encoder Representations of Transformers) 알고리즘 기반의 토픽 추출 및 토픽 출현 빈도 분석으로 급변하는 딥러닝 관련 연구 동향 분석을 파악하고자 한다. 딥러닝 알고리즘과 강화학습에 대한 논문초록을 크롤링하여 전반기와 후반기로 나누고, 전처리를 진행한 후 KeyBERT를 사용해 토픽을 추출한다. 그 후 토픽 출현 빈도로 동향 변화에 대해 분석한다. 분석된 알고리즘 모두 전반기와 후반기에 대한 뚜렷한 동향 변화가 나타났으며, 전반기에 비해 후반기에 들어 어느 주제에 대한 연구가 활발한지 확인할 수 있었다. 이는 KeyBERT를 활용한 토픽 추출 후 출현 빈도 분석으로 연구 동향변화 분석이 가능함을 보였으며, 타 분야의 연구 동향 분석에도 활용 가능할 것으로 예상한다. 또한 딥러닝의 동향을 제공함으로써 향후 딥러닝의 발전 방향에 대한 통찰력을 제공하며, 최근 주목 받는 연구 주제를 알 수 있게 하여 연구 주제 및 방법 선정에 직접적인 도움을 준다.

토픽모델링과 시계열 회귀분석을 활용한 헬스케어 분야의 뉴스 빅데이터 분석 연구 (Big Data News Analysis in Healthcare Using Topic Modeling and Time Series Regression Analysis)

  • 김은정;장석권;이상용
    • 경영정보학연구
    • /
    • 제25권3호
    • /
    • pp.163-177
    • /
    • 2023
  • 본 연구는 디지털 헬스케어 산업 활성화를 위한 정책적 접근으로서, 주요 의제 도출 및 정책적 시사점을 제시하는데 목적이 있다. 본 연구에서는 10년(2013년~2022년) 간의 헬스케어와 관련된 뉴스 빅데이터 총 91,873건을 수집하여 토픽모델링 분석, 다차원척도 분석 및 시계열 회귀분석을 수행하였다. 토픽모델링 분석 및 다차원척도법을 통해 총 20개의 토픽을 도출하여 2차원선상에 토픽들의 군집 형태를 파악하였고, 시계열 회귀분석을 통해, 상승 추세를 나타내는 4개의 Hot topic(건강관리, 바이오제약, 기업매출·전망, 정부·정책)과 하향 추세를 나타내는 3개의 Cold topic(스마트기기, 주식·투자, 도시·건설)을 도출되었다. 본 연구의 결과는 우리나라 정책을 수립하는 정부 기관에 중요한 기초 자료로 활용될 수 있을 것이다.

미래 자동차 분야 국가연구개발사업의 주요 연구 토픽과 투자 동향 분석: LDA 토픽모델링을 중심으로 (Exploring Key Topics and Trends of Government-sponsored R&D Projects in Future Automotive Fields: LDA Topic Modeling Approach)

  • 마형렬;이철주
    • 한국산업정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.31-48
    • /
    • 2024
  • 글로벌 자동차 산업은 연결, 자율주행, 공유, 전동화 등의 주요 방향 아래 지속적으로 발전하고 있으며, 국내 자동차 산업 또한 기존의 전통적인 자동차 부품 제조로부터 미래 트렌드에 부합하는 전략적인 업의 전환을 꾀하고 있다. 본 연구에서는 2013년부터 2021년까지 산업통상자원부에서 지원한 미래 자동차 분야 연구개발 과제를 대상으로 토픽 모델링을 수행하였다. 해당 기간을 3개 기간으로 구분하여 주요 토픽의 변화를 분석하였다. 센서와 통신, 운전자 보조 기술, 배터리 및 전력 기술은 전 기간 동안 지속적인 주요 토픽으로 나타났으며, 고강도 경량 차체와 같은 주제는 1기에서만 관찰되었다. 한편, AI, 빅데이터, 수소 연료전지와 같은 주제는 2기와 3기에 점점 더 중요한 토픽으로 부상하였다. 또한, 토픽별 정부 투자액과 투자 증가율을 기준으로 각 기수별 집중 투자 분야를 분석하였다. 이러한 연구 결과는 향후 자동차 분야의 정책 수립 및 연구개발 전략 마련 시 기초 자료로 활용될 것으로 예상되며, 증거 기반의 정책 수립과 결정에 기여할 것으로 기대된다.

잠재디리클레할당 분석을 이용한 '노인일자리' 관련 신문기사 토픽분석 (Topic Modeling of Newspaper Articles on Government 'Senior job program' via Latent Dirichlet Allocation.)

  • 이소정
    • 디지털융복합연구
    • /
    • 제18권10호
    • /
    • pp.537-546
    • /
    • 2020
  • 본 연구는 노인일자리사업의 사회적 논의구조를 분석하기 위해 대표적인 대중매체인 신문기사에서 다루어지는 노인일자리 관련 주요 토픽들과 시계열적 특성을 분석하였다. 이를 위해 뉴스 통합 데이터베이스인 빅카인즈에 수록된 11개 중앙지와 8개 경제지의 노인일자리사업 관련 기사 1107개에 대해 잠재디리클레할당 방법을 이용한 토픽분석을 실시해 언론 기사에 내재된 노인일자리사업의 잠재토픽을 추출하였다. 분석결과 노인일자리사업에 대한 일반적 정보전달, 지자체 사업 홍보, 노후생활, 고용효과, 시장연계 등 5개의 잠재토픽이 추출되었는데 2015년까지 대부분의 언론기사가 일반적 정보전달과 지자체 사업홍보에 국한되어 있어 노인일자리사업의 정체성에 대한 사회적 논의가 형성되지 못하였음을 알 수 있었던 반면 2015년 이후부터 노인일자리사업의 소득, 안전 등 노후생활 효과 관련 주제가 다루어지는 비중이 증가했으며 특히 문재인 정부 출범이후 고용효과와 관련된 기사가 압도적인 비중을 차지하게 되었음을 발견할 수 있었다. 본 연구는 이러한 결과에 근거해 향후 노인일자리사업의 질적측면 및 고용효과 측면을 증진시킬 수 있는 방안에 대한 고민의 필요성과 고용프레임 이외의 대안적 프레임 제시의 필요성을 제안하였다.

텍스트 마이닝을 이용한 리빙랩 연구동향 분석 (Research Trend Analysis on Living Lab Using Text Mining)

  • 김성묵;김영준
    • 디지털융복합연구
    • /
    • 제18권8호
    • /
    • pp.37-48
    • /
    • 2020
  • 본 연구는 텍스트 마이닝을 활용하여 리빙랩 연구의 동향을 파악하고 연구 방향 정립에 필요한 함의를 도출하고자 하였다. 리빙랩 관련 연구가 발표되기 시작한 2011년부터 2019년 11월까지의 논문 166편의 키워드와 초록을 대상으로 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 키워드 중 혁신, 지역, 사회, 기술, 스마트시티 등의 출현빈도가 높았고, 중심도 분석결과 현재까지 리빙랩 연구가 혁신, 사회, 기술, 개발, 사용자 등의 키워드를 중심으로 이루어짐을 파악하였다. 토픽 모델링 결과 지역혁신과 사용자지원, 정부 사회정책사업, 스마트시티 플랫폼구축, 기업기술혁신모델 및 시스템전환 참여 등 5개 토픽을 추출하였으며 토픽을 이어주는 키워드는 혁신, 기술, 사용자, 참여인것으로 분석하였다. 2017년 KNoLL 출범 후 토픽별 비중은 고른 분포로 연구 주제가 다양화됨을 확인하였다. 텍스트마이닝을 이용한 리빙랩 연구동향 분석과 방향 제시는 연구와 정책방향 수립에 유용한 자료를 제공할 수 있다.

빅데이터 기반 문서 토픽 추출 시스템 연구 (A Study on the Document Topic Extraction System Based on Big Data)

  • 황승연;안윤빈;신동진;오재곤;문진용;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.207-214
    • /
    • 2020
  • 요즘 스마트폰, 각종 전자기기 등의 사용이 늘고, 인터넷과 SNS가 활성화되며 우리는 정보의 홍수 속에 살고 있다. 정보의 양이 기하급수적으로 증가하며 많은 정보를 다 살펴보는 것이 어려워졌고, 문서에서 핵심 키워드만 보기를 원하는 사람이 늘어나며 정보의 핵심이 되는 토픽을 추출하는 연구의 중요성이 증가하고 있다. 또한, 토픽을 추출하여 과거와 비교 분석하여 현재의 트렌드를 유추해내는 것도 최근 중요한 이슈이다. 토픽 모델링 기법을 이용하여 대량의 문서에서 토픽을 추출해낼 수 있으며, 이렇게 추출된 토픽은 트렌드 예측, 데이터 분석 등 다양한 분야에서 쓰일 수 있다. 본 논문에서는 빠르게 변하는 트렌드를 분석하여 시대의 흐름에 맞춰가기 위해 확률적 토픽 모델 기법의 하나인 LDA 알고리즘을 활용하였으며, 문서에서 컴퓨팅 분야의 2016, 2017, 2018년도 3개년 논문의 주제를 알아보고, 연구의 동향과 흐름을 분석한다.

소셜 빅데이터로 알아본 코로나19와 가족생활: 토픽모델 접근 (COVID-19 and Korean Family Life on Social Media: A Topic Model Approach)

  • 박선영;이재림
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.282-300
    • /
    • 2021
  • 본 연구의 목적은 코로나19 확산으로 가족생활에서 급격한 변화가 일어난 1차 확산기에 블로그와 온라인 카페에 게시된 소셜 빅데이터를 분석하여 키워드를 파악하고, 게시글에 잠재된 주요 토픽을 발견하는 것이다. 강화된 사회적 거리두기가 처음 시행되었던 2020년 2월 23일부터 4월 19일까지 네이버와 다음의 블로그 및 카페에 게시된 글 중 '코로나'와 '가족' 또는 '코로나'와 '가정'이 함께 언급된 문서 총 351,734건을 분석하였다. 수집된 데이터는 전처리를 거쳐 텍스트 마이닝 기법으로 분석하였다. TF-IDF 가중치 값을 바탕으로 상위 100개 단어를 살펴보았으며, 잠재디리클레할당 방식의 토픽모델 분석을 통해 총 22개 토픽을 도출하고 토픽명을 부여하였다. 연구결과, 코로나19가 가족의 일상생활에 미친 전방위적 영향이 나타났으며, 특히 식생활, 주거생활, 여가생활, 종교생활, 자녀돌봄, 자녀교육, 가족관계, 가족의례 등에서 변화가 두드러졌다. 더불어, 가족 관련 국내 문헌에서는 잘 논의되지 않던 건강공동체로서의 가족을 시사하는 토픽도 등장하였다.