• 제목/요약/키워드: 토픽

검색결과 1,131건 처리시간 0.027초

LDA와 BERTopic을 이용한 토픽모델링의 증강과 확장 기법 연구 (Topic Model Augmentation and Extension Method using LDA and BERTopic)

  • 김선욱;양기덕
    • 정보관리학회지
    • /
    • 제39권3호
    • /
    • pp.99-132
    • /
    • 2022
  • 본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

Causal Impact 분석 기법을 접목한 COVID-19 팬데믹 전·후 메타버스 애플리케이션 리뷰의 토픽 변화 분석 (Analysis of Topic Changes in Metaverse Application Reviews Before and After the COVID-19 Pandemic Using Causal Impact Analysis Techniques)

  • 이소원;노미진;한무명초;김양석
    • 스마트미디어저널
    • /
    • 제13권1호
    • /
    • pp.36-44
    • /
    • 2024
  • 가상환경 기술의 발전과 COVID-19 팬데믹으로 언택트 문화가 부상함에 따라 메타버스(Metaverse)가 주목받고 있다. 본 연구에서는 최근 메타버스 서비스로 주목받는 "제페토" 애플리케이션에 대한 사용자들의 리뷰를 분석하여, COVID-19 팬데믹 이후 메타버스에 대한 요구사항의 변화를 확인하고자 하였다. 이를 위해 2018년 9월부터 2023년 3월까지 구글플레이스토어에 작성된 "제페토" 애플리케이션 리뷰 109,662건을 수집하였으며, LDA 토픽모델링 기법을 활용하여 토픽을 추출하고, COVID-19 팬데믹이 선언된 "2020년 3월 11일"을 기준으로 전·후로 토픽이 어떻게 변화했는지 Causal Impact 기법을 사용하여 분석하였다. 분석 결과 애플리케이션 기능적 문제(토픽1), 보안 문제(토픽2), 애플리케이션 내 가상화폐(Zem)에 대한 불만 사항(토픽3), 애플리케이션 성능(토픽4), 개인정보 관련 문제(토픽5) 등 5가지 토픽이 추출되었으며, 이들 중 보안 문제(토픽2)가 COVID-19 팬데믹에 가장 큰 영향을 받았음이 확인하였다.

LDA 토픽 모델링을 활용한 SNS 분석 (SNS Analysis Using LDA Topic Modeling)

  • 장민수;임선영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.402-403
    • /
    • 2023
  • 본 연구의 목적은 LDA 토픽 모델링을 활용하여 한국어 SNS데이터에 분석을 통해 우리나라의 여가활동, 일과 직업, 주거와 생활의 동향을 살펴보는 것이다. AI Hub에서 제공하는 한국어 SNS데이터를 수집하고 형태소 분석, 전처리 과정을 거친 후 coherence score을 토대로 최적의 토픽 수를 결정하여 토픽을 추출하였다. 도출한 트렌드를 바탕으로 경영, 마케팅 분야에 미치는 영향을 예측할 수 있을 것으로 기대한다.

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소 (Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation)

  • 김선호;윤준태;서정연
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.652-665
    • /
    • 2014
  • 생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.

관리도를 활용한 국민청원 토픽 모니터링 연구 (Topic change monitoring study based on Blue House national petition using a control chart)

  • 이희연;최지은;이성임;손원
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.795-806
    • /
    • 2021
  • 최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

토픽 모델 기반의 국가 별 SNS 관심 이슈 분석 시스템 (Analysis System for SNS Issues per Country based on Topic Model)

  • 김성훈;윤지원
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1201-1209
    • /
    • 2016
  • 전 세계적으로 SNS의 이용이 활발해짐에 따라, 그와 관련한 다양한 연구가 활발히 진행 중에 있다. 특히 기존의 문서 내 주제 추출에 활용되던 토픽 모델이 SNS 분석에 효과가 있음이 밝혀짐에 따라, 토픽 모델 기반의 이슈 분석과 관련한 연구들이 대거 등장하였다. 이에 본 연구에서는 기존 토픽 모델 기반의 SNS 이슈 분석 기술에 전 세계 지도 시각화 및 이슈 매칭 기술을 결합하여, 전 세계의 각 국가 별 특정 주제와 관련한 관심 이슈와 그 분포의 변화 추이를 분석할 수 있는 시스템을 제안한다. 시스템 구성 요소는 트윗 수집 및 국가 별 분류 모듈, 토픽 모델 기반의 국가 별 토픽 및 분포 추출 모듈, Google geochart 기반의 토픽 및 분포 시각화 모듈이 있다. 미국과 UK 두 국가에서 발생한 5월 한 달간의 ISIS 관련 트윗을 대상으로 실험한 결과, 두 국가의 ISIS 관련 관심 이슈와 그 변화 추이를 확인할 수 있었다.

RDBMS 기반의 토픽맵 무결성 검사 기법 (RDBMS based Topic Map Constraint Checking Mechanism)

  • 이한준;민경섭;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.493-502
    • /
    • 2007
  • 지식을 효과적으로 표현하고 검색하는 방법에 대한 관심이 증가함에 따라, 토픽맵을 비롯한 지식 표현 기법들이 점점 중요해지고 있다. 토픽맵은 지식을 구조화하여 표현하게 되는데 지식은 매우 복잡한 의미적 관계를 포함하고 있기 때문에 이를 의미적으로 일관성 있게 유지, 관리하는 것은 매우 중요한 문제가 된다. 현재 토픽맵 무결성 검사를 위하여 TMCL을 비롯한 여러 토픽맵 제약 조건 언어와 시스템들이 제안되었다. 그러나 이들은 단순한 의미적 제약들에 대해 지원하고 있지만, 의존성과 같은 복잡한 제약들에 대한 것들은 다루고 있지 못하다. 또한, 단순히 응용 레벨에서 제약들을 검사함으로써 좋지 않은 성능을 보인다. 이에 본 논문에서는 기존의 정보 시스템 분야 및 관련 분야에서 제공하고 있는 제약 언어들의 특성을 기반으로 TMCL을 확장하였다. 또한 이를 효율적으로 지원하기 위한 관계형 데이타베이스기반의 토픽맵 무결성 검사 기법을 제안하고 구현하였다. 구현한 시스템에서는 TMCL에서 제공하고 있는 기본적인 토픽맵 제약 조건들뿐만 아니라 의존성과 같은 복잡한 형태의 제약도 다루고 있다. 그리고 각각의 제약 조건을 검사할 때 템플릿을 이용하여 질의를 생성시켜 효율적인 무결성 검사가 가능하게 함으로써 기존 시스템들의 검사 방식에 비해 높은 성능을 보임을 확인하였다.

국내 갑상선암 논문 토픽에 대한 융합연구 (Convergence Study on Research Topics for Thyroid Cancer in Korea)

  • 양지연
    • 한국융합학회논문지
    • /
    • 제10권2호
    • /
    • pp.75-81
    • /
    • 2019
  • 본 연구는 통계적인 기법을 융합 활용하여 국내 갑상선암과 관련된 연구 토픽의 동향 및 변화 추세를 알아보기 위함이다. DBpia에 등록되어 있는 갑상선암 관련 논문을 대상으로 LDA(latent Dirichlet allocation) 기반의 토픽 모형을 적용한 결과, 4개의 연구 토픽을 도출하였으며 각 토픽은 "Surgery", "Disease aggressiveness", "Survival analysis", "Well-being of patients"에 관한 내용으로 확인되었다. 다범주 로짓모형을 이용하여 연구 토픽의 시대적 추이를 확인한 결과, 2000년 이전에는 "Surgery", 2000년대에는 "Disease aggressiveness"와 "Survival analysis", 2010년 이후에는 "Survival analysis"와 특히 "Well-being of patients"에 관한 연구가 많이 이루어졌음을 확인하였다. 이는 향후 갑상선암 연구의 방향 모색에 필요한 기초자료로 활용될 수 있을 것이며, 최근 환자의 복지로 크게 전환된 연구 토픽의 변화가 다른 질병에서도 관찰되는지 추후 검토할 필요가 있다.

한국과학교육학회지는 44년간 어떤 주제로 어떻게 변화했는가? -잠재 디리클레 할당(LDA)을 활용한 토픽모델링 분석- (How the Journal of the Korean Association for Science Education(JKASE) Changed for the Past 44 Years?: Topic Modeling Analysis Using Latent Dirichlet Allocation)

  • 장진아;나지연
    • 한국과학교육학회지
    • /
    • 제42권2호
    • /
    • pp.185-200
    • /
    • 2022
  • 이 연구에서는 LDA 기반의 토픽모델링 분석을 통해 한국과학교육학회지에 게재된 연구 논문들이 어떤 주제로 어떻게 변화했는지 탐색하였다. 이를 위해, 1978년부터 2021년 5월까지 한국과학교육학회지에 게재된 논문들의 영문초록 총 2,115개에 대한 LDA 기반 토픽모델링분석을 실시하였다. 분석 결과, 총 23개의 토픽을 추출하였으며 각 토픽들을 관련된 키워드 및 세부 연구주제들과 함께 제시하였다. 다음으로, 시간에 따른 토픽들의 변화 추이를 살펴보기 위해, 4년 주기에 대한 각 토픽들의 평균 비중값의 변화를 히트맵으로 시각화하였다. 이를 통해, 시간이 지남에 따라 상승해온 주제와 하락해온 주제들을 밝혔다. 이 연구의 결과들은 꾸준히 연구되어온 전통적인 연구 주제들, 교육 철학이나 연구방법의 변화, 사회나 정책적 요구에 따라 달라져온 연구 주제들을 드러냄으로써 한국의 과학교육연구에 새로운 통찰을 제공할 것으로 기대된다.

잠재 디리클레 할당(LDA) 기반의 토픽모델링 분석을 통한 '초등과학교육' 학술지 연구논문의 주제 및 변화 (An Examination of the Topics and Changes in the Research Papers Published in the Journal of Korean Elementary Science Education Using Latent Dirichlet Allocation for the Topic Modeling Analysis)

  • 장진아;나지연
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권2호
    • /
    • pp.356-372
    • /
    • 2022
  • 본 연구에서는 한국초등과학교육학회의 지난 50년을 돌아보기 위하여, '초등과학교육'에 게재된 연구논문들이 어떤 주제로 어떻게 변화했는지 살펴보았다. 이를 위해 창간호(1983)년부터 2021년까지 '초등과학교육' 학술지에 게재된 연구논문의 총 1,065개 영문초록들에 대하여 LDA 기반 토픽모델링 분석을 실시하였다. LDA 분석 결과 총 14개의 토픽들이 추출되었으며, 핵심어 및 핵심 문서를 통해 각 토픽들에 담긴 의미를 분석하였다. 또한 시기별로 각 토픽들의 추이를 파악하기 위해, 3년을 주기로 하여 토픽들의 평균 비중값 변화를 분석하고 선형회귀 분석을 통해 통계적으로 유의미하게 증가 또는 감소한 토픽들을 분석하였다. 끝으로 본 연구의 결과를 통해, 향후 초등과학교육 연구 수행 및 지원을 위한 시사점을 논의하였다.