• 제목/요약/키워드: Latent topic model

검색결과 79건 처리시간 0.021초

텍스트 분석을 이용한 코로나19 관련 국내 논문의 주제 및 감성에 관한 융합 연구 (A Convergence Study on the Topic and Sentiment of COVID19 Research in Korea Using Text Analysis)

  • 허성민;양지연
    • 한국융합학회논문지
    • /
    • 제12권4호
    • /
    • pp.31-42
    • /
    • 2021
  • 본 연구에서는 코로나19 관련 연구논문의 연구주제를 탐색하고 동향을 검토하고 있다. 또한 감성분석을 통해 부정적인 어조가 강한 경고가 되는 주제들을 알아본다. 잠재 디리슐레 할당(LDA)를 이용하여 총 8개의 토픽을 발견하였고, 이를 구조적 토픽 모델링(STM)과 비교하여 비교적 안정적인 결과임을 확인하였다. 또한 k-means 군집 알고리즘을 통해 각 토픽별로 세부 연구주제를 발견하였고 주성분 분석을 이용하여 이를 시각적으로 표현하였다. 감성분석을 통해 각 토픽별 긍정적, 부정적인 단어들을 살펴보고 감성점수를 계산하여 연구논문의 주된 어조를 파악하였는데, 특히 생물 의학 관련, 국제적 역학관계, 심리적 영향과 관련된 연구에서 부정적인 어조가 강한 것으로 나타나 해당 부문에 대해서 주의와 관심이 요구된다. 향후 연구자들이 연구의 방향성을 탐색하고 정책결정자들이 연구지원 사업을 결정하는데 기초자료로 활용될 수 있을 것이다.

토픽모델링을 활용한 주요국의 스마트제조 기술 동향 분석 (Analysis of global trends on smart manufacturing technology using topic modeling)

  • 오윤환;문형빈
    • 한국산업정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.65-79
    • /
    • 2022
  • 본 연구는 스마트제조 관련 국내·외 특허 데이터와 토픽모델링 방법을 활용하여 스마트 제조 관련 기술의 세부 영역을 식별하고 해당 영역에서 미국, 일본, 독일, 중국, 한국 등 주요국의 기술 개발 동향을 비교하였다. 이를 위해 1991년부터 2020년 사이에 미국과 유럽에서 출원된 특허를 수집하고 특허 초록을 가공한 후, LDA 모형을 적용해 토픽을 식별하였다. 연구 결과, 스마트제조 관련 기술의 세부 영역은 크게 7개로 구분되며 글로벌 차원에서는 최근 '데이터 처리 시스템 관련 기술'과 '열·유체 관리 기술'의 기술 개발 비중이 상당히 높아지고 있는 것으로 나타났다. 주요국과 한국의 기술 개발 동향을 비교한 결과, '열·유체 관리 기술' 분야에서 상대적인 강점이 있다는 점을 고려하면 국내 주력산업인 중화학 제조업과 연계한 스마트제조 관련 연구개발 및 관련 산업의 육성 추진 전략이 효과적일 것으로 보인다. 본 연구는 기존 정성적 기술 수준 평가의 한계를 극복하고, 텍스트마이닝 기법을 적용한 기술 역량 평가 방법론을 제안하였다는 측면에서 의의가 있다.

영상감시시스템에서 움직임의 비교사학습을 통한 비정상행동탐지 (Unsupervised Motion Learning for Abnormal Behavior Detection in Visual Surveillance)

  • 정하욱;장형진;최진영
    • 전자공학회논문지SC
    • /
    • 제48권5호
    • /
    • pp.45-51
    • /
    • 2011
  • 본 논문에서는 비교사학습법을 통해 영상의 방대한 정보를 효율적으로 모델링 하는 방법을 제안하고자 한다. 여기서 이동궤적들은 자연어 처리에 사용되는 알고리즘인 잠재 디리클레 할당 모형(Latent Dirichlet Allocation)에 의해 직진, 좌회전, 우회전등 각 상황 별로 주제에 따라 그 영역을 효과적으로 분류할 수 있다. LDA를 이용해 주제별로 의미 있는 영역을 분류한 후, 각 주제별로 분류된 궤적을 관측열로 보고 은닉 마르코프 모델(Hidden Markov Model)의 바움-웰치 알고리즘을 사용하여 학습한다. 전향 알고리즘을 사용하여 입력된 행동과 학습된 행동을 비교함으로써 영상내의 행동이 정상인지 비정상인지를 효과적으로 판단할 수 있다. 실험결과 다양한 영상에 대해 의미있는 주제별로 영역이 잘 분류되며 추적에러로 인한 궤적의 노이즈에도 강인하게 물체의 무단횡단, 신호위반과 같은 상황을 효과적으로 탐지하는 것을 확인할 수 있다.

Empirical Comparison of Word Similarity Measures Based on Co-Occurrence, Context, and a Vector Space Model

  • Kadowaki, Natsuki;Kishida, Kazuaki
    • Journal of Information Science Theory and Practice
    • /
    • 제8권2호
    • /
    • pp.6-17
    • /
    • 2020
  • Word similarity is often measured to enhance system performance in the information retrieval field and other related areas. This paper reports on an experimental comparison of values for word similarity measures that were computed based on 50 intentionally selected words from a Reuters corpus. There were three targets, including (1) co-occurrence-based similarity measures (for which a co-occurrence frequency is counted as the number of documents or sentences), (2) context-based distributional similarity measures obtained from a latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), and Word2Vec algorithm, and (3) similarity measures computed from the tf-idf weights of each word according to a vector space model (VSM). Here, a Pearson correlation coefficient for a pair of VSM-based similarity measures and co-occurrence-based similarity measures according to the number of documents was highest. Group-average agglomerative hierarchical clustering was also applied to similarity matrices computed by individual measures. An evaluation of the cluster sets according to an answer set revealed that VSM- and LDA-based similarity measures performed best.

사회 연결망 분석 기반 자료포락분석 순위 결정 기법간 비교와 한계 극복 방안에 대한 연구 (Comparison between Social Network Based Rank Discrimination Techniques of Data Envelopment Analysis: Beyond the Limitations)

  • 강희재
    • 한국IT서비스학회지
    • /
    • 제22권1호
    • /
    • pp.57-74
    • /
    • 2023
  • It has been pointed out as a limitation that the rank of some efficient DMUs(decision making units) cannot be discriminated due to the relativity nature of efficiency measured by DEA(data envelopment analysis), comparing the production structure. Recently, to solve this problem, a DEA-SNA(social network analysis) model that combines SNA techniques with data envelopment analysis has been studied intensively. Several models have been proposed using techniques such as eigenvector centrality, pagerank centrality, and hypertext induced topic selection(HITS) algorithm, but DMUs that cannot be ranked still remain. Moreover, in the process of extracting latent information within the DMU group to build effective network, a problem that violates the basic assumptions of the DEA also arises. This study is meaningful in finding the cause of the limitations by comparing and analyzing the characteristics of the DEA-SNA model proposed so far, and based on this, suggesting the direction and possibility to develop more advanced model. Through the results of this study, it will be enable to further expand the field of research related to DEA.

조현병 관련 주요 일간지 기사에 대한 텍스트 마이닝 분석 (Text-Mining Analyses of News Articles on Schizophrenia)

  • 남희정;류승형
    • 대한조현병학회지
    • /
    • 제23권2호
    • /
    • pp.58-64
    • /
    • 2020
  • Objectives: In this study, we conducted an exploratory analysis of the current media trends on schizophrenia using text-mining methods. Methods: First, web-crawling techniques extracted text data from 575 news articles in 10 major newspapers between 2018 and 2019, which were selected by searching "schizophrenia" in the Naver News. We had developed document-term matrix (DTM) and/or term-document matrix (TDM) through pre-processing techniques. Through the use of DTM and TDM, frequency analysis, co-occurrence network analysis, and topic model analysis were conducted. Results: Frequency analysis showed that keywords such as "police," "mental illness," "admission," "patient," "crime," "apartment," "lethal weapon," "treatment," "Jinju," and "residents" were frequently mentioned in news articles on schizophrenia. Within the article text, many of these keywords were highly correlated with the term "schizophrenia" and were also interconnected with each other in the co-occurrence network. The latent Dirichlet allocation model presented 10 topics comprising a combination of keywords: "police-Jinju," "hospital-admission," "research-finding," "care-center," "schizophrenia-symptom," "society-issue," "family-mind," "woman-school," and "disabled-facilities." Conclusion: The results of the present study highlight that in recent years, the media has been reporting violence in patients with schizophrenia, thereby raising an important issue of hospitalization and community management of patients with schizophrenia.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

Technology Development Strategy of Piggyback Transportation System Using Topic Modeling Based on LDA Algorithm

  • Jun, Sung-Chan;Han, Seong-Ho;Kim, Sang-Baek
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.261-270
    • /
    • 2020
  • 본 연구는 피기백 화차운송 시스템의 특허문서를 활용하여 관련 분야의 유망기술을 파악하는 것을 목표로 한다. 이를 위해 피기백 운송 시스템의 선행연구 및 관련 보고서로 기술 키워드를 추출하여 특허문서를 추출한다. 추출된 특허문서에 텍스트마이닝 기법을 적용하여 빈도수가 높은 키워드를 확인하고 피기백 운송 시스템의 핵심기술의 토픽을 식별하기 위해 LDA(Latent Dirichlet Allocation) 알고리즘을 적용하였다. 마지막으로, 시계열 분석 기법인 ARIMA 모델을 핵심기술의 토픽에 적용하여 기술 추세를 예측하고 피기백 운송 시스템에 대한 유망한 기술을 식별하였다. 특허 분석 결과, 데이터 기반 통합관리 시스템과 운영 계획 시스템 그리고 복합수송 중 특수 화물(기체, 액체류) 운송 및 보관 기술이 미래에 유망한 핵심기술로 도출되었고, 데이터 송수신 및 분석 기술이 중요한 세부 기술임을 확인하였다. 제안된 분석 방법은 피기백 운송 시스템의 R&D 연구개발 전략 및 기술 로드맵을 개발하는 데 있어 충분한 자료가 될 수 있다.

SNS 데이터를 이용한 공공시설 매력도지수에 따른 접근성 분석기법 (Accessibility Analysis Method based on Public Facility Attraction Index Using SNS Data)

  • 이지원;유기윤;김지영
    • 한국측량학회지
    • /
    • 제37권1호
    • /
    • pp.29-42
    • /
    • 2019
  • 본 연구는 공공시설의 질적인 측면의 확대를 위해 SNS (Social Network Service) 데이터를 활용하여 이용자 중심의 공공시설 선호요인을 도출하고, 이를 공급측면과 수요측면에서 정량화시키는 방법을 제안하였다. 선호요인 도출을 위해 토픽모델링 중 하나인 LDA (Latent Dirichlet Allocation)를 활용하였으며, 공급요인인 개별시설별로 매력도지수를 산출하였다. 또한 수요자 입장에서 서비스체감 정도를 측정하기 위해 공간접근성을 분석하였는데, 2SFCA (2-Step Floating Catchment Area) 방법을 활용하여 앞서 제안한 공공시설 매력도지수를 적용할 수 있도록 하였다. 실험은 서울시 공공도서관을 대상으로 진행하였다. 연구결과 공공도서관에 대한 선호요인으로 주변 환경, 시설 및 이용규모, 문화 프로그램, 육아, 장서 및 자료현황의 5가지 주제가 추출되었으며, 주변 환경이나 육아관련 주제는 새롭게 도출된 선호요인으로 선행연구와 차별성이 있다. 각 도서관별로 매력도지수를 산출한 결과 송파도서관, 정독도서관, 남산도서관의 매력도지수가 높게 나타났으며, 송파도서관은 육아요인에서 정독도서관과 남산도서관은 주변 환경요인에서 좋은 평가를 받고 있는 것으로 나타났다. 각 동별 공간접근성은 공공도서관이 많이 몰려있는 서울 중심부의 접근성이 좋은 편이며, 외곽지역으로 갈수록 줄어드는 것으로 보였다. 본 연구에 제안한 기법을 통해 이용자 중심의 공공시설 평가 및 정책의사 결정에 도움을 줄 것으로 기대한다.

공저자 네트워크 및 토픽 모델링 기반 여가레크리에이션 학술 연구 특징 분석 (The Research Features Analysis of Leisure and Recreation based on Co-authors Network and Topic Model)

  • 박성건;박광원;강현욱
    • 한국체육학회지인문사회과학편
    • /
    • 제57권2호
    • /
    • pp.279-289
    • /
    • 2018
  • 본 연구의 목적은 워드 클라우드와 LDA 토픽 모델링을 이용하여 공저자 네트워크 및 토픽 모델링 기반 여가레크리에이션 학술 연구의 특징을 분석하는 것이다. 웹 크롤러로 수집된 논문은 2008년 1월~2017년 3월 최근 10년 간 한국체육학회 홈페이지에 게재된 총 2,697편이며, 분석 대상은 여가레크리에이션 관련 문헌 369편이다. 분석 결과, 여가레크리에이션 분야 연구자들의 주요 관심사는 참가자와의 관계와 관련된 요인 분석, 다른 변인 간의 관계, 집단별 효과 차이 검증, 운동 참여, 스포츠 참여형태에 관한 연구로 나타났다. 연구자 네트워크에 링크된 수는 451개이며, 연구자들은 평균 1.52회의 관계를 맺고 있고, 연구자 간 평균 거리는 2.33로 나타났다. 대표저자의 연결정도 중심성에서 Lee. K. M., Hwang. S. H., Lee. C. S. 순으로 높게 나타났고, 근접 중심성은 Seo. K. B., Han. J. H., Kim. K. J. 순으로 나타났다. 마지막으로 매개 중심성은 Lee. C. W., Seo. K. B. 순으로 높게 나타나 여가레크리에이션과 관련된 학술 논문의 연구자들 사이를 연결해주는 역할을 가장 활발히 하는 것으로 나타났다. 향후 연구에서는 미래 여가 연구의 추이와 방향성에 관련하여 학자들 간의 논의가 필요하다.