• 제목/요약/키워드: 지능정보 기반

검색결과 4,506건 처리시간 0.03초

멀티에이전트시스템(MAS)을 이용한 G2B 조달 프로세스 혁신의 효과평가에 관한 연구 : 나라장터 G2B사례 (A Study on the Performance Evaluation of G2B Procurement Process Innovation by Using MAS: Korea G2B KONEPS Case)

  • 서원준;이대철;임규건
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.157-175
    • /
    • 2012
  • 방대한 규모와 복잡한 프로세스로 구성된 공공조달의 혁신성과를 평가하기란 매우 어려운 문제이다. 기존의 프로세스 혁신 평가는 주로 설문 및 인터뷰, 그리고 운영데이터를 분석한 정성적, 또는 통계적인 정량적 방법들이었다. 이에 본 연구에서는 공공조달 프로세스를 복잡계로 보고 이에 대한 시뮬레이션 방법으로 멀티에이전트시스템(MAS)을 이용하여 공공조달 프로세스 혁신효과 평가모델을 개발하였다. 그리고, 개발된 MAS 기반의 공공조달 혁신평가 모델을 우리나라 조달청의 G2B(나라장터, KONEPS) 시스템에 적용하여 혁신효과를 평가하였다. MAS 시뮬레이션 도구는 Northwestern University에서 개발된 Netlogo Version 4.1.3을 사용하였고, 모델링에서는 에이전트 정의, 에이전트 행동특성 정의, 에이전트 관계 정의의 세단계로 진행하였다. 첫째, 에이전트 정의에서는 에이전트가 될 대상을 선정하고, 에이전트가 가진 속성과 변수들을 정의하였다. 둘째, 행동특성 정의에서는 각 에이전트의 행동계획 및 자원할당을 설정하였고, 셋째, 관계정의 단계에서는 상태변화에 따른 행동 규칙을 설정하였다. 또한 프로세스 혁신의 목적에 맞는 성과를 측정하기 위하여 혁신 효과평가항목을 선정하였고, 데이터는 조달청의 협조를 통해 DB 데이터와 설문데이터를 활용하였다. 이를 통해 프로세스 전체 및 프로세스별 절감시간과 업무량의 절감율을 측정하였다. 실험결과 전체 프로세스의 효율성이 증대되었으며 '평균 업무처리 건수'의 절감율이 92.7%, '평균 업무처리 시간'의 절감율이 95.4%로 나타났다. 즉 공공조달분야는 G2B 시스템 도입을 통해 프로세스 혁신을 추진한 결과 매우 높은 효율성이 제고된 것으로 분석되었다. 또한 본 연구를 통해 '계약'과 관련한 업무프로세스에서 추가적인 개선이 이루어질 경우 프로세스 혁신효과가 더욱 향상될 수 있는 것으로 분석되었다. 본 연구는 MAS를 이용하여 프로세스 개선효과에 대한 평가모델을 제시하고 분석했다는데 의의가 있다.

4차 산업혁명 시대의 사물인터넷 산업 발전전략에 관한 연구: 기업측면의 비즈니스 모델혁신 방향을 중심으로 (A Study on the Strategy of IoT Industry Development in the 4th Industrial Revolution: Focusing on the direction of business model innovation)

  • 정민의;유성진
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.57-75
    • /
    • 2019
  • 본 논문에서는 4차 산업혁명 핵심기술 중 가장 활발하게 산업화가 진행되고 있는 사물인터넷 산업을 대상으로 비즈모델 혁신방향 중심의 연구를 수행하였다. 글로벌 트렌드 분석을 위해 PEST분석을 활용하여 정책적, 경제적, 사회적, 기술적 이슈를 도출하였고, Gartner, International Data Corporation 등 ICT관련 조사 분석기관의 사물인터넷산업에 대한 미래전망을 제시하였는데, 사물인터넷은 인프라 및 플랫폼을 기반으로 산업인터넷(IIoT), 소물인터넷(IoST) 등으로 네트워크 기술경쟁이 이슈가 될 것으로 전망하였다. 4차 산업혁명으로 인해 급변하는 산업계에 대응하기 위해 기존의 비즈니스 모델 혁신을 위한 다양한 경영학적 방법론들을 검토하였고, '적용성', '민첩성', '다양성', '연계성' 4가지 기준을 가지고 전문가 설문조사를 수행하여 Business Model Canvas 모델이 비즈니스 모델 혁신 방법론으로 가장 적합하다는 AHP 분석결과를 도출하였다. Business Model Canvas는 비즈니스 모델 혁신을 위한 방법론으로 비교적 최근에 제시된 경영전략이며, 9개의 블록 접근 방식을 통해 비즈니스모델의 가치를 식별하며, 비즈니스의 4대 핵심 영역인 고객, 주문, 인프라, 사업타당성 분석 등을 포괄한다. 결론적으로 ICT융합산업 분야에서 어떠한 Business Model Canvas 모델을 방향으로 적용할지에 대한 고찰을 기술하였다.

텍스트마이닝을 활용한 북한 관련 뉴스의 기간별 변화과정 고찰 (An Investigation on the Periodical Transition of News related to North Korea using Text Mining)

  • 박철수
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.63-88
    • /
    • 2019
  • 북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구에서 비정형데이터를 이용한 텍스트마이닝 분석이 더해지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다. 본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심 단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 파악하였다. 본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 이해하고 분석하는 방법론으로서 얼마나 유용한 것이지를 파악하는 것이었다. 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정 모델 구축을 위한 연구로 진행 될 것이다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

기계학습을 활용한 특허수명 예측 및 영향요인 분석 (Prediction of patent lifespan and analysis of influencing factors using machine learning)

  • 김용우;김민구;김영민
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.147-170
    • /
    • 2022
  • 특허의 사적 가치(private value)를 나타내는 특허수명 추정은 오래전부터 연구되었으나 추정과정에서 선형모델에 의존하는 경우가 대부분이었고, 기계학습 방법을 사용하더라도 변수 간 관계에 대한 해석이나 설명이 부족하였다. 본 연구에서는 특허의 생존 기간이 특허의 가치를 대리한다는 기존 연구결과를 바탕으로 특허 등록 이후의 생존 기간(연장횟수) 예측을 통해 특허의 가치를 추정한다. 이를 위해 1996~2017년까지 미국 특허청(USPTO)에 출원하여 등록된 특허 4,033,414개를 수집하였다. 특허수명을 예측하기 위해 기존 연구에서 특허수명에 영향을 미친다고 밝혀진 특허의 특성, 특허의 소유자 특성, 특허의 발명가 특성을 반영할 수 있는 다양한 변수가 사용되었다. 서로 다른 4개의 모델(Ridge Regression, Random Forest, Feed-forward Neural Network, Gradient Boosting Models)을 생성하고, 모델 학습 과정에서는 5-fold Cross Validation으로 초매개변수 조정이 이루어졌다. 이후 생성된 모델의 성능을 평가하고 특허수명을 추정할 수 있는 예측변수의 상대적 중요도를 제시하였다. 또한, 성능이 우수했던 Gradient Boosting Model을 기반으로 Accumulated Local Effects Plot을 제시하여 예측변수와 특허수명 간 관계를 시각적으로 나타내었다. 마지막으로 모델에 의해서 평가된 개별 특허의 평가 근거를 제시하기 위하여 Kernal SHAP(SHapley Additive exPlanations)을 적용하고 특허평가 시스템에의 적용 가능성을 제시한다. 본 연구는 기존에 특허수명을 추정하는 연구에 누적적으로 기여한다는 점 그리고 선형성을 바탕으로 진행된 기존 특허수명 추정 연구들의 한계를 보완하고 복잡한 비선형 관계를 설명가능한 방식으로 제시하였다는 점에서 학문적 의의가 있다. 또한, 개별 특허의 평가 근거를 도출하는 방법을 소개하고 특허평가 시스템에의 적용 가능성을 제시하였다는 점에서 실무적 의의가 있다.

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.

재생에너지 발전량 예측제도 기반 집합전력자원 구성모델 개발 (The Development of an Aggregate Power Resource Configuration Model Based on the Renewable Energy Generation Forecasting System)

  • 강은경;장하렴;양선욱;양성병
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.229-256
    • /
    • 2023
  • 팬데믹으로 인한 재택근무와 가정용 전력수요의 증가는 전력수요 패턴에 상당한 변화를 불러왔다. 이로 인해 한전 PPA(전력구매계약) 및 자가용 태양광 발전량 파악이 어려워지고, 전력거래소의 전력수요예측과 계통운영에 어려움이 가중되고 있다. 전기에너지는 다른 에너지 자원과 달리 저장이 어려워, 생산된 에너지와 소비 사이의 균형을 유지하는 것이 매우 중요하다. 전기에너지의 부족이나 과잉 생산은 에너지 시스템에 큰 불안정성을 초래할 수 있으므로, 전력 수급을 효과적으로 관리하는 것이 필수적이다. 특히, 4차 산업혁명 시대에는 데이터의 중요성이 더욱 커져 대규모 화재나 정전과 같은 문제가 심각한 영향을 미칠 수 있다. 이에 따라, 전기에너지 분야에서 정확한 전력수요와 함께 재생에너지와 같은 발전량을 정확하게 예측하여 적절한 발전 관리를 하는 것이 중요하며, 이는 불필요한 전력 생산을 줄이고 에너지 자원을 효율적으로 활용하는데 도움이 된다. 이에, 본 연구에서는 산업통상자원부에서 제공한 169개 발전소의 데이터를 활용하여 최적의 집합전력자원을 구성하기 위해 (1) 재생에너지 발전량 예측제도와 목표, 그리고 실제 적용에 대해 검토하고, (2) 예측제도 정산을 고려한 집합구성 알고리즘을 개발한 후, (3) 분석 로직에 이를 적용하여 결과를 종합하고 해석하였다. 본 연구는 최적의 집합구성 알고리즘을 개발하여, 최대 정산금 대비 80.66%에 달하는 집합구성(Result_Number 546)을 도출하였으며, 발전소 집합을 구성하였을 때 정산금을 증가시키는 발전소(B1783, B1729, N6002, S5044, B1782, N6006)와 정산금을 감소시키는 발전소(S5034, S5023, S5031)를 확인하였다. 집합전력자원을 연구단위로 설정하여 최적의 집합구성 알고리즘을 개발한 최초의 연구로서 의의가 있으며, 본 연구결과의 활용으로 전력시스템의 안정성을 향상시키고 에너지 자원이 효율적으로 활용될 수 있기를 기대한다.

로보어드바이저 선정요인의 우선순위에 관한 연구: AHP를 이용한 사용자와 제공자의 차이분석 관점으로 (A Study on the Priority of RoboAdvisor Selection Factors: From the Perspective of Analyzing Differences between Users and Providers Using AHP)

  • 우영웅;오재인;장윤희
    • 경영정보학연구
    • /
    • 제25권2호
    • /
    • pp.145-162
    • /
    • 2023
  • 자산운용은 수많은 변수와 인간의 심리까지도 통찰해야 하는 복잡하고 어려운 분야이다. 따라서 전통적으로 전문가의 영역이었으며, 이러한 서비스를 받는 데 많은 비용이 들었다. 이러한 시장에 변화가 일어나고 있는데, 이른바 4차산업혁명으로 일컫는 디지털혁명이 그 동인이다. 그 중에서도 인공지능(Artificial Intelligence) 기술을 활용한 로보어드바이저(Robo-Advisor) 서비스는 그 백미이다. 편리한 접근성과 저렴한 비용으로 투자자문 서비스의 대중화가 가능하기 때문이다. 본 연구는 국내에서 서비스 사용자와 제공자의 로보어드바이저 선정 시, 어떤 요인들이 핵심적으로 중요한지, 또한 사용자와 제공자 집단 간의 선정요인에서 어떤 인식차이가 있는지를 밝히고자 하였다. 연구의 틀은 마케팅믹스 4C 모형을 기반으로 하였고, 모형의 설계와 분석은 델파이조사와 AHP를 활용하였다. 연구설계를 통해 4개의 주기준과 15개의 하부기준이 도출되었고, 연구의 발견내용은 다음과 같다. 첫째, 4개 주기준에서의 중요도는 양 집단 공히, 고객니즈> 고객편의> 고객비용> 고객소통 순으로 나타났다. 둘째, 15개의 하부기준들을 살펴보면 투자목적 Coverage, 투자성향 Coverage, 수수료 수준과 접근 편리성 요인이 가장 중요한 것으로 나타났다. 셋째, 집단 간을 비교하여 살펴보면 사용자 집단에서는 수수료 수준과 접근 편리성 요인이 가장 중요하게 나타났고, 제공자 집단에서는 투자목적 Coverage와 투자성향 Coverage 요인을 중요하게 인식하고 있는 것으로 나타났다. 본 연구는 실무적으로 유용한 시사점을 도출하였다. 먼저 로보어드바이저 서비스 확산을 위한 설계 시, 4개의 주기준과 15개 하부기준 가중치 차이에 따른 중요도 우선순위를 감안하여 사용자 지향적인 시스템 구축을 할 수 있는 근거를 마련하였다. 또한 집단 비교에서 나타난 각 하부기준의 우선순위 차이와, 가중치 차이가 큰 하부기준들에 대한 원인 파악, 제공자 집단 내의 전략/마케팅 담당과 시스템개발 담당 간 요인에 대한 인식 차이를 해소하기 위한 공감대 형성 등이 매우 중요함을 제시하였다. 학문적으로는 다수의 로보어드바이저 선정요인들을 도출함으로써 다양한 시각과 관점을 제시한 초기 연구라는 점에서 유의미하다. 본 연구의 발견점들을 통하여 국내에서도 성공적인 사용자 지향적 로보어드바이저 시스템을 구축하고 확산시켜 사용자들에게 도움을 줄 수 있기 기대한다.

온라인 언급이 기업 성과에 미치는 영향 분석 : 뉴스 감성분석을 통한 기업별 주가 예측 (Influence analysis of Internet buzz to corporate performance : Individual stock price prediction using sentiment analysis of online news)

  • 정지선;김동성;김종우
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.37-51
    • /
    • 2015
  • 인터넷 기술의 발전과 인터넷 상 데이터의 급속한 증가로 인해 데이터의 활용 목적에 적합한 분석방안 연구들이 활발히 진행되고 있다. 최근에는 텍스트 마이닝 기법의 활용에 대한 연구들이 이루어지고 있으며, 특히 문서 내 텍스트를 기반으로 문장이나 어휘의 긍정, 부정과 같은 극성 분포에 따라 의견을 스코어링(scoring)하는 감성분석과 관련된 연구들도 다수 이루어지고 있다. 이러한 연구의 연장선상에서, 본 연구는 인터넷 상의 특정 기업에 대한 뉴스 데이터를 수집하여 이들의 감성분석을 실시함으로써 주가의 등락에 대한 예측을 시도하였다. 개별 기업의 뉴스 정보는 해당 기업의 주가에 영향을 미치는 요인으로, 적절한 데이터 분석을 통해 주가 변동 예측에 유용하게 활용될 수 있을 것으로 기대된다. 따라서 본 연구에서는 개별 기업의 온라인 뉴스 데이터에 대한 감성분석을 바탕으로 개별 기업의 주가 변화 예측을 꾀하였다. 이를 위해, KOSPI200의 상위 종목들을 분석 대상으로 선정하여 국내 대표적 검색 포털 서비스인 네이버에서 약 2년간 발생된 개별 기업의 뉴스 데이터를 수집 분석하였다. 기업별 경영 활동 영역에 따라 기업 온라인 뉴스에 나타나는 어휘의 상이함을 고려하여 각 개별 기업의 어휘사전을 구축하여 분석에 활용함으로써 감성분석의 성능 향상을 도모하였다. 분석결과, 기업별 일간 주가 등락여부에 대한 예측 정확도는 상이했으며 평균적으로 약 56%의 예측률을 보였다. 산업 구분에 따른 주가 예측 정확도를 통하여 '에너지/화학', '생활소비재', '경기소비재'의 산업군이 상대적으로 높은 주가 예측 정확도를 보임을 확인하였으며, '정보기술'과 '조선/운송' 산업군은 주가 예측 정확도가 낮은 것으로 확인되었다. 본 논문은 온라인 뉴스 정보를 활용한 기업의 어휘사전 구축을 통해 개별 기업의 주가 등락 예측에 대한 분석을 수행하였으며, 향후 감성사전 구축 시 불필요한 어휘가 추가되는 문제점을 보완한 연구 수행을 통하여 주가 예측 정확도를 높이는 방안을 모색할 수 있을 것이다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.