• 제목/요약/키워드: Pre Processing

검색결과 1,998건 처리시간 0.035초

Landsat-8 OLI 영상정보의 대기 및 지표반사도 산출을 위한 OTB Extension 구현과 RadCalNet RVUS 자료를 이용한 성과검증 (An Implementation of OTB Extension to Produce TOA and TOC Reflectance of LANDSAT-8 OLI Images and Its Product Verification Using RadCalNet RVUS Data)

  • 김광섭;이기원
    • 대한원격탐사학회지
    • /
    • 제37권3호
    • /
    • pp.449-461
    • /
    • 2021
  • 광학 위성정보에 대한 분석대기자료(ARD)는 각 센서 별 분광특성과 촬영각 등을 적용하는 전처리 작업에 의한 성과물이다. 대기보정 처리과정은 통하여 얻을 수 있는 대기반사도와 지표반사도는 기본적이면서 복잡한 알고리즘을 요구한다. 대부분 위성 정보처리 소프트웨어에서는 Landsat 위성 대기보정 처리 알고리즘 및 기능을 제공하고 있다. 또한 사용자는 클라우드 환경에서 Google Earth Engine(GEE)을 통하여 USGS-ARD와 같은 Landsat 반사도 성과에 직접 접근할 수 있다. 이번 연구에서는 고해상도 위성정보 처리에 활용되고 있는 Orfeo ToolBox(OTB) 오픈 소스 소프트웨어의 대기보정 기능을 확장 구현하였다. 현재 OTB 도구는 어떠한 Landsat 센서도 지원하지 않기 때문에, 이 확장 도구는 최초로 개발된 사례이다. 이 도구를 이용하여 RadCalNet 사이트의 Railroad Valley, United States(RVUS) 반사율 자료 값을 이용한 결과 검증을 위하여 같은 지역의 Landsat-8 OLI 영상의 절대 대기보정에 의한 반사도 성과를 산출하였다. 산출된 결과는 RVUS 자료를 기준으로 반사도 값과의 차이가 5% 미만으로 나타났다. 한편 이 반사도 성과는 USGS-ARD 반사도 값뿐만 아니라 QGIS Semi-automatic Classification Plugin과 SAGA GIS와 같은 다른 오픈 소스 도구에서 산출된 성과를 이용한 비교 분석을 수행하였다. OTB 확장도구로부터 산출한 반사도 성과는 RadCalNet RVUS의 자료와 높은 일치도를 나타내는 USGS-ARD의 값과 가장 부합되는 것으로 나타났다. 이 연구에서 OTB 대기보정 처리의 다양한 위성센서 적용 가능성을 입증한 결과로 이 모듈을 다른 센서정보로 확장하여 구현하는 경우에도 정확도가 높은 반사도 산출이 가능한 것을 확인할 수 있었다. 이와 같은 연구 방법은 향후 차세대중형위성을 포함하는 다양한 광학위성에 대한 반사도 성과 산출 도구개발에도 활용할 수 있다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.

딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조 개발 (Development of deep learning structure for complex microbial incubator applying deep learning prediction result information)

  • 김홍직;이원복;이승호
    • 전기전자학회논문지
    • /
    • 제27권1호
    • /
    • pp.116-121
    • /
    • 2023
  • 본 논문에서는 딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조를 개발한다. 제안하는 복합 미생물 배양기는 수집한 복합 미생물 데이터에 대해 복합 미생물 데이터 전처리, 복합 미생물 데이터 구조 변환, 딥러닝 네트워크 설계, 설계한 딥러닝 네트워크 학습, 시제품에 적용되는 GUI 개발 등으로 구성된다. 복합 미생물 데이터 전처리에서는 미생물 배양에 필요한 당밀, 영양제, 식물엑기스, 소금 등의 양에 대해 원-핫 인코딩을 실시하며, 배양된 결과로 측정된 pH 농도와 미생물의 셀 수에 대해 최대-최소 정규화 방법을 사용하여 데이터를 전처리한다. 복합 미생물 데이터 구조 변환에서는 전처리된 데이터를 물 온도와 미생물의 셀 수를 연결하여 그래프 구조로 변환 후, 인접 행렬과 속성 정보로 나타내어 딥러닝 네트워크의 입력 데이터로 사용한다. 딥러닝 네트워크 설계에서는 그래프 구조에 특화된 그래프 합성곱 네트워크를 설계하여 복합 미생물 데이터를 학습시킨다. 설계한 딥러닝 네트워크는 Cosine 손실함수를 사용하여 학습 시에 발생하는 오차를 최소화하는 방향으로 학습을 진행한다. 시제품에 적용되는 GUI 개발은 사용자가 선택하는 물 온도에 따라 목표하는 pH 농도(3.8 이하) 복합 미생물의 셀 수(108 이상)를 배양시키기 적합한 순으로 나타낸다. 제안된 미생물 배양기의 성능을 평가하기 위하여 공인시험기관에서 실험한 결과는, pH 농도의 경우 평균 3.7로, 복합 미생물의 셀 수는 1.7 × 108으로 측정되었다. 따라서, 본 논문에서 제안한 딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조의 효용성이 입증되었다.

팥의 가속화 저장에 따른 미세구조 및 수분흡수 특성 (Effect of Accelerated Storage on the Microstructure and Water Absorption Characteristics of Korean Adzuki Bean (Vigna angularis L.) Cultivar)

  • 곽지은;오선민;오유근;최유찬;박현진;송석보;이정희;이점식
    • 한국작물학회지
    • /
    • 제68권3호
    • /
    • pp.167-174
    • /
    • 2023
  • 팥 종실은 평형수분함량에 도달하는데 30시간 내외의 긴 시간이 소요되어 팥 이용 측면에서 주요 제한 인자로 작용한다. 따라서 수분흡수 특성 연구는 팥의 이용성 증진을 위한 중요한 분야이다. 본 연구는 국내산 팥의 가속화 저장에 따른 미세구조 및 수분흡수 특성을 분석하여 수침 시간 단축을 위한 기초자료를 제공하고자 수행되었다. 팥의 저장은 대조구(control)인 저온(4℃), 상온(25℃) 및 가속화 고온(45℃)의 세 조건에서 3개월 동안 수행하였다. 1. 발아율, 지방산가, 적색도(a*) 및 황색도(b*) 값은 저장전 대비 3개월 후, 대조구(control)인 저온(4℃) 저장 팥은 차이를 나타내지 않았으나, 가속화 고온(45℃)에서는 통계적인 유의차를 보였다. 특히 가속화 고온(45℃) 조건에서 3개월 동안 저장한 팥은 발아율이 0%까지 감소하고, 지방산가는 초기 10.43 mg KOH/100 g에서 33.63 mg KOH/100 g까지 증가하는 등 품질 저하가 유의적으로 일어났다. 2. 저장 3개월 후, 종실의 배꼽, 종피, 자엽의 미세구조를 전자현미경으로 관찰한 결과, 가속화 고온(45℃) 조건에서만 배꼽의 구멍과 찢어진 틈 등의 손상이 있었고, 종피와 자엽 사이의 틈이 벌어지는 변화가 있었으나 자엽자체의 변화는 관찰되지 않았다. 3. 저장 온도별 3개월 저장 시료를 대상으로 수분흡수 kinetic을 분석한 결과, 대조구(control)인 저온 조건(4℃) 대비 가속화 고온(45℃)에서는 팥 종실의 평형수분함량은 낮았으나, 평형수분함량의 50%에 도달하는 시간은 짧고, 수분흡수 속도는 빨랐다. 4. 팥의 수분흡수 특성은 종실의 미세구조 특성과 밀접한 관계가 있는 것으로 해석되며, 가속화 고온(45℃) 조건의 저장 팥에서 관찰되는 배꼽의 구멍 및 손상, 종피와 자엽 사이의 틈 등 미세구조의 변화가 수분흡수 시간과 속도를 단축시킨 것으로 생각된다. 다만, 미세구조의 변화와 평형수분함량과의 관계는 명확한 설명이 되지 않아 이와 관련된 추가 연구가 필요할 것으로 고찰되었다.

인지폐합수요(认知闭合需要), 심리건강화사회인소대충동구매적영향(心理健康和社会因素对冲动购买的影响) (The Impacts of Need for Cognitive Closure, Psychological Wellbeing, and Social Factors on Impulse Purchasing)

  • Lee, Myong-Han;Schellhase, Ralf;Koo, Dong-Mo;Lee, Mi-Jeong
    • 마케팅과학연구
    • /
    • 제19권4호
    • /
    • pp.44-56
    • /
    • 2009
  • 冲动购买是指一个没有预先购物意向的立即购买. 以往对冲动购买的研究主要集中于和营销组合变量, 环境因素, 消费人口和特征相关的因素. 在以前的研究中, 营销组合变量如产品种类, 产品类型和氛围, 包括广告, 优惠券, 销售活动, 促销刺激销售点, 和媒体格式都已被用于评估产品信息. 有些作者还着重围绕消费者的情境因素. 如信用卡的使用, 时间, 产品运输性, 发现购物同伴的存在和数量对冲动购买/冲动趋势有积极的影响. 研究也已评估了个体特征的影响, 如年龄, 性别, 以及消费者的教育程度, 以及拥挤的感知, 刺激和接触的需要等因素对冲动购买的影响. 概括来说, 以前的研究发现所有的产品都可以被冲动地购买(Vohs and Faber, 2007), 即环境因素可以影响或至少促使冲动购买行为. 最近新的分销渠道的推出, 例如家庭购物渠道, 折扣店和网上商店, 这些24小时都营业的形式增加了冲动购买的可能性. 然而, 以前的文献重点关注情境和营销变量, 因此这些研究所考虑的消费者的主要特征仍然是缺乏的. 为了弥补这个缺陷, 本研究根据研究的第三个惯例并关注个体特质变量, 这些是很少被研究的. 更具体地来说, 本研究探索了冲动购买趋势对冲动购买行为是否有积极的影响, 并评估了消费者特点例如认知闭合需要(NFCC), 心理健康和人际敏感性是如何影响消费者冲动购买的趋势. 这项调查结果显示, 消费者的情感冲动, 对冲动购买行为产生积极的影响, 而认知冲动并没有对冲动购买行为的影响. 此外, 情感冲动购买倾向是被认知闭合需要的构成因素所推动的, 如果断和模糊不适; 心理健康, 如环境控制和生活的目标, 以及规范和信息的影响. 此外, 认知冲动倾向是被认知闭合需要的构成因素所驱动的决断, 模棱两可的不适和密切的态度, 心理健康和环境控制, 以及规范性和信息的影响. 本研究具有重要理论意义. 第一, 情感冲动对冲动购买行为有巨大影响. 以前的研究根据情感和流动理论提出, 低到中等程度的冲动是自我控制减少或自我监管机制失败所造成的. 本研究证实了上述观点. 二, 本研究通过确认冲动购买趋势可以看做是情感和认知两个维度的二维概念, 并说明冲动购买行为主要是由情感冲动解释, 而不是认知冲动. 第三, 目前的研究有新的概念, 如在本研究的模型中作为潜在影响因子的心理健康和认知闭合需要, 从而对现有的文献做出了贡献. 通过多维概念例如心理健康和认知闭合需要, 有关消费者信息过程的多个方面可以被评估. 第五, 本研究通过确定规范和信息这两个竞争路线扩展了现有的文献. 规范影响发生在个人符合别人的期望或提高他们的自我形象时. 而信息的影响发生在个人搜索来自他人知识信息和观察他人行为之后的推论. 本研究显示了这两个相互竞争的社会影响力的路线, 可以归因于不同影响力的来源. 目前的研究也有许多实际的启示. 首先, 它表明, 公司应该更多关注其首要的目标, 有情感冲动的消费者. 这一方面公司可以创造更振奋精神的购物环境. 二, 目前的结果表明, 认知闭合需要与认知方面的冲动有密切相关的. 这些人是被不经意的想法所驱动的, 而不是感觉或兴奋. 在购买点理性的广告会吸引这些客户. 第三, 容易受规范性影响的消费群是另一个潜在的目标市场. 零售商和制造商, 通过宣传其产品和/或可用于识别或符合愿望组在对他人的期望的产品服务. 但是, 作为一个细分市场, 零售商应避免目标消费群易受信息的影响. 这些人对有关购买的产品服务进行了广泛的信息搜索, 因此更详细, 长期理性的广告信息可以内化这些消费者的思想过程. 本文的结果有几个原因应慎重解释. 这项研究采用了数量较少的便利样本, 而且只调查了两个维度的行为. 为此, 今后的研究应包括更多样化特点和衡量行为的不同方面的样本. 未来的研究还应该调查与情感作用理论密切相关的个性特征. 在以后的研究中, 特征变量会是很另人感兴趣的领域, 如感觉的好奇, 人际敏感性的好奇心, 和气氛反应.

  • PDF

Lung Perfusion scan에서 SPECT-CT의 Q-Metrix방법과 평면영상 결과 산출방법에 대한 비교평가 (CComparative evaluation of the methods of producing planar image results by using Q-Metrix method of SPECT/CT in Lung Perfusion Scan)

  • 하태환;임정진;도용호;조성욱;노경운
    • 핵의학기술
    • /
    • 제22권1호
    • /
    • pp.90-97
    • /
    • 2018
  • 폐 관류 스캔은 방사성 물질의 폐동맥 내 미세색전증을 이용하여 폐색전증의 진단에 이용되고 있으며, 만성 폐쇄성 질환이나 국소 폐 관류평가 및 조기 폐암발견 등에 이용된다. 또한 폐암환자에서의 수술 및 방사선 치료 전, 후 국소 폐 기능 예측을 위하여 이용된다. 이를 위하여 관류의 정확한 정량화가 필요하다. 이에 본 연구에서는 모든 병변 및 장기에 추적자의 흡수율 정량화가 가능한 SPECT/CT의 Q-Metrix (GE Healthcare, USA)프로그램을 활용하여 실제로 많이 이용되고 있는 평면영상의 두 가지 결과 산출 방법에 대한 상관관계 및 각 엽의 차이를 비교 평가하고자 한다. Discovery NM/CT 670 scanner (GE Healthcare, USA)장비에서 2015년 5월 1일부터 2016년 9월 13일까지 수술 전 폐암환자 50명을 대상으로 시행하였다. 환자에 대하여 $^{99m}Tc-MAA$(macro aggregated albumin) 185 MBq (5 mCi)를 정맥 주사하였고 후면 영상(Posterior view)을 기준으로 전면, 우측면, 좌측면, 우후사면, 좌후사면 영상을 획득하였다. 평면 폐 관류검사 직후 SPECT/CT를 시행하였고 영상의 Processing은 GE사 Xeleris 3.1 Workstation에서 시행하였다. 후방사면 방법은 오른 엽과 왼 엽에 사각형의 관심영역을 설정하였고 RPO영상은 3엽, LPO영상은 2엽으로 나누어 각 엽에 대한 흡수율을 얻었다. 전후 방법은 오른 엽, 왼 엽에 각각 3개의 사각형의 ROI를 설정하여 흡수율을 구하였고 왼 엽은 2엽으로 구분되어 Left middle lobe은 Left upper lobe로 포함시켜 결과를 산출하였다. Q-Metrix Method는 CT영상에 직접 관심 영역(Region of interests, ROI)을 설정하였다. 시상면(Sagittal)영상에서 2개의 Slice마다 ROI를 설정하였고 관심부피(Volume of interest, VOI)를 이용하여 체적에 대한 흡수율을 분석하였다. 통계 분석은 SPSS version 23.(SPSS Inc. USA)를 이용하여 분석하였다. Q-Metrix 방법과 후방사면 방법의 흡수율에 대한 일치 상관관계는 Right upper lobe(RUL)는 0.663, Right middle lobe(RML)는 0.623, Right lower lobe(RLL)는 0.702이고 Left upper lobe(LUL)는 0.754, Left lower lobe(LLL)는 0.823로 가장 높은 상관관계를 보였다. 전후 방법은 RML는 0.035로 흡수율이 증가되어 가장 낮은 상관관계를 보였고, RUL는 0.224, RLL는 0.447로 흡수율이 감소되었다. 왼 엽에서 LUL는 0.643, LLL는 0.456로 나타났다. 전체적인 상관관계는 후방사면 방법은 0.795로 높은 상관관계를 보였고, 전후 방법은 0.161로 나타났다. 각 엽의 차이는 Q-Metrix방법 평균${\pm}$표준편차는 RUL, RML, RLL순서대로 각각 $20.12{\pm}6.21$, $10.86{\pm}3.83$, $24.57{\pm}7.80$이고 LUL, LLL는 각각 $24.34{\pm}6.47$, $20.12{\pm}7.11$로 나타났다. 동일한 순서대로 후방사면 방법의 오른 엽은 $17.4{\pm}5.0$, $10.5{\pm}3.6$, $27.3{\pm}6.0$이었고, 왼 엽은 $21.6{\pm}4.8$, $23.1{\pm}6.6$으로 나타났다. 전후 방법에 대한 오른 엽의 평균${\pm}$표준편차는 $11.6{\pm}4.5$, $26.9{\pm}6.2$, $17.8{\pm}4.2$이고, 왼엽은 $28.4{\pm}4.8$, $15.4{\pm}5.6$로 나타났다. 본 논문에서 Q-Metrix방법에 대한 평면영상의 두 가지 방법 간에는 차이가 있는 것으로 보였다. 전후 방법의 RML는 과대평가 되었으며 RML, RLL는 상대적으로 과소평가 되었고, 모든 엽에서는 통계적으로 유의한 차이가 있었다(P<0.05). 후방사면 방법은 전후 방법보다 4배정도의 높은 상관관계를 보였고, oblique영상을 활용하여 흡수율이 과대, 과소평가가 되는 것을 줄일 수 있었다. SPECT/CT검사를 시행하지 않거나 planar image 획득 시 후방사면 방법을 이용하면 보다 실용적인 결과 값을 기대할 수 있을 것으로 생각된다. 또한 많은 환자에 대한 데이터 분석과 호흡에 대한 보정, 객관적인 방법으로 관심영역을 설정한다면 보다 정확한 결과를 산출할 수 있을 것이라 사료된다.

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.