4차 산업혁명 기술의 발전으로 사람이 처리하지 못하는 부분을 기계학습 등 인공지능 기법을 활용하여 개선해 보려는 노력이 확대되고 있다. 주문형 생산 기업에서도 주문에 대한 총생산시간을 예측하여 납기 지연 등의 기업 리스크를 줄이고자 하나 주문마다 총생산시간이 모두 달라 이를 예측하는데, 어려움을 겪고 있다. 주문 처리량 증대, 주문 총비용 절감을 위해 효율성이 가장 낮은 영역을 찾아 그 영역을 강화하는 TOC(Theory of constraints) 이론이 개발되었으나 총생산시간 예측은 제시하지 못하였다. 주문생산은 고객의 다양한 요구로 인해 주문마다 그 특성이 모두 다르므로 개별적인 주문의 총생산시간을 사후에 측정할 수는 있으나 사전 예측을 하기는 어렵다. 기존 주문의 이미 측정된 총생산시간도 모두 달라 표준 시간으로 활용할 수 없는 한계성이 있다. 이에 따라 경험이 많은 관리자는 시스템의 이용보다는 감에 의존하고 있고, 경험이 부족한 관리자는 간단한 관리지표(예, 원재료가 파이프이면 총생산시간 60일, 철판이면 총생산시간 90일 등)를 사용하고 있다. 불완전한 감이나 지표를 기초로 하여 작업 지시를 너무 빨리하면 정체가 발생하여 생산성이 저하되고, 너무 늦게 하면 긴급 처리로 인해 생산비용이 증가하거나 납기를 지키지 못하는 경우가 발생한다. 납기를 지키지 못하면 지체상금을 배상해야 하거나 영업, 수금 등의 부문에 악영향을 미친다. 본 연구에서는 이러한 문제를 해결하기 위하여 주문생산시스템을 운영하는 기업의 신규 주문 총생산시간을 추정하는 기계학습 모델을 찾고자 한다. 기계학습에 활용된 자료는 수주, 생산, 공정 실적을 사용한다. 그리고 총생산시간의 추정에 가장 적합한 알고리즘으로 OLS, GLM Gamma, Extra Trees, Random Forest 알고리즘 등을 비교 분석하고 그 결과를 제시하고자 한다.
탁도는 부유물질에 의한 빛의 산란 또는 흡수로 인한 수체의 흐림을 나타내는 수치로 수질 관리 분야에서 중요 지표로 활용되고 있다. 탁도는 소규모의 하천에서 변동성이 심할 수 있으며, 이는 국가하천의 수질에 직접적으로 영향을 준다. 따라서 고해상도의 탁도 공간정보 산출은 매우 중요하다. 이 연구에서는 Korea Multi-Purpose Satellite-3 및 -3A (KOMPSAT-3/3A) 영상으로부터 한강 수계 하천의 고해상도 탁도 매핑을 위한 eXtreme Gradient Boosting (XGBoost) 알고리즘 기반의 탁도 산출 모델을 개발하였다. 이를 위해 총 24장의 KOMPSAT-3/3A 영상과 150장의 Landsat-8 영상으로부터 계산된 대기 상단(Top Of Atmosphere, TOA) 반사율을 활용하였으며, Landsat-8 TOA 반사율은 KOMPSAT-3/3A의 관측 파장 대역에 적합하도록 교차검보정을 수행하였다. 국가수질자동관측망에서 측정된 탁도를 탁도 산출 모델의 참조자료로 사용하였고, 입력 변수로는 탁도가 실측된 위치에서의 TOA 분광반사율과 탁도 분석에 널리 이용되어 온 분광지수인 정규식생지수, 정규수분지수, 정규탁도지수, 그리고 Moderate Resolution Imaging Spectroradiometer (MODIS)의 대기 산출물(에어로졸 광학 두께, 수증기량, 오존)을 사용하였다. 또한 고탁도와 저탁도에 대한 KOMPSAT-3/3A TOA 분광반사율을 분석하여 탁도를 설명할 수 있는 새로운 정규탁도지수(new normalized difference turbidity index, nNDTI)를 제안하였고, 이를 탁도 산출 모델에 입력 변수로 추가하였다. XGBoost 기반 탁도 산출 모델은 현장관측 탁도와 비교하여 2.70 NTU의 평균 제곱근 오차(root mean square error, RMSE) 및 14.70%의 정규화된 RMSE(normalized RMSE)를 가지는 탁도를 예측하여 우수한 성능을 보였으며, 이 연구에서 새롭게 제안한 nNDTI가 탁도 산출에 있어 가장 중요한 변수로 사용되었다. 개발된 탁도 산출 모델을 KOMPSAT-3/3A 영상에 적용하여 하천 탁도를 고해상도로 매핑하였으며, 탁도의 시공간적 변동에 대한 분석이 가능하였다. 이 연구를 통하여 고해상도의 정확한 탁도 공간정보 산출에 KOMPSAT-3/3A 영상이 매우 유용함을 확인할 수 있었다.
최근 다양한 분야에서 새로운 기술이 출현하고 있으며, 이들 대부분은 기존 기술들의 융합(Convergence)을 통해 형성되고 있다. 또한 가까운 미래에 출현하게 될 유망한 융합 기술을 예측함으로써 변화하는 기술 지형에 선제적으로 대응하기 위한 수요가 꾸준히 증가하고 있으며, 이러한 수요에 부응하여 많은 기관과 연구자들은 미래 유망 융합 기술 예측을 위한 분석을 수행하고 있다. 하지만 이와 관련한 기존의 많은 연구들은 (i) 고정된 기술 분류 기준을 분석에 사용함으로써 기술 분야의 동적 변화를 반영하지 못했다는 점, (ii) 예측 모형 수립 과정에서 주로 범용성 네트워크 지표를 사용함으로써 기술의 융합이라는 목적에 부합하는 고유 특성을 활용하지 못했다는 점, 그리고 (iii) 유망 분야 예측 모형의 정확성 평가를 위한 객관적 방법을 제시하지 못했다는 점 등에서 한계를 갖고 있다. 이에 본 연구에서는 (i) 토픽 모델링을 통해 기존의 고정된 분류 기준이 아닌 실제 기술시장의 동적 변화에 따른 새로운 기술군을 도출하고, (ii) 기술 성숙도 및 기술군 간 의존 관계에 따라 각 기술군의 융합적 특성을 반영하는 잠재 성장 중심성(Potential Growth Centrality) 지표를 산출하였으며, (iii) 잠재 성장 중심성에 근거하여 예측한 유망 기술의 성숙도 증가량을 시기별로 측정하여 예측 모형의 정확도를 평가하는 방안을 제시한다. 이와 더불어 제안 방법론의 성능 및 실무 적용 가능성의 평가를 위해 특허 문서 13, 477건에 대한 실험을 수행하였으며, 실험 결과 제안한 잠재 성장 중심성에 따른 예측 모형이 단순히 현재 활용되는 영향도 기반의 예측 모형에 비해 최대 약 2.88배 높은 예측 정확도를 보임을 확인하였다.
기술경쟁이 심화되고 있는 오늘날 신기술에 대한 선도적 위치의 선점이 중요하다. 선도적 위치의 선점과 적정시점에 기술 획득·관리를 위해 이해관계자들은 지속적으로 기술에 대한 탐색활동을 수행한다. 이를 위한 참고 자료로서 가트너 하이프 사이클(Gartner Hype Cycle)은 중요한 의미가 있다. 하이프 사이클은 기술수명주기(S-curve)와 하이프 수준(Hype Level)을 결합하여 새로운 기술에 대한 대중의 기대감을 시간의 흐름에 따라 나타낸 그래프이다. 새로운 기술에 대한 기대는 기술사업화뿐만 아니라 연구개발 투자의 정당성, 투자유치를 위한 기회의 발판이 된다는 점에서 연구개발 담당자 및 기술투자자의 관심이 높다. 그러나 산업계의 높은 관심에 비해 실증분석을 시도한 선행연구는 다양하지 못하다. 선행문헌 분석결과 데이터 종류(뉴스, 논문, 주가지수, 검색 트래픽 등)나 분석방법은 한정적이었다. 이에 본 연구에서는 확산의 주요한 채널이 되어가고 있는 소셜네트워크서비스의 데이터를 활용하여 'Gartner Hype Cycle for Artificial Intelligence, 2021'의 단계별 기술들에 대한 집단구조(커뮤니티)의 특성과 커뮤니티 간 정보 확산패턴을 분석하고자 한다. 이를 위해 컴포넌트 응집규모(Component Cohesion Size)를 통해 각 단계별 구조적 특성과 연결중심화(Degree Centralization)와 밀도(Density)를 통해 확산의 방식을 확인하였다. 연구결과 기술을 수용하는 단계별 집단들의 커뮤니케이션 활동이 시간이 지날 수록 분절이 커지며 밀도 역시 감소함을 확인하였다. 또한 새로운 기술에 대한 관심을 촉발하는 혁신태동기 집단의 경우 정보확산을 촉발하는 외향연결(Out-degree) 중심화 지수가 높았으며, 이후의 단계는 정보를 수용하는 내향연결(In-degree) 중심화 지수가 높은 것으로 나타났다. 해당 연구를 통해 하이프 사이클에 관한 이론적 기초를 제공할 것이다. 또한 인공지능기술에 대한 기술관심집단들의 기대감을 반영한 정보확산의 특성과 패턴을 소셜데이터를 통해 분석함으로써 기업의 기술투자 의사결정에 새로운 시각을 제공할 것이다.
최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.
국내 소프트웨어(SW) 개발인력의 미충원율은 매우 높으며, 특히 2년 이상의 현장경력이 있는 고급 개발자의 부족문제는 심각하다. 최근 정부도 이를 인식하고, 정책적으로 SW개발 신규인력 양성에 힘을 기울이고 있다. 그러나, 이러한 노력은 초급개발자의 수급문제를 해결하는데 효과적일 수 있지만, 업계에서 요구하는 고급 개발자의 부족현상을 해결하는 근본적인 대책으로 인식되지는 못하고 있다. SW 전문개발자를 양성하기 위해서는 초급개발자들이 지속적으로 직무를 수행하여 풍부한 업무경험을 갖춘 고급 개발자로 성장해야 하기 때문이다. 이에, 본 연구는 국내 SW업체에서 근무하고 있는 개발관련 인력들의 업무 지속수행 의도를 조사하고, 이에 영향을 주는 주요요인들을 분석하였다. 이를 위해, 2014년 9월부터 10월까지 국내 SW업체에 근무하고 있는 현직 개발자 총 130명을 대상으로 설문조사를 수행하였으며, 이를 기반으로 SW개발업무 지속수행의도 및 이에 영향을 주는 요인들을 개발자의 특성, 직무환경, 그리고 SW개발자에 대한 사회적 인식 및 산업전망 등의 측면에서 분석하였다. 분석에는 데이터마이닝 기법들 중에서, 분석과정에서의 설명능력이 있는 회귀분석과 의사결정나무가 사용되었다. 회귀분석 결과, SW개발자가 스스로 인식하는 근무 가능한 연령이 높을수록, 내성적인 성향을 가질수록, 또한 적성에 맞아서 직무를 선택한 경우, 지속적 직무 수행 의도가 높은 것으로 나타났다. 이와 더불어, 선형회귀분석에서는 유의하지 않았으나, 규칙기반의 의사결정나무 분석에서 파악된 추가적 요인으로, 새로운 기술에 대한 학습능력 및 SW산업에 대한 전망이 직무 지속수행의도에 영향을 미치는 것으로 나타났다. 이러한 연구결과는 기업의 인적자원관리 및 고급 SW인력 양성정책에 활용될 수 있을 것으로 생각되며, 궁극적으로 SW개발인력의 직무 지속성을 증진시키는 데 기여할 수 있을 것으로 기대된다.
최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.
최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.
국내 NPL (Non performing loan) 시장은 1998년에 형성되었지만, 본격적으로 활성화 된 시기는 2009년으로 역사가 짧은 시장이다. 이로 인해 NPL 시장에 대한 연구도 아직까지는 활발히 진행되지 않고 있는 상황이다. 본 연구는 NPL 시장의 각 물건 별 기준 수익률 달성 유무를 예측할 수 있는 모델을 제안한다. 모델 구축에 사용되는 종속변수는 물건 별 최종 수익률이 기준 수익률 수치 도달 여부를 나타내는 이항변수를 사용하였고, 독립변수로는 물건의 특성을 나타내는 11개의 변수를 대상으로 one to one t-test와 logistic regression stepwise, decision tree를 수행하여 의미있는 7개의 독립변수를 선별하였다. 그리고 통상적으로 사용되는 기준 수익률 수치(12%)가 의미있는 기준 수치인지 확인하기 위해 수치 값을 조절해가며 종속변수를 산출하여 예측모델을 구축해보았다. 그 결과 12%의 기준 수익률 수치로 산출한 종속변수를 이용하여 구축한 예측모델의 평균 Hit ratio가 64.60%로 가장 우수하다는 결과를 얻었다. 다음으로 선별된 7개의 독립변수들과 12%를 기준으로한 수익률 달성유무 종속변수를 이용하여 판별분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망, 유전자알고리즘 선형 모델의 5가지 방법론을 적용해 예측모델을 구축해보았다. 5가지 방법론으로 도출한 예측 모델 간 Hit ratio를 비교한 결과 인공신경망을 이용하여 구축한 예측모델의 Hit ratio가 67.4%로 가장 우수한 결과를 도출해내었다. 본 연구를 통해 추후 NPL시장 신규 물건 매매에 있어서 7가지의 독립변수들과 인공신경망 예측 모델을 활용하는 것이 효과적임을 증명하였다. 물건의 12% 수익률 달성 여부를 사전에 예측해봄으로써 유동화회사가 투자 의사결정을 하는 데에 도움을 줄 것으로 예상하며, 나아가 NPL 시장의 거래가 적정한 가격 선에서 진행됨으로 인해 유동성이 더욱 높아질 것이라 기대한다.
2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.