• 제목/요약/키워드: Two Systems

검색결과 18,438건 처리시간 0.05초

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

초대배양된 토끼 신장 근위세뇨관세포의 성장과 기능분화에 대한 insulin과 IGF의 효과 - Na+ uptake에 대한 IGF-I의 효과 - (Effects of insulin and IGF on growth and functional differentiation in primary cultured rabbit kidney proximal tubule cells - Effects of IGF-I on Na+ uptake -)

  • 한호재;박권무;이장헌;양일석
    • 대한수의학회지
    • /
    • 제36권4호
    • /
    • pp.783-794
    • /
    • 1996
  • 이온운반계는 생체의 각기 다른 세포의 성장을 조절하는 성장조절인자들의 효과를 매개하는데 깊은 관련이 있는 것으로 보고되고 있다. 신장 근위세뇨관에서 솔변 연 $Na^+/H^+$ 상호운반계는 사구체에서 여과된 나트륨의 재흡수와 수소이온의 분비를 조절하는 중요한 기능을 수행한다. 이 연구는 초대배양된 신장 근위세뇨관세포의 나트륨 운반을 Insulin-like Growth Factor-I(IGF-I)이 어떤 경로를 통하여 조절하는지를 알아보고자 실시하였다. 결과는 아래와 같다. 1. 초대배양된 신장 근위세뇨관세포에서 $Na^+$ uptake는 시간의존적으로 증가되었으며, 30분동안 $Na^+$ uptake를 실시한 결과 세포외 NaCl 농도의존적으로 $Na^+$ uptake를 유의성있게 감소시켰다(대조군; $40.11{\pm}1.76$, 140mM군; $17.82{\pm}0.94pmole\;Na^+/mg\;protein/min$). 2. $Na^+$ uptake는 iodoacetic acid(IAA, $1{\times}10^{-4}M$) 또는 valinomycin($5{\times}10^{-6}M$)처리시 대조군에 비해 각각 $50.51{\pm}4.4%$$57.65{\pm}2.27%$ 억제되었으며, ouabain($5{\times}10^{-5}M$)을 처리한 경우는 $140.23{\pm}3.37%$ 증가되었다. IGF-I($1{\times}10^{-5}M$)으로 배양한 세포를 actinomycin D($1{\times}10^{-7}M$)와 cycloheximide($4{\times}10^{-5}M$)로 처리시 $Na^+$ uptake는 대조군에 비해 각각 $90.21{\pm}2.39%$$89.64{\pm}3.69%$로 감소되었다. 3. IGF-I으로 배양한 세포에서 세포외 cAMP는 농도의존적($10^{-8}-10^{-4}M$)으로 $Na^+$ uptake를 유의성있게 감소시켰고, 3-isobutyl-1-methyl-xanthine(IBMX, $5{\times}10^{-5}M$)도 억제시켰다. Pertussis toxin(PTX, 50pg/ml)이나 cholera toxin(CTX, $1{\mu}g/ml$)의 처리시에도 $Na^+$ uptake는 억제되었다. 세포외 phorbol 12-myristate 13 acetate(PMA) 또한 농도의존적(1-100ng/ml)으로 $Na^+$ uptake를 감소시켰다. 그러나 staurosporine($1{\times}10^{-7}M$)은 $Na^+$ uptake에 영향을 미치지 않았으며 PMA와 stauiosporine을 동시에 처리했을 때도 $Na^+$ uptake는 억제되지 않았다. 결론적으로 초대배양된 토끼 신장 근위세뇨관세포에서 $Na^+$ uptake는 막전위와 세포내 에너지 의존적이며 IGF-I은 부분적으로 단백질 및 RNA 합성을 통해서 그리고 세포내 cAMP나 PKC 경로를 통해서 $Na^+$ uptake를 조절하는 것으로 생각된다.

  • PDF

생리적 반응이 다른 비료 종류가 '설향' 딸기의 영양생장에 미치는 영향 (Influence of Fertilizer Type on Physiological Responses during Vegetative Growth in 'Seolhyang' Strawberry)

  • 이희수;장현호;최종명;김대영
    • 원예과학기술지
    • /
    • 제33권1호
    • /
    • pp.39-46
    • /
    • 2015
  • '설향' 딸기를 재배하는 동안 비료의 종류와 농도를 변화시켜 시비하고 작물 생장과 양분 흡수량 변화에 미치는 영향을 구명하여 시비를 위한 기초자료를 확보하고자 본 연구를 수행하였다. 증류수를 원수로 산성, 중성 및 알칼리성 비료를 조제한 후 N 농도를 기준으로 $100mg{\cdot}L^{-1}$$200mg{\cdot}L^{-1}$로 그리고 처리용액의 pH를 약 6.0-6.3으로 조절하여 100일간 시비하였다. 동일한 시비농도에서 시비 100일 후 '설향' 딸기의 생체중 및 건물중은 산성비료를 시비한 처리가 가장 가벼웠고 알칼리비료 처리가 무거웠다. 또한 알칼리비료의 $100mg{\cdot}L^{-1}$보다 $200mg{\cdot}L^{-1}$로 시비한 처리의 생체중과 건물중이 더 무거웠다. 식물체 무기원소 함량을 분석한 결과 N, P 및 Na은 중성비료 $200mg{\cdot}L^{-1}$ 처리에서 각각 3.08, 0.54 및 0.10%로, K은 산성비료 $200mg{\cdot}L^{-1}$ 처리에서 2.83%로, Ca과 Mg은 알칼리비료 $100mg{\cdot}L^{-1}$ 처리에서 0.98 및 0.42%로 다른 처리들보다 유의하게 식물체 내 함량이 높았다. Fe, Mn, Zn 및 Cu 함량은 산성비료를 시비한 처리에서 높았고, 알칼리비료를 시비한 처리에서 뚜렷하게 낮았다. 근권부 pH는 산성비료 $100mg{\cdot}L^{-1}$$200mg{\cdot}L^{-1}$, 그리고 중성비료 $200mg{\cdot}L^{-1}$으로 시비한 처리에서 지속적으로 낮아졌다. 근권부 무기원소 농도는 산성비료 $200mg{\cdot}L^{-1}$, 중성비료 $200mg{\cdot}L^{-1}$, 그리고 산성비료를 $100mg{\cdot}L^{-1}$으로 시비한 처리 순으로 $NH_4$ 농도가 낮아졌다. 근권부 K 농도는 시비 42일 후부터 모든 처리에서 지속적으로 상승하였으며, Ca 및 Mg 농도는 시비 84일 후 까지는 알칼리비료를 시비한 처리의 농도가 가장 낮고 중성 비료 및 산성 비료 순으로 높아지는 경향이었다. $NO_3$는 산성비료에서 낮았고, 중성 및 알칼리비료의 순으로 높아졌다. 세 종류 비료를 동일한 농도로 시비한 경우 $PO_4$ 농도가 유사한 경향을 보이며 변화하였고, $SO_4$은 시비 70일 후까지 산성 비료가 중성이나 알칼리성 비료를 시비한 처리들보다 높았다. 이상의 연구결과는 '설향' 딸기 재배에서 알칼리성 비료를 시비해야 함을 의미하며, 알칼리 원소의 농도가 상승하도록 관비용액의 조성을 변화시켜야 한다고 판단하였다.

효율적 자원 탐색을 위한 소셜 웹 태그들을 이용한 동적 가상 온톨로지 생성 연구 (Dynamic Virtual Ontology using Tags with Semantic Relationship on Social-web to Support Effective Search)

  • 이현정;손미애
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.19-33
    • /
    • 2013
  • 본 논문에서는 네트워크 기반 대용량의 자원들을 효율적으로 검색하기 위해 사용자의 요구사항에 기반해 검색에 요구되는 태그들 간의 의미론에 기반한 동적 가상 온톨로지(Dynamic Virtual Ontology using Tags: DyVOT)를 추출하고 이를 이용한 동적 검색 방법론을 제안한다. 태그는 소셜 네트워크 서비스를 지원하거나 이로부터 생성되는 정형 및 비정형의 다양한 자원들에 대한 자원을 대표하는 특성을 포함하는 메타적 정보들로 구성된다. 따라서 본 연구에서는 이러한 태그들을 이용해 자원의 관계를 정의하고 이를 검색 등에 활용하고자 한다. 관계 등의 정의를 위해 태그들의 속성을 정의하는 것이 요구되며, 이를 위해 태그에 연결된 자원들을 이용하였다. 즉, 태그가 어떠한 자원들을 대표하고 있는 지를 추출하여 태그의 성격을 정의하고자 하였고, 태그를 포함하는 자원들이 무엇인지에 의해 태그간의 의미론적인 관계의 설정도 가능하다고 보았다. 즉, 본 연구에서 제안하는 검색 등의 활용을 목적으로 하는 DyVOT는 태그에 연결된 자원에 근거해 태그들 간의 의미론적 관계를 추출하고 이에 기반 하여 가상 동적 온톨로지를 추출한다. 생성된 DyVOT는 대용량의 데이터 처리를 위해 대표적인 예로 검색에 활용될 수 있으며, 태그들 간의 의미적 관계에 기반해 검색 자원의 뷰를 효과적으로 좁혀나가 효율적으로 자원을 탐색하는 것을 가능하도록 한다. 이를 위해 태그들 간의 상하 계층관계가 이미 정의된 시맨틱 태그 클라우드인 정적 온톨로지를 이용한다. 이에 더해, 태그들 간의 연관관계를 정의하고 이에 동적으로 온톨로지를 정의하여 자원 검색을 위한 동적 가상 온톨로지 DyVOT를 생성한다. DyVOT 생성은 먼저 정적온톨로지로부터 사용자 요구사항을 포함하는 태그를 포함한 부분-온톨로지들을 추출하고, 이들이 공유하는 자원의 정도에 따라 부분-온톨로지들 간의 새로운 연관관계 여부를 결정하여 검색에 요구되는 최소한의 동적 가상 온톨로지를 구축한다. 즉, 태그들이 공유하는 자원이 무엇인가에 의해 연관관계가 높은 태그들 간에는 이들의 관계를 설명하는 새로운 클래스를 가진 생성된 동적 가상 온톨로지를 이용하여 검색에 활용한다. 온톨로지의 인스턴스는 자원으로 정의되고, 즉 이는 사용자가 검색하고자 하는 해로서 정의된다. 태그들 간의 관계에 의해 생성된 DyVOT를 이용해 기존 정적 온톨로지나 키워드 기반 탐색에 비해 검색해야 할 자원의 량을 줄여 검색의 정확성과 신속성을 향상 시킨다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

CNN 보조 손실을 이용한 차원 기반 감성 분석 (Target-Aspect-Sentiment Joint Detection with CNN Auxiliary Loss for Aspect-Based Sentiment Analysis)

  • 전민진;황지원;김종우
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.1-22
    • /
    • 2021
  • 텍스트를 바탕으로 한 차원 기반 감성 분석(Aspect-Based Sentiment Analysis)은 다양한 산업에서 유용성을 주목을 받고 있다. 기존의 차원 기반 감성 분석에서는 타깃(Target) 혹은 차원(Aspect)만을 고려하여 감성을 분석하는 연구가 대다수였다. 그러나 동일한 타깃 혹은 차원이더라도 감성이 나뉘는 경우, 또는 타깃이 없지만 감성은 존재하는 경우 분석 결과가 정확하지 않다는 한계가 존재한다. 이러한 문제를 해결하기 위한 방법으로 차원과 타깃을 모두 고려한 감성 분석(Target-Aspect-Sentiment Detection, 이하 TASD) 모델이 제안되었다. 그럼에도 불구하고, TASD 기존 모델의 경우 구(Phrase) 간의 관계인 지역적인 문맥을 잘 포착하지 못하고 초기 학습 속도가 느리다는 문제가 있었다. 본 연구는 TASD 분야 내 기존 모델의 한계를 보완하여 분석 성능을 높이고자 하였다. 이러한 연구 목적을 달성하기 위해 기존 모델에 합성곱(Convolution Neural Network) 계층을 더하여 차원-감성 분류 시 보조 손실(Auxiliary loss)을 추가로 사용하였다. 즉, 학습 시에는 합성곱 계층을 통해 지역적인 문맥을 좀 더 잘 포착하도록 하였으며, 학습 후에는 기존 방식대로 차원-감성 분석을 하도록 모델을 설계하였다. 본 모델의 성능을 평가하기 위해 공개 데이터 집합인 SemEval-2015, SemEval-2016을 사용하였으며, 기존 모델 대비 F1 점수가 최대 55% 증가했다. 특히 기존 모델보다 배치(Batch), 에폭(Epoch)이 적을 때 효과적으로 학습한다는 것을 확인할 수 있었다. 본 연구에서 제시된 모델로 더욱 더 세밀한 차원 기반 감성 분석이 가능하다는 점에서, 기업에서 상품 개발 및 마케팅 전략 수립 등에 다양하게 활용할 수 있으며 소비자의 효율적인 구매 의사결정을 도와줄 수 있을 것으로 보인다.

쿤밍-몬트리올 글로벌 생물다양성 보전목표 성취를 위한 우리나라 OECM 발굴방향 연구 - 개념 고찰 및 전문가 인식을 중심으로 - (A Study on the Identifying OECMs in Korea for Achieving the Kunming-Montreal Global Biodiversity Framework - Focusing on the Concept and Experts' Perception -)

  • 허학영;박선주
    • 한국환경생태학회지
    • /
    • 제37권4호
    • /
    • pp.302-314
    • /
    • 2023
  • 본 연구에서는 생물다양성협약(CBD) 글로벌 보전목표(K-M GBF)의 핵심이라고 할 수 있는 실천목표 3(30by30)에 대한 우리나라의 효과적 대응 방향을 모색하기 위한 것으로, OECM에 대한 글로벌 개념 고찰 및 전문가 인식조사를 통해 국가 차원의 체계적인 OECM 발굴방향을 모색하고자 하였다. 글로벌 표준을 준수하되 한국적 맥락을 반영한 국가 차원의 체계적인 OECM 발굴방향을 모색을 위해 본 연구에서는 ①OECM 관련 한국적 용어 사용, ②글로벌 표준을 반영한 결정인자(criteria) 도출, ③우리나라 잠재 OECM 후보 유형 도출, ④OECM 발굴‧보고 시 고려사항 등을 검토하였다. 먼저 OECM의 단순 번역어 사용이 아닌 이의 개념을 잘 반영한 '한국적 용어' 사용에 대한 공감대 형성이 있었으며, 가장 선호되는 용어이자 '자연과 조화로운 삶'이라는 생물다양성협약(CBD) 2050 비전과도 그 맥락을 같이하는 '자연공존지역(12명)'이 타당한 것으로 나타났다. 글로벌 표준을 반영한 주요 결정인자로는, 1단계 선별과정에서 OECM 핵심 특성을 반영한 4개 결정인자(1. 보호지역 여부, 2. 지리적 경계, 3. 거버넌스‧관리, 4. 생물다양성 가치)를 활용하고, 개별지역 심층진단을 수행하기 전에 관리‧관할기관 등과의 공감대형성(2단계) 과정을 거친 후 3단계(발굴‧보고단계)에서 2가지 결정인자(3-1 거버넌스와 관리의 효과성과 지속성, 4-1의 생물다양성 가치의 장기적 보전성과)를 추가하여 심층 진단을 수행하는 방향을 제시하였다. 본 연구에서 살펴본 28개 유형은 대체적으로 OECM 부합성이 높은 것으로 나타났으며(4.45~6.21점/7점, 평균 5.24점), 특히 자연환경국민신탁의 보전재산(6.21점) 및 보전협약지(6.07점)가 OECM 개념에 가장 잘 부합할 것으로 나타났다. 이어 세계자연유산 완충구역(5.77점), 사찰림(5.73점), 개발제한구역(5.63점), 비무장지대(5.60점), 생물권보전지역 완충구역(5.50점) 등이 잠재성이 높은 것으로 나타났다. 절대보전무인도서의 경우 보호지역에 부합한다는 응답(5.83/7점)이 OECM 부합성(5.52/7점) 보다 더 높게 나타나, 향후 절대보전무인도는 그 주변해역(1km)과 더불어 한국보호지역데이터베이스(KDPA)에 등재를 추진하는 것이 바람직할 것으로 판단된다. OECM 관련 글로벌 표준 검토 및 전문가 인식조사 결과를 토대로, 한국적 맥락의 OECM 발굴시 고려사항으로 10가지를 제시하였다. 향후 이러한 고려사항을 참고하여 단계적인 발굴사업을 통해 OECM을 목록화하고 기존 보호지역과의 연계를 통한 국가 차원의 현지-내 보전체계 정립을 위한 지속적인 연구가 필요할 것으로 판단된다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

인공지능 기술에 관한 가트너 하이프사이클의 네트워크 집단구조 특성 및 확산패턴에 관한 연구 (Structural features and Diffusion Patterns of Gartner Hype Cycle for Artificial Intelligence using Social Network analysis)

  • 신선아;강주영
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.107-129
    • /
    • 2022
  • 기술경쟁이 심화되고 있는 오늘날 신기술에 대한 선도적 위치의 선점이 중요하다. 선도적 위치의 선점과 적정시점에 기술 획득·관리를 위해 이해관계자들은 지속적으로 기술에 대한 탐색활동을 수행한다. 이를 위한 참고 자료로서 가트너 하이프 사이클(Gartner Hype Cycle)은 중요한 의미가 있다. 하이프 사이클은 기술수명주기(S-curve)와 하이프 수준(Hype Level)을 결합하여 새로운 기술에 대한 대중의 기대감을 시간의 흐름에 따라 나타낸 그래프이다. 새로운 기술에 대한 기대는 기술사업화뿐만 아니라 연구개발 투자의 정당성, 투자유치를 위한 기회의 발판이 된다는 점에서 연구개발 담당자 및 기술투자자의 관심이 높다. 그러나 산업계의 높은 관심에 비해 실증분석을 시도한 선행연구는 다양하지 못하다. 선행문헌 분석결과 데이터 종류(뉴스, 논문, 주가지수, 검색 트래픽 등)나 분석방법은 한정적이었다. 이에 본 연구에서는 확산의 주요한 채널이 되어가고 있는 소셜네트워크서비스의 데이터를 활용하여 'Gartner Hype Cycle for Artificial Intelligence, 2021'의 단계별 기술들에 대한 집단구조(커뮤니티)의 특성과 커뮤니티 간 정보 확산패턴을 분석하고자 한다. 이를 위해 컴포넌트 응집규모(Component Cohesion Size)를 통해 각 단계별 구조적 특성과 연결중심화(Degree Centralization)와 밀도(Density)를 통해 확산의 방식을 확인하였다. 연구결과 기술을 수용하는 단계별 집단들의 커뮤니케이션 활동이 시간이 지날 수록 분절이 커지며 밀도 역시 감소함을 확인하였다. 또한 새로운 기술에 대한 관심을 촉발하는 혁신태동기 집단의 경우 정보확산을 촉발하는 외향연결(Out-degree) 중심화 지수가 높았으며, 이후의 단계는 정보를 수용하는 내향연결(In-degree) 중심화 지수가 높은 것으로 나타났다. 해당 연구를 통해 하이프 사이클에 관한 이론적 기초를 제공할 것이다. 또한 인공지능기술에 대한 기술관심집단들의 기대감을 반영한 정보확산의 특성과 패턴을 소셜데이터를 통해 분석함으로써 기업의 기술투자 의사결정에 새로운 시각을 제공할 것이다.