• 제목/요약/키워드: analysis of algorithms

검색결과 3,535건 처리시간 0.036초

범죄 및 피해자 특성과 범죄피해 내용의 관계 탐색: 랜덤포레스트 알고리즘에 기초한 변인선택 (An exploration of the relationship between crime/victim characteristics and the victim's criminal damages: Variable selection based on random forest algorithm)

  • 한유화;이우열
    • 한국심리학회지:법
    • /
    • 제13권2호
    • /
    • pp.121-145
    • /
    • 2022
  • 본 연구는 범죄 및 피해자 특성과 범죄피해 내용의 관련성을 확인하기 위하여 2010년부터 2018년까지 격년으로 수집된 전국범죄피해조사 자료에 랜덤포레스트 알고리즘을 적용하였다. 전체 자료 중 범죄피해경험이 있는 사례 및 관심 변인을 선별하여 분석자료를 구성하였으며, 총 3080건 자료의 성별, 연령(생애주기단계), 범죄유형, 가해자 면식여부, 반복피해 여부, 심리적 피해내용(우울함, 고립감, 극심한 두려움, 신체증상, 대인관계 문제, 사람을 피해 이사, 자살 충동, 자살 시도) 및 범죄피해 후 감정변화(자기보호 자신감, 자존감, 타인에 대한 신뢰감, 사법기관에 대한 신뢰감 및 사법제도와 법에 대한 존중감의 변화)를 나타내는 변인들이 분석자료에 포함되었다. 전통적 통계기법을 적용하기 어려운 자료의 특성을 고려하여, 본 연구는 범죄피해 내용(심리적 피해내용과 감정변화)을 이용하여 범죄 및 피해자 특성을 예측하기 위한 랜덤포레스트 알고리즘을 다섯 번 실행하고, VSURF 함수를 이용하여 범죄 및 피해자 특성을 잘 예측하는 범죄피해 내용 변인들을 선택하였다. 분석 결과, 범죄유형과 우울함, 극심한 두려움 및 신체증상의 관련성, 가해자 면식여부와 신체증상 및 대인관계 문제의 관련성, 반복피해 여부와 사법제도와 법에 대한 존중감 변화의 관련성이 확인되었다. 성별과 생애주기단계(청소년/성인/노인)는 각각 극심한 두려움과 자기보호 자신감 변화와 관련이 있는 것으로 확인되었으나 의미를 부여하기 위해서는 추가적 경험자료가 필요할 것으로 판단되었다. 본 연구의 결과는 범죄피해평가제도의 실효성을 높이기 위해 전문가 교육과정에 범죄 및 피해자 특성과 범죄피해 내용에 관한 지식과 사례교육의 제공 및 면담전략과 법률지식에 관한 교육강화가 필요함을 시사한다.

인공신경망을 이용한 N치 예측 (A Prediction of N-value Using Artificial Neural Network)

  • 김광명;박형준;구태훈;김형찬
    • 지질공학
    • /
    • 제30권4호
    • /
    • pp.457-468
    • /
    • 2020
  • 플랜트, 토목 및 건축 사업에서 말뚝(Pile) 설계 시 어려움을 겪는 주된 요인은 지반 특성의 불확실성이다. 특히 표준관입시험(Standard Penetration Test, SPT)을 통해 측정되는 N치를 얻는 것이 가장 중요한 자료이나 광범위한 모든 지역에서 구하는 것은 어려운 현실이다. 짧은 해외사업 입찰기간 내에 시추조사를 할 경우 인허가, 시간, 비용, 장비접근, 민원 등 많은 제약요건이 존재하여 전체적인 시추조사가 어렵다. 미시추 지점에서 지반 특성은 엔지니어의 경험적 판단에 의존하여 파악되고 있고, 이는 말뚝의 설계 및 물량산출 오류로 이어져서, 공기 지연 및 원가 증가의 원인이 되고 있다. 이를 극복하기 위해서, 한정된 최소한의 지반 실측 자료를 활용하여 미시추 지점에서도 N치를 예측 할 수 있는 기술이 요구되며, 본 연구에서는 AI기법 중 하나인 인공신경망을 적용하여 N치를 예측하는 연구를 수행하였다. 인공신경망은 제한된 양의 지반정보와 생물학적인 로직화 과정을 통하여 입력변수에 대한 보다 신뢰성 있는 결과를 제공하여 준다. 본 연구에서는 최소한의 시추자료의 지반정보를 입력항목으로 하여 다층퍼셉트론과 오류역전파 알고리즘에 의하여 학습된 패턴을 가지고 미시추 지점에서 N치를 예측하는데 그 목적을 두고 있다. 이를 위하여 2개 현장(필리핀, 인도네시아)에 AI기법 적용시 실측값과 예측값에 대한 적정성을 검토하였고, 그 결과 예측값에 대한 신뢰도가 높은 것으로 연구 검토되었다.

의사결정나무 CART 알고리즘을 이용한 청소년 아침결식 예측 모형: 제7기 (2016-2018년) 국민건강영양조사 자료분석 (A prediction model for adolescents' skipping breakfast using the CART algorithm for decision trees: 7th (2016-2018) Korea National Health and Nutrition Examination Survey)

  • 최선아;정성석;노정옥
    • Journal of Nutrition and Health
    • /
    • 제56권3호
    • /
    • pp.300-314
    • /
    • 2023
  • 본 연구는 2016-2018년 국민건강영양조사 자료를 이용하여 청소년의 아침결식과 관련된 요인을 찾고 아침결식 예측모형을 분석하여 청소년의 아침결식 예방 교육 및 정책 수립에 기초 자료를 제공하고자 하였다. 2016-2018년 국민건강영양조사의 참여자는 총 24,269명으로 12-18세의 청소년 중 변수 결측자를 제외한 대상자는 1,024명이며, 이중 아침식사 섭취자 579명, 결식자 445명이었다. 남학생의 49.1%, 여학생의 50.9%가 아침결식자였다. 연령은 아침식사 결식군이 유의적으로 높으며, 결식군의 고등학생 비율이 높았다. 가구소득 4분위수는 아침식사 섭취군의 9.1%, 결식군의 15.4%가 '하'로 유의적인 차이를 보였다. 조사대상자의 신체적 요인은 유의적인 차이를 보이지 않았으나 체중감소를 위해 결식을 하는 경우는 아침식사 결식군의 25.3%, 섭취군의 10.4%로 유의적인 차이를 보였다. 조사대상자의 식습관과 정신건강에서 아침식사 결식군이 섭취군보다 1일 1회이상 외식횟수가 유의적으로 높았으며, 최근 1년간 1주 동안 5-7회 이상의 저녁식사 섭취빈도는 아침섭취군이 유의적으로 높았다. 또한, 아침식사 섭취군은 결식군보다 영양교육 경험이 유의적으로 높았으며, 아침식사 섭취군이 결식군보다 에너지, 단백질, 지방, 탄수화물, 식이섬유, 콜레스테롤, 비타민 A, 비타민 B1, 비타민 B2, 니아신, 비타민 C, 칼슘, 인, 나트륨, 칼륨, 철의 섭취율 및 탄수화물, 단백질, 지방의 섭취비율도 유의적으로 높았다. 아침결식 예측 모형을 도출하기 위해 CART 알고리즘을 사용한 의사결정나무 분석결과, 아침식사 섭취여부를 결정하는 주요인은 투입된 7개의 변수 중 교육수준과 영양교육 경험을 제외한 결식을 통한 체중조절, 가구소득 4분위수, 저녁식사 빈도, 연령, 외식 횟수였다. 체중조절을 위하여 결식을 하는 경우는 아침식사 결식군에서 높았다. 체중조절을 위하여 결식을 하지 않는 대상자는 가구소득 4분위수의 수준에서 소득이 '하', '중하'일 때 아침결식 비율이 높았다. 가구소득수준이 '상', '중상' 대상자의 경우는 저녁식사 빈도가 주 3-4회 이하인 경우 아침결식 비율이 높았다. 저녁식사 빈도가 주 5-7회이더라도 연령이 14.5세 초과인 경우 아침결식을 하고 있으며, 연령이 14.5세 미만인 대상자들은 외식횟수가 일 1회 이상인 경우, 주 6회 이하인 경우 아침결식을 하고 있었다. 따라서 아침결식을 감소시키기 위해서 청소년 대상의 각 그룹의 결식 주요인에 따라 올바른 체중조절 방법, 아침식사 배달, 건강정보에 대한 접근성 높이기, 아침결식과 질병과의 관련성 교육을 위한 토론수업 및 역할놀이 등과 같은 맞춤형 교육이 필요하며, 향후 청소년의 저녁식사 결식 감소 방안에 대한 연구가 추가적으로 진행되어야 하겠다.

빅데이터와 AI를 활용한 의료영상 정보 시스템 발전 방향에 대한 연구 (A Study on the Development Direction of Medical Image Information System Using Big Data and AI)

  • 유세종;한성수;전미향;한만석
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권9호
    • /
    • pp.317-322
    • /
    • 2022
  • 정보기술의 급격한 발달은 의료 환경에서도 많은 변화를 가져오고 있다. 특히 빅데이터와 인공지능(AI)을 활용한 의료영상 정보 시스템의 빠른 변화를 견인하고 있다. 전자의무기록(EMR)과 의료영상저장전송시스템(PACS)으로 구성된 처방전달시스템(OCS)은 의료 환경을 아날로그에서 디지털로 빠르게 바꾸어 놓았다. PACS는 여러 솔루션과 결합하여 호환, 보안, 효율성, 자동화 등 새로운 발전 방향을 보여주고 있다. 그 중, 영상의 질적 개선을 할 수 있는 빅데이터를 활용한 인공지능(AI)과의 결합이 활발히 진행되고 있다. 특히 딥러닝 기술을 활용하여 의료 영상 판독을 보조할 수 있는 시스템인 AI PACS가 대학과 산업체의 협력으로 개발되어 병원에서 활용되고 있다. 이처럼 의료 환경에서 의료영상 정보 시스템의 빠른 변화에 맞추어 의료시장의 구조적인 변화와 이에 대처할 수 있는 의료정책의 변화도 필요하다. 한편, 의료영상정보는 디지털 의료영상 전송 장치에서 생성되는 DICOM 방식을 기본으로 하고, 생성하는 방법의 차이에 따라 Volume 영상, 단면 영상인 2차원적 영상으로 구분된다. 또한, 최근 많은 의료기관에서는 스마트 병원 서비스를 내세우며 차세대 통합 의료정보시스템의 도입을 서두르고 있다. 차세대 통합 의료정보시스템은 EMR을 바탕으로 전자동의서, AI와 빅데이터를 활용한 정밀의료, 외부기관 등을 통합한 솔루션으로 구축하며, 이를 바탕으로 환자 정보 DB 구축과 데이터의 표준화를 통한 의료 빅데이터 기반의 의학 연구를 목적으로 한다. 우리나라의 의료영상 정보 시스템은 앞선 IT 기술력과 정부의 정책에 힘입어 세계적인 수준에 있으며, 특히 PACS 관련 프로그램은 의료 영상정보 기술에서 세계로 수출을 하고 있는 한 분야이다. 본 연구에서는 빅데이터를 활용한 의료영상 정보 시스템의 분석과 함께 의료영상 정보 시스템이 국내에 도입되게 된 역사적 배경을 바탕으로 현재의 흐름을 파악하고 나아가 미래의 발전 방향을 예측하였다. 향후, 20여 년 동안 축적된 DICOM 빅데이터를 기반으로 AI, 딥러닝 알고리즘을 활용하여 영상 판독률을 높일 수 있는 연구를 진행하고자 한다.

RDC/TMD Axis I 진단에 따른 측두하악장애 환자의 측두 두부방사선적 특징에 관한 연구 (Cephalometric Characteristics of TMD Patients based on RDC/TMD Axis I Diagnosis)

  • 안지연;김용우;김영구;이정윤
    • Journal of Oral Medicine and Pain
    • /
    • 제36권1호
    • /
    • pp.39-51
    • /
    • 2011
  • 본 연구는 측두하악장애의 연구 진단 기준(Research Diagnostic Criteria for Temporomandibular Disorder; RDC/TMD)을 이용하여 구분된 측두하악장애(Temporomandibular Disorder; TMD) 환자를 대상으로 안면의 골격적 양상과 TMD 사이의 연관성을 규명하고 교정 환자의 진단과 치료에 있어 RDC/TMD의 활용 가능성을 제시하고자 하였다. 서울대학교 치과병원 구강내과에 측두하악장애의 진단과 치료를 위해 내원한 여성 환자들의 의무 기록 및 방사선사진을 검토하였으며 환자의 연령이 18세 미만이거나 전신 질환, 골격적 기형 또는 측두하악관절 부위의 외상 병력이 있는 경우는 제외되었다. 총 96명의 여성 환자로부터 얻은 RDC/TMD Axis I 을 포함한 임상 검사 결과와 측방 두부규격방사선사진 (lateral cephalogram), 파노라마 방사선사진(panoramic radiograph) 및 횡두개 방사선사진(transcranial radiograph)을 이용한 방사선적 검사 결과를 분석하였다. RDC/TMD를 이용하여 집단을 분류한 후 측방 두부규격방사선사진의 각도 및 길이 요소들을 계측하여 안면의 골격 관계, 상하악 관계 및 치열 관계를 분석하였다. 통계적 분석법으로는 독립표본 t-검정(independent t-test), 일원분산분석(one-way Analysis of Variance; one-way ANOVA) 및 카이제곱 검정(chi-square test)을 이용하였고 다음과 같은 결과를 얻었다. 1. 근육 문제를 진단하는 RDC/TMD Axis I 의 제 1 군 측두 두부방사선적 특징에서 통계적 유의성이 인정되지 않았다. 2. 관절원판 변위를 임상적으로 진단하는 제 2 군에서는 개구 장애를 동반하지 않는 비정복성 관절원판 변위가 있는 경우 관절원판 변위가 없는 정상 집단에 비하여 articular angle이 큰 것으로 나타났다. 3. 관절통, 관절염 및 관절증을 진단하는 제 3 군에서는 articular angle, FMA, Bjork sum, posterior facial height 및 facial height ratio에서 유의한 차이가 있는 것으로 분석되었다. 4. TMD 진단군과 골격적 양상 사이의 관계를 단순화하기 위하여 RDC/TMD Axis I 각 군을 양분법적으로 분류한 뒤 동일 한 방식으로 분석을 시행하였다. 그 결과 제 1 군에서는 overjet, 제 2 군에서는 articular angle, facial height ratio 및 IMPA, 마지막으로 제 3 군에서는 articular angle, gonial angle, facial convexity, FMA, Bjork sum, posterior facial height, facial height ratio 및 ANB angle에서 유의한 차이를 보였다. 이상의 RDC/TMD Axis I 을 이용하여 진단된 측두하악장애 환자를 대상으로 안면의 골격적 양상과 TMD 사이의 연관성 을 분석한 결과로부터 RDC/TMD Axis I 임상 진단에 따라 진단한 측두하악장애 환자 중 제 2 군과 제 3 군의 환자들에서 측두하악장애와 관련된 것으로 알려진 하악골의 후하방 회전으로 인한 골격적 차이가 존재함을 확인하였다. RDC/TMD Axis I은 교정 전 혹은 교정 치료 진행 중에 임상 검사 및 일반 방사선사진으로부터의 제한된 정보를 바탕으로 교정 치료 중 고려하여야 할 TMD 환자를 감별하는데 유용한 정보를 제공할 수 있을 것이다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

키워드검색광고 포트폴리오 구성을 위한 통계적 최적화 모델에 대한 실증분석 (An Empirical Study on Statistical Optimization Model for the Portfolio Construction of Sponsored Search Advertising(SSA))

  • 양홍규;홍준석;김우주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.167-194
    • /
    • 2019
  • 본 논문은 키워드검색광고와 관련하여 의사결정자인 광고주의 입장에서 분석한 통계모델 기반 검색엔진최적화(Search Engine Optimization)논문이다. 일반적으로 키워드입찰은 노출순위를 대상으로 하는 입찰가액에 의해 이루어지고 있다. 그런데, 대부분 광고주는 수천 개 이상의 많은 키워드를 관리함에 있어, 매시간적으로 바뀌는 키워드별 입찰가액을 통해 입찰광고시스템을 관리하고 있는데, 사실상 시간과 인력자원측면에서 비효율적이다. 따라서, 본 논문에서는 기존의 입찰가액을 중심으로 하는 입찰시스템에 대해 의문점을 제기하고, 새로운 관점에서 노출순위를 의사결정변수로 하는 새로운 검색광고모델을 재정의하여 제시하였다. 새로운 검색광고모델에 대한 최적화실증분석을 위해 예측모델과 최적화모델을 제시하였다. 연구과정은 우선 키워드의 특성에 따라 키워드그룹을 원천 제조브랜드 유통브랜드의 범주화기준을 제시한 후, PC 와 모바일 매체별로 대표 키워드 선정한 후 노출순위와 클릭률이 비선형분포임을 보였고, 통계적 관계를 검토하였다. 클릭률예측 및 입찰가액예측을 위한 통계적 시나리오를 제시하였고, 적합성 분석을 통해 최적의 예측모델을 선정한 후, 선정된 예측모델을 기반으로 하여 클릭률과 기대이익(전환율)에 관한 최적화목적함수를 정의하고 실증분석을 진행하였다. 분석결과, 본 논문에서 제시한 검색광고모델은 클릭률 기반의 클릭수와 전환율 기반의 기대이익으로 표현되는 최적화모델 모두에서 개선효과가 있음을 확인하였다. 다만, 기대이익 최적화모델의 경우에는 핵심키워드임에도 불구하고 기대이익이 낮아 광고에서 배제되는 문제를 있음을 확인하고 대안을 제시했다. 마코브체인분석을 통해 핵심 경유키워드 개념을 도입하였고, 최적화목적함수에 대해 핵심경유키워드의 기회이익을 반영한 최적화수정모델을 제시하여 적용가능성을 확인하였다. 본 논문은 키워드입찰시스템의 의사결정변수를 노출순위의 관점으로 전환하는 새로운 모델을 제안하였고, 키워드 범주별 및 노출순위 기반의 통계적 예측을 제시하고, 포트폴리오 구성에서의 최적화실증분석을 통해 노출순위 기반 예측모델의 유효성을 확인함과 동시에, 키워드간의 확산효과를 포함하는 수정모델제시 등 전략적인 입찰을 제안한 점에 시사점이 있다.

네트워크 중심성 척도가 추천 성능에 미치는 영향에 대한 연구 (A Study on the Effect of Network Centralities on Recommendation Performance)

  • 이동원
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.23-46
    • /
    • 2021
  • 개인화 추천에서 많이 사용되는 협업 필터링은 고객들의 구매이력을 기반으로 유사고객을 찾아 상품을 추천할 수 있는 매우 유용한 기법으로 인식되고 있다. 그러나, 전통적인 협업 필터링 기법은 사용자 간에 직접적인 연결과 공통적인 특징을 기반으로 유사도를 계산하는 방식으로 인해 신규 고객 혹은 상품에 대해 유사도를 계산하기 힘들다는 문제가 제기되어 왔다. 이를 극복하기 위하여, 다른 기법을 함께 사용하는 하이브리드 기법이 고안되기도 하였다. 이런 노력의 하나로서, 사회연결망의 구조적 특성을 적용하여 이런 문제를 해결하려는 시도가 있었다. 이는, 직접적으로 유사성을 찾기 힘든 사용자 간에도 둘 사이에 놓인 유사한 사용자 또는 사용자들을 통해 유추해내는 방식으로 상호 간의 유사성을 계산하는 방식을 적용한 것이다. 즉, 구매 데이터를 기반으로 사용자의 네트워크를 생성하고 이 네트워크 내에서 두 사용자를 간접적으로 이어주는 네트워크의 특성을 기반으로 둘 사이의 유사도를 계산하는 것이다. 이렇게 얻은 유사도는 추천대상 고객이 상품의 추천에 대한 수락여부를 결정하는 척도로 활용될 수 있다. 서로 다른 중심성 척도는 추천성과에 미치는 영향이 서로 다를 수 있다는 점에서 중요한 의미를 갖는다 할 수 있다. 이런 유사도의 계산을 위해서 네트워크의 중심성을 활용할 수 있다. 본 연구에서는 여기서 더 나아가 이런 중심성이 추천성과에 미치는 영향이 추천 알고리즘에 따라서도 다를 수 있다는 데에서 주목하여 수행되었다. 또한, 이런 네트워크 분석을 활용한 추천기법은 신규 고객 혹은 상품뿐만 아니라 전체 고객 혹은 상품으로 그 대상을 넓히더라도 추천 성능을 높이는 데 기여할 것을 기대할 수 있을 것이다. 이런 관점에서 본 연구는 네트워크 모형에서 연결선이 생성되는 것을 이진 분류의 문제로 보고, 추천 모형에 적용할 분류 기법으로 의사결정나무, K-최근접이웃법, 로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신을 선택하고, 온라인 쇼핑몰에서 4년2개월간 수집된 구매 데이터로 실험을 진행하였다. 사회연결망에서 측정된 중심성 척도를 각 분류 기법에 적용하여 생성한 모형을 비교 실험한 결과, 각 모형 별로 중심성 척도의 추천성공률이 서로 다르게 나타남을 확인할 수 있었다.

XGBoost를 활용한 리스크패리티 자산배분 모형에 관한 연구 (A Study on Risk Parity Asset Allocation Model with XGBoos)

  • 김영훈;최흥식;김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.135-149
    • /
    • 2020
  • 인공지능을 기반으로 한 다양한 연구들이 현대사회에 많은 변화를 불러일으키고 있다. 금융시장 역시 예외는 아니다. 로보어드바이저 개발이 활발하게 진행되고 있으며 전통적 방식의 단점을 보완하고 사람이 분석하기 어려운 부분을 대체하고 있다. 로보어드바이저는 인공지능 알고리즘으로 자동화된 투자 결정을 내려 다양한 자산배분 모형과 함께 활용되고 있다. 자산배분 모형 중 리스크패리티는 대표적인 위험 기반 자산배분 모형의 하나로 큰 자산을 운용하는 데 있어 안정성을 나타내고 현업에서 역시 널리 쓰이고 있다. 그리고 XGBoost 모형은 병렬화된 트리 부스팅 기법으로 제한된 메모리 환경에서도 수십억 가지의 예제로 확장이 가능할 뿐만 아니라 기존의 부스팅에 비해 학습속도가 매우 빨라 많은 분야에서 널리 활용되고 있다. 이에 본 연구에서 리스크패리티와 XGBoost를 장점을 결합한 모형을 제안하고자 한다. 기존에 널리 사용되는 최적화 자산배분 모형은 과거 데이터를 기반으로 투자 비중을 추정하기 때문에 과거와 실투자 기간 사이의 추정 오차가 발생하게 된다. 최적화 자산배분 모형은 추정 오차로 인해 포트폴리오 성과에서 악영향을 받게 된다. 본 연구는 XGBoost를 통해 실투자 기간의 변동성을 예측하여 최적화 자산배분 모형의 추정 오차를 줄여 모형의 안정성과 포트폴리오 성과를 개선하고자 한다. 본 연구에서 제시한 모형의 실증 검증을 위해 한국 주식시장의 10개 업종 지수 데이터를 활용하여 2003년부터 2019년까지 총 17년간 주가 자료를 활용하였으며 in-sample 1,000개, out-of-sample 20개씩 Moving-window 방식으로 예측 결과값을 누적하여 총 154회의 리밸런싱이 이루어진 백테스팅 결과를 도출하였다. 본 연구에서 제안한 자산배분 모형은 기계학습을 사용하지 않은 기존의 리스크패리티와 비교하였을 때 누적수익률 및 추정 오차에서 모두 개선된 성과를 보여주었다. 총 누적수익률은 45.748%로 리스크패리티 대비 약 5% 높은 결과를 보였고 추정오차 역시 10개 업종 중 9개에서 감소한 결과를 보였다. 실험 결과를 통해 최적화 자산배분 모형의 추정 오차를 감소시킴으로써 포트폴리오 성과를 개선하였다. 포트폴리오의 추정 오차를 줄이기 위해 모수 추정 방법에 관한 다양한 연구 사례들이 존재한다. 본 연구는 추정 오차를 줄이기 위한 새로운 추정방법으로 기계학습을 제시하여 최근 빠른 속도로 발전하는 금융시장에 맞는 진보된 인공지능형 자산배분 모형을 제시한 점에서 의의가 있다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.