• 제목/요약/키워드: Machine-learning

검색결과 5,471건 처리시간 0.034초

부도예측모형에서 도메인 지식을 통합한 반사실적 예시 기반 설명력 증진 방법 (Domain Knowledge Incorporated Counterfactual Example-Based Explanation for Bankruptcy Prediction Model)

  • 조수현;신경식
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.307-332
    • /
    • 2022
  • 부도예측모형은 여러 금융기관의 신용평가모형의 지식기반(knowledge base)로 이용되고 있으며 최근 머신러닝 기법의 발전으로 이를 도입하여 고도화하려는 다양한 시도가 진행 중이다. 그러나 실제 이러한 모형이 도입되기 위해서는 모형을 이용하는 사용자와 설명제공 대상인 고객의 이해와 수용이 전제되어야 한다. 그러나 사용자에게 제공되는 설명이 현실적 타당성(feasibility)이 결여되어 있다면 모형의 신뢰성과 수용도에 부정적인 영향을 미친다. 이에 따라 본 연구는 도메인 지식을 설명 생성 알고리즘에 통합하여 현실적으로 타당한 설명을 사용자에게 제공하고자 한다. 본 연구에서는 머신러닝 기반의 부도예측 모형에 설명력을 더하는 방법으로 반사실적 예시(counterfactual example) 기반의 로컬영역에서의 설명을 제공하는 모델을 제안한다. 제안 모델은 모형에 이용된 재무변수의 특성을 설명력 생성 알고리즘에 통합하여 설명의 현실적 가능성을 확보하고 이를 통해 사용자의 이해와 수용을 도모하고자 한다. 또한 본 연구에서는 반사실적 예시기반 설명을 위해 유전알고리즘(GA)를 이용하며 다목적함수를 목적함수로 설정하여 반사실적 예시의 주요 기준이 되는 항목을 반영하고 있다. 본 연구는 대표적인 머신러닝 기법인 인공신경망을 이용해 부도예측모형을 학습시킨 뒤, 사후적 방법(post-hoc)으로 설명을 위한 알고리즘을 도입하여 기존의 모형 설명 알고리즘인 LIME과 현실적 가능성이 결여된 반사실적 예시 기반 알고리즘과 비교하였다. 더 나아가 제안방법의 금융/회계 분야의 종사자를 대상으로 서베이를 진행하여 제안 방법의 설명의 질을 정성적으로 평가하였다.

미국 정보 대학의 데이터사이언스 학위 현황 연구 (Degree Programs in Data Science at the School of Information in the States)

  • 박형주
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.305-332
    • /
    • 2022
  • 본 연구의 목적은 문헌정보학 프로그램이 있는 정보 대학에서 수여하는 데이터사이언스 학위의 현황을 알아보는 것이다. 데이터 수집의 대상은, 2022년 미국도서관협회의 인가를 받은 문헌정보학 프로그램이 있는 64개의 대학에서 수여하는 데이터사이언스 학위였다. 분석의 대상은 각 대학의 데이터사이언스 학위 과정, 부전공, 세부 전공, 수료증, 취업 후 예상 진로, 취업률 등이었다. 교과 분석을 위해 미국 정보 대학에서 제시한 교과목 명, 교과 설명, 중점 교육 분야를 분석했다. 데이터사이언스를 학위 명으로 개설한 대학은 총 8개 정보 대학의 12개 학위였으며, 학사 학위 5개, 석사 학위 6개, 박사 학위 1개였다. 개설된 교과의 주제는 데이터사이언스 입문, 정보검색, 데이터마이닝, 데이터베이스, 데이터와 인문학, 머신 러닝, 메타데이터, 연구 방법론, 데이터 분석 및 시각화, 실습/캡스톤, 윤리 및 보안, 이용자, 정책, 큐레이션 및 관리였다. 대부분의 대학은 전통적인 문헌정보학 교과를 개설하지 않고 있었다. 정보 대학이 제시한 졸업 후 예상 취업 진로는 데이터사이언티스트, 데이터 엔지니어, 데이터 분석가 등이었다. 본 연구의 결과는 정보학의 관점에서 데이터사이언스 학위 과정, 세부 전공, 수료증 또는 교과과정 개발 및 개정을 위한 논의에 활용될 수 있는 기초 자료로 활용되기를 기대한다.

식물공장 기류해석을 위한 디지털트윈 개발 및 실증 (Development and Validation of Digital Twin for Analysis of Plant Factory Airflow)

  • 정진립;원보영;유호동;김탁곤;강대현;홍경진
    • 한국시뮬레이션학회논문지
    • /
    • 제31권1호
    • /
    • pp.29-41
    • /
    • 2022
  • 이상기후로 인한 불안정한 식량 수급을 해결하기 위한 대안 중 하나로 식물공장의 필요성이 증대되고 있다. 식물공장 내 기류는 재배작물의 증산작용과 열교환에 중요한 인자 중 하나로 인식되고 있다. 한편, 디지털트윈(Digital Twin: DT)은 실체계를 가상세계에 복제한 것으로 실체계만으로 불가능한 다양한 서비스를 제공하는 수단으로 주목받고 있다. 본 연구에서는 디지털트윈 개념을 실제 운용중인 식물공장 기류해석에 적용하여 다양한 상황에 기류를 예측할 수 있는 기류 예측 DT 모델 개발을 목표로 하였다. 이를 위해 먼저 기류 해석용 디지털트윈 수학적 형식론을 제시하고, 이를 기반으로 실제 운용중인 식물공장의 기류예측 모델링에 필요한 정보들을 명세한다. 이어서 식물공장 내 형상을 CAD로 구현하고 유동해석을 위한 전산유체역학(CFD) 구성요소들을 결합하여 DT 모델을 개발하였다. 마지막으로 DT 모델의 시뮬레이션 해석 결과를 식물공장에서 수집한 실제 기류값과 비교하는 모델의 실증 및 기계학습 기반 보정을 통해 정확도가 높은 기류 예측용 DT 모델을 완성하였다.

케이슨식 안벽 항만시설의 성능저하패턴 연구 (A Study on the Performance Degradation Pattern of Caisson-type Quay Wall Port Facilities)

  • 나용현;박미연;장신우
    • 한국재난정보학회 논문집
    • /
    • 제18권1호
    • /
    • pp.146-153
    • /
    • 2022
  • 연구목적: 국내 항만시설의 경우 사용년수가 오래된 항만구조물은 선박의 대형화 및 사용빈도 증가, 기후변화에 따른 자연재해의 영향 등으로 안전과 기능적 측면에서 상당히 많은 문제가 있다. 항만시설의 유지관리 이력 데이터를 기반으로 시설 노후화 패턴을 예측 할 수 있는 근사모델 개발을 위하여 빅데이터 분석 방법을 연구하였다. 연구방법: 본 연구에서는 케이슨식 안벽에 유지관리 데이터 수집하여 빅데이터를 바탕으로 시설물의 노후화 패턴 및 성능저하를 확인하기 위한 예측모델을 도출하였다. 가우시안 프로세스(GP)과 선형보간(SLPT) 기법을 통하여 생성된 상태기반 노후도 패턴 예측모델을 제안하고 유효성 검토를 통해 빅데이터 적용에 적합한 모델을 비교하고 제안하였다. 연구결과: 제안된 기법을 검토한 결과 SLPT기법은 RMSE 및 는 0.9215와 0.0648로 SLPT기법의 예측모델이 보다 더 적합한 것으로 검토 되었다. 결론: 이러한 연구를 통해 빅데이터 기반 시설물 성능저하 예측 연구는 유지관리를 위환 의사결정에서 중요한 체계가 될 것으로 기대된다.

머신러닝 기반 시설재배 딸기 생산량 예측 연구 (A Study on the Prediction of Strawberry Production in Machine Learning Infrastructure)

  • 오한별;임종현;양승원;조용윤;신창선
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.9-16
    • /
    • 2022
  • 최근 농업 현장에서는 빅데이터와 IoT(Internet of Things) 등 기술을 적용하여 디지털농업 스마트팜으로 자동화를 하고 있다. 이러한 스마트팜은 작물의 환경을 측정하고 데이터를 조사하고 가공하여 생산량의 증대와 작물의 품질을 향상하고자 한다. 생산량 예측은 첨단 농업인 스마트팜 디지털 농업에서 중요한 연구로 빅데이터를 활용하여 환경데이터를 분석하고 나아가 생육정보 데이터 품질 관리를 위한 표준화 연구가 필요하다. 본 논문에서는 스마트팜 딸기 농장에서 수집된 환경 및 생산량 데이터를 분석하여 연구하였다. 회귀분석을 기반으로 릿지회귀(Ridge Regression), LightGBM, XGBoost를 사용하여 작물 생산량 예측 모델을 분석하였다. 3가지 모델 중 최적의 모델은 XGBoost로 R2는 82.5%의 설명력을 보였다. 연구 결과 양액흡수량과 환경데이터간의 상관관계를 확인할 수 있었고, 생산량 예측 연구에 대한 유의미한 결과를 얻을 수 있었다. 향후 작물의 생육환경 정보 및 양액의 성분 등 양액흡수량을 연구하여 양액관리를 통해 환경오염 예방 및 양액 절감에 기여할 것으로 기대된다.

Design and Implementation of Memory-Centric Computing System for Big Data Analysis

  • Jung, Byung-Kwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.1-7
    • /
    • 2022
  • 최근 대용량 데이터를 프로그램 자체에서 생성시키면서 구동되는 빅데이터 프로그램, 머신 러닝 프로그램 같은 응용 프로그램의 사용이 일상화됨에 따라 기존의 메인 메모리만으로는 메모리가 부족하여 프로그램의 빠른 실행이 어려운 경우가 발생하고 있다. 특히, 코로나 변이 바이러스 발생으로 염기서열 전체의 유전 변이 여부를 분석해야 하는 상황에는 더욱 빠르게 결과를 도출해야 하는 필요성이 대두되었다. 대용량 데이터를 병렬실행으로 빠른 결과를 필요로 하는 전장유전체(WGS; Whole Genome Sequencing) 분석 방법에 기존 SSD에서 대용량 데이터를 처리하는 것이 아닌 자체 개발한 메모리풀 MOCA host adapter가 장착된 컴퓨팅 시스템에 적용하여 성능을 측정한 결과 기존 SSD 시스템에 비해 16%의 성능 향상이 있었다. 그리고, 그 외의 다양한 벤치마크 시험에서도 워크플로우의 task별 SortSampleBam, ApplyBQSR, GatherBamFiles등 메모리풀 MOCA host adapter가 장착된 컴퓨팅 시스템에서도 SSD를 사용한 경우보다 IO 성능이 각각 92.8%, 80.6%, 32.8% 실행시간 단축을 보였다. 전장유전체파이프라인 분석같이 대용량 데이터 분석시 본 연구에서 개발한 메모리풀 MOCA host adapter가 장착된 컴퓨팅 시스템에서 분석할 경우 런타임(run time)시 발생하는 측정 지연을 줄일 수 있을 것으로 판단된다.

앙상블 기반 모델을 이용한 서울시 PM2.5 농도 예측 및 분석 (Prediction and Analysis of PM2.5 Concentration in Seoul Using Ensemble-based Model)

  • 류민지;손상훈;김진수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1191-1205
    • /
    • 2022
  • 복잡하고 광범위한 원인을 가진 대기오염물질 중 particulate matter (PM)은 입자의 크기에 따라 분류된다. 그 중 PM2.5는 그 크기가 매우 작아 사람이 흡입하면 인간의 호흡기나 심혈관에 질병을 유발할 수 있다. 이러한 위험에 대비하기 위해서는 국가 중심의 관리와 사전에 예방할 수 있는 모니터링 및 예측이 중요하다. 본 연구는 고농도 미세먼지의 발생이 잦은 서울시의 PM2.5를 local data assimilation and prediction system (LDAPS) 기상 관련 인자 15가지와 aerosol optical depth (AOD), 화학인자 4가지를 독립변수로 하여 앙상블 모델 두 가지 random forest (RF)와 extreme gradient boosting (XGB)로 예측하고자 하였다. 예측에 사용된 두 모델의 성능 평가와 인자 중요도 평가를 수행하였으며, 계절별 모델 분석도 수행하였다. 예측 정확도 결과, RF가 R2 = 0.85, XGB가 R2 = 0.91의 높은 예측 정확도를 보이며 XGB가 RF보다 PM2.5 예측에 적합한 모델임을 확인하였다. 계절별 모델 분석 결과, 봄에 농도가 높은 관측 값과 비교하여 예측 수행이 잘 되었다고 할 수 있다. 본 연구는 다양한 인자를 이용하여 서울시의 PM2.5를 예측하였고, 좋은 성능을 보이는 앙상블 기반의 PM2.5 예측 모델을 구축하였다.

가계동향조사 지출부문 시계열 연계 방안에 관한 연구 (A study on time series linkage in the Household Income and Expenditure Survey)

  • 김시현;성병찬;최영근;여인권
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.553-568
    • /
    • 2022
  • 가계동향조사는 가구에 대한 가계수지 실태를 파악하여 국민 소득·소비 수준과 그 변화의 측정 및 분석 등을 목적으로 하는 통계청의 대표적인 조사이다. 최근 여러 기관들에서 2017년과 2018년의 가계동향 지출부문에서 발생한 시계열 단절에 대한 문제를 인식하고, 이 기간에 대한 시계열 연계를 위한 관련 연구를 진행하고 있다. 본 연구에서는 2016년까지의 가계동향 조사 시계열 특성을 파악하고, 이를 반영하여 2017년과 2018년의 지출액에 대한 시계열을 연계하는 예측값을 도출한다. 본 연구에서는 각 지출 항목들의 시계열적 특성을 골고루 반영하는 동시에 특정 예측 모형의 영향을 줄이기 위하여 총 8개의 회귀모형, 시계열모형, 머신러닝 기법을 합성하여 사용하였다. 특히 본 연구의 주목할 만한 특징은, Top-down 또는 Bottom-up 방식이 아닌, 정보의 손실없이 가계동향조사의 계층 구조를 반영할 수 있는 optimal combination 기법을 사용하여 예측력을 향상시켰다는 점이다. 2017년부터 2019년 자료에 대한 가계동향 지출 부문의 연계 분석 결과, 본 연구가 제안하는 연계 방식이 시계열 단절성 회복 및 예측력 향상에 기여하며, 또한 optimal combination 기법에 의한 계층 조정 후의 예측값이 조사자료에 보다 근접한 결과를 보여줌을 확인하였다.

장기요양 필요 발생의 고위험 대상자 발굴을 위한 예측모형 개발 (Development of prediction model identifying high-risk older persons in need of long-term care)

  • 송미경;박영우;한은정
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.457-468
    • /
    • 2022
  • 고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.

기상모델자료와 기계학습을 이용한 GK-2A/AMI Hourly AOD 산출물의 결측화소 복원 (Spatial Gap-filling of GK-2A/AMI Hourly AOD Products Using Meteorological Data and Machine Learning)

  • 윤유정;강종구;김근아;박강현;최소연;이양원
    • 대한원격탐사학회지
    • /
    • 제38권5_3호
    • /
    • pp.953-966
    • /
    • 2022
  • 에어로솔(aerosol)은 대기 질을 악화시키는 등 인체 건강에 악영향을 끼치므로 에어로솔의 분포 및 특성에 대한 정량적인 관측이 필수적이다. 최근 전 지구 규모에서의 주기적이고 정량적인 정보 획득 수단으로 위성관측 Aerosol Optical Depth (AOD) 영상이 다양한 연구에 활용되지만 광학센서 기반의 위성 AOD 영상은 구름 등의 조건을 가진 일부 지역에서 결측을 가진다. 이에 본 연구는 위성자료의 결측복원을 위하여 격자형 기상자료와 지리적 요소를 입력변수로 하여 Random Forest (RF) 기반 gap-filling 모델을 생성한 이후, gap-free GK-2A/AMI AOD hourly 영상을 산출하였다. 모델의 정확도는 -0.002의 Mean Bias Error (MBE), 0.145의 Root Mean Square Error (RMSE)로, 원자료의 목표 정확도보다 높으며 상관계수 0.714로 복원 대상이 대기변수인 점을 감안하면 상관계수 측면에서도 충분한 설명력을 갖춘 모델이다. 정지궤도 위성의 높은 시간 해상도는 일변화 관측에 적합하며 대기보정을 위한 입력, 지상 미세먼지 농도 추정, 소규모 화재 또는 오염원 분석 등 타 연구를 위한 자료 활용 측면에서 중요하다.