• Title/Summary/Keyword: Machine Learning

검색결과 5,436건 처리시간 0.033초

특허문서 필드의 기능적 특성을 활용한 IPC 다중 레이블 분류 (IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents)

  • 임소라;권용진
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.77-88
    • /
    • 2017
  • 최근 지식과 정보가 가치를 생산하는 지식기반사회로 접어들면서 지식재산권의 대표적인 형태인 특허에 대한 중요성이 매우 높아지고 있으며 출원되는 특허의 양도 매년 증가하고 있다. 방대한 양의 특허정보를 효과적으로 이용하기 위해서 특허문서를 그 발명의 기술적 주제에 따라 적절하게 분류하는 것이 필요하며 이를 위해 IPC(International Patent Classification)가 주로 사용되고 있다. 현재 주로 사람의 손으로 이뤄지는 특허문서의 IPC 분류과정의 효율성을 높이기 위하여 다양한 데이터마이닝과 기계학습 알고리즘을 기반으로 IPC 자동분류에 관한 연구들이 수행되어 왔다. 하지만 기존의 IPC 자동분류에 관한 연구의 대부분은 특허문서의 구조적 특징과 같은 특허문서 고유의 데이터 특성에 대한 고려보다는 다양한 기계학습 알고리즘을 특허문서로 적용하는 것에 초점을 맞춰왔다. 이에 본 논문에서는 IPC 자동분류를 위해 특허문서의 특징과 구조적 필드의 역할을 기반으로 특허문서 분류에 영향을 끼치는 두 가지 필드, 기술분야 및 배경기술 필드의 활용을 제안한다. 그리고 특허문서가 동시에 다수의 IPC 분류코드를 가지는 점을 반영하여 다중 레이블 분류(multi-label classification) 모델을 구축한다. 또한 IPC 다중 레이블 분류의 실제 현장에서의 적용 가능성 확인을 위해 630개의 범주를 가지는 IPC 서브클래스 레벨까지 분류 가능한 수법을 제안한다. 이를 위해 국내에서 등록된 564,793건의 특허문서를 대상으로 특허문서의 구조적 필드의 영향을 확인하기 위한 IPC 다중 레이블 분류 실험을 수행하였고, 그 결과 제목, 요약, 청구항, 기술분야 및 배경기술 필드를 활용한 실험에서 87.2%의 싱글매치 정확도를 얻었다. 이를 통해 기술분야 및 배경기술 두 필드가 IPC 서브클래스 레벨까지의 다중 레이블 분류의 정확도를 향상시키는데 중요한 역할을 하고 있음을 확인하였다.

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

하이브리드 인공신경망 모형을 이용한 부도 유형 예측 (Bankruptcy Type Prediction Using A Hybrid Artificial Neural Networks Model)

  • 조남옥;김현정;신경식
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.79-99
    • /
    • 2015
  • 부도 예측은 회계와 재무 분야에서 꾸준히 연구되고 있는 분야이다. 초기에는 주로 다중판별분석(multiple discriminant analysis)와 로짓 분석(logit analysis)과 같은 통계적 방법을 이용하였으나, 1990년대 이후에는 경영 분야의 분류 문제를 위해 많은 연구자들이 인공신경망(back-propagation neural network), 사계기반추론(case-based reasoning), 서포트 벡터 머신(support vector machine) 등과 같은 인공지능을 통한 접근법을 이용하여 통계적 방법보다 분류 성과 측면에서 우수함을 입증해왔다. 기존의 기업의 부도에 관한 연구에서 많은 연구자들이 재무비율을 이용하여 부도 예측 모형을 구축하는 것에 초점을 맞추어왔다. 부도예측에 관한 연구가 꾸준히 진행되고 있는 반면, 부도의 세부적인 유형을 예측하여 제시하는 것에 대한 연구는 미흡한 실정이었다. 따라서 본 연구에서는 수익성, 안정성, 활동성 지표를 중심으로 국내 비외감 건설업 기업들의 부도 여부뿐만 아니라 부도의 세부적인 유형까지 예측 가능한 모형을 개발하고자 한다. 본 연구에서는 부도 유형을 예측하기 위해 두 개의 인공신경망 모형을 결합한 하이브리드 접근법을 제안하였다. 첫 번째 인공신경망 모형은 부도예측을 위한 역전파 인공신경망을 이용한 모형이며, 두 번째 인공신경망 모형은 부도 데이터를 몇 개의 유형으로 분류하는 자기조직화지도(self-organizing map)을 이용한 모형이다. 실험 결과를 통해 정의된 5개의 부도 유형인 심각한 부도(severe bankruptcy), 안정성 부족(lack of stability), 활동성 부족(lack of activity), 수익성 부족(lack of profitability), 회생 가능한 부도(recoverable bankruptcy)는 재무 비율에 따라 유형별로 상이한 특성을 갖는 것을 확인할 수 있었다. 본 연구 결과를 통해 신용 평가 분야의 연구자와 실무자들이 기업의 부도의 유형에 대한 유용한 정보를 얻을 것으로 기대한다.

GOCI 위성영상과 기계학습 기법을 이용한 Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index의 공간 상세화 (Spatial Downscaling of Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index Using GOCI Satellite Image and Machine Learning Technique)

  • 성태준;김영준;최현영;임정호
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.959-974
    • /
    • 2021
  • Forel-Ule Index (FUI)는 자연에 존재하는 담수 및 해수의 색을 남색부터 고동색까지 21 가지의 등급으로 구분하는 지표이다. FUI는 여러 선행연구에서 수계의 부영양화 지수, 수질인자, 광 특성 등과 연관 지어 분석되었으며, 여러 수질인자의 광학적 정보를 동시에 가지고 있는 새로운 수질 지표로써의 가능성이 제시되었다. 본 연구에서는 500 m의 높은 공간해상도를 가지는 정지궤도 해양위성해색탑재체(Geostationary Ocean Color Imager; GOCI) 관측 자료와 Random Forest (RF) 기계학습 기법을 활용하여 Ocean Colour-Climate Change Initiative(OC-CCI) 기반의 4 km FUI 자료를 공간 상세화 시켰다. 이를 활용하여 우리나라 연안 해역에 대한 수질인자와의 상관관계와 주요 해역에 대한 FUI의 공간적 분포 및 계절별 특성 변화를 분석하였다. 검증 결과 RF 기법으로 추정한 RF FUI는 결정계수(R2)=0.81, 평균 제곱근 오차(Root Mean Square Error; RMSE)=0.7784로, Pitarch의 OC-CCI FUI 알고리즘을 적용하여 계산한 GOCI FUI 추정 정확도(R2=0.72, RMSE=0.9708) 대비 향상된 결과를 보였다. RF FUI는 총 질소(Total Nitrogen), 총 인(Total Phosphorus), 클로로필-a(Chlorophyll-a), 총 부유물질(Total Suspended Solids), 투명도(Secchi Disk Depth)를 포함하는 5가지 수질인자와 각각 0.87, 0.88, 0.97, 0.65, -0.98의 상관계수로 강한 상관성을 보였다. 산출된 FUI의 시간적 패턴 역시 여러 수질인자와의 물리적 관계를 반영하며 유의미한 계절적 패턴의 변화를 보였다. 본 연구의 결과로 한반도 연안 수질 관리에서 고해상도 FUI의 활용 가능성을 제시하였다.

서울 지역 지상 NO2 농도 공간 분포 분석을 위한 회귀 모델 및 기계학습 기법 비교 (Comparative Assessment of Linear Regression and Machine Learning for Analyzing the Spatial Distribution of Ground-level NO2 Concentrations: A Case Study for Seoul, Korea)

  • 강은진;유철희;신예지;조동진;임정호
    • 대한원격탐사학회지
    • /
    • 제37권6_1호
    • /
    • pp.1739-1756
    • /
    • 2021
  • 대기 중 이산화질소(NO2)는 주로 인위적인 배출요인으로 발생하며 화학 반응을 통해 이차오염 물질 및 오존 형성에 매개 역할을 하는 인체 건강에 악영향을 미치는 물질이다. 우리나라는 지상 관측소에 의한 실시간 NO2 모니터링을 수행하고 있지만, 이는 점 기반의 관측 값으로써 미관측 지역의 공간 분포 분석이 어렵다는 한계점을 지닌다. 본 연구에서는 선형 회귀 기반 모델인 다중 선형 회귀와 회귀 크리깅, 기계학습 알고리즘인 Random Forest (RF), Support Vector Regression (SVR)을 적용한 공간 내삽 모델링을 통해 서울 지역의 지상 NO2 농도 지도를 제작하였고, 일별 Leave-One-Out Cross Validation (LOOCV) 교차 검증을 시행하였다. 2020년 연구기간 내 일별 LOOCV에서 MLR, RK, SVR 모델의 일별 평균 Index of agreement (IOA)는 약 0.57로 유사한 성능을 보였으며, RF (0.50)보다 높은 성능이 확인되었다. RK의 일별 평균 nRMSE는 0.9483%으로 MLR (0.9501%)보다 상대적으로 낮은 오차를 나타냈다. MLR과 RK, RF 모델의 계절별 공간 분포는 비슷한 양상을 보였으며, RF는 다른 모델에 비해 좁은 NO2 농도 범위가 확인되었다. 본 연구에서 제안된 선형 회귀 기반 공간 내삽은 지상 NO2 뿐 아니라 다른 대기 오염 물질의 도시 지역 공간 내삽을 위해 활용 가능성이 높을 것으로 기대된다.

우리나라 시군단위 벼 수확량 예측을 위한 다종 기상자료의 비교평가 (A Comparative Evaluation of Multiple Meteorological Datasets for the Rice Yield Prediction at the County Level in South Korea)

  • 조수빈;윤유정;김서연;정예민;김근아;강종구;김광진;조재일;이양원
    • 대한원격탐사학회지
    • /
    • 제37권2호
    • /
    • pp.337-357
    • /
    • 2021
  • 노지에서 재배되는 벼는 필연적으로 기상요소의 영향을 받을 수밖에 없으며, 벼 생장에 영향을 미치는 최적의 기상자료 확보 및 변수 선정은 벼 수확량 예측 모델링에 있어 매우 중요하다. 본 연구에서는 1996-2019년의 7월, 8월, 9월에 대하여, 다종의 기상자료 비교평가를 통해 우리나라 벼 수확량 모델링에 대한 적합성을 살펴보고, 기상요소와 벼 수확량 사이의 비선형적인 관계를 고려하여 기계학습 기법을 이용한 수확량 하인드캐스트 실험을 수행하고자 한다. 다종의 기상자료로는, 기상청 ASOS 지상관측과 함께, CRU-JRA ver. 2.1, ERA5 재분석장을 사용하였다. 이들 기상자료에서 공통적으로 도출할 수 있는 월 단위 기온, 상대습도, 일사량, 강수량 변수에 대한 비교를 통하여, 각 자료의 특성 및 벼 수확량과의 연관성을 분석하였다. CRU-JRA ver. 2.1 재분석장은 전반적으로 타 자료와 높은 일치성을 나타냈으며, 변수별 특징을 보았을 때, 상대습도는 벼 수확량에 미치는 영향이 거의 없었으나, 일사량은 벼 수확량과의 상관성이 상당히 높은 것으로 나타났다. 7월, 8월, 9월의 기온, 일사량, 강수량을 랜덤 포리스트 모델에 투입하여 벼 수확량 하인드캐스트 실험을 수행한 결과, CRU-JRA ver. 2.1 재분석장은 세 종류 기상자료 중에 가장 높은 정확도를 나타냈다(CC = 0.772). 또한 예측 모델에서 변수의 중요도는 일사량이 가장 높게 나타나, 기존의 농학적 연구결과와 일치하였다. 본 연구는 벼 수확량 예측을 위한 다종 기상자료의 선택에 있어 하나의 합리적 방법을 제시한 것으로써 의미가 있다고 하겠다.

Deep Convolution Neural Networks 이용하여 결함 검출을 위한 결함이 있는 철도선로표면 디지털영상 재 생성 (Regeneration of a defective Railroad Surface for defect detection with Deep Convolution Neural Networks)

  • 김현호;한석민
    • 인터넷정보학회논문지
    • /
    • 제21권6호
    • /
    • pp.23-31
    • /
    • 2020
  • 본 연구는 철도표면상에 발생하는 노후 현상 중 하나인 결함 검출을 위해 학습데이터를 생성함으로써 결함 검출 모델에서 더 높은 점수를 얻기 위해 진행되었다. 철도표면에서 결함은 선로결속장치 및 선로와 차량의 마찰 등 다양한 원인에 의해 발생하고 선로 파손 등의 사고를 유발할 수 있기 때문에 결함에 대한 철도 유지관리가 필요 하다. 그래서 철도 유지관리의 자동화 및 비용절감을 위해 철도 표면 영상에 영상처리 또는 기계학습을 활용한 결함 검출 및 검사에 대한 다양한 연구가 진행되고 있다. 일반적으로 영상 처리 분석기법 및 기계학습 기술의 성능은 데이터의 수량과 품질에 의존한다. 그렇기 때문에 일부 연구는 일반적이고 다양한 철도표면영상의 데이터베이스를 확보하기위해 등간격으로 선로표면을 촬영하는 장치 또는 탑재된 차량이 필요로 하였다. 본연구는 이러한 기계적인 영상획득 장치의 운용비용을 감소시키고 보완하기 위해 대표적인 영상생성관련 딥러닝 모델인 생성적 적대적 네트워크의 기본 구성에서 여러 관련연구에서 제시된 방법을 응용, 결함이 있는 철도 표면 재생성모델을 구성하여, 전용 데이터베이스가 구축되지 않은 철도 표면 영상에 대해서도 결함 검출을 진행할 수 있도록 하였다. 구성한 모델은 상이한 철도 표면 텍스처들을 반영한 철도 표면 생성을 학습하고 여러 임의의 결함의 위치에 대한 Ground-Truth들을 만족하는 다양한 결함을 재 생성하도록 설계하였다. 재생성된 철도 표면의 영상들을 결함 검출 딥러닝 모델에 학습데이터로 사용한다. 재생성모델의 유효성을 검증하기 위해 철도표면데이터를 3가지의 하위집합으로 군집화 하여 하나의 집합세트를 원본 영상으로 정의하고, 다른 두개의 나머지 하위집합들의 몇가지의 선로표면영상을 텍스처 영상으로 사용하여 새로운 철도 표면 영상을 생성한다. 그리고 결함 검출 모델에서 학습데이터로 생성된 새로운 철도 표면 영상을 사용하였을 때와, 생성된 철도 표면 영상이 없는 원본 영상을 사용하였을 때를 나누어 검증한다. 앞서 분류했던 하위집합들 중에서 원본영상으로 사용된 집합세트를 제외한 두 개의 하위집합들은 각각의 환경에서 학습된 결함 검출 모델에서 검증하여 출력인 픽셀단위 분류지도 영상을 얻는다. 이 픽셀단위 분류지도영상들과 실제 결함의 위치에 대한 원본결함 지도(Ground-Truth)들의 IoU(Intersection over Union) 및 F1-score로 평가하여 성능을 계산하였다. 결과적으로 두개의 하위집합의 텍스처 영상을 이용한 재생성된 학습데이터를 학습한 결함 검출모델의 점수는 원본 영상만을 학습하였을 때의 점수보다 약 IoU 및 F1-score가 10~15% 증가하였다. 이는 전용 학습 데이터가 구축되지 않은 철도표면 영상에 대해서도 기존 데이터를 이용하여 결함 검출이 상당히 가능함을 증명하는 것이다.

국지예보모델과 위성영상을 이용한 극상림 플럭스 관측의 공간연속면 확장 및 우리나라 산림의 일일 탄소흡수능 격자자료 산출 (Gridded Expansion of Forest Flux Observations and Mapping of Daily CO2 Absorption by the Forests in Korea Using Numerical Weather Prediction Data and Satellite Images)

  • 김근아;조재일;강민석;이보라;김은숙;최철웅;이한림;이태윤;이양원
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1449-1463
    • /
    • 2020
  • 최근 지구온난화에 따른 기후변화 문제의 심각성이 커지면서 국가 온실가스 배출량을 상쇄시킬 수 있는 산림의 탄소흡수에 대한 중요성이 높아지고 있으며, 기후변화협약에 따라 국가의 산림 탄소흡수량을 국지적인 수준에서 과학적이고 정밀하게 산출할 것이 요구되고 있다. 본 연구에서는 위성영상과 일기상 자료를 함께 활용함으로써 산림 광합성의 민감한 일변화를 반영하고, 안정된 산림으로서 대표성을 가지는 광릉숲(Gwangneung Forest) 극상림(climax forest)의 플럭스관측 자료를 참조하여 GPP(gross primary production) 재현 모델을 수립하고, 수종 및 임령에 따른 탄소흡수량 조견표를 적용하여, 우리나라의 국지지역에 최적화된 Tier 2.5 수준의 일일 탄소흡수능 격자자료를 산출하였다. 2013년 1월 1일부터 2015년 12월 31일까지 1,095일간의 실험에서, 일일 기준탄소흡수능(reference amount of CO2 absorption, RACA) 산출 모델은 상관계수 0.948의 높은 정확도를 나타냈으므로, 향후 Tier 3 수준의 일일 실제탄소흡수능(actual amount of CO2 absorption, AACA)을 정확히 산출하기 위해서는 장기간의 상세산림조사 자료와의 결합이 필요할 것이다.

기계학습을 활용한 특허수명 예측 및 영향요인 분석 (Prediction of patent lifespan and analysis of influencing factors using machine learning)

  • 김용우;김민구;김영민
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.147-170
    • /
    • 2022
  • 특허의 사적 가치(private value)를 나타내는 특허수명 추정은 오래전부터 연구되었으나 추정과정에서 선형모델에 의존하는 경우가 대부분이었고, 기계학습 방법을 사용하더라도 변수 간 관계에 대한 해석이나 설명이 부족하였다. 본 연구에서는 특허의 생존 기간이 특허의 가치를 대리한다는 기존 연구결과를 바탕으로 특허 등록 이후의 생존 기간(연장횟수) 예측을 통해 특허의 가치를 추정한다. 이를 위해 1996~2017년까지 미국 특허청(USPTO)에 출원하여 등록된 특허 4,033,414개를 수집하였다. 특허수명을 예측하기 위해 기존 연구에서 특허수명에 영향을 미친다고 밝혀진 특허의 특성, 특허의 소유자 특성, 특허의 발명가 특성을 반영할 수 있는 다양한 변수가 사용되었다. 서로 다른 4개의 모델(Ridge Regression, Random Forest, Feed-forward Neural Network, Gradient Boosting Models)을 생성하고, 모델 학습 과정에서는 5-fold Cross Validation으로 초매개변수 조정이 이루어졌다. 이후 생성된 모델의 성능을 평가하고 특허수명을 추정할 수 있는 예측변수의 상대적 중요도를 제시하였다. 또한, 성능이 우수했던 Gradient Boosting Model을 기반으로 Accumulated Local Effects Plot을 제시하여 예측변수와 특허수명 간 관계를 시각적으로 나타내었다. 마지막으로 모델에 의해서 평가된 개별 특허의 평가 근거를 제시하기 위하여 Kernal SHAP(SHapley Additive exPlanations)을 적용하고 특허평가 시스템에의 적용 가능성을 제시한다. 본 연구는 기존에 특허수명을 추정하는 연구에 누적적으로 기여한다는 점 그리고 선형성을 바탕으로 진행된 기존 특허수명 추정 연구들의 한계를 보완하고 복잡한 비선형 관계를 설명가능한 방식으로 제시하였다는 점에서 학문적 의의가 있다. 또한, 개별 특허의 평가 근거를 도출하는 방법을 소개하고 특허평가 시스템에의 적용 가능성을 제시하였다는 점에서 실무적 의의가 있다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.