DOI QR코드

DOI QR Code

A Study on the Prediction Model for Bioactive Components of Cnidium officinale Makino according to Climate Change using Machine Learning

머신러닝을 이용한 기후변화에 따른 천궁 생리 활성 성분 예측 모델 연구

  • 이현조 (한국농수산대학교 교양학부) ;
  • 구현정 (한국농수산대학교 작물.산림학부) ;
  • 이경철 (한국농수산대학교 작물.산림학부) ;
  • 주원균 (한국과학기술정보연구원 데이터기반문제해결연구단 ) ;
  • 채철주 (한국농수산대학교 교양학부)
  • Received : 2023.10.31
  • Accepted : 2023.11.13
  • Published : 2023.11.30

Abstract

Climate change has emerged as a global problem, with frequent temperature increases, droughts, and floods, and it is predicted that it will have a great impact on the characteristics and productivity of crops. Cnidium officinale is used not only as traditionally used herbal medicines, but also as various industrial raw materials such as health functional foods, natural medicines, and living materials, but productivity is decreasing due to threats such as continuous crop damage and climate change. Therefore, this paper proposes a model that can predict the physiologically active ingredient index according to the climate change scenario of Cnidium officinale, a representative medicinal crop vulnerable to climate change. In this paper, data was first augmented using the CTGAN algorithm to solve the problem of data imbalance in the collection of environment information, physiological reactions, and physiological active ingredient information. Column Shape and Column Pair Trends were used to measure augmented data quality, and overall quality of 88% was achieved on average. In addition, five models RF, SVR, XGBoost, AdaBoost, and LightBGM were used to predict phenol and flavonoid content by dividing them into ground and underground using augmented data. As a result of model evaluation, the XGBoost model showed the best performance in predicting the physiological active ingredients of the sacrum, and it was confirmed to be about twice as accurate as the SVR model.

최근 기온 상승, 가뭄, 홍수 등 기후변화가 세계적인 문제로 대두되고 있으며, 농업분야에서는 작물의 특성과 생산성에 많은 영향을 미칠 것으로 예측하고 있다. 천궁은 전통적으로 사용되는 한약재뿐만 아니라 건강기능식품, 천연물의약품, 생활소재 등 다양한 산업적 원료로 활용되고 있으나, 연작장해, 기후변화 등 위협 요인으로 인한 생산성이 감소되고 있다. 그러므로 본 논문에서는 기후변화에 취약한 대표 약용 작물인 천궁의 기후변화 시나리오에 따른 생리 활성 성분 지표를 예측할 수 있는 모델을 제안한다. 먼저 기상 정보와 생리 반응, 생리 활성 성분 정보의 수집 데이터 불균형 문제를 해결하기 위해 CTGAN 알고리즘을 이용하여 데이터를 증강하였다. 증강 데이터 품질 측정을 위해 Column Shape, Column Pair Trends를 이용하였으며 평균 88% Overall Quality를 달성하였다. 증강 데이터를 이용하여 지상부와 지하부로 나누어 페놀과 플라보노이드 함량을 예측하기 위해 5가지 모델 RF, SVR, XGBoost, AdaBoost, LightBGM을 이용하여 평가하였다. 모델 성능 평가 결과 XGBoost 모델이 천궁 생리 활성 성분 예측에 가장 우수한 성능을 보였으며, SVR 모델 대비 약 2배 정도의 향상된 정확도를 확인할 수 있었다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 한국과학기술정보연구원(J-23-NB-C02-S01)의 지원을 받아 수행되었습니다.

References

  1. 조한진, "디지털 농업을 위한 딥러닝 기반의 환경 인자 추천 기술 연구" 스마트미디어저널, 제12권, 제5호, 65-72쪽, 2023년 6월 
  2. 임영훈 등, "국내외 스마트 농촌 관련 정책동향과 핵심과제 도출-스마트 인프라 통합정책을 중심으로." 한국농촌경제연구원 기본연구보고서, 1-128쪽, 2019년 
  3. Kim, Joo-Tae, and Jong-Soo Han. "Agricultural management innovation through the adoption of internet of things: Case of smart farm," Journal of Digital Convergence, vol. 15, no 3, pp. 65-75, Mar. 2017.  https://doi.org/10.14400/JDC.2017.15.3.65
  4. 기후변화 시나리오(2023), https://www.weather.go.kr/w/obs-climate/climate/climate-change/cliniate-change-scenario.do(accessed Oct., 30, 2023). 
  5. 봉현수, 오민식, "유전자 발현량 데이터 증대를 위한 Conditional VAE 기반 생성 모델," 방송공학회논문지, 제28권, 제3호, 275-284쪽, 2023년 5월  https://doi.org/10.5909/JBE.2023.28.3.275
  6. 이재승 등, "기상 데이터 불균형 문제를 고려한 CTGAN 오버샘플링 기반의 태양광 발전량 예측 기법" 한국정보과학회 학술발표논문집, 1379-1381쪽, 2022년 12월 
  7. Xu, Lei, et al. "Modeling tabular data using condition al gan," Advances in neural information processing systems, 2019. 
  8. Kolmogorov - Smirnov test(2023), https:/en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test(accessed Oct., 30, 2023). 
  9. Cumulative distribution function(2023), https://en.wikipedia.org/wiki/Cumulative_distribution_function(accessed Oct., 30, 2023). 
  10. Rodriguez-Galiano, V., et al., "Machine learning predictive models for mineral prospectivity: An evaluation of neural networks, random forest, regression trees and support vector machines," Ore Geology Reviews, vol. 71, pp. 804-818, 2015.  https://doi.org/10.1016/j.oregeorev.2015.01.001
  11. Zhang, Fan, and Lauren J. O'Donnell, "Support vector regression," Machine learning, Academic Press, pp. 123-140, 2020. 
  12. Chen, Tianqi, and Carlos Guestrin, "Xgboost: A seal able tree boosting system," Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, pp. 785-794, Aug. 2016. 
  13. Schapire, Robert E, "Explaining adaboost" Empirical Inference: Festschrift in Honor of Vladimir N. Vapnik. Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 37-52, 2013. 
  14. Ke, Guolin, et al., "Lightgbm: A highly efficient gradient boosting decision tree," Advances in neural information processing systems, vol. 30, pp. 3149-3157, Dec. 2017. 
  15. Wang, Weijie, and Yanmin Lu, "Analysis of the me an absolute error (MAE) and the root mean square error (RMSE) in assessing rounding model," IOP conference series: materials science and engineering, IOP Publishing, vol. 324. 2018. 
  16. Chicco, Davide, Matthijs J. Warrens, and Giuseppe Jurman, "The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation" Peer j Computer Science, vol. 7, 2021. 
  17. Basheer, Shakila, Rincy Merlin Mathew, and M. Shyamala Devi, "Ensembling coalesce of logistic regression classifier for heart disease prediction using machine learning," International Journal of Innovative Technology and Exploring Engineering, vol. 8, no. 12, pp. 127-133, 2019.  https://doi.org/10.35940/ijitee.L3473.1081219
  18. Mr, Adil Aslam, et al, "Imputation by feature importance (IBFI): A methodology to envelop machine learning method for imputing missing patterns in time series data," PloS one, vol. 17, no. 1, e0262131, 2022. 
  19. Hall, Mark A, "Correlation-based feature selection of discrete and numeric class machine learning," 2000. 
  20. Chatterjee, Sourav, "A new coefficient of correlation. Journal of the American, Statistical Association 116.5 36, pp. 2009-2022, 2021. https://doi.org/10.1080/01621459.2020.1758115