• 제목/요약/키워드: (ML) Machine learning

검색결과 277건 처리시간 0.026초

Runoff Prediction from Machine Learning Models Coupled with Empirical Mode Decomposition: A case Study of the Grand River Basin in Canada

  • Parisouj, Peiman;Jun, Changhyun;Nezhad, Somayeh Moghimi;Narimani, Roya
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.136-136
    • /
    • 2022
  • This study investigates the possibility of coupling empirical mode decomposition (EMD) for runoff prediction from machine learning (ML) models. Here, support vector regression (SVR) and convolutional neural network (CNN) were considered for ML algorithms. Precipitation (P), minimum temperature (Tmin), maximum temperature (Tmax) and their intrinsic mode functions (IMF) values were used for input variables at a monthly scale from Jan. 1973 to Dec. 2020 in the Grand river basin, Canada. The support vector machine-recursive feature elimination (SVM-RFE) technique was applied for finding the best combination of predictors among input variables. The results show that the proposed method outperformed the individual performance of SVR and CNN during the training and testing periods in the study area. According to the correlation coefficient (R), the EMD-SVR model outperformed the EMD-CNN model in both training and testing even though the CNN indicated a better performance than the SVR before using IMF values. The EMD-SVR model showed higher improvement in R value (38.7%) than that from the EMD-CNN model (7.1%). It should be noted that the coupled models of EMD-SVR and EMD-CNN represented much higher accuracy in runoff prediction with respect to the considered evaluation indicators, including root mean square error (RMSE) and R values.

  • PDF

커널기계 기법을 이용한 일반화 이분산자기회귀모형 추정 (Estimating GARCH models using kernel machine learning)

  • 황창하;신사임
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.419-425
    • /
    • 2010
  • 커널기계 기법은 최근 대용량 또는 고차원 비선형 자료를 분석하는 방법으로 인기를 많이 얻고 있다. 본 논문에서는 주식시장 수익률의 조건부 변동성을 예측하기 위한 일반화 이분산자기회귀모형을 추정하기 위해 커널기계 기법을 사용한다. 일반화 이분산자기회귀모형은 자료가 정규분포를 따른다고 가정한 후 주로 최대우도법을 사용하여 추정된다. 본 논문에서는 꼬리가 두꺼운 분포를 갖는 금융시계열자료의 변동성을 추정할 때 커널기계 기법이 최대우도법과 서포트벡터기계 보다 더 정확한 예측능력을 가진다는 것을 보이고자 한다.

한국 영화의 산업의 흥행 극대화를 위한 AutoML 기반의 박스오피스 유형 분류 및 예측 모델 (A Box Office Type Classification and Prediction Model Based on Automated Machine Learning for Maximizing the Commercial Success of the Korean Film Industry)

  • 임수빈;문지훈;노승민
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.45-55
    • /
    • 2023
  • 본 논문은 한국 영화 산업의 의사 결정자들이 온라인상에서의 영화의 흥행을 극대화할 수 있도록 지원하는 데 도움을 주고자 역대 박스오피스 영화를 수집하여 영화를 유형별로 군집화하고, 유형별 온라인 박스오피스를 예측하는 모델을 제시한다. 이를 위해 먼저 다양한 특성을 고려하여 영화의 흥행 요인을 식별하고, 계산 효율성을 고려하여 특성 차원을 줄인다. 다음으로 영화의 유형을 체계적으로 분류하고, 유형별 온라인 박스오피스를 예측하며 흥행에 이바지한 요소를 분석한다. 이때, AutoML (Automated Machine Learning) 기법을 활용함으로써 다양한 기계학습 알고리즘을 자동으로 구성하고, 문제에 최적화된 알고리즘을 선택함으로써 여러 알고리즘을 쉽게 시도 및 선택한다. 이를 통해 정보화된 판단을 내릴 수 있는 기반을 제공하고, 영화 산업의 더 나은 성과를 도모하는 데 이바지할 것으로 기대할 수 있다.

  • PDF

Forecasting Fish Import Using Deep Learning: A Comprehensive Analysis of Two Different Fish Varieties in South Korea

  • Abhishek Chaudhary;Sunoh Choi
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.134-144
    • /
    • 2023
  • Nowadays, Deep Learning (DL) technology is being used in several government departments. South Korea imports a lot of seafood. If the demand for fishery products is not accurately predicted, then there will be a shortage of fishery products and the price of the fishery product may rise sharply. So, South Korea's Ministry of Ocean and Fisheries is attempting to accurately predict seafood imports using deep learning. This paper introduces the solution for the fish import prediction in South Korea using the Long Short-Term Memory (LSTM) method. It was found that there was a huge gap between the sum of consumption and export against the sum of production especially in the case of two species that are Hairtail and Pollock. An import prediction is suggested in this research to fill the gap with some advanced Deep Learning methods. This research focuses on import prediction using Machine Learning (ML) and Deep Learning methods to predict the import amount more precisely. For the prediction, two Deep Learning methods were chosen which are Artificial Neural Network (ANN) and Long Short-Term Memory (LSTM). Moreover, the Machine Learning method was also selected for the comparison between the DL and ML. Root Mean Square Error (RMSE) was selected for the error measurement which shows the difference between the predicted and actual values. The results obtained were compared with the average RMSE scores and in terms of percentage. It was found that the LSTM has the lowest RMSE score which showed the prediction with higher accuracy. Meanwhile, ML's RMSE score was higher which shows lower accuracy in prediction. Moreover, Google Trend Search data was used as a new feature to find its impact on prediction outcomes. It was found that it had a positive impact on results as the RMSE values were lowered, increasing the accuracy of the prediction.

KISTI-ML 플랫폼: 과학기술 데이터를 위한 커뮤니티 기반 AI 모델 개발 도구 (KISTI-ML Platform: A Community-based Rapid AI Model Development Tool for Scientific Data)

  • 이정철;안선일
    • 인터넷정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.73-84
    • /
    • 2019
  • 최근 서비스로서의 머신러닝(MLaaS) 개념은 데이터 자체를 제외하고 네트워크 서버, 스토리지 또는 데이터 과학자 없이도 생산적인 서비스 모델을 구축할 수 있다는 점에서 기계학습을 다루는 대부분의 산업 분야와 연구 그룹들의 많은 관심을 받고 있다. 그러나 과학 분야에서는 양질의 빅데이터를 확보하는 가정 자체가 커다란 도전이 된다. 즉, 연구자 간 연구 결과물의 공유가 쉽지 않을 뿐 아니라 과학기술 데이터의 비정형성 문제를 해결해야하는 문제가 선행된다. 본 논문에서 제안된 KISTI-ML 플랫폼은 과학기술 데이터를 위한 AI 모델 고속 개발 도구로서, 머신러닝에 익숙하지 않은 연구자들을 위해 웹 기반 GUI 인터페이스를 제공하고 연구자는 자신의 데이터를 이용하여 머신러닝 코드를 손쉽게 생성하고 구동할 수 있다. 또한 승인된 커뮤니티 멤버들을 중심으로 데이터셋 및 특징 추출에 사용되는 데이터전처리, 학습 네트워크 설계 등이 포함되는 프로그래밍 코드를 공유할 수 있는 환경을 제공한다.

Cognitive Impairment Prediction Model Using AutoML and Lifelog

  • Hyunchul Choi;Chiho Yoon;Sae Bom Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.53-63
    • /
    • 2023
  • 본 연구는 고령층의 치매 예방을 위한 선별검사 수단으로 자동화된 기계학습(AutoML)을 활용하여 인지기능 장애 예측모형을 개발하였다. 연구 데이터는 한국지능정보사회진흥원의 '치매 고위험군 웨어러블 라이프로그 데이터'를 활용하였다. 분석은 구글 코랩 환경에서 PyCaret 3.0.0이 사용하여 우수한 분류성능을 보여주는 5개의 모형을 선정하고 앙상블 학습을 진행하여 모형을 통합한 뒤, 최종 성능평가를 진행하였다. 연구결과, Voting Classifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, Random Forest Classifier 모형 순으로 높은 예측성능을 보이는 것으로 나타났다. 특히 '수면 중 분당 평균 호흡수'와 '수면 중 분당 평균 심박수'가 가장 중요한 특성변수(feature)로 확인되었다. 본 연구의 결과는 고령층의 인지기능 장애를 보다 효과적으로 관리하고 예방하기 위한 수단으로 기계학습과 라이프로그의 활용 가능성에 대한 고려를 시사한다.

SHAP 분석 기반의 넙치 질병 분류 입력 파라미터 최적화 (Optimizing Input Parameters of Paralichthys olivaceus Disease Classification based on SHAP Analysis)

  • 조경원;백란
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1331-1336
    • /
    • 2023
  • 머신러닝을 이용한 텍스트 기반 어류 질병 분류에서 머신러닝 모델의 입력 파라미터가 너무 많은 문제가 존재하지만, 성능의 문제로 임의로 입력 파라미터를 줄일 수 없다. 본 논문에서는 이 문제를 해결하고자 SHAP 분석 기법을 활용해 넙치 질병 분류에 특화된 입력 파라미터 최적화 방안을 제시한다. 제안한 방법은 SHAP 분석 기법을 적용하여 넙치 질병 문진표에서 추출한 질병 정보의 데이터 전처리와 AutoML을 활용한 머신러닝 모델 평가 과정을 포함한다. 이를 통해 AutoML의 입력 파라미터의 성능을 평가하고, 최적의 입력 파라미터 조합을 도출한다. 본 연구에서 제안 방법은 필요한 입력 파라미터 수를 감소시키면서도 기존의 성능을 유지할 수 있을 것으로 기대되며, 이는 텍스트 기반 넙치 질병 분류의 효율성 및 실용성을 높이는 데 기여할 것이다.

Understanding Interactive and Explainable Feedback for Supporting Non-Experts with Data Preparation for Building a Deep Learning Model

  • Kim, Yeonji;Lee, Kyungyeon;Oh, Uran
    • International journal of advanced smart convergence
    • /
    • 제9권2호
    • /
    • pp.90-104
    • /
    • 2020
  • It is difficult for non-experts to build machine learning (ML) models at the level that satisfies their needs. Deep learning models are even more challenging because it is unclear how to improve the model, and a trial-and-error approach is not feasible since training these models are time-consuming. To assist these novice users, we examined how interactive and explainable feedback while training a deep learning network can contribute to model performance and users' satisfaction, focusing on the data preparation process. We conducted a user study with 31 participants without expertise, where they were asked to improve the accuracy of a deep learning model, varying feedback conditions. While no significant performance gain was observed, we identified potential barriers during the process and found that interactive and explainable feedback provide complementary benefits for improving users' understanding of ML. We conclude with implications for designing an interface for building ML models for novice users.

머신러닝 기법을 활용한 낙동강 하구 염분농도 예측 (Nakdong River Estuary Salinity Prediction Using Machine Learning Methods)

  • 이호준;조민규;천세진;한정규
    • 스마트미디어저널
    • /
    • 제11권2호
    • /
    • pp.31-38
    • /
    • 2022
  • 하천의 염분 변화를 신속히 예측하는 것은 염분 침투로 인한 농업, 생태계의 피해를 예측하고 재해 방지 대책을 수립하기 위해서 중요한 작업이다. 머신러닝 기법은 물리 기반 수리 모델에 비해 계산량이 훨씬 적기 때문에, 비교적 짧은 시간에 염분농도를 예측 가능하여 물리 기반 수리 모델의 보완 기법으로 연구되고 있다. 해외에서는 머신러닝 기법 기반 염분 예측 연구들이 활발히 연구되고 있으나, 대한민국의 공공데이터에 머신러닝 기법을 적용한 연구는 충분치 않다. 낙동강 하구의 환경 정보에 관한 공공데이터와 함께, 본 연구는 여러 종류의 머신러닝 기법의 염분농도에 대한 예측 성능을 측정하였다. 실험 결과에서, 결정 트리 기반의 LightGBM 알고리즘은 평균 RMSE 0.37의 예측 정확도와 타 알고리즘 대비 2-20배 빠른 학습 속도를 보여주었다. 따라서 국내 하천의 염분농도 예측에도 머신러닝 기법을 적용할 수 있다고 판단된다.

Finding Unexpected Test Accuracy by Cross Validation in Machine Learning

  • Yoon, Hoijin
    • International Journal of Computer Science & Network Security
    • /
    • 제21권12spc호
    • /
    • pp.549-555
    • /
    • 2021
  • Machine Learning(ML) splits data into 3 parts, which are usually 60% for training, 20% for validation, and 20% for testing. It just splits quantitatively instead of selecting each set of data by a criterion, which is very important concept for the adequacy of test data. ML measures a model's accuracy by applying a set of validation data, and revises the model until the validation accuracy reaches on a certain level. After the validation process, the complete model is tested with the set of test data, which are not seen by the model yet. If the set of test data covers the model's attributes well, the test accuracy will be close to the validation accuracy of the model. To make sure that ML's set of test data works adequately, we design an experiment and see if the test accuracy of model is always close to its validation adequacy as expected. The experiment builds 100 different SVM models for each of six data sets published in UCI ML repository. From the test accuracy and its validation accuracy of 600 cases, we find some unexpected cases, where the test accuracy is very different from its validation accuracy. Consequently, it is not always true that ML's set of test data is adequate to assure a model's quality.