• Title/Summary/Keyword: 랜덤포레스트기법

Search Result 130, Processing Time 0.029 seconds

A Study on the Analysis of RocksDB Parameters Based on Machine Learning to Improve Database Performance (데이터베이스 성능 향상을 위한 기계학습 기반의 RocksDB 파라미터 분석 연구)

  • Jin, Huijun;Choi, Won Gi;Choi, Jonghwan;Sung, Hanseung;Park, Sanghyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.69-72
    • /
    • 2020
  • Log Structured Merged Tree(LSM-Tree)구조를 사용하여 빠른 데이터 쓰기 성능을 보유한 RocksDB에는 쓰기 증폭과 공간 증폭 현상이 발생한다. 쓰기 증폭은 과도한 쓰기 연산을 유발하여 데이터 처리 성능 저하와 플래시 메모리 기반 장치의 수명 저하를 초래하며, 공간 증폭은 데이터 저장 공간 점유로 인한 저장 공간 부족 문제를 야기한다. 본 논문에서는 쓰기 증폭과 공간 증폭 완화를 위해 RocksDB 의 성능에 영향 주는 주요 파라미터를 추출하고, 기계학습 기법인 랜덤 포레스트를 사용하여 추출한 파라미터가 쓰기 증폭과 공간 증폭에 미치는 영향을 분석하였다. 실험결과 쓰기 증폭과 공간 증폭에 영향을 많이 주는 주요 요소를 선별하였고 다른 파라미터에 대비해서 성능 격차가 61.7% 더 나타낸 것을 발견하였다.

A Review of the Methodology for Sophisticated Data Classification (정교한 데이터 분류를 위한 방법론의 고찰)

  • Kim, Seung Jae;Kim, Sung Hwan
    • Journal of Integrative Natural Science
    • /
    • v.14 no.1
    • /
    • pp.27-34
    • /
    • 2021
  • 전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF)기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.

Study on water quality prediction in water treatment plants using AI techniques (AI 기법을 활용한 정수장 수질예측에 관한 연구)

  • Lee, Seungmin;Kang, Yujin;Song, Jinwoo;Kim, Juhwan;Kim, Hung Soo;Kim, Soojun
    • Journal of Korea Water Resources Association
    • /
    • v.57 no.3
    • /
    • pp.151-164
    • /
    • 2024
  • In water treatment plants supplying potable water, the management of chlorine concentration in water treatment processes involving pre-chlorination or intermediate chlorination requires process control. To address this, research has been conducted on water quality prediction techniques utilizing AI technology. This study developed an AI-based predictive model for automating the process control of chlorine disinfection, targeting the prediction of residual chlorine concentration downstream of sedimentation basins in water treatment processes. The AI-based model, which learns from past water quality observation data to predict future water quality, offers a simpler and more efficient approach compared to complex physicochemical and biological water quality models. The model was tested by predicting the residual chlorine concentration downstream of the sedimentation basins at Plant, using multiple regression models and AI-based models like Random Forest and LSTM, and the results were compared. For optimal prediction of residual chlorine concentration, the input-output structure of the AI model included the residual chlorine concentration upstream of the sedimentation basin, turbidity, pH, water temperature, electrical conductivity, inflow of raw water, alkalinity, NH3, etc. as independent variables, and the desired residual chlorine concentration of the effluent from the sedimentation basin as the dependent variable. The independent variables were selected from observable data at the water treatment plant, which are influential on the residual chlorine concentration downstream of the sedimentation basin. The analysis showed that, for Plant, the model based on Random Forest had the lowest error compared to multiple regression models, neural network models, model trees, and other Random Forest models. The optimal predicted residual chlorine concentration downstream of the sedimentation basin presented in this study is expected to enable real-time control of chlorine dosing in previous treatment stages, thereby enhancing water treatment efficiency and reducing chemical costs.

Estimation of River Flow Data Using Machine Learning (머신러닝 기법을 이용한 유량 자료 생산 방법)

  • Kang, Noel;Lee, Ji Hun;Lee, Jung Hoon;Lee, Chungdae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.261-261
    • /
    • 2020
  • 물관리의 기본이 되는 연속적인 유량 자료 확보를 위해서는 정확도 높은 수위-유량 관계 곡선식 개발이 필수적이다. 수위-유량 관계곡선식은 모든 수문시설 설계의 기초가 되며 홍수, 가뭄 등 물재해 대응을 위해서도 중요한 의미를 가지고 있다. 그러나 일반적으로 유량 측정은 많은 비용과 시간이 들고, 식생성장, 단면변화 등의 통제특성(control)이 변함에 따라 구간분리, 기간분리와 같은 비선형적인 양상이 나타나 자료 해석에 어려움이 존재한다. 특히, 국내 하천의 경우 자연적 및 인위적인 환경 변화가 다양하여 지점 및 기간에 따라 세밀한 분석이 요구된다. 머신러닝(Machine Learning)이란 데이터를 통해 컴퓨터가 스스로 학습하여 모델을 구축하고 성능을 향상시키는 일련의 과정을 뜻한다. 기존의 수위-유량 관계곡선식은 개발자의 판단에 의해 데이터의 종류와 기간 등을 설정하여 회귀식의 파라미터를 산출한다면, 머신러닝은 유효한 전체 데이터를 이용해 스스로 학습하여 자료 간 상관성을 찾아내 모델을 구축하고 성능을 지속적으로 향상 시킬 수 있다. 머신러닝은 충분한 수문자료가 확보되었다는 전제 하에 복잡하고 가변적인 수자원 환경을 반영하여 유량 추정의 정확도를 지속적으로 향상시킬 수 있다는 이점을 가지고 있다. 본 연구는 머신러닝의 대표적인 알고리즘들을 활용하여 유량을 추정하는 모델을 구축하고 성능을 비교·분석하였다. 대상지역은 안정적인 수량을 확보하고 있는 한강수계의 거운교 지점이며, 사용자료는 2010~2018년의 시간, 수위, 유량, 수면폭 등 이다. 프로그램은 파이썬을 기반으로 한 머신러닝 라이브러리인 사이킷런(sklearn)을 사용하였고 알고리즘은 랜덤포레스트 회귀, 의사결정트리, KNN(K-Nearest Neighbor), rgboost을 적용하였다. 학습(train) 데이터는 입력자료 종류별로 조합하여 6개의 세트로 구분하여 모델을 구축하였고, 이를 적용해 검증(test) 데이터를 RMSE(Roog Mean Square Error)로 평가하였다. 그 결과 모델 및 입력 자료의 조합에 따라 3.67~171.46로 다소 넓은 범위의 값이 도출되었다. 그 중 가장 우수한 유형은 수위, 연도, 수면폭 3개의 입력자료를 조합하여 랜덤포레스트 회귀 모델에 적용한 경우이다. 비교를 위해 동일한 검증 데이터를 한국수문조사연보(2018년) 내거운교 지점의 수위별 수위-유량 곡선식을 이용해 유량을 추정한 결과 RMSE가 3.76이 산출되어, 머신러닝이 세분화된 수위-유량 곡선식과 비슷한 수준까지 성능을 내는 것으로 확인되었다. 본 연구는 양질의 유량자료 생산을 위해 기 구축된 수문자료를 기반으로 머신러닝 기법의 적용 가능성을 검토한 기초 연구로써, 국내 효율적인 수문자료 측정 및 수위-유량 곡선 산출에 도움이 될 수 있을 것으로 판단된다. 향후 수자원 환경 및 통제특성에 영향을 미치는 다양한 영향변수를 파악하기 위해 기상자료, 취수량 등의 입력 자료를 적용할 필요가 있으며, 머신러닝 내 비지도학습인 딥러닝과 같은 보다 정교한 모델에 대한 추가적인 연구도 수행되어야 할 것이다.

  • PDF

Study on Soil Moisture Predictability using Machine Learning Technique (머신러닝 기법을 활용한 토양수분 예측 가능성 연구)

  • Jo, Bongjun;Choi, Wanmin;Kim, Youngdae;kim, Kisung;Kim, Jonggun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.248-248
    • /
    • 2020
  • 토양수분은 증발산, 유출, 침투 등 물수지 요소들과 밀접한 연관이 있는 주요한 변수 중에 하나이다. 토양수분의 정도는 토양의 특성, 토지이용 형태, 기상 상태 등에 따라 공간적으로 상이하며, 특히 기상 상태에 따라 시간적 변동성을 보이고 있다. 기존 토양수분 측정은 토양시료 채취를 통한 실내 실험 측정과 측정 장비를 통한 현장 조사 방법이 있으나 시간적, 경제적 한계점이 있으며, 원격탐사 기법은 공간적으로 넓은 범위를 포함하지만 시간 해상도가 낮은 단점이 있다. 또한, 모델링을 통한 토양수분 예측 기술은 전문적인 지식이 요구되며, 복잡한 입력자료의 구축이 요구된다. 최근 머신러닝 기법은 수많은 자료 학습을 통해 사용자가 원하는 출력값을 도출하는데 널리 활용되고 있다. 이에 본 연구에서는 토양수분과 연관된 다양한 기상 인자들(강수량, 풍속, 습도 등)을 활용하여 머신러닝기법의 반복학습을 통한 토양수분의 예측 가능성을 분석하고자 한다. 이를 위해 시공간적으로 토양수분 실측 자료가 잘 구축되어 있는 청미천과 설마천 유역을 대상으로 머신러닝 기법을 적용하였다. 두 대상지에서 2008년~2012년 수문자료를 확보하였으며, 기상자료는 기상자료개방포털과 WAMIS를 통해 자료를 확보하였다. 토양수분 자료와 기상자료를 머신러닝 알고리즘을 통해 학습하고 2012년 기상 자료를 바탕으로 토양수분을 예측하였다. 사용되는 머신러닝 기법은 의사결정 나무(Decision Tree), 신경망(Multi Layer Perceptron, MLP), K-최근접 이웃(K-Nearest Neighbors, KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), 그래디언트 부스팅 (Gradient Boosting)이다. 토양수분과 기상인자 간의 상관관계를 분석하기 위해 히트맵(Heat Map)을 이용하였다. 히트맵 분석 결과 토양수분의 시간적 변동은 다양한 기상 자료 중 강수량과 상대습도가 가장 큰 영향력을 보여주었다. 또한 다양한 기상 인자 기반 머신러닝 기법 적용 결과에서는 두 지역 모두 신경망(MLP) 기법을 제외한 모든 기법이 전반적으로 실측값과 유사한 형태를 보였으며 비교 그래프에서도 실측값과 예측 값이 유사한 추세를 나타냈다. 따라서 상관관계있는 과거 기상자료를 통해 머신러닝 기법 기반 토양수분의 시간적 변동 예측이 가능할 것으로 판단된다.

  • PDF

A Study on the Number of Domestic Food Delivery Services (국내 배달음식 이용건수 분석 및 예측)

  • Kwon, Jaeyoung;Kim, Sinae;Park, Eungee;Song, Jongwoo
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.5
    • /
    • pp.977-990
    • /
    • 2015
  • Food delivery services are well developed in the Republic of Korea, The increase of one person households and the success of app applications influence delivery services these days. We consider a prediction model for the food delivery service based on weather and dates to predict the number of food delivery services in 2014 using various data mining techniques. We use linear regression, random forest, gradient boosting, support vector machines, neural networks, and logistic regression to find the best prediction model. There are four categories of food delivery services and we consider two methods. For the first method, we estimate the total number of delivery services and the posterior probabilities of each delivery service. For the second method, we use different models for each category and combine them to estimate the total number of delivery services. The neural network and linear regression model perform best in the first method, this is followed by the neural network which is the best for the second method. The result shows that we can estimate the number of deliveries accurately based on dates and weather information.

A Classification Model for Customs Clearance Inspection Results of Imported Aquatic Products Using Machine Learning Techniques (머신러닝 기법을 활용한 수입 수산물 통관검사결과 분류 모델)

  • Ji Seong Eom;Lee Kyung Hee;Wan-Sup Cho
    • The Journal of Bigdata
    • /
    • v.8 no.1
    • /
    • pp.157-165
    • /
    • 2023
  • Seafood is a major source of protein in many countries and its consumption is increasing. In Korea, consumption of seafood is increasing, but self-sufficiency rate is decreasing, and the importance of safety management is increasing as the amount of imported seafood increases. There are hundreds of species of aquatic products imported into Korea from over 110 countries, and there is a limit to relying only on the experience of inspectors for safety management of imported aquatic products. Based on the data, a model that can predict the customs inspection results of imported aquatic products is developed, and a machine learning classification model that determines the non-conformity of aquatic products when an import declaration is submitted is created. As a result of customs inspection of imported marine products, the nonconformity rate is less than 1%, which is very low imbalanced data. Therefore, a sampling method that can complement these characteristics was comparatively studied, and a preprocessing method that can interpret the classification result was applied. Among various machine learning-based classification models, Random Forest and XGBoost showed good performance. The model that predicts both compliance and non-conformance well as a result of the clearance inspection is the basic random forest model to which ADASYN and one-hot encoding are applied, and has an accuracy of 99.88%, precision of 99.87%, recall of 99.89%, and AUC of 99.88%. XGBoost is the most stable model with all indicators exceeding 90% regardless of oversampling and encoding type.

Deep Learning based Scrapbox Accumulated Status Measuring

  • Seo, Ye-In;Jeong, Eui-Han;Kim, Dong-Ju
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.3
    • /
    • pp.27-32
    • /
    • 2020
  • In this paper, we propose an algorithm to measure the accumulated status of scrap boxes where metal scraps are accumulated. The accumulated status measuring is defined as a multi-class classification problem, and the method with deep learning classify the accumulated status using only the scrap box image. The learning was conducted by the Transfer Learning method, and the deep learning model was NASNet-A. In order to improve the accuracy of the model, we combined the Random Forest classifier with the trained NASNet-A and improved the model through post-processing. Testing with 4,195 data collected in the field showed 55% accuracy when only NASNet-A was applied, and the proposed method, NASNet with Random Forest, improved the accuracy by 88%.

Development of a Prediction Model and Correlation Analysis of Weather-induced Flight Delay at Jeju International Airport Using Machine Learning Techniques (머신러닝(Machine Learning) 기법을 활용한 제주국제공항의 운항 지연과의 상관관계 분석 및 지연 여부 예측모형 개발 - 기상을 중심으로 -)

  • Lee, Choongsub;Paing, Zin Min;Yeo, Hyemin;Kim, Dongsin;Baik, Hojong
    • Journal of the Korean Society for Aviation and Aeronautics
    • /
    • v.29 no.4
    • /
    • pp.1-20
    • /
    • 2021
  • Due to the recent rapid increase in passenger and cargo air transport demand, the capacity of Jeju International Airport has been approaching its limit. Even though in COVID-19 crisis which has started from Nov 2019, Jeju International Airport still suffers from strong demand in terms of air passenger and cargo transportation. However, it is an undeniable fact that the delay has also increased in Jeju International Airport. In this study, we analyze the correlation between weather and delayed departure operation based on both datum collected from the historical airline operation information and aviation weather statistics of Jeju International Airport. Adopting machine learning techniques, we then analyze weather condition Jeju International Airport and construct a delay prediction model. The model presented in this study is expected to play a useful role to predict aircraft departure delay and contribute to enhance aircraft operation efficiency and punctuality in the Jeju International Airport.

Generation of the bias-corrected satellite precipitation based on machine learning using multiple satellite precipitation products (다중 위성 강수자료를 이용한 머신러닝 기반 최적 위성 강수자료 생성)

  • Jung, Sung Ho;Nguyen, Van Giang;Kim, Young Hun;Lee, Gi Ha
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.40-40
    • /
    • 2021
  • 수재해 방지를 위한 수문해석 모형에서 정량적인 강수자료의 역할은 매우 중요하다. 최근에는 기후변화로 인한 국지성 집중호우 등 돌발 강수의 빈도가 증가하고 있어 지상에 설치된 우량계보다 시·공간적 변동성을 반영할 수 있는 격자형 위성 강수자료의 활용성이 커지고 있다. 하지만 위성강수자료는 관측 시에 대기의 상태 또는 위성별 관측 센서, 공간적 스케일 차이 등에 의해 실제 내린 강수와의 편의가 존재한다. 이를 해결하기 위해 지점 강수자료를 이용한 통계적, 지형정보학적 상세화 기법이 적용되고 있으나, 대부분의 연구에서 강수자료의 양적 보정만을 목적으로 수행되었다. 본 연구에서는 머신러닝 기반의 랜덤포레스트(random forest) 모델을 사용하여 다중위성 강수자료(CHIRPSv2, CMORPH, GSMaP, TRMMv7)와 기상청에서 제공하는 AWS, ASOS 지점 강수를 사용하여 최적 위성강수자료를 생성 후 각 위성강수자료와 비교·분석하였다. 2003년에서 2017년까지의 각 위성강수자료를 수집하여 같은 공간 스케일로 전처리한 뒤 모델에 입력하였으며 AWS 강수자료는 훈련, ASOS 강수자료는 검증에 이용되었다. 그 결과, 생성된 최적 위성강수자료는 각 위성강수자료보다 지점강수와의 편의가 줄고 높은 상관관계를 나타내고 있다. 이는 앞으로 사용될 위성강수자료의 시·공간적 보정 및 단기예측에 활용할 수 있으며, 특히 원격탐사자료의 의존도가 높은 미계측 대유역 수문해석에 정량적인 강수자료를 제공할 수 있을 것으로 판단된다.

  • PDF