• 제목/요약/키워드: random forest algorithm

검색결과 221건 처리시간 0.027초

함수 단위 N-gram 비교를 통한 Spectre 공격 바이너리 식별 방법 (Detecting Spectre Malware Binary through Function Level N-gram Comparison)

  • 김문선;양희동;김광준;이만희
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1043-1052
    • /
    • 2020
  • 시그니처 기반 악성코드 탐지는 제로데이 취약점을 이용하거나 변형된 악성코드를 탐지하지 못하는 한계가 있다. 이를 극복하기 위해 N-gram을 이용하여 악성코드를 분류하는 연구들이 활발히 수행되고 있다. 기존 연구들은 높은 정확도로 악성코드를 분류할 수 있지만, Spectre와 같이 짧은 코드로 동작하는 악성코드는 식별하기 어렵다. 따라서 본 논문에서는 Spectre 공격 바이너리를 효과적으로 식별할 수 있도록 함수 단위 N-gram 비교 알고리즘을 제안한다. 본 알고리즘의 유효성을 판단하기 위해 165개의 정상 바이너리와 25개의 악성 바이너리에서 추출한 N-gram 데이터셋을 Random Forest 모델로 학습했다. 모델 성능 실험 결과, 25개의 Spectre 악성 함수의 바이너리를 99.99% 정확도로 식별했으며, f1-score는 92%로 나타났다.

A Design and Implement of Efficient Agricultural Product Price Prediction Model

  • Im, Jung-Ju;Kim, Tae-Wan;Lim, Ji-Seoup;Kim, Jun-Ho;Yoo, Tae-Yong;Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.29-36
    • /
    • 2022
  • 본 논문에서는 DACON에서 제공하는 데이터셋을 기반으로 한 효과적인 농산물 가격 예측 모델을 제안한다. 이 모델은 XGBoost와 CatBoost 이며 Gradient Boosting 계열의 알고리즘으로써 기존의 Logistic Regression과 Random Forest보다 평균정확도 및 수행시간이 우수하다. 이러한 장점들을 기반으로 농산물의 이전 가격들을 기반으로 1주, 2주, 4주뒤 가격을 예측하는 머신러닝 모델을 설계한다. XGBoost 모델은 회귀 방식의 모델링인 XGBoost Regressor 라이브러리를 사용하여 하이퍼 파라미터를 조정함으로써 가장 우수한 성능을 도출할 수 있다. CatBoost 모델은 CatBoost Regressor를 사용하여 모델을 구현한다. 구현한 모델은 DACON에서 제공하는 API를 이용하여 검증하고, 모델 별 성능평가를 실시한다. XGBoost는 자체적인 과적합 규제를 진행하기 때문에 적은 데이터셋에도 불구하고 우수한 성능을 도출하지만, 학습시간, 예측시간 등 시간적인 성능 면에서는 LGBM보다 성능이 낮다는 것을 알 수 있었다.

Predicting the CPT-based pile set-up parameters using HHO-RF and PSO-RF hybrid models

  • Yun Dawei;Zheng Bing;Gu Bingbing;Gao Xibo;Behnaz Razzaghzadeh
    • Structural Engineering and Mechanics
    • /
    • 제86권5호
    • /
    • pp.673-686
    • /
    • 2023
  • Determining the properties of pile from cone penetration test (CPT) is costly, and need several in-situ tests. At the present study, two novel hybrid learning models, namely PSO-RF and HHO-RF, which are an amalgamation of random forest (RF) with particle swarm optimization (PSO) and Harris hawks optimization (HHO) were developed and applied to predict the pile set-up parameter "A" from CPT for the design aim of the projects. To forecast the "A," CPT data along were collected from different sites in Louisiana, where the selected variables as input were plasticity index (PI), undrained shear strength (Su), and over consolidation ratio (OCR). Results show that both PSO-RF and HHO-RF models have acceptable performance in predicting the set-up parameter "A," with R2 larger than 0.9094, representing the admissible correlation between observed and predicted values. HHO-RF has better proficiency than the PSO-RF model, with R2 and RMSE equal to 0.9328 and 0.0292 for the training phase and 0.9729 and 0.024 for testing data, respectively. Moreover, PI and OBJ indices are considered, in which the HHO-RF model has lower results which leads to outperforming this hybrid algorithm with respect to PSO-RF for predicting the pile set-up parameter "A," consequently being specified as the proposed model. Therefore, the results demonstrate the ability of the HHO algorithm in determining the optimal value of RF hyperparameters than PSO.

SMOTE와 분류 기법을 활용한 산사태 위험 지역 결정 방법 (Method for Assessing Landslide Susceptibility Using SMOTE and Classification Algorithms)

  • 윤형구
    • 한국지반공학회논문집
    • /
    • 제39권6호
    • /
    • pp.5-12
    • /
    • 2023
  • 산사태 위험 지역을 사전에 조사하여 설정하는 것은 다수의 피해를 줄이기 위해 필요하다. 해당 연구의 목적은 machine learning 기법 중 분류 알고리즘을 활용하여 대상 지반의 안전율 분류를 수행할 수 있는 방법론을 제시하는 것이다. 산사태 위험 지역은 high risk area(HRA) 모델을 적용하였으며, 8개의 지반공학 물성치를 통해 위험 지역을 판단하였다. 분류 알고리즘은 decision tree(DT), K-Nearest Neighbor(KNN), logistic regression(LR) 그리고 random forest(RF)의 4가지가 활용 되었으며, 안전율 1.2~2.0 범위에 8가지 지반공학 물성치의 분류 정확도를 계산하였다. 정확도는 안전율이 1.2~1.7 범위에서 신뢰성 높게 나타났지만, 그 외 범위인 1.8~2.0 사이에서는 상대적으로 낮은 정확도를 보였다. 이를 극복하기 위하여 synthetic minority over-sampling technique(SMOTE) 알고리즘을 적용하여 데이터 개수를 증폭하였으며, 증폭한 데이터를 통해 분류 알고리즘을 적용하면 안전율 1.8~2.0 범위에서 정확도가 평균적으로 약 250% 증가한 것으로 나타났다. 해당 연구 결과는 SMOTE 알고리즘이 데이터 개수를 향상시켜 분류 알고리즘의 정확도가 개선된 것을 보여주며, 타 분야에도 정확도 향상에 적용 가능하다고 판단된다.

Utilizing the GOA-RF hybrid model, predicting the CPT-based pile set-up parameters

  • Zhao, Zhilong;Chen, Simin;Zhang, Dengke;Peng, Bin;Li, Xuyang;Zheng, Qian
    • Geomechanics and Engineering
    • /
    • 제31권1호
    • /
    • pp.113-127
    • /
    • 2022
  • The undrained shear strength of soil is considered one of the engineering parameters of utmost significance in geotechnical design methods. In-situ experiments like cone penetration tests (CPT) have been used in the last several years to estimate the undrained shear strength depending on the characteristics of the soil. Nevertheless, the majority of these techniques rely on correlation presumptions, which may lead to uneven accuracy. This research's general aim is to extend a new united soft computing model, which is a combination of random forest (RF) with grasshopper optimization algorithm (GOA) to the pile set-up parameters' better approximation from CPT, based on two different types of data as inputs. Data type 1 contains pile parameters, and data type 2 consists of soil properties. The contribution of this article is that hybrid GOA - RF for the first time, was suggested to forecast the pile set-up parameter from CPT. In order to do this, CPT data and related bore log data were gathered from 70 various locations across Louisiana. With an R2 greater than 0.9098, which denotes the permissible relationship between measured and anticipated values, the results demonstrated that both models perform well in forecasting the set-up parameter. It is comprehensible that, in the training and testing step, the model with data type 2 has finer capability than the model using data type 1, with R2 and RMSE are 0.9272 and 0.0305 for the training step and 0.9182 and 0.0415 for the testing step. All in all, the models' results depict that the A parameter could be forecasted with adequate precision from the CPT data with the usage of hybrid GOA - RF models. However, the RF model with soil features as input parameters results in a finer commentary of pile set-up parameters.

A Comparative Study of Phishing Websites Classification Based on Classifier Ensemble

  • Tama, Bayu Adhi;Rhee, Kyung-Hyune
    • 한국멀티미디어학회논문지
    • /
    • 제21권5호
    • /
    • pp.617-625
    • /
    • 2018
  • Phishing website has become a crucial concern in cyber security applications. It is performed by fraudulently deceiving users with the aim of obtaining their sensitive information such as bank account information, credit card, username, and password. The threat has led to huge losses to online retailers, e-business platform, financial institutions, and to name but a few. One way to build anti-phishing detection mechanism is to construct classification algorithm based on machine learning techniques. The objective of this paper is to compare different classifier ensemble approaches, i.e. random forest, rotation forest, gradient boosted machine, and extreme gradient boosting against single classifiers, i.e. decision tree, classification and regression tree, and credal decision tree in the case of website phishing. Area under ROC curve (AUC) is employed as a performance metric, whilst statistical tests are used as baseline indicator of significance evaluation among classifiers. The paper contributes the existing literature on making a benchmark of classifier ensembles for web phishing detection.

A Comparative Study of Phishing Websites Classification Based on Classifier Ensembles

  • Tama, Bayu Adhi;Rhee, Kyung-Hyune
    • Journal of Multimedia Information System
    • /
    • 제5권2호
    • /
    • pp.99-104
    • /
    • 2018
  • Phishing website has become a crucial concern in cyber security applications. It is performed by fraudulently deceiving users with the aim of obtaining their sensitive information such as bank account information, credit card, username, and password. The threat has led to huge losses to online retailers, e-business platform, financial institutions, and to name but a few. One way to build anti-phishing detection mechanism is to construct classification algorithm based on machine learning techniques. The objective of this paper is to compare different classifier ensemble approaches, i.e. random forest, rotation forest, gradient boosted machine, and extreme gradient boosting against single classifiers, i.e. decision tree, classification and regression tree, and credal decision tree in the case of website phishing. Area under ROC curve (AUC) is employed as a performance metric, whilst statistical tests are used as baseline indicator of significance evaluation among classifiers. The paper contributes the existing literature on making a benchmark of classifier ensembles for web phishing detection.

유도탄의 실시간 표적 재지정을 위한 랜덤 포레스트 기법과 시뮬레이션 기반 효과 분석 (Random Forest Method and Simulation-based Effect Analysis for Real-time Target Re-designation in Missile Flight)

  • 이한강;장재연;안재민;김창욱
    • 한국시뮬레이션학회논문지
    • /
    • 제27권2호
    • /
    • pp.35-48
    • /
    • 2018
  • 북한의 전술탄도미사일(TBM, tactical ballistic missile)에 대한 방공 분야 연구는 빠른 속도로 변화하는 전장 환경을 고려해야 한다. 아군 유도탄의 표적 재지정 연구는 동적인 전장에 대한 대응뿐만 아니라 아군 방어 자산의 효과적인 운용을 가능하게 한다. 현재까지 진행된 연구는 의사 결정 과정에서 중요한 역할을 하는 TBM의 명중 확률이 고정된 값이기 때문에 실시간 전장 상황을 대변하지 못한다. 따라서 본 연구는 실시간 전장 환경을 고려한 명중 확률을 기반으로 의사 결정을 내리는 표적 재지정 알고리즘을 제안한다. 제안 방법론은 랜덤 포레스트와 무빙윈도우(moving window) 기법을 사용하여 현재 TBM의 위치 및 속도 정보로 TBM의 예상 궤적을 예측하는 궤적 예측 모형을 포함한다. 예상 명중 확률은 궤적 예측 모형과 유도탄의 시뮬레이터를 통해서 계산할 수 있으며, 계산된 명중 확률은 유도탄에 대한 표적 재지정 알고리즘의 의사결정 기준이 된다. 실험에서는 TBM 궤적 예측 모형에 사용한 방법론의 타당성이 검증되었으며, 표적 재지정 의사 결정 과정에서 제안된 모델을 통해 명중 확률을 사용하는 것의 우수성이 확인되었다.

켑스트럼 변수와 랜덤포레스트 알고리듬을 이용한 MTD(근긴장성 발성장애) 여성화자 음성과 정상음성 분류 (Classification of muscle tension dysphonia (MTD) female speech and normal speech using cepstrum variables and random forest algorithm)

  • 윤주원;심희정;성철재
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.91-98
    • /
    • 2020
  • 근긴장성 발성장애(cepstral peak prominence, MTD) 환자의 모음 발성과 문장읽기 과제를 켑스트럼 기반 변수를 이용하여 분석하였으며 음성장애 환자의 GRBAS청지각적 특성과 음향학적 특성의 상관관계를 살펴보고, 랜덤포레스트 머신러닝 분류 알고리듬을 이용한 MTD 감별 진단 가능성을 논의하였다. 내원 시 MTD로 진단받은 여성 36명과 정상음성을 사용하는 여성 36명이 연구에 참여했으며, 수집한 음성샘플은 ADSVTM를 사용하여 분석하였다. 연구 결과, 음향학적 측정치 중 MTD의 CSID(cepstral spectral index of dysphonia)는 대조군보다 높았으며, CPP(cepstral peak prominence), CPP_Fo 값이 대조군보다 유의하게 낮았다. 이는 모음 발성과 읽기 과제에서 모두 동일하게 나타났다. MTD 환자의 음질 특성은 전반적인 음성중증도(G)가 가장 두드러졌으며, 조조성(R), 기식성(B), 노력성(S)순으로 음성 특성을 보였다. 이 특성이 높아질수록 CPP가 감소하는 부적 상관을 보이고, CSID는 증가하는 정적 상관이 관찰되었다. 켑스트럴 변수 중 모음과 문장읽기과제 모두에서 집단간 유의한 차이를 보여준 CPP와 CPP_F0를 이용하여 MTD와 대조군의 음성분류를 시도하였다. 머신러닝 알고리듬인 랜덤포레스트로 모델링한 결과 문장읽기 과제에서 모음연장발성보다 조금 더 높은 분류 정확도(83.3%)가 나왔으며, 모음 발성과 문장 읽기 과제 모두에서 CPP변수가 더 중심적 역할을 수행하였음을 알 수 있었다.

신경망기법을 활용한 선박 가치평가 모델 개발 (Development of Ship Valuation Model by Neural Network)

  • 김동균;최정석
    • 해양환경안전학회지
    • /
    • 제27권1호
    • /
    • pp.13-21
    • /
    • 2021
  • 본 연구의 목적은 Neural Network Regression 모델을 활용하여 선박의 가치평가 모델을 개발하는 것이다. 가치평가의 대상은 중고 VLCC선이며, 선행연구를 통해 선박의 가치 변화를 유발하는 주요 요인들을 선별하여 변수를 설정하고, 2000년 1월부터 2020년 8월까지의 해당 데이터를 확보하였다. 변수의 안정성을 판단하기 위해 다중 공선성 검사를 수행하여 최종적으로 6개의 독립변수와 1개의 종속변수를 선정하고 연구 구조를 설계하였다. 이를 바탕으로 Linear Regression, Neural Network Regression, Random Forest Algorithm을 활용하여 총 9개의 시뮬레이션 모델을 설계하였다. 또한 각 모델간의 비교검증을 통해 평가결과의 정확성을 제고시켰다. 평가 결과, VLCC실제값과의 비교를 통해 2층으로 구성된 Hidden Layer의 Neural Network Regression 모델이 가장 정확도가 높은 것으로 나타났다. 본 연구의 시사점은 첫째, 기존 정형화된 평가기법에서 벗어나 기계학습기반 모델을 선박가치평가에 적용하였다는 점이다. 둘째, 해운시장 변화요인을 동태적 관점에서 분석하고 예측함으로써 연구결과의 객관성을 제고시켰다고 할 수 있다.