• 제목/요약/키워드: forest machine

검색결과 775건 처리시간 0.023초

An Effective Anomaly Detection Approach based on Hybrid Unsupervised Learning Technologies in NIDS

  • Kangseok Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권2호
    • /
    • pp.494-510
    • /
    • 2024
  • Internet users are exposed to sophisticated cyberattacks that intrusion detection systems have difficulty detecting. Therefore, research is increasing on intrusion detection methods that use artificial intelligence technology for detecting novel cyberattacks. Unsupervised learning-based methods are being researched that learn only from normal data and detect abnormal behaviors by finding patterns. This study developed an anomaly-detection method based on unsupervised machines and deep learning for a network intrusion detection system (NIDS). We present a hybrid anomaly detection approach based on unsupervised learning techniques using the autoencoder (AE), Isolation Forest (IF), and Local Outlier Factor (LOF) algorithms. An oversampling approach that increased the detection rate was also examined. A hybrid approach that combined deep learning algorithms and traditional machine learning algorithms was highly effective in setting the thresholds for anomalies without subjective human judgment. It achieved precision and recall rates respectively of 88.2% and 92.8% when combining two AEs, IF, and LOF while using an oversampling approach to learn more unknown normal data improved the detection accuracy. This approach achieved precision and recall rates respectively of 88.2% and 94.6%, further improving the detection accuracy compared with the hybrid method. Therefore, in NIDS the proposed approach provides high reliability for detecting cyberattacks.

Application of a comparative analysis of random forest programming to predict the strength of environmentally-friendly geopolymer concrete

  • Ying Bi;Yeng Yi
    • Steel and Composite Structures
    • /
    • 제50권4호
    • /
    • pp.443-458
    • /
    • 2024
  • The construction industry, one of the biggest producers of greenhouse emissions, is under a lot of pressure as a result of growing worries about how climate change may affect local communities. Geopolymer concrete (GPC) has emerged as a feasible choice for construction materials as a result of the environmental issues connected to the manufacture of cement. The findings of this study contribute to the development of machine learning methods for estimating the properties of eco-friendly concrete, which might be used in lieu of traditional concrete to reduce CO2 emissions in the building industry. In the present work, the compressive strength (fc) of GPC is calculated using random forests regression (RFR) methodology where natural zeolite (NZ) and silica fume (SF) replace ground granulated blast-furnace slag (GGBFS). From the literature, a thorough set of experimental experiments on GPC samples were compiled, totaling 254 data rows. The considered RFR integrated with artificial hummingbird optimization (AHA), black widow optimization algorithm (BWOA), and chimp optimization algorithm (ChOA), abbreviated as ARFR, BRFR, and CRFR. The outcomes obtained for RFR models demonstrated satisfactory performance across all evaluation metrics in the prediction procedure. For R2 metric, the CRFR model gained 0.9988 and 0.9981 in the train and test data set higher than those for BRFR (0.9982 and 0.9969), followed by ARFR (0.9971 and 0.9956). Some other error and distribution metrics depicted a roughly 50% improvement for CRFR respect to ARFR.

머신러닝을 활용한 가짜리뷰 탐지 연구: 사용자 행동 분석을 중심으로 (A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis)

  • 이민철;윤현식
    • 지식경영연구
    • /
    • 제21권3호
    • /
    • pp.177-195
    • /
    • 2020
  • 소비자 구전은 정보통신기술의 발전과 모바일 기기의 보급 가속화로 그 영향력 또한 급속도로 커지고 있다. 그러나 과도한 마케팅 경쟁은 가짜리뷰와 같은 거짓 온라인 구전을 확산시켰고, 이로 인해 소비자들은 온라인 구전에 대한 피로감과 함께 온라인을 통해 얻게 되는 정보를 불신하는 결과를 초래하고 있으며, 이는 소비자의 합리적 구매 결정 행위에 부정적인 영향을 미치기도 한다. 이에 대한 문제 인식의 확산으로 가짜리뷰의 형태적 특성에 대한 연구를 비롯해 가짜리뷰를 효과적으로 분류하기 위한 다양한 탐지 방법에 대한 연구가 증가하고 있다. 이에 본 연구에서는 네이버 블로그에 작성된 포스트를 대상으로 데이터를 수집하고, 사용자의 무의식에 기반한 습관적 패턴을 머신러닝 모형을 통해 분석해 보았다. 게시물이 작성된 블로그와 그 게시물에서 추출한 변수를 분석하여 향후 가짜리뷰 예측에 활용하고자 하였다. 연구 결과, 광고성 리뷰 예측에 있어 해당 글 작성자의 블로그에 등록된 전체 포스트의 개수와 포스트의 등록 날짜는 매우 높은 상관관계를 보였으며, 해당 포스트가 속한 분류에 등록된 포스트의 개수, 포스트 본문에 사용된 이미지의 개수, 블로그에 포함된 메뉴 개수, 포스트 제목 및 본문의 길이, 포스트가 획득한 '좋아요'의 개수 또한 높은 상관관계를 보였다. 또한 광고성 리뷰 여부를 판단하기 위한 머신러닝 모형에 있어서 랜덤포레스트를 활용한 모형이 가장 우수한 모형으로 확인되었다. 본 연구에서는 블로그에 작성된 리뷰 내용에 대한 형태소 분석을 시행하는 대신 리뷰를 작성한 사람의 행위를 분석하기 위한 시도를 하였다. 이를 위해 블로그와 포스트의 특성 데이터를 수작업이 아닌 웹 크롤링 기법으로 수집하고 머신러닝 모형을 통해 광고성 리뷰 여부를 판별할 가능성을 확인한 점은 향후 가짜리뷰의 빠른 탐지를 위한 효율성 및 효과성 향상에 기여할 수 있을 것이다.

Landsat-8 OLI 영상과 식생 및 수분지수를 이용한 하천유역 토지피복분류 정확도 개선 (Improving Accuracy of Land Cover Classification in River Basins using Landsat-8 OLI Image, Vegetation Index, and Water Index)

  • 박주성;이원희;조명희
    • 한국지리정보학회지
    • /
    • 제19권2호
    • /
    • pp.98-106
    • /
    • 2016
  • 원격탐사는 관찰하고자 하는 지역을 직접 방문하지 않고, 영상만으로도 적은 비용으로 짧은 시간 안에 대상지역을 연구하는데 있어 효율적인 기술이다. 본 연구에서는 가장 최근에 발사된 Landsat-8 OLI(Operational Land Imager) 영상을 이용하여 하천유역의 토지피복분류 정확도를 개선하는 방법을 제안하였다. 제안된 방법 중 첫 번째로 Landsat-8 OLI 영상을 이용하여 정규식생지수인 NDVI(Normalized Difference Vegetation Index)와 정규수분지수 NDWI(Normalized Difference Water Index)를 생성하였다. 두 번째로 원래의 영상에 생성된 NDVI와 NDWI 2개의 밴드를 Layer-Stacking하여 새로운 영상을 만들었다. 마지막으로 기존의 영상과 밴드조합을 적용한 새로운 영상에 각각 MLC(Maximum Likelihood Classification), SVM(Support Vector Machine)의 감독분류를 적용하였다. 하천피복분류를 할 때 정확도를 개선하는데 있어 그 의미가 있으며, 분류결과 MLC 분류방법을 적용하였을 때 약 8% 이상, SVM 분류방법을 적용하였을 때 약 1.6% 정도 개선되었다. 향후 다양한 영상과 밴드조합을 통한 연구가 이루어진다면 보다 나은 의사결정에 도움이 될 것으로 사료된다.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

데이터의 불균형성을 제거한 네트워크 침입 탐지 모델 비교 분석 (Experimental Comparison of Network Intrusion Detection Models Solving Imbalanced Data Problem)

  • 이종화;방지원;김종욱;최미정
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.18-28
    • /
    • 2020
  • 컴퓨팅 환경의 발전에 따라 IT 기술이 의료, 산업, 통신, 문화 등의 분야에서 사람들에게 제공해주는 혜택이 늘어나 삶의 질도 향상되고 있다. 그에 따라 발전된 네트워크 환경을 노리는 다양한 악의적인 공격이 존재한다. 이러한 공격들을 사전에 탐지하기 위해 방화벽, 침입 탐지 시스템 등이 존재하지만, 나날이 진화하는 악성 공격들을 탐지하는 데에는 한계가 있다. 이를 해결하기 위해 기계 학습을 이용한 침입 탐지 연구가 활발히 진행되고 있지만, 학습 데이터셋의 불균형으로 인한 오탐 및 미탐이 발생하고 있다. 본 논문에서는 네트워크 침입 탐지에 사용되는 UNSW-NB15 데이터셋의 불균형성 문제를 해결하기 위해 랜덤 오버샘플링 방법을 사용했다. 실험을 통해 모델들의 accuracy, precision, recall, F1-score, 학습 및 예측 시간, 하드웨어 자원 소모량을 비교 분석했다. 나아가 본 연구를 기반으로 랜덤 오버샘플링 방법 이외에 불균형한 데이터 문제를 해결할 수 있는 다른 방법들과 성능이 높은 모델들을 이용하여 좀 더 효율적인 네트워크 침입 탐지 모델 연구로 발전시키고자 한다.

기계학습을 활용한 계란가격 예측 모델링 (Modeling for Egg Price Prediction by Using Machine Learning)

  • 조호현;이대겸;채영훈;장동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.15-17
    • /
    • 2022
  • 2020년 하반기부터 2021년 초까지 발생한 조류인플루엔자의 여파로 1,780만수의 산란계가 살처분되면서 계란 공급 부족으로 계란 1판에 1만원을 넘는 사태가 벌어지기도 했다. 이에 정부는 물가 안정 대책으로 1,000억원 이상의 국고를 계란 수입에 투입하였지만, 계란 가격의 안정화는 쉽지 않았다. 계란 가격의 급격한 변동성은 소비자와 양계농가 모두에게 부정적인 영향을 미치므로 계란 가격의 안정화 방안을 위한 대책이 필요하다. 이를 위해 본 연구에서는 머신러닝 회귀분석 알고리즘을 활용하여 계란 가격을 예측하였으며, 가격 예측을 위해서 대한양계협회 2012~2021년도의 월간 산란계 생산통계와 국가통계포털(KOSIS)의 도축실적 등 총 8개의 독립변수를 선택하였다. 실제 가격과 모델에 의한 예측 가격의 차이를 나타내는 평균 제곱근 오차(RMSE)는 약 103원이며, 이는 개발된 모델이 계란 가격을 비교적 잘 예측한 결과라고 판단된다. 정확한 계란 가격 예측은 산란계 계란 생산주령의 유연한 조정과 산란계 입식에 대한 의사결정을 도울 수 있고, 계란 가격 안정성 확보에 도움을 줄 것으로 보인다.

  • PDF

머신러닝 기법을 활용한 치매 예측 모델과 상업적 활용 전략: 웨어러블 기기의 수면 및 활동 데이터를 기반으로 (A Study on Dementia Prediction Models and Commercial Utilization Strategies Using Machine Learning Techniques: Based on Sleep and Activity Data from Wearable Devices)

  • 조영은;우종필;김중안
    • 경영정보학연구
    • /
    • 제26권2호
    • /
    • pp.137-153
    • /
    • 2024
  • 본 연구는 웨어러블 기기에서 수집된 라이프로그 데이터를 활용하여 고령화 사회에서 증가하고 있는 치매를 조기에 진단하여 관리할 수 있는 예측 모델을 개발하고, 이를 기반으로 한 상업적 활용전략을 제안하는 것을 목표로 하였다. 이 연구는 전문의의 병리진단을 기반으로 한 60~80대 174명의 대상자로부터 수집된 12,184개의 라이프로그 정보(수면 및 활동 정보)와 치매 진단 데이터를 활용하였다. 연구 과정에서 수면과 활동 데이터를 포함하는 다차원적인 데이터셋을 표준화 하였고 다양한 머신러닝 알고리즘으로 분석하였으며, 가장 높은 ROC-AUC점수를 보여준 랜덤 포레스트 모델이 가장 우수한 성능을 보였다. 또한 ablation test를 통해 수면과 관련된 변수들과 활동과 관련 변수들의 제외가 모델 예측력에 미치는 영향을 평가하였고, 이러한 변수들이 모델의 예측력에 유의미한 영향력을 가지고 있음을 확인하였다. 마지막으로, 개발된 모델의 상업적 활용 전략의 가능성을 탐구함으로써, 치매예방 시스템의 상업적 확산을 위한 새로운 방향을 제안하였다.

기계학습 기반 상세화를 통한 위성 지표면온도와 환경부 토지피복도를 이용한 열환경 분석: 대구광역시를 중심으로 (Thermal Characteristics of Daegu using Land Cover Data and Satellite-derived Surface Temperature Downscaled Based on Machine Learning)

  • 유철희;임정호;박선영;조동진
    • 대한원격탐사학회지
    • /
    • 제33권6_2호
    • /
    • pp.1101-1118
    • /
    • 2017
  • 급격한 도시화와 이상기후의 증가로 도시의 기온이 꾸준히 올라가고 있으며, 한 도시 안에서도 열분포 양상이 지역마다 다르게 나타나고 있어 상세한 도시 열환경 분석이 요구된다. 최근에는 위성자료를 이용한 열환경 분석이 수행되고 있으나, 위성자료는 시 공간해상도의 Trade-off 관계로 인해 정밀한 분석에 어려움이 따른다. 이 연구는 2012년부터 2016년의 대구광역시 여름철 열환경 분석을 위해, MODIS(Moderate Resolution Imaging Spectroradiometer) 1 km 공간해상도의 낮과 밤 지표면온도(낮$LST_{1km}$, 밤$LST_{1km}$)를 250 m 공간해상도(낮$LST_{250m}$, 밤$LST_{250m}$)로 상세화 시켰다. 상세화에는 기계학습 기법인 랜덤 포레스트(Random Forest)가 이용되었다. 향상된 $LST_{250m}$는 기존의 $LST_{1km}$에 비해, 대구광역시 행정동 기준 불투수면적 비율과 지표면온도가 높은 상관관계를 보여주었다. 다음으로, 상세화 된 낮과 밤$LST_{250m}$를 이용하여 Hot Spot 분석을 수행하였다. 대구광역시 행정동 중 낮과 밤 지표면온도가 Hot Spot으로 군집화된 영역을 비교하고, 토지피복도를 이용하여 그 원인을 분석했다. 낮에는 공업 및 상업지역의 비율이 높은 영역에서, 밤의 경우 주거지역의 비율이 높은 영역에서 높은 Hot Spot이 군집 되었다. 본 연구의 열환경 분석 접근은 향후 도시정책 수립 및 국민안전에 큰 기여를 할 수 있을 것으로 기대된다.

서울 지역 지상 NO2 농도 공간 분포 분석을 위한 회귀 모델 및 기계학습 기법 비교 (Comparative Assessment of Linear Regression and Machine Learning for Analyzing the Spatial Distribution of Ground-level NO2 Concentrations: A Case Study for Seoul, Korea)

  • 강은진;유철희;신예지;조동진;임정호
    • 대한원격탐사학회지
    • /
    • 제37권6_1호
    • /
    • pp.1739-1756
    • /
    • 2021
  • 대기 중 이산화질소(NO2)는 주로 인위적인 배출요인으로 발생하며 화학 반응을 통해 이차오염 물질 및 오존 형성에 매개 역할을 하는 인체 건강에 악영향을 미치는 물질이다. 우리나라는 지상 관측소에 의한 실시간 NO2 모니터링을 수행하고 있지만, 이는 점 기반의 관측 값으로써 미관측 지역의 공간 분포 분석이 어렵다는 한계점을 지닌다. 본 연구에서는 선형 회귀 기반 모델인 다중 선형 회귀와 회귀 크리깅, 기계학습 알고리즘인 Random Forest (RF), Support Vector Regression (SVR)을 적용한 공간 내삽 모델링을 통해 서울 지역의 지상 NO2 농도 지도를 제작하였고, 일별 Leave-One-Out Cross Validation (LOOCV) 교차 검증을 시행하였다. 2020년 연구기간 내 일별 LOOCV에서 MLR, RK, SVR 모델의 일별 평균 Index of agreement (IOA)는 약 0.57로 유사한 성능을 보였으며, RF (0.50)보다 높은 성능이 확인되었다. RK의 일별 평균 nRMSE는 0.9483%으로 MLR (0.9501%)보다 상대적으로 낮은 오차를 나타냈다. MLR과 RK, RF 모델의 계절별 공간 분포는 비슷한 양상을 보였으며, RF는 다른 모델에 비해 좁은 NO2 농도 범위가 확인되었다. 본 연구에서 제안된 선형 회귀 기반 공간 내삽은 지상 NO2 뿐 아니라 다른 대기 오염 물질의 도시 지역 공간 내삽을 위해 활용 가능성이 높을 것으로 기대된다.