• 제목/요약/키워드: Ensemble Learning

검색결과 380건 처리시간 0.036초

정적 분석과 앙상블 기반의 리눅스 악성코드 분류 연구 (Study of Static Analysis and Ensemble-Based Linux Malware Classification)

  • 황준호;이태진
    • 정보보호학회논문지
    • /
    • 제29권6호
    • /
    • pp.1327-1337
    • /
    • 2019
  • IoT 시장의 성장과 더불어 linux 아키텍쳐를 사용하는 디바이스들에 대해 악성코드 보안 위협이 꾸준히 증가하고 있다. 하지만, Mirai 등의 심각한 보안피해를 야기한 주요 악성코드들을 제외하면 linux 악성코드에 대한 보안 커뮤니티의 관련 기술이나 연구는 전무한 수준이다. 또한, IoT 환경의 디바이스, 벤더, 아키텍쳐 등의 다양성이 더욱 심화됨에 따라 linux 악성코드 대응 난이도 또한 심화되고 있다. 따라서, 본 논문에서는 linux 아키텍쳐의 주요 포맷인 ELF를 분석하고 이를 기반으로 한 분석 시스템과, IoT 환경을 고려한 바이너리 기반의 분석 시스템을 제안한다. ELF 기반의 분석 시스템은 상대적으로 고속으로 다수의 악성코드에 대해 전처리 분류 할 수 있으며 상대적으로 저속의 바이너리 기반의 분석 시스템은 전처리 하지 못한 데이터에 대해 모두 분류 가능하다. 이러한 두 개의 프로세스는 서로 상호보완되어 효과적으로 linux 기반의 악성코드를 분류할 수 있을 것이라 기대한다.

Development of a software framework for sequential data assimilation and its applications in Japan

  • Noh, Seong-Jin;Tachikawa, Yasuto;Shiiba, Michiharu;Kim, Sun-Min;Yorozu, Kazuaki
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.39-39
    • /
    • 2012
  • Data assimilation techniques have received growing attention due to their capability to improve prediction in various areas. Despite of their potentials, applicable software frameworks to probabilistic approaches and data assimilation are still limited because the most of hydrologic modelling software are based on a deterministic approach. In this study, we developed a hydrological modelling framework for sequential data assimilation, namely MPI-OHyMoS. MPI-OHyMoS allows user to develop his/her own element models and to easily build a total simulation system model for hydrological simulations. Unlike process-based modelling framework, this software framework benefits from its object-oriented feature to flexibly represent hydrological processes without any change of the main library. In this software framework, sequential data assimilation based on the particle filters is available for any hydrologic models considering various sources of uncertainty originated from input forcing, parameters and observations. The particle filters are a Bayesian learning process in which the propagation of all uncertainties is carried out by a suitable selection of randomly generated particles without any assumptions about the nature of the distributions. In MPI-OHyMoS, ensemble simulations are parallelized, which can take advantage of high performance computing (HPC) system. We applied this software framework for several catchments in Japan using a distributed hydrologic model. Uncertainty of model parameters and radar rainfall estimates is assessed simultaneously in sequential data assimilation.

  • PDF

불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리 (Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes)

  • 이동준;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.49-54
    • /
    • 2021
  • 최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개의 모델을 앙상블한다.

게임데이터를 이용한 승패예측 및 세분화된 변수 중요도 도출 기법 (Predicting win-loss using game data and deriving the importance of subdivided variables)

  • 오민지;최은선;;조완섭
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.231-240
    • /
    • 2020
  • 정보통신기술의 발달과 더불어 게임 산업이 성장하면서 유저의 게임데이터는 다양한 플레이 및 옵션에 따라 초 단위로 기록되며 방대한 양의 게임데이터를 빅데이터 기반으로 분석할 수 있게 되었다. 비즈니스와 결합하여 다양한 분야에서 수익창출을 위한 새로운 가치를 발견하는 것에 빅데이터를 활용하고 있지만, 게임 산업에서의 빅데이터 활용은 미흡한 실정이다. 본 연구에서는 리그오브레전드의 게임데이터를 이용하여 라인 별 승패예측모형을 구축한 뒤 세분화 된 라인의 특성을 반영한 변수 중요도를 도출하여 일반 게임유저가 승률을 올리기 위해 전적검색사이트를 이용하여 사전에 팀 구성원에 대한 정보를 제공받을 수 있도록 한다.

A Best Effort Classification Model For Sars-Cov-2 Carriers Using Random Forest

  • Mallick, Shrabani;Verma, Ashish Kumar;Kushwaha, Dharmender Singh
    • International Journal of Computer Science & Network Security
    • /
    • 제21권1호
    • /
    • pp.27-33
    • /
    • 2021
  • The whole world now is dealing with Coronavirus, and it has turned to be one of the most widespread and long-lived pandemics of our times. Reports reveal that the infectious disease has taken toll of the almost 80% of the world's population. Amidst a lot of research going on with regards to the prediction on growth and transmission through Symptomatic carriers of the virus, it can't be ignored that pre-symptomatic and asymptomatic carriers also play a crucial role in spreading the reach of the virus. Classification Algorithm has been widely used to classify different types of COVID-19 carriers ranging from simple feature-based classification to Convolutional Neural Networks (CNNs). This research paper aims to present a novel technique using a Random Forest Machine learning algorithm with hyper-parameter tuning to classify different types COVID-19-carriers such that these carriers can be accurately characterized and hence dealt timely to contain the spread of the virus. The main idea for selecting Random Forest is that it works on the powerful concept of "the wisdom of crowd" which produces ensemble prediction. The results are quite convincing and the model records an accuracy score of 99.72 %. The results have been compared with the same dataset being subjected to K-Nearest Neighbour, logistic regression, support vector machine (SVM), and Decision Tree algorithms where the accuracy score has been recorded as 78.58%, 70.11%, 70.385,99% respectively, thus establishing the concreteness and suitability of our approach.

피부섬유모세포 전사체 정보를 활용한 구간 선택 기반 연령 예측 (Age Prediction based on the Transcriptome of Human Dermal Fibroblasts through Interval Selection)

  • 석호식
    • 전기전자학회논문지
    • /
    • 제26권3호
    • /
    • pp.494-499
    • /
    • 2022
  • 본 논문에서는 인간의 피부섬유모세포(Human dermal fibroblasts)로부터 확보한 전사체 정보를 활용하여 나이를 예측하는 방법을 소개한다. 제안 방법에서는 훈련을 통해 확보한 분류기 및 회귀 모델을 이용하여 샘플이 속한 적합한 연령 그룹을 선택한 후, 선택된 연령 그룹에 속하는 훈련 데이터의 관측값을 활용하여 구체적인 연령을 예측한다. 연령을 예측하려는 샘플이 입력되면 복수 개의 판별 규칙이 순서대로 실행되는데, 개별 판별 규칙에서는 분류기와 회귀 모델을 동시에 실행하여 해당 판별 규칙에 대한 선택조건이 만족되는지 여부를 확인한다. 선택 조건이 만족될 경우 판별 규칙의 타겟 연령 그룹에 속하는 데이터를 이용하여 훈련된 회귀 모델로 연령을 예측하며, 선택 조건이 만족되지 않으면 후속 판별 규칙을 실행한다. 공개 데이터에 대하여 실험한 결과 기존 연구에서 달성한 7.7년의 평균 예측 오차보다 우수한 5.7년이라는 평균 예측 오차를 달성함을 확인하였다.

BCG 신호 최적화를 통한 주행중 운전자 수면 상태 분류에 관한 연구 (A Study On The Classification Of Driver's Sleep State While Driving Through BCG Signal Optimization)

  • 박진수;정지성;양철승;이정기
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.905-910
    • /
    • 2022
  • 졸음운전은 교통사고 발생률을 높이고 사망사고로 이어지기 때문에 많은 사회적 관심이 필요하다. 졸음운전으로 인한 사고 건수는 매년 증가하고 있다. 따라서 전 세계적으로 이 문제를 해결하기 위해 다양한 생체신호 측정을 위한 연구가 수행되고 있다. 본 논문에서는 그 중에 비접촉 방식의 생체신호 분석에 중점을 두고 있다. 주행중인 차량에서는 엔진, 타이어, 차체 진동 등 다양한 노이즈가 발생한다. 압전센서로 주행중인 차량에서 운전자의 심박수와 호흡수를 측정하기 위해 차량 진동을 완충할 수 있는 센서 플레이트를 설계했고 차량에서 발생하는 노이즈를 줄일 수 있었다. 또한 압전센서의 신호 기반 CNN-LSTM 앙상블 학습 기법으로 모델을 추출하여 운전자가 수면중인지 아닌지 분류하는 시스템을 개발했다. 수면 상태를 학습시키기 위해 30초마다 피험자의 생체 신호를 획득하였고, 797개의 데이터를 비교 분석하였다.

Ensemble-based deep learning for autonomous bridge component and damage segmentation leveraging Nested Reg-UNet

  • Abhishek Subedi;Wen Tang;Tarutal Ghosh Mondal;Rih-Teng Wu;Mohammad R. Jahanshahi
    • Smart Structures and Systems
    • /
    • 제31권4호
    • /
    • pp.335-349
    • /
    • 2023
  • Bridges constantly undergo deterioration and damage, the most common ones being concrete damage and exposed rebar. Periodic inspection of bridges to identify damages can aid in their quick remediation. Likewise, identifying components can provide context for damage assessment and help gauge a bridge's state of interaction with its surroundings. Current inspection techniques rely on manual site visits, which can be time-consuming and costly. More recently, robotic inspection assisted by autonomous data analytics based on Computer Vision (CV) and Artificial Intelligence (AI) has been viewed as a suitable alternative to manual inspection because of its efficiency and accuracy. To aid research in this avenue, this study performs a comparative assessment of different architectures, loss functions, and ensembling strategies for the autonomous segmentation of bridge components and damages. The experiments lead to several interesting discoveries. Nested Reg-UNet architecture is found to outperform five other state-of-the-art architectures in both damage and component segmentation tasks. The architecture is built by combining a Nested UNet style dense configuration with a pretrained RegNet encoder. In terms of the mean Intersection over Union (mIoU) metric, the Nested Reg-UNet architecture provides an improvement of 2.86% on the damage segmentation task and 1.66% on the component segmentation task compared to the state-of-the-art UNet architecture. Furthermore, it is demonstrated that incorporating the Lovasz-Softmax loss function to counter class imbalance can boost performance by 3.44% in the component segmentation task over the most employed alternative, weighted Cross Entropy (wCE). Finally, weighted softmax ensembling is found to be quite effective when used synchronously with the Nested Reg-UNet architecture by providing mIoU improvement of 0.74% in the component segmentation task and 1.14% in the damage segmentation task over a single-architecture baseline. Overall, the best mIoU of 92.50% for the component segmentation task and 84.19% for the damage segmentation task validate the feasibility of these techniques for autonomous bridge component and damage segmentation using RGB images.

XAI 기반 기업부도예측 분류모델 연구 (A Study on Classification Models for Predicting Bankruptcy Based on XAI)

  • 김지홍;문남미
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.333-340
    • /
    • 2023
  • 기업 부도의 효율적인 예측은 금융기관의 적절한 대출 결정과 여신 부실률 감소 측면에서 중요한 부분이다. 많은 연구에서 인공지능 기술을 활용한 분류모델 연구를 진행하였다. 금융 산업 특성상 새로운 예측 모델의 성능이 우수하더라도 어떤 근거로 결과를 출력했는지 직관적인 설명이 수반되어야 한다. 최근 미국, EU, 한국 등 에서는 공통적으로 알고리즘의 설명요구권을 제시하고 있어 금융권 AI 활용에 투명성을 확보하여야 한다. 본 논문에서는 외부에 오픈된 기업부도 데이터를 활용하여 인공지능 기반의 해석 가능한 분류 예측 모델을 제안하였다. 먼저 데이터 전처리 작업, 5겹 교차검증 등을 수행하고 로지스틱 회귀, SVM, XGBoost, LightGBM 등 10가지 지도학습 분류모델 최적화를 통해 분류 성능을 비교하였다. 그 결과 LightGBM이 가장 우수한 모델로 확인되었고, 설명 가능한 인공지능 기법인 SHAP을 적용하여 부도예측 과정에 대한 사후 설명을 제공하였다.

하이브리드 Auto-sklearn 앙상블 모델을 이용한 댐 유입량 예측 및 평가 (Dam Inflow Prediction and Evaluation Using Hybrid Auto-sklearn Ensemble Model)

  • 이서로;배주현;이관재;양동석;홍지영;김종건;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.307-307
    • /
    • 2022
  • 최근 기후변화와 댐 상류 토지이용 변화 등과 같은 다양한 원인에 의해 댐 유입량의 변동성이 증가하면서 댐 관리 및 운영조작 의사 결정에 어려움이 발생하고 있다. 따라서 이러한 댐 유입량의 변동 특성을 반영하여 댐 유입량을 정확하고 효율적으로 예측할 수 있는 방안이 필요한 실정이다. 머신러닝 기술이 발전하면서 Auto-ML(Automated Machine Learning)이 다양한 분야에서 활용되고 있다. Auto-ML은 데이터 전처리, 최적 알고리즘 선택, 하이퍼파라미터 튜닝, 모델 학습 및 평가 등의 모든 과정을 자동화하는 기술이다. 그러나 아직까지 수문 분야에서 댐 유입량을 예측하기 위한 모델을 개발하는데 있어서 Auto-ML을 활용한 사례는 부족하고, 특히 댐 유입량의 예측 정확성을 확보하기 위해 High-inflow and low-inflow 의 변동 특성을 고려한 하이브리드 결합 방식을 통해 Auto-ML 기반 앙상블 모델을 개발하고 평가한 연구는 없다. 본 연구에서는 Auto-ML의 패키지 중 Auto-sklearn을 통해 홍수기, 비홍수기 유입량 변동 특성을 반영한 하이브리드 앙상블 댐 유입량 예측 모델을 개발하였다. 소양강댐을 대상으로 적용한 결과, 하이브리드 Auto-sklearn 앙상블 모델의 댐 유입량 예측 성능은 R2 0.868, RMSE 66.23 m3/s, MAE 16.45 m3/s로 단일 Auto-sklearn을 통해 구축 된 앙상블 모델보다 전반적으로 우수한 것으로 나타났다. 특히 FDC (Flow Duration Curve)의 저수기, 갈수기 구간에서 두 모델의 유입량 예측 경향은 큰 차이를 보였으며, 하이브리드 Auto-sklearn 모델의 예측 값이 관측 값과 더욱 유사한 것으로 나타났다. 이는 홍수기, 비홍수기 구간에 대한 앙상블 모델이 독립적으로 구축되는 과정에서 각 모델에 대한 하이퍼파라미터가 최적화되었기 때문이라 판단된다. 향후 본 연구의 방법론은 보다 정확한 댐 유입량 예측 자료를 생성하기 위한 방안 수립뿐만 아니라 다양한 분야의 불균형한 데이터셋을 이용한 앙상블 모델을 구축하는데도 유용하게 활용될 수 있을 것으로 사료된다.

  • PDF