• 제목/요약/키워드: Xgboost 알고리즘

검색결과 54건 처리시간 0.029초

악성코드 패밀리 분류를 위한 API 특징 기반 앙상블 모델 학습 (API Feature Based Ensemble Model for Malware Family Classification)

  • 이현종;어성율;황두성
    • 정보보호학회논문지
    • /
    • 제29권3호
    • /
    • pp.531-539
    • /
    • 2019
  • 본 논문에서는 악성코드 패밀리 분류를 위한 훈련 데이터의 특징을 제안하고, 앙상블 모델을 이용한 다중 분류 성능을 분석한다. 악성코드 실행 파일로부터 API와 DLL 데이터를 추출하여 훈련 데이터를 구성하며, 의사 결정 트리기반 Random Forest와 XGBoost 알고리즘으로 모델을 학습한다. 악성코드에서 빈번히 사용되는 API와 DLL 정보를 분석하며, 고차원의 훈련 데이터 특징을 저차원의 특징 표현으로 변환시켜, 악성코드 탐지와 패밀리 분류를 위한 API, API-DLL, DLL-CM 특징을 제안한다. 제안된 특징 선택 방법은 데이터 차원 축소와 빠른 학습의 장점을 제공한다. 성능 비교에서 악성코드 탐지율은 Random Forest가 93.0%, 악성코드 패밀리 분류 정확도는 XGBoost가 92.0%, 그리고 정상코드를 포함하는 테스트 오탐률은 Random Forest와 XGBoost가 3.5%이다.

Gradient Boosting 기법을 활용한 다크넷 트래픽 탐지 및 분류 (Darknet Traffic Detection and Classification Using Gradient Boosting Techniques)

  • 김지혜;이수진
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.371-379
    • /
    • 2022
  • 다크넷(Darknet)은 익명성과 보안을 바탕으로 하고 있어 각종 범죄 및 불법 활동에 지속적으로 악용되고 있으며, 이러한 오·남용을 막기 위해 다크넷 트래픽을 정확하게 탐지하고 분류하는 연구는 매우 중요하다. 본 논문에서는 그레디언트 부스팅 기법을 활용한 다크넷 트래픽 탐지 및 분류 기법을 제안하였다. CIC-Darknet2020 데이터셋에 XGBoost와 LightGBM 알고리즘을 적용한 결과, 99.99%의 탐지율과 99% 이상의 분류 성능을 나타내어 기존 연구에 비해 3% 이상 높은 탐지 성능과 13% 이상의 높은 분류 성능을 달성할 수 있었다. 특히, LightGBM 알고리즘의 경우, XGBoost보다 약 1.6배의 학습 시간과 10배의 하이퍼 파라미터 튜닝 실행시간을 단축하여 월등히 우수한 성능으로 다크넷 트래픽 탐지 및 분류를 수행하였다.

XGBoost 모형을 활용한 가격 상승 요인 탐색 및 예측을 통한 리셀 시장 진입 장벽 해소에 관한 연구 (A Study on Resolving Barriers to Entry into the Resell Market by Exploring and Predicting Price Increases Using the XGBoost Model)

  • 윤현섭;강주영
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.155-174
    • /
    • 2021
  • 본 연구는 새롭게 떠오르는 재테크 방법 중 아이템의 희귀성을 이용하여 출시가보다 비싼 가격에 재판매하는 리셀(Resell) 재테크에 주목하였다. 리셀 시장은 패션 분야를 중심으로 세계적으로 시장 규모가 급격히 성장하고 있을 뿐만 아니라 국내에도 열풍이 불고 있으나 아직까지 체계적인 리셀 시장에 대한 실증적인 분석은 부족하다. 이에 본 연구는 리셀의 대표적 사이트인 StockX의 스니커즈 데이터를 활용하여 리셀 시장에 관심 있는 사용자들에게 기본적인 가이드라인을 제시하고 리셀 시장의 진입장벽을 해소하고자 한다. 약 150만 개의 데이터를 수집하여 XGBoost 알고리즘과 Prophet 모형을 통하여 분석을 진행하였다. 분석 결과 리셀 거래에 유효한 영향을 미치는 요인들을 각 변수 별로 파악할 수 있었고 어떤 종류의 스니커즈가 리셀 거래를 하기에 적합한지 확인할 수 있었다. 또한 스니커즈들의 과거데이터를 통해 미래의 가격을 예측하여 추후의 수익성을 예상할 수 있었다. 본 연구는 아직 시작 단계인 리셀 분야에 대한 실증 분석을 기반으로 시장 진입 및 활용에 대한 가이드라인을 제시하고 더 나아가 마니아층 위주로 점유되던 리셀 시장을 활성화할 수 있을 것으로 기대한다.

차량가속도데이터를 이용한 머신러닝 기반의 궤도품질지수(TQI) 예측 (Prediction of Track Quality Index (TQI) Using Vehicle Acceleration Data based on Machine Learning)

  • 최찬용;김현기;김영철;김상수
    • 한국지반신소재학회논문집
    • /
    • 제19권1호
    • /
    • pp.45-53
    • /
    • 2020
  • 철도분야에서도 계측자료를 바탕으로 머신러닝 기법을 이용하여 예측 분석하는 시도가 점차적으로 증가하고 있는 실정이다. 이 논문에서는 열차의 차상가속도 데이터를 기반으로 궤도의 품질을 결정하는 지표 중에 하나인 궤도품질지수를 머신러닝 기법을 활용하여 예측하였다. 머신러닝 기법으로 활용하고 있는 대표적인 3개의 모델로 궤도품질지수를 예측하여 가장 정확도가 높은 모델은 XGBoost으로 데이터셋에서 85% 이상의 예측정확도를 보였다. 또한 윤축과 대차의 z축의 진동가속도가 고저 궤도품질지수의 기여도가 높은 것으로 나타났으며, 이는 기존 연구결과와도 잘 일치하였다. 이러한 결과를 볼 때 단일 알고리즘인 서포터 벡터머신보다는 앙상블 알고리즘을 적용한 랜덤포레스트와 XGBoost이 정확도가 높은 것으로 판단된다. 따라서 머신러닝 기법에서 적용모델에 따라 정확도가 달라질 수 있기 때문에 차량진동가속도를 이용한 궤도품질지수를 예측하기 위해서는 앙상블 알고리즘을 가지는 모델을 적용하는 것이 적절할 것으로 판단된다.

XGboost 기반의 WiFi 신호를 이용한 실내 측위 기법 (Indoor positioning method using WiFi signal based on XGboost)

  • 황치곤;윤창표;김대진
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.70-75
    • /
    • 2022
  • 위치를 정확하게 측정하는 것은 다양한 서비스를 제공하는 데 필요하다. 실내 측위를 위한 데이터는 스마트 폰의 앱을 통해 WiFi 장치로부터 RSSI 값을 측정한다. 이렇게 측정된 데이터는 기계학습의 원시 데이터가 된다. 특징 데이터는 측정된 RSSI 값이고, 레이블은 측정한 위치에 대한 공간의 이름으로 한다. 이를 위한 기계학습 기법은 분류에 효율적인 기법을 적용하여 WiFi 신호만으로 정확한 위치를 예측하는 기법을 연구하고자 한다. 앙상블은 하나의 모델보다 다양한 모델을 통하여 더 정확한 예측값을 구하는 기법으로, bagging과 boosting이 있다. 이 중 Boosting은 샘플링한 데이터를 바탕으로 모델링한 결과를 통해 모델의 가중치를 조정하는 기법으로, 다양한 알고리즘이 있다. 본 연구는 위 기법 중 XGboost를 이용하고, 다른 앙상블 기법과 이용한 수행결과를 바탕으로 성능을 평가한다.

머신러닝을 이용한 안개 예측 시 목측과 시정계 계측 방법에 따른 모델 성능 차이 비교 (Comparison of Machine Learning Model Performance based on Observation Methods using Naked-eye and Visibility-meter)

  • 박창현;이순환
    • 한국지구과학회지
    • /
    • 제44권2호
    • /
    • pp.105-118
    • /
    • 2023
  • 본 연구에서는 2016년부터 2020년까지 내륙 관측소 중 안개 최다발 지역인 안동을 대상으로 XGBoost-DART 머신러닝 알고리즘을 이용하여 1 시간 후 안개 유무를 예측하였다. 기상자료, 농업관측자료, 추가 파생자료와 각 자료를 오버 샘플링한 확장자료, 총 6개의 데이터 세트를 사용하였다. 목측으로 획득한 기상현상번호와 시정계 관측으로 측정된 시정거리 자료를 각각 안개 유[1]무[0]로 이진 범주화하였다. 총 12개의 머신러닝 모델링 실험을 설계하였고, 안개가 사회와 지역사회에 미치는 유해성을 고려하여 모델의 성능은 재현율과 AUC-ROC를 중심으로 평가하였다. 전체적으로, 오버샘플링한 기상자료와 기상현상번호 기반의 예측 목표를 조합한 실험이 최고 성능을 보였다. 이 연구 결과는 머신러닝 알고리즘을 활용한 안개 예측에 있어서, 목측으로 획득한 기상현상번호의 중요성을 암시한다.

불균형 데이터를 갖는 냉동 컨테이너 고장 판별 및 원인 분석을 위한 기계학습 모형 개발 (Development of machine learning model for reefer container failure determination and cause analysis with unbalanced data)

  • 이희원;박성호;이승현;이승재;이강배
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.23-30
    • /
    • 2022
  • 냉동 컨테이너의 고장은 큰 비용의 손실을 야기하지만, 현재 냉동 컨테이너의 알람 체계는 효율성이 떨어진다. 기존에 냉동 시스템의 시뮬레이션 데이터를 활용한 연구는 존재하지만, 냉동 컨테이너의 실제 운영 데이터를 활용한 연구는 부족하다. 이에 본 연구는 실제 냉동 컨테이너 운영 데이터를 활용하여 고장 원인을 분류하였다. 실제 데이터에서는 데이터 불균형이 발생하였으며 ENN-SMOTE, 클래스 가중치를 둔 Logistic 회귀분석과 본 연구에서 개발한 2-stage 알고리즘을 비교하여 데이터 불균형문제를 해결하였다. 2-stage 알고리즘은 XGboost, LGBoost, DNN을 사용하여 첫 번째 단계에서는 고장 및 정상을 분류하고, 두 번째 단계에서는 고장의 원인을 분류하는 알고리즘이다. 2-stage 알고리즘에서 LGBoost를 사용한 모델이 99.16%의 정확도로 가장 우수하였다. 본 연구는 데이터 불균형을 해결하기 위해 2-stage 알고리즘을 활용한 최종모델을 제안하며 이는 다른 산업에도 활용할 수 있을 것으로 사료된다.

교통과 지역의 특성에 따른 대설의 실시간 피해 위험도 분석 연구 (A Study on the Real-Time Risk Analysis of Heavy-Snow according to the Characteristics of Traffic and Area)

  • 하광림;정용철;유진영;이준희
    • 한국산업정보학회논문지
    • /
    • 제27권6호
    • /
    • pp.77-93
    • /
    • 2022
  • 본 연구에서 대설의 직접, 간접적인 피해에 영향받는 요소들에 대해 지역적 특성을 반영해 위험도를 분석하는 알고리즘을 제시한다. 229개의 지역별로 대설피해의 영향을 받는 요소들을 영향변수로 선정하고 피해액과의 관계를 통해 민감도라는 개념을 도출한다. 기상 상태(적설량, 습도, 기온)와 민감도를 독립 변수로 설정하고 독립 변수의 변화에 따라 도출된 위험도를 종속변수로 설정해 머신러닝(XGBoost) 알고리즘을 이용한 대설피해 위험도 예측 모델을 개발했다.

기계학습을 이용한 아파트 매매가격 예측 연구 : 한국 아파트의 내·외적 데이터 수집과 가격 예측 중심으로 (A Study on the Prediction of Apartment Sale Price Using Machine Learning : Focused on the Collection of Internal and External Data and Price Prediction of Korean Apartments)

  • 주정민;강선미;최지웅;한영우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.956-959
    • /
    • 2020
  • 본 연구에서는 아파트를 대표할 수 있는 내·외적 데이터를 수집하고 인공지능 기술들을 활용하여 아파트 가격을 예측하는 시스템을 구축하고자 한다. 구체적으로 웹크롤링 기법을 통해 수집한 아파트 내·외적 데이터의 변수들에 대한 특성 선택(Feature Selection)을 수행하였고, 다양한 인공지능 기법을 활용하여 부동산 가격 예측 모형을 개발하였다. 아파트 가격 예측 모형 생성을 위해 Linear Regression, Ridge, Xgboost, Lightgbm, Catboost 등의 기계학습 알고리즘을 사용하였고, RMSE를 사용하여 각 예측 모형 간의 성능 비교를 수행하였다. 가장 성능이 좋은 예측 모형은 Xgboost기반 예측 모형이였으며, RMSE값이 약 0.0366으로 가장 낮았으며 테스트 데이터에 대한 정확도는 약 95.1%였다.

다양한 앙상블 알고리즘을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Various Ensemble Models)

  • 조경철;김주완;김균엽;박성진;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.543-545
    • /
    • 2019
  • 본 논문은 최신 한국어 의존 구문 분석 모델(Korean dependency parsing model)들과 다양한 앙상블 모델(ensemble model)들을 결합하여 그 성능을 분석한다. 단어 표현은 미리 학습된 워드 임베딩 모델(word embedding model)과 ELMo(Embedding from Language Model), Bert(Bidirectional Encoder Representations from Transformer) 그리고 다양한 추가 자질들을 사용한다. 또한 사용된 의존 구문 분석 모델로는 Stack Pointer Network Model, Deep Biaffine Attention Parser와 Left to Right Pointer Parser를 이용한다. 최종적으로 각 모델의 분석 결과를 앙상블 모델인 Bagging 기법과 XGBoost(Extreme Gradient Boosting) 이용하여 최적의 모델을 제안한다.

  • PDF