• 제목/요약/키워드: 그레디언트 부스팅

검색결과 7건 처리시간 0.021초

이기종 머신러닝 모델 기반 치매예측 모델 (Dementia Prediction Model based on Gradient Boosting)

  • 이태인;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1729-1738
    • /
    • 2021
  • 머신러닝은 인지심리, 뇌과학과 긴밀한 관계를 유지하며 함께 발전하고 있다. 본 논문은 OASIS-3 dataset을 머신러닝 기법을 이용하여 분석하고, 이를 통해 치매를 예측하는 모델을 제안한다. OASIS-3 데이터 중 각 영역의 부피를 수치화한 데이터들에 대해 PCA(Principal component analysis) 를 통한 차원 축소를 실행한 뒤, 중요한 요소(특징)들만 추출 후 이에 대해 그래디언트 부스팅, 스태킹을 포함한 다양한 머신러닝 모델들을 적용, 각각의 성능을 비교한다. 제안하는 기법은 기존 연구들과 달리 뇌 생체 데이터들은 물론 참가자의 성별 등의 기본 정보 데이터, 참여자의 의료 정보 데이터를 사용했기에 차별성이 크다. 또한, 다양한 성능평가를 통해 제안하는 기법이 다양한 수치 데이터 중 치매와 더 많은 관련성을 보이는 특징들을 찾아내어 치매를 더 잘 예측할 수 있는 모델임을 보였다.

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

인공지능을 이용한 학습부진 특성 추출 및 예측 모델 연구 (Extracting characteristics of underachievers learning using artificial intelligence and researching a prediction model)

  • 양자영;문경희;박성호
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.510-518
    • /
    • 2022
  • 국가수준에서 시행되는 진단평가는 학교에서 학습부진이 있는 학생을 조기 발견하는 것이 매우 중요하다. 본연구는 부산교육종단의 2019년 중학교 1학년의 데이터를 입력하여 2020년 성취여부를 판별하는 인공지능 모델을 구축하고 분석하였다. 머신러닝 알고리즘으로 중학교 국어, 영어, 수학 기초학력을 예측하는 예측모형을 개발하고, 다음 학년 예측에도 78%, 82%, 83% 의 정확도를 보이는 것을 확인하였다. 또한, 중학교 과목별 성취예측 의사결정트리를 그려서 과정을 분석해보면서, 성취 예측에 영향을 미치는 특성들은 어떠한 것들이 있는지 살펴보았다.

Gradient Boosting 기법을 활용한 다크넷 트래픽 탐지 및 분류 (Darknet Traffic Detection and Classification Using Gradient Boosting Techniques)

  • 김지혜;이수진
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.371-379
    • /
    • 2022
  • 다크넷(Darknet)은 익명성과 보안을 바탕으로 하고 있어 각종 범죄 및 불법 활동에 지속적으로 악용되고 있으며, 이러한 오·남용을 막기 위해 다크넷 트래픽을 정확하게 탐지하고 분류하는 연구는 매우 중요하다. 본 논문에서는 그레디언트 부스팅 기법을 활용한 다크넷 트래픽 탐지 및 분류 기법을 제안하였다. CIC-Darknet2020 데이터셋에 XGBoost와 LightGBM 알고리즘을 적용한 결과, 99.99%의 탐지율과 99% 이상의 분류 성능을 나타내어 기존 연구에 비해 3% 이상 높은 탐지 성능과 13% 이상의 높은 분류 성능을 달성할 수 있었다. 특히, LightGBM 알고리즘의 경우, XGBoost보다 약 1.6배의 학습 시간과 10배의 하이퍼 파라미터 튜닝 실행시간을 단축하여 월등히 우수한 성능으로 다크넷 트래픽 탐지 및 분류를 수행하였다.

머신러닝을 이용한 안개 예측 시 목측과 시정계 계측 방법에 따른 모델 성능 차이 비교 (Comparison of Machine Learning Model Performance based on Observation Methods using Naked-eye and Visibility-meter)

  • 박창현;이순환
    • 한국지구과학회지
    • /
    • 제44권2호
    • /
    • pp.105-118
    • /
    • 2023
  • 본 연구에서는 2016년부터 2020년까지 내륙 관측소 중 안개 최다발 지역인 안동을 대상으로 XGBoost-DART 머신러닝 알고리즘을 이용하여 1 시간 후 안개 유무를 예측하였다. 기상자료, 농업관측자료, 추가 파생자료와 각 자료를 오버 샘플링한 확장자료, 총 6개의 데이터 세트를 사용하였다. 목측으로 획득한 기상현상번호와 시정계 관측으로 측정된 시정거리 자료를 각각 안개 유[1]무[0]로 이진 범주화하였다. 총 12개의 머신러닝 모델링 실험을 설계하였고, 안개가 사회와 지역사회에 미치는 유해성을 고려하여 모델의 성능은 재현율과 AUC-ROC를 중심으로 평가하였다. 전체적으로, 오버샘플링한 기상자료와 기상현상번호 기반의 예측 목표를 조합한 실험이 최고 성능을 보였다. 이 연구 결과는 머신러닝 알고리즘을 활용한 안개 예측에 있어서, 목측으로 획득한 기상현상번호의 중요성을 암시한다.

앙상블 머신러닝 모형을 이용한 하천 녹조발생 예측모형의 입력변수 특성에 따른 성능 영향 (Effect of input variable characteristics on the performance of an ensemble machine learning model for algal bloom prediction)

  • 강병구;박정수
    • 상하수도학회지
    • /
    • 제35권6호
    • /
    • pp.417-424
    • /
    • 2021
  • Algal bloom is an ongoing issue in the management of freshwater systems for drinking water supply, and the chlorophyll-a concentration is commonly used to represent the status of algal bloom. Thus, the prediction of chlorophyll-a concentration is essential for the proper management of water quality. However, the chlorophyll-a concentration is affected by various water quality and environmental factors, so the prediction of its concentration is not an easy task. In recent years, many advanced machine learning algorithms have increasingly been used for the development of surrogate models to prediction the chlorophyll-a concentration in freshwater systems such as rivers or reservoirs. This study used a light gradient boosting machine(LightGBM), a gradient boosting decision tree algorithm, to develop an ensemble machine learning model to predict chlorophyll-a concentration. The field water quality data observed at Daecheong Lake, obtained from the real-time water information system in Korea, were used for the development of the model. The data include temperature, pH, electric conductivity, dissolved oxygen, total organic carbon, total nitrogen, total phosphorus, and chlorophyll-a. First, a LightGBM model was developed to predict the chlorophyll-a concentration by using the other seven items as independent input variables. Second, the time-lagged values of all the input variables were added as input variables to understand the effect of time lag of input variables on model performance. The time lag (i) ranges from 1 to 50 days. The model performance was evaluated using three indices, root mean squared error-observation standard deviation ration (RSR), Nash-Sutcliffe coefficient of efficiency (NSE) and mean absolute error (MAE). The model showed the best performance by adding a dataset with a one-day time lag (i=1) where RSR, NSE, and MAE were 0.359, 0.871 and 1.510, respectively. The improvement of model performance was observed when a dataset with a time lag up of about 15 days (i=15) was added.

TBM 데이터와 머신러닝 기법을 이용한 디스크 커터마모 예측에 관한 연구 (A Study on the Prediction of Disc Cutter Wear Using TBM Data and Machine Learning Algorithm)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제32권6호
    • /
    • pp.502-517
    • /
    • 2022
  • TBM의 활용이 증가하면서 최근 국내외에서 머신러닝 기법으로 TBM 데이터를 분석하여 디스크커터의 교환주기 예측 및 굴진율을 예측하는 연구가 증가하고 있다. 본 연구에서는 굴진 시 획득되는 기계 데이터와 지반 데이터를 기반으로 최근에 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 회귀 모델을 접목하여 슬러리 쉴드 TBM 현장의 디스크 커터 마모 예측을 하였다. 디스크 커터 마모 예측을 위해서 Training과 Test 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 그 결과, 앙상블 계열의 그레디언트 부스팅 모델이 결정계수가 0.852, 평균 제곱근 오차가 3.111로 좋은 성능을 보여주었고 특히 학습성능과 더불어 학습속도에서 우수한 결과를 보여주었다. 현재 도출된 결과로 볼 때, 슬러리 쉴드 TBM의 기계데이터와 지반정보가 포함된 데이터를 활용한 디스크 커터 마모 예측 모델의 적합성은 높다고 보인다. 추가적으로 지반조건의 다양성과 디스크 마모 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.