• 제목/요약/키워드: RANDOM FOREST

검색결과 1,044건 처리시간 0.028초

데이터 마이닝 기법을 활용한 군용 항공기 비행 예측모형 및 비행규칙 도출 연구 (A Study on the Development of Flight Prediction Model and Rules for Military Aircraft Using Data Mining Techniques)

  • 유경열;문영주;정대율
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권3호
    • /
    • pp.177-195
    • /
    • 2022
  • Purpose This paper aims to prepare a full operational readiness by establishing an optimal flight plan considering the weather conditions in order to effectively perform the mission and operation of military aircraft. This paper suggests a flight prediction model and rules by analyzing the correlation between flight implementation and cancellation according to weather conditions by using big data collected from historical flight information of military aircraft supplied by Korean manufacturers and meteorological information from the Korea Meteorological Administration. In addition, by deriving flight rules according to weather information, it was possible to discover an efficient flight schedule establishment method in consideration of weather information. Design/methodology/approach This study is an analytic study using data mining techniques based on flight historical data of 44,558 flights of military aircraft accumulated by the Republic of Korea Air Force for a total of 36 months from January 2013 to December 2015 and meteorological information provided by the Korea Meteorological Administration. Four steps were taken to develop optimal flight prediction models and to derive rules for flight implementation and cancellation. First, a total of 10 independent variables and one dependent variable were used to develop the optimal model for flight implementation according to weather condition. Second, optimal flight prediction models were derived using algorithms such as logistics regression, Adaboost, KNN, Random forest and LightGBM, which are data mining techniques. Third, we collected the opinions of military aircraft pilots who have more than 25 years experience and evaluated importance level about independent variables using Python heatmap to develop flight implementation and cancellation rules according to weather conditions. Finally, the decision tree model was constructed, and the flight rules were derived to see how the weather conditions at each airport affect the implementation and cancellation of the flight. Findings Based on historical flight information of military aircraft and weather information of flight zone. We developed flight prediction model using data mining techniques. As a result of optimal flight prediction model development for each airbase, it was confirmed that the LightGBM algorithm had the best prediction rate in terms of recall rate. Each flight rules were checked according to the weather condition, and it was confirmed that precipitation, humidity, and the total cloud had a significant effect on flight cancellation. Whereas, the effect of visibility was found to be relatively insignificant. When a flight schedule was established, the rules will provide some insight to decide flight training more systematically and effectively.

온라인 게임 로그 데이터 클러스터링 기반 일일 단위 게임봇 판별 (Detecting Daily-Driven Game-Bot Based on Online Game Play Log Clustering)

  • 김주환;최진영
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1097-1104
    • /
    • 2021
  • 온라인 게임 봇은 이미 수 많은 방식을 통해 사람들에게 알려져 왔으며, 사용자의 게임 흥미 저하, 게임 내 경제 순환 파괴, 게임 컨텐츠 및 수명 단축 등 많은 문제점을 야기한다. 정상적이지 않은 게임 봇 운영을 방치하는 것은 장기적으로 게임 제작사와 게임 플레이어에게 모두 악영향을 미치게 되므로 이에 대한 탐지 및 제재는 필수가 되었다. 하지만 제재 단계에서 생기는 오인 제재의 딜레마를 피하기 쉽지 않다. 게임사 측에서 유저를 제재하기 위해서는 객관적인 분석 지표인 로그를 가지고 제재 여부를 판단해야 하며, 로그에서 추출한 정보를 근거로 확보해야 한다. 본 연구에서는 탐지 대상 기간의 로그에 대하여 이를 일일 단위로 나누어서 게임봇 유저 판별을 수행할 것이다. 일일 단위 탐지를 위해 탐지 기간을 하루 단위로 나누어 해당 일자에 대한 게임봇 여부를 우선 판별하고, 이후 최종 결과를 판단하였다. 제안한 방법론을 통해 일반 유저 스타일과 게임봇 유저 스타일이 섞여 있는 경우를 쉽게 탐지해 낼 수 있을 것이다. 본 논문에서 제안한 방법론으로 테스트한 결과, 분류 정확도를 확인할 수 있는 지표 중 하나인 F1-score가 0.898에서 0.945로 향상되었다.

재정비사업 해제구역 의사결정 특성 연구 - 의사결정나무기법 중심으로 - (Analysis of Characteristics of the Cancelled Districts of Housing Redevelopment Project - Focusing on Decision Tree Analysis -)

  • 이도길
    • 지역연구
    • /
    • 제37권4호
    • /
    • pp.49-59
    • /
    • 2021
  • 이 연구의 목표는 정비사업(재개발, 재건축사업)이 해제된 지역의 특성을 파악하는 것이다. 이 연구의 범위는 189개의 사업구역(추진구역 121개, 해제구역 68개)이다. 121개의 추진구역과 68개의 해제구역은 모두 의사결정나무기법으로 분석하였다. 해제구역 영향요인에 대한 첫 번째 분리는 추진주체 유무에 의해 이루어졌다. 즉, 해제구역 영향요인을 결정하는 가장 중요한 독립변수는 추진주체 유무로 나타났다. 추진주체가 없는 89개 구역 중 41개 구역이 해제되고 48개 구역이 추진되었으며, 추진주체가 있는 100개 구역 중에 9개 구역이 해제되고 91개 구역이 추진되었다. 그 다음 해제구역 영향요인에 대한 두 번째 분리는 토지등소유자 수에 의해 이루어 졌으며, 토지등소유자 수가 468명 이하인 경우 해제확률이 늘어났으며, 62개 구역 중 37개 구역이 해제되었다. 반면 토지등소유자 수가 468명 이상인 27개 구역은 4개 구역이 해제되고 23개 구역이 추진되었다. 세 번째 분리는 평균공시지가에 의해 이루어졌으며, 269.64 만원/m2(대략 평당 891만원)을 기준으로 이하에서는 35개 구역이 해제되었고, 더 높은 공시가격에서는 2개 구역이 해제되었다. 한편, 두 번째 분리에서 토지등소유자 수가 468명 이상으로 사업추진 방향으로 분리된 node4에서는 토지등소유자 당 국공유지 면적 비율이 29.43% 이상인 구역에서 4개 구역이 해제되었고, 그 이하인 구역에서 해제가 없었다. 이 연구를 위한 통계, 의사결정나무분석에는 IBM SPSS Statistics 26 프로그램이 사용되었다.

다변량 지구과학 데이터와 가우시안 혼합 모델을 이용한 공간 분포 추정 (Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data)

  • 김호림;유순영;윤성택;김경호;이군택;이정호;허철호;류동우
    • 자원환경지질
    • /
    • 제55권4호
    • /
    • pp.353-366
    • /
    • 2022
  • 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICP-AES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICP-AES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다 변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다.

EEG Feature Engineering for Machine Learning-Based CPAP Titration Optimization in Obstructive Sleep Apnea

  • Juhyeong Kang;Yeojin Kim;Jiseon Yang;Seungwon Chung;Sungeun Hwang;Uran Oh;Hyang Woon Lee
    • International journal of advanced smart convergence
    • /
    • 제12권3호
    • /
    • pp.89-103
    • /
    • 2023
  • Obstructive sleep apnea (OSA) is one of the most prevalent sleep disorders that can lead to serious consequences, including hypertension and/or cardiovascular diseases, if not treated promptly. Continuous positive airway pressure (CPAP) is widely recognized as the most effective treatment for OSA, which needs the proper titration of airway pressure to achieve the most effective treatment results. However, the process of CPAP titration can be time-consuming and cumbersome. There is a growing importance in predicting personalized CPAP pressure before CPAP treatment. The primary objective of this study was to optimize the CPAP titration process for obstructive sleep apnea patients through EEG feature engineering with machine learning techniques. We aimed to identify and utilize the most critical EEG features to forecast key OSA predictive indicators, ultimately facilitating more precise and personalized CPAP treatment strategies. Here, we analyzed 126 OSA patients' PSG datasets before and after the CPAP treatment. We extracted 29 EEG features to predict the features that have high importance on the OSA prediction index which are AHI and SpO2 by applying the Shapley Additive exPlanation (SHAP) method. Through extracted EEG features, we confirmed the six EEG features that had high importance in predicting AHI and SpO2 using XGBoost, Support Vector Machine regression, and Random Forest Regression. By utilizing the predictive capabilities of EEG-derived features for AHI and SpO2, we can better understand and evaluate the condition of patients undergoing CPAP treatment. The ability to predict these key indicators accurately provides more immediate insight into the patient's sleep quality and potential disturbances. This not only ensures the efficiency of the diagnostic process but also provides more tailored and effective treatment approach. Consequently, the integration of EEG analysis into the sleep study protocol has the potential to revolutionize sleep diagnostics, offering a time-saving, and ultimately more effective evaluation for patients with sleep-related disorders.

머신러닝을 활용한 기상조건에 따른 공공도서관 도서대출 수요분석 (Analysis of public library book loan demand according to weather conditions using machine learning)

  • 오민기;김건욱;신세영;이진명;장원준
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.41-52
    • /
    • 2022
  • 국내 공공도서관은 1, 2차 도서관 발전 종합계획을 토대로 양적 성장을 이루었으나, 질적으로는 다소 부족한 점이 있어 이를 개선하기 위한 다양한 연구가 수행되었다. 대다수 선행연구에서는 사회·경제적 요인과 통계분석에 한정되어 수행된 한계점이 있다. 이에 본 연구에서는 시공간적 개념을 적용하여 강우와 폭염으로 인한 공공도서관 대출 수요 감소를 정량적으로 산출하고, 기상 변화로 도서 대출 수요 감소가 높은 지역과 그렇지 않은 지역을 군집화하여 공공도서관 내·외부 요인들과 결합한 후 기상변화에 따른 공공도서관 대출 수요 변화를 분석하였다. 분석 결과 공공도서관별 기상으로 인한 감소 차이가 존재하였으며, 공공도서관의 특성과 공간적 위치에 따라 일부 다르게 나타났다. 또한, 기온이 35℃ 이상인 폭염일 경우 도서 대출 수요 감소 폭이 많이 증가하였으며, 랜덤포레스트 모형으로 분석한 결과 유의미한 요인이 도출되었다. 내적 요인으로는 좌석 수, 장서 수, 면적이 도출되었으며, 외적 요인으로는 공공도서관 접근 경사로, 카페, 독서실, 10대 유동인구, 30/40대 여성 유동인구가 중요한 변수로 분석되었다. 이러한 분석 결과는 특정 시즌 기상을 고려한 공공도서관 이용 활성화 정책 수립에 이바지할 것으로 판단되며, 연구의 한계점도 제시하였다.

Prediction of Postoperative Lung Function in Lung Cancer Patients Using Machine Learning Models

  • Oh Beom Kwon;Solji Han;Hwa Young Lee;Hye Seon Kang;Sung Kyoung Kim;Ju Sang Kim;Chan Kwon Park;Sang Haak Lee;Seung Joon Kim;Jin Woo Kim;Chang Dong Yeo
    • Tuberculosis and Respiratory Diseases
    • /
    • 제86권3호
    • /
    • pp.203-215
    • /
    • 2023
  • Background: Surgical resection is the standard treatment for early-stage lung cancer. Since postoperative lung function is related to mortality, predicted postoperative lung function is used to determine the treatment modality. The aim of this study was to evaluate the predictive performance of linear regression and machine learning models. Methods: We extracted data from the Clinical Data Warehouse and developed three sets: set I, the linear regression model; set II, machine learning models omitting the missing data: and set III, machine learning models imputing the missing data. Six machine learning models, the least absolute shrinkage and selection operator (LASSO), Ridge regression, ElasticNet, Random Forest, eXtreme gradient boosting (XGBoost), and the light gradient boosting machine (LightGBM) were implemented. The forced expiratory volume in 1 second measured 6 months after surgery was defined as the outcome. Five-fold cross-validation was performed for hyperparameter tuning of the machine learning models. The dataset was split into training and test datasets at a 70:30 ratio. Implementation was done after dataset splitting in set III. Predictive performance was evaluated by R2 and mean squared error (MSE) in the three sets. Results: A total of 1,487 patients were included in sets I and III and 896 patients were included in set II. In set I, the R2 value was 0.27 and in set II, LightGBM was the best model with the highest R2 value of 0.5 and the lowest MSE of 154.95. In set III, LightGBM was the best model with the highest R2 value of 0.56 and the lowest MSE of 174.07. Conclusion: The LightGBM model showed the best performance in predicting postoperative lung function.

학업성취도 예측 요인 분석 및 인공지능 예측 모델 개발 - 블렌디드 수학 수업을 중심으로 (Analysis of achievement predictive factors and predictive AI model development - Focused on blended math classes)

  • 안도연;이광호
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제61권2호
    • /
    • pp.257-271
    • /
    • 2022
  • 본 연구는 학습분석학을 기반으로 블렌디드 수학 수업에서 발생하는 학습 데이터를 활용하여 수학 학업성취도를 예측하는 요인이 무엇인지 탐색하고, 그 결과를 활용하여 수학 학업성취도를 예측하는 인공지능 모델을 개발하고자 하였다. 초등학교 5~6학년 학생 205명의 수학 학습 성향, LMS 데이터, 평가 결과를 수집하여 랜덤포레스트 모델을 분석하였다. 수학 학습성향에는 수학학습 자신감, 수학불안, 수학교과 흥미, 수학학습 자기관리, 수학학습 전략이 포함되었다. LMS 데이터로 e학습터의 진도율, 학습 횟수, 학습 시간을 수집하였다. 평가는 진단평가와 각 단원의 단원평가 결과를 사용하였다. 분석 결과 수학 학습성향 중 수학 학습 전략이 저성취 학생을 예측에 가장 중요한 요인으로 나타났다. LMS 학습 데이터는 예측에 미미한 영향을 주었다. 본 연구는 인공지능 모델이 블렌디드 수학 수업에서 발생하는 학습 데이터로 저성취 학생을 예측할 수 있음을 시사한다. 또한 분석 결과를 통해 교사가 학생을 평가하고 피드백하는 데 구체적인 정보를 제공하여 교사의 평가 활동에 보조적인 역할을 할 수 있을 것으로 기대한다.

기계학습을 활용한 계란가격 예측 모델링 (Modeling for Egg Price Prediction by Using Machine Learning)

  • 조호현;이대겸;채영훈;장동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.15-17
    • /
    • 2022
  • 2020년 하반기부터 2021년 초까지 발생한 조류인플루엔자의 여파로 1,780만수의 산란계가 살처분되면서 계란 공급 부족으로 계란 1판에 1만원을 넘는 사태가 벌어지기도 했다. 이에 정부는 물가 안정 대책으로 1,000억원 이상의 국고를 계란 수입에 투입하였지만, 계란 가격의 안정화는 쉽지 않았다. 계란 가격의 급격한 변동성은 소비자와 양계농가 모두에게 부정적인 영향을 미치므로 계란 가격의 안정화 방안을 위한 대책이 필요하다. 이를 위해 본 연구에서는 머신러닝 회귀분석 알고리즘을 활용하여 계란 가격을 예측하였으며, 가격 예측을 위해서 대한양계협회 2012~2021년도의 월간 산란계 생산통계와 국가통계포털(KOSIS)의 도축실적 등 총 8개의 독립변수를 선택하였다. 실제 가격과 모델에 의한 예측 가격의 차이를 나타내는 평균 제곱근 오차(RMSE)는 약 103원이며, 이는 개발된 모델이 계란 가격을 비교적 잘 예측한 결과라고 판단된다. 정확한 계란 가격 예측은 산란계 계란 생산주령의 유연한 조정과 산란계 입식에 대한 의사결정을 도울 수 있고, 계란 가격 안정성 확보에 도움을 줄 것으로 보인다.

  • PDF

Transfer Learning based DNN-SVM Hybrid Model for Breast Cancer Classification

  • Gui Rae Jo;Beomsu Baek;Young Soon Kim;Dong Hoon Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.1-11
    • /
    • 2023
  • 유방암은 전 세계적으로 여성들 대다수에게 가장 두려워하는 질환이다. 오늘날 데이터의 증가와 컴퓨팅 기술의 향상으로 머신러닝(machine learning)의 효율성이 증대되어 암 검출 및 진단 등에 중요한 역할을 하고 있다. 딥러닝(deep learning)은 인공신경망(artificial neural network, ANN)을 기반으로 하는 머신러닝 기술의 한 분야로 최근 여러 분야에서 성능이 급속도로 개선되어 활용 범위가 확대되고 있다. 본 연구에서는 유방암 분류를 위해 전이학습(transfer learning) 기반 DNN(Deep Neural Network)과 SVM(support vector machine)의 구조를 결합한 DNN-SVM Hybrid 모형을 제안한다. 전이학습 기반 제안된 모형은 적은 학습 데이터에도 효과적이고, 학습 속도도 빠르며, 단일모형, 즉 DNN과 SVM이 가지는 장점을 모두 활용 가능토록 결합함으로써 모형 성능이 개선되었다. 제안된 DNN-SVM Hybrid 모형의 성능평가를 위해 UCI 머신러닝 저장소에서 제공하는 WOBC와 WDBC 유방암 자료를 가지고 성능실험 결과, 제안된 모형은 여러 가지 성능 척도 면에서 단일모형인 로지스틱회귀 모형, DNN, SVM 그리고 앙상블 모형인 랜덤 포레스트보다 우수함을 보였다.