• 제목/요약/키워드: Decision tree algorithm

검색결과 452건 처리시간 0.022초

귀밑샘 암종에서 생존 예측을 위한 임상병리 인자 분석 및 머신러닝 모델의 구축 (Clinico-pathologic Factors and Machine Learning Algorithm for Survival Prediction in Parotid Gland Cancer)

  • 곽승민;김세헌;최은창;임재열;고윤우;박영민
    • 대한두경부종양학회지
    • /
    • 제38권1호
    • /
    • pp.17-24
    • /
    • 2022
  • Background/Objectives: This study analyzed the prognostic significance of clinico-pathologic factors including comprehensive nodal factors in parotid gland cancers (PGCs) patients and constructed a survival prediction model for PGCs patients using machine learning techniques. Materials & Methods: A total of 131 PGCs patients were enrolled in the study. Results: There were 19 cases (14.5%) of lymph nodes (LNs) at the lower neck level and 43 cases (32.8%) involved multiple level LNs metastases. There were 2 cases (1.5%) of metastases to the contralateral LNs. Intraparotid LNs metastasis was observed in 6 cases (4.6%) and extranodal extension (ENE) findings were observed in 35 cases (26.7%). Lymphovascular invasion (LVI) and perineural invasion findings were observed in 42 cases (32.1%) and 49 cases (37.4%), respectively. Machine learning prediction models were constructed using clinico-pathologic factors including comprehensive nodal factors and Decision Tree and Stacking model showed the highest accuracy at 74% and 70% for predicting patient's survival. Conclusion: Lower level LNs metastasis and LNR have important prognostic significance for predicting disease recurrence and survival in PGCs patients. These two factors were used as important features for constructing machine learning prediction model. Our machine learning model could predict PGCs patient's survival with a considerable level of accuracy.

Datamining 기법을 활용한 단기 항만 물동량 예측 (Forecasting the Daily Container Volumes Using Data Mining with CART Approach)

  • 하준수;임채환;조광휘;하헌구
    • 한국항만경제학회지
    • /
    • 제37권3호
    • /
    • pp.1-17
    • /
    • 2021
  • 본 연구에서는 항만의 단기 물동량을 예측하기 위해 ARIMA 모형과 CART 모형을 활용한 단기 수요예측 모형을 제시하였다. 제시한 모형은 2단계로 구성된다. 1단계에서는 시계열 예측치와 주요 교역국의 주당 근로일수를 변수로 사용하여 CART 모형을 추정하고 주별 물동량 예측을 진행한다. 2단계에서는 1단계에서 도출한 예측치와 요일 정보, 주요국 공휴일 정보, 주요국 행사 기간 정보를 설명변수로 활용하여 최종적인 일별 물동량 예측 모형을 추정한다. 제시한 수요예측 모형을 활용하여 2020년 10월 1일부터 12월 31일까지 92일의 부산항 물동량을 예측한 결과 제시한 모형의 평균 정확도가 기존 시계열 모형보다 '22.5%' 높은 것으로 나타났다. 제시 모형은 일별 물동량의 추세뿐만 아니라 물동량이 급등락하는 지점에서도 높은 정확도를 보였으며 시계열 예측 모형을 사용했을 때 비해 총 166,504(TEU)의 오차를 줄일 수 있는 것으로 나타났다. 항만의 효율적인 운영을 위해 필수적인 단기 물동량 예측에 적합한 예측 모형을 제시한 본 연구는 충분한 활용 가치가 있을 것으로 판단된다.

데이터 확장 기법에서 손실값을 대치하는 확률 추정 방법 (Probability Estimation Method for Imputing Missing Values in Data Expansion Technique)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.91-97
    • /
    • 2021
  • 본 논문은 불완전한 데이터를 처리하기 위해 본래 규칙개선 문제를 위해 고안되었던 데이터 확장 기법을 사용한다. 이 기법은 사건마다 중요도를 의미하는 가중치를 가질 수 있으며 각 변수를 확률값으로 나타낼 수 있는 특징이 있다. 본 논문에서의 핵심 문제가 손실값과 가장 근사한 확률을 구하여 손실값을 확률로 대치하는 것이므로, 3가지 다른 알고리즘으로 손실값에 대한 확률을 구한 후 이 데이터 구조의 형식으로 저장한다. 그리고 각각의 확률 구조에 대한 평가를 위해 SVM 분류 알고리즘으로 각각의 정보 영역을 분류하는 학습을 한 후, 본래의 정보와 비교하여 얼마나 서로 일치하느냐를 측정한다. 손실값의 대치 확률을 위한 3가지 알고리즘들은 같은 데이터 구조를 사용하고 있으나 접근 방법에서는 서로 다른 특징을 가지고 있어 적용 분야에 따라 다양한 용도로 이용될 수 있기를 기대한다.

머신러닝 기반 고춧가루 원산지 판별기법 (Detection of Red Pepper Powders Origin based on Machine Learning)

  • 유성민;박민서
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.355-360
    • /
    • 2022
  • 최근 국내산 고추의 생산 비용 상승과 수입산 고추의 도입으로 고춧가루 원산지 허위표기 등의 피해사례가 속출하고 있다. 이에 따라 원산지를 신속하고 정확하게 판별하는 문제가 대두되었다. 기존의 고춧가루 원산지 판별법의 경우 무기 및 유기성분을 실험적으로 대조 및 분석하여 비용과 시간이 많이 든다는 한계가 있다. 이를 보완하기 위해, 본 연구는 머신러닝을 도입하여 국내산, 수입산 고춧가루 분류를 제안한다. 고춧가루에 포함된 53가지 성분에 대하여 머신러닝 모델을 설계하고 검증하였다. 본 연구를 통해 어떠한 성분이 원산지 판별 시 중요하게 활용되는지 파악 할 수 있었다. 추후 고춧가루뿐만 아니라 다양한 식품으로 확장하여 원산지 판별에 드는 비용을 보다 줄일 수 있을 것으로 기대된다.

머신러닝 기법을 활용한 낙동강 하구 염분농도 예측 (Nakdong River Estuary Salinity Prediction Using Machine Learning Methods)

  • 이호준;조민규;천세진;한정규
    • 스마트미디어저널
    • /
    • 제11권2호
    • /
    • pp.31-38
    • /
    • 2022
  • 하천의 염분 변화를 신속히 예측하는 것은 염분 침투로 인한 농업, 생태계의 피해를 예측하고 재해 방지 대책을 수립하기 위해서 중요한 작업이다. 머신러닝 기법은 물리 기반 수리 모델에 비해 계산량이 훨씬 적기 때문에, 비교적 짧은 시간에 염분농도를 예측 가능하여 물리 기반 수리 모델의 보완 기법으로 연구되고 있다. 해외에서는 머신러닝 기법 기반 염분 예측 연구들이 활발히 연구되고 있으나, 대한민국의 공공데이터에 머신러닝 기법을 적용한 연구는 충분치 않다. 낙동강 하구의 환경 정보에 관한 공공데이터와 함께, 본 연구는 여러 종류의 머신러닝 기법의 염분농도에 대한 예측 성능을 측정하였다. 실험 결과에서, 결정 트리 기반의 LightGBM 알고리즘은 평균 RMSE 0.37의 예측 정확도와 타 알고리즘 대비 2-20배 빠른 학습 속도를 보여주었다. 따라서 국내 하천의 염분농도 예측에도 머신러닝 기법을 적용할 수 있다고 판단된다.

머신러닝 기법을 활용한 철골 모멘트 골조의 화재 취약도 분석 (Fire Fragility Analysis of Steel Moment Frame using Machine Learning Algorithms)

  • 박성월;김은주
    • 한국전산구조공학회논문집
    • /
    • 제37권1호
    • /
    • pp.57-65
    • /
    • 2024
  • 내화 구조물에서는 환기 계수, 재료 탄성 계수, 항복 강도, 열팽창 계수, 외력 및 화재 위치에서 불확실성이 관찰된다. 환기 불확실성은 화재 온도에 영향을 미치고, 이는 다시 구조물 온도에 영향을 미친다. 이러한 온도는 재료 특성과 함께 불확실한 구조적 응답으로 이어지고 있다. 화재 시 구조적 비선형 거동으로 인해 몬테카를로 시뮬레이션을 사용하여 화재 취약성을 계산하는데, 이는 시간이 많이 소요된다. 따라서 머신러닝 알고리즘을 활용해 화재 취약성 분석을 예측함으로써 효율성을 높이고 정확성을 확보하려는 연구가 진행되고 있다. 이 연구에서는 화재 크기, 위치, 구조 재료 특성의 불확실성을 고려하여 철골 모멘트 골조 건물의 화재 취약성을 예측했다. 화재 시 비선형 구조 거동 결과를 기반으로 한 취약성 곡선은 로그 정규 분포를 따른다. 마지막으로 제안한 방법이 화재 취약성을 정확하고 효율적으로 예측할 수 있음을 보여주었다.

Protecting Accounting Information Systems using Machine Learning Based Intrusion Detection

  • Biswajit Panja
    • International Journal of Computer Science & Network Security
    • /
    • 제24권5호
    • /
    • pp.111-118
    • /
    • 2024
  • In general network-based intrusion detection system is designed to detect malicious behavior directed at a network or its resources. The key goal of this paper is to look at network data and identify whether it is normal traffic data or anomaly traffic data specifically for accounting information systems. In today's world, there are a variety of principles for detecting various forms of network-based intrusion. In this paper, we are using supervised machine learning techniques. Classification models are used to train and validate data. Using these algorithms we are training the system using a training dataset then we use this trained system to detect intrusion from the testing dataset. In our proposed method, we will detect whether the network data is normal or an anomaly. Using this method we can avoid unauthorized activity on the network and systems under that network. The Decision Tree and K-Nearest Neighbor are applied to the proposed model to classify abnormal to normal behaviors of network traffic data. In addition to that, Logistic Regression Classifier and Support Vector Classification algorithms are used in our model to support proposed concepts. Furthermore, a feature selection method is used to collect valuable information from the dataset to enhance the efficiency of the proposed approach. Random Forest machine learning algorithm is used, which assists the system to identify crucial aspects and focus on them rather than all the features them. The experimental findings revealed that the suggested method for network intrusion detection has a neglected false alarm rate, with the accuracy of the result expected to be between 95% and 100%. As a result of the high precision rate, this concept can be used to detect network data intrusion and prevent vulnerabilities on the network.

Hybrid machine learning with HHO method for estimating ultimate shear strength of both rectangular and circular RC columns

  • Quang-Viet Vu;Van-Thanh Pham;Dai-Nhan Le;Zhengyi Kong;George Papazafeiropoulos;Viet-Ngoc Pham
    • Steel and Composite Structures
    • /
    • 제52권2호
    • /
    • pp.145-163
    • /
    • 2024
  • This paper presents six novel hybrid machine learning (ML) models that combine support vector machines (SVM), Decision Tree (DT), Random Forest (RF), Gradient Boosting (GB), extreme gradient boosting (XGB), and categorical gradient boosting (CGB) with the Harris Hawks Optimization (HHO) algorithm. These models, namely HHO-SVM, HHO-DT, HHO-RF, HHO-GB, HHO-XGB, and HHO-CGB, are designed to predict the ultimate strength of both rectangular and circular reinforced concrete (RC) columns. The prediction models are established using a comprehensive database consisting of 325 experimental data for rectangular columns and 172 experimental data for circular columns. The ML model hyperparameters are optimized through a combination of cross-validation technique and the HHO. The performance of the hybrid ML models is evaluated and compared using various metrics, ultimately identifying the HHO-CGB model as the top-performing model for predicting the ultimate shear strength of both rectangular and circular RC columns. The mean R-value and mean a20-index are relatively high, reaching 0.991 and 0.959, respectively, while the mean absolute error and root mean square error are low (10.302 kN and 27.954 kN, respectively). Another comparison is conducted with four existing formulas to further validate the efficiency of the proposed HHO-CGB model. The Shapely Additive Explanations method is applied to analyze the contribution of each variable to the output within the HHO-CGB model, providing insights into the local and global influence of variables. The analysis reveals that the depth of the column, length of the column, and axial loading exert the most significant influence on the ultimate shear strength of RC columns. A user-friendly graphical interface tool is then developed based on the HHO-CGB to facilitate practical and cost-effective usage.

사물인터넷 환경에서 랜덤포레스트를 이용한 실시간 낙상 사고 예측 (Real-time Fall Accident Prediction using Random Forest in IoT Environment)

  • 방찬우;김봉현
    • 사물인터넷융복합논문지
    • /
    • 제10권4호
    • /
    • pp.27-33
    • /
    • 2024
  • 2023년 기준 국내 건설업에서 발생한 사고 재해자 수는 26,829명으로 기타의 사업(서비스업)에 이어 두 번째에 해당한다. 전 업종 재해자 사고 유형으로는 넘어짐(29,229명), 떨어짐(14,357명) 순으로 이루어져 있다. 위 자료를 토대로 본 연구에서는 건설 현장에서 빈번하게 발생하는 낙상 사고를 예측하기 위해 안전모와 깔창에 센서를 부착하고, 이를 통해 수집된 데이터를 바탕으로 랜덤 포레스트 알고리즘을 적용한 스마트 안전 장비를 제안한다. 랜덤 포레스트 모델은 여러 결정 트리를 생성하여 각 트리의 예측을 종합함으로써 높은 정확도로 낙상 사고를 실시간으로 판별할 수 있다. 이 모델은 안전모에 부착된 MPU-6050 센서에서 수집된 데이터를 통해 노동자의 낙상 사고 여부와 행동 유형을 분류한다. 안전모로부터 일차적으로 판별된 낙상사고는 깔창에 부착된 센서를 통해 이차적으로 예측하여, 예측 정확도를 높인다. 이를 통해 사고 발생 시 신속한 대응이 가능하여 노동자의 사망 및 재해사고를 줄일 수 있다고 기대한다.

무손실 의료 영상 압축을 위한 적응적 심볼 교환에 기반을 둔 이진 적응 산술 부호화 방법 (A binary adaptive arithmetic coding algorithm based on adaptive symbol changes for lossless medical image compression)

  • 지창우;박성한
    • 한국통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.2714-2726
    • /
    • 1997
  • 본 논문은 디지탈 의료 영상을 효과적으로 무손실 압축하기 위한 적용적 심볼 교환에 기반을 둔 새로운 부호화 방법을 제안한다. 제안하는 알고리즘은 먼저 원영상에 차분 규칙 또는 적용 예측기를 적용하여 차분 영상값을 구하며, 이러한 차분 영상값에 대한 개별 context를 결정한다. 다음 단계에서 context하에서 현재 부호화될 차분 영상값과 모델 템플리트상의 차분 영상값들 사이의 극성 일치를 갖는 심볼의 추정을 기반으로 한 적응적인 심볼 교환 과정을 적용하여 예측 심볼을 얻는다. 예측 심볼은 부호화 될 차분 영상값에 대해 가장 빈번하게 발생하리라고 예측되는 심볼을 가리키며, 예측 심볼이 차분 영상값과 동일할 때 부호화 효율이 높게 유지된다. 마지막 부호화 단계에서 이진 적응 산술 부호기는 특정 context가 주어진 차분 영상값의 예측 여부를 판단하는 이진 판단 트리를 사용하여 차분 영상값을 부호화 한다. 차분 영상값 예측 적중율 향상을 통하여 제안된 알고리즘의 부호화 효율은 ISO JPEG 무손실 예측기를 산술 부호기에 적용한 경우보다 약 33% 정도 높아지고, 차분 예측기 또는 적용 예측기를 산술 부호기에 적용한 경우에 비해 약 23% 정도 높아짐을 알 수 있다. 제안된 부호화 방법은 단위 구간 부분할시 곱셈 연산이 아닌 덧셈 연산을 사용하기 때문에 부호기의 복잡성이 낮고 다중 비트 공간의 영상을 이진 공간 열로 분할하지 않고 바로 다중 비트 의료 영상을 부호기에 적용 할 수 있기 때문에 의료 PACS의 영상 압축부에서 사용될 수 있다.

  • PDF