• 제목/요약/키워드: Feature Importance Analysis

검색결과 139건 처리시간 0.021초

Enhancing prediction accuracy of concrete compressive strength using stacking ensemble machine learning

  • Yunpeng Zhao;Dimitrios Goulias;Setare Saremi
    • Computers and Concrete
    • /
    • 제32권3호
    • /
    • pp.233-246
    • /
    • 2023
  • Accurate prediction of concrete compressive strength can minimize the need for extensive, time-consuming, and costly mixture optimization testing and analysis. This study attempts to enhance the prediction accuracy of compressive strength using stacking ensemble machine learning (ML) with feature engineering techniques. Seven alternative ML models of increasing complexity were implemented and compared, including linear regression, SVM, decision tree, multiple layer perceptron, random forest, Xgboost and Adaboost. To further improve the prediction accuracy, a ML pipeline was proposed in which the feature engineering technique was implemented, and a two-layer stacked model was developed. The k-fold cross-validation approach was employed to optimize model parameters and train the stacked model. The stacked model showed superior performance in predicting concrete compressive strength with a correlation of determination (R2) of 0.985. Feature (i.e., variable) importance was determined to demonstrate how useful the synthetic features are in prediction and provide better interpretability of the data and the model. The methodology in this study promotes a more thorough assessment of alternative ML algorithms and rather than focusing on any single ML model type for concrete compressive strength prediction.

영남지역 언론사의 온라인 사회자본 분석 : 웹사이트와 소셜미디어를 중심으로 (Online Social Capital Analysis on the Yeungnam Local Presses : Website and Social Media)

  • 김지영;하영지;박한우
    • 한국콘텐츠학회논문지
    • /
    • 제13권4호
    • /
    • pp.73-85
    • /
    • 2013
  • 이 연구는 온라인 사회자본 형성이라는 개념을 이용하여 지역 언론사의 웹사이트와 소셜미디어 이용을 분석하였다. 언론사의 온라인 사회자본을 웹1.0으로서 홈페이지와 웹2.0으로서 소셜미디어로 나누어 대응 분석을 통해 시각화하였다. 즉 홈페이지에 나타난 웹 피쳐를 분석하고, 소셜미디어의 소셜피쳐와 대표성을 갖는 트위터 이용의 네트워크 구조를 검토하는 것이 목적이다. 온라인 사회자본으로서 웹사이트는 커뮤니케이션, 정보제공, 비즈니스의 측면에서 역할을 하였다. 영남지역 언론사들의 웹페이지 메인에 소셜미디어를 이용해 각각 다른 형태로 웹 피쳐를 통해 네트워크를 확장하려고 하였다. 또한 중앙언론사가 모든 플랫폼을 균형 있게 이용한 반면, 영남언론사는 트위터에 치중되어 있었으며 트위터, 유튜브, 페이스북 순서로 소셜피쳐를 활용하였다.

트래픽 속성 개수를 고려한 의사 결정 트리 DDoS 기반 분석 (DDoS traffic analysis using decision tree according by feature of traffic flow)

  • 진민우;염성관
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.69-74
    • /
    • 2021
  • 코로나19의 영향으로 온라인 활동이 늘어나면서 인터넷 접속량도 늘어나고 있다. 하지만 악의적인 사용자에 의해서 네트워크 공격도 다양해지고 있으며 그중에서 DDoS 공격은 해마다 증가하는 추세이다. 이러한 공격은 침입 탐지 시스템에 의해서 탐지되며 조기에 차단할 수 있다. 침입 탐지 알고리즘을 검증하기 위해 다양한 데이터 세트를 이용하고 있으나 본 논문에서는 최신 트래픽 데이터 세트인 CICIDS2017를 이용한다. 의사 결정 트리를 이용하여 DDoS 공격 트래픽을 분석하였다. 중요도가 높은 결정적인 속성(Feature)을 찾아서 해당 속성에 대해서만 의사 결정 트리를 진행하여 정확도를 확인하였다. 그리고 위양성 및 위음성 트래픽의 내용을 분석하였다. 그 결과 하나의 속성은 98%, 두 가지 속성은 99.8%의 정확도를 각각 나타냈다.

Fault Detection of a Proposed Three-Level Inverter Based on a Weighted Kernel Principal Component Analysis

  • Lin, Mao;Li, Ying-Hui;Qu, Liang;Wu, Chen;Yuan, Guo-Qiang
    • Journal of Power Electronics
    • /
    • 제16권1호
    • /
    • pp.182-189
    • /
    • 2016
  • Fault detection is the research focus and priority in this study to ensure the high reliability of a proposed three-level inverter. Kernel principal component analysis (KPCA) has been widely used for feature extraction because of its simplicity. However, highlighting useful information that may be hidden under retained KPCs remains a problem. A weighted KPCA is proposed to overcome this shortcoming. Variable contribution plots are constructed to evaluate the importance of each KPC on the basis of sensitivity analysis theory. Then, different weighting values of KPCs are set to highlight the useful information. The weighted statistics are evaluated comprehensively by using the improved feature eigenvectors. The effectiveness of the proposed method is validated. The diagnosis results of the inverter indicate that the proposed method is superior to conventional KPCA.

Investigating Non-Laboratory Variables to Predict Diabetic and Prediabetic Patients from Electronic Medical Records Using Machine Learning

  • Mukhtar, Hamid;Al Azwari, Sana
    • International Journal of Computer Science & Network Security
    • /
    • 제21권9호
    • /
    • pp.19-30
    • /
    • 2021
  • Diabetes Mellitus (DM) is one of common chronic diseases leading to severe health complications that may cause death. The disease influences individuals, community, and the government due to the continuous monitoring, lifelong commitment, and the cost of treatment. The World Health Organization (WHO) considers Saudi Arabia as one of the top 10 countries in diabetes prevalence across the world. Since most of the medical services are provided by the government, the cost of the treatment in terms of hospitals and clinical visits and lab tests represents a real burden due to the large scale of the disease. The ability to predict the diabetic status of a patient without the laboratory tests by performing screening based on some personal features can lessen the health and economic burden caused by diabetes alone. The goal of this paper is to investigate the prediction of diabetic and prediabetic patients by considering factors other than the laboratory tests, as required by physicians in general. With the data obtained from local hospitals, medical records were processed to obtain a dataset that classified patients into three classes: diabetic, prediabetic, and non-diabetic. After applying three machine learning algorithms, we established good performance for accuracy, precision, and recall of the models on the dataset. Further analysis was performed on the data to identify important non-laboratory variables related to the patients for diabetes classification. The importance of five variables (gender, physical activity level, hypertension, BMI, and age) from the person's basic health data were investigated to find their contribution to the state of a patient being diabetic, prediabetic or normal. Our analysis presented great agreement with the risk factors of diabetes and prediabetes stated by the American Diabetes Association (ADA) and other health institutions worldwide. We conclude that by performing class-specific analysis of the disease, important factors specific to Saudi population can be identified, whose management can result in controlling the disease. We also provide some recommendations learnt from this research.

An improved cross-correlation method based on wavelet transform and energy feature extraction for pipeline leak detection

  • Li, Suzhen;Wang, Xinxin;Zhao, Ming
    • Smart Structures and Systems
    • /
    • 제16권1호
    • /
    • pp.213-222
    • /
    • 2015
  • Early detection and precise location of leakage is of great importance for life-cycle maintenance and management of municipal pipeline system. In the past few years, acoustic emission (AE) techniques have demonstrated to be an excellent tool for on-line leakage detection. Regarding the multi-mode and frequency dispersion characteristics of AE signals propagating along a pipeline, the direct cross-correlation technique that assumes the constant AE propagation velocity does not perform well in practice for acoustic leak location. This paper presents an improved cross-correlation method based on wavelet transform, with due consideration of the frequency dispersion characteristics of AE wave and the contribution of different mode. Laboratory experiments conducted to simulate pipeline gas leakage and investigate the frequency spectrum signatures of AE leak signals. By comparing with the other methods for leak location identification, the feasibility and superiority of the proposed method are verified.

패턴 분류 문제에서 가중치를 고려한 퍼지 최대-최소 신경망 (A Weighted Fuzzy Min-Max Neural Network for Pattern Classification)

  • 김호준;박현정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권8호
    • /
    • pp.692-702
    • /
    • 2006
  • 본 연구에서는 패턴 분류문제를 위하여 가중치 개념을 갖는 퍼지 최대 최소 신경망 모델을 제안한다. 제안된 모델은 기존의 FMM 신경망 모델에 대하여 학습데이타에 포함되는 특징값의 빈도요소를 효과적으로 반영할 수 있도록 수정한 구조를 갖는다. 본 논문에서는 제안된 모델에 대하여 하이퍼박스 소속함수로 정의되는 새로운 활성화 특성과 학습알고리즘을 정의한다. 학습알고리즘은 하이퍼박스 생성 및 확장, 중첩 테스트, 하이퍼박스 축소의 3 단계 과정으로 이루어지며, 각 과정에서 특정값의 빈도요소를 고려하여 가중치값을 갱신하는 규칙이 새롭게 정의된다. 본 연구에서는 또한 제안된 모텔의 응용으로서 특정분석 기법을 제안한다. 이를 위하여 특정값, 특정유형, 하이퍼박스, 패턴클래스 상호간 연관도 요소를 4 가지 유형의 척도로 정의하여, 주어진 패턴분류 문제에서 각 특정의 상대적 중요도를 평가할 수 있도록 한다. 아이리스 데이타와 클리블랜드 의료데이타에 대한 분류문제에 적용한 실험결과를 통하여 제안된 방법의 타당성을 고찰하였다.

차원 축소 진동 신호를 이용한 신경망 기반 선박 엔진 고장진단에 관한 연구 (A study on fault diagnosis of marine engine using a neural network with dimension-reduced vibration signals)

  • 심기찬;이강수;변성훈
    • 한국음향학회지
    • /
    • 제41권5호
    • /
    • pp.492-499
    • /
    • 2022
  • 본 연구에서는 진동 신호의 차원 감소가 선박 엔진의 고장진단에 미치는 영향을 실험적으로 분석한 결과를 제시한다. 주성분 분석을 이용하여 513차원의 진동 신호를 1 ~ 15차원의 저차원 신호로 변환하여 차원 변화에 따른 고장진단 정확도의 변화를 관찰하였다. 실제 규모의 선박용 발전기 디젤 엔진에서 측정된 진동 신호를 사용하고, integrated gradients와 feature permutation 기법의 두 가지 변수 중요도 분석 알고리즘을 사용하여 차원 축소 신호의 기여도를 정량적으로 평가하였다. 실험 데이터 분석 결과, 사용하는 차원의 수가 증가할수록 결함 진단의 정확도가 향상되는 것으로 나타났다. 차원이 10 이상에 다다르면 거의 모든 고장상태가 정확하게 분류되었으며, 이는 고장진단 정확도를 저하시키지 않으면서도 진동 신호의 차원수를 크게 줄일 수 있음을 보여준다. 변수 중요도 분석에서도 차원 축소 주성분이 기존 통계적 특성보다 더 높은 기여도를 보였으며, 차원 축소된 진동 스펙트럼이 고장진단에 효과적으로 사용될 수 있음을 확인하였다.

SEM-Artificial Neural Network 2단계 접근법에 의한 클라우드 스토리지 서비스 이용의도 영향요인에 관한 연구 (A SEM-ANN Two-step Approach for Predicting Determinants of Cloud Service Use Intention)

  • ;권순동
    • Journal of Information Technology Applications and Management
    • /
    • 제30권6호
    • /
    • pp.91-111
    • /
    • 2023
  • This study aims to identify the influencing factors of intention to use cloud services using the SEM-ANN two-step approach. In previous studies of SEM-ANN, SEM presented R2 and ANN presented MSE(mean squared error), so analysis performance could not be compared. In this study, R2 and MSE were calculated and presented by SEM and ANN, respectively. Then, analysis performance was compared and feature importances were compared by sensitivity analysis. As a result, the ANN default model improved R2 by 2.87 compared to the PLS model, showing a small Cohen's effect size. The ANN optimization model improved R2 by 7.86 compared to the PLS model, showing a medium Cohen effect size. In normalized feature importances, the order of importances was the same for PLS and ANN. The contribution of this study, which links structural equation modeling to artificial intelligence, is that it verified the effect of improving the explanatory power of the research model while maintaining the order of importance of independent variables.

중요도를 고려한 의사 결정 트리 기반 DDoS 공격 분석 (DDoS attack analysis based on decision tree considering importance)

  • 염성관;박상윤;신광성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.652-654
    • /
    • 2021
  • 침입 탐지 시스템에 의해서 DDoS와 같은 공격을 탐지되며 조기에 차단할 수 있다. 의사 결정 트리를 이용하여 DDoS 공격 트래픽을 분석하였다. 중요도가 높은 결정적인 속성(Feature)을 찾아서 해당 속성에 대해서만 의사 결정 트리를 진행하여 정확도를 확인하였다. 그리고 위양성 및 위음성 트래픽의 내용을 분석하였다. 그 결과 하나의 속성은 98%, 두 가지 속성은 99.8%의 정확도를 각각 나타냈다.

  • PDF