• 제목/요약/키워드: Feature Importance Analysis

검색결과 135건 처리시간 0.023초

A sensitivity analysis of machine learning models on fire-induced spalling of concrete: Revealing the impact of data manipulation on accuracy and explainability

  • Mohammad K. al-Bashiti;M.Z. Naser
    • Computers and Concrete
    • /
    • 제33권4호
    • /
    • pp.409-423
    • /
    • 2024
  • Using an extensive database, a sensitivity analysis across fifteen machine learning (ML) classifiers was conducted to evaluate the impact of various data manipulation techniques, evaluation metrics, and explainability tools. The results of this sensitivity analysis reveal that the examined models can achieve an accuracy ranging from 72-93% in predicting the fire-induced spalling of concrete and denote the light gradient boosting machine, extreme gradient boosting, and random forest algorithms as the best-performing models. Among such models, the six key factors influencing spalling were maximum exposure temperature, heating rate, compressive strength of concrete, moisture content, silica fume content, and the quantity of polypropylene fiber. Our analysis also documents some conflicting results observed with the deep learning model. As such, this study highlights the necessity of selecting suitable models and carefully evaluating the presence of possible outcome biases.

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

데이터 탐색을 활용한 딥러닝 기반 제천 지역 산사태 취약성 분석 (Assessment of Landslide Susceptibility in Jecheon Using Deep Learning Based on Exploratory Data Analysis)

  • 안상아;이정현;박혁진
    • 지질공학
    • /
    • 제33권4호
    • /
    • pp.673-687
    • /
    • 2023
  • 데이터 탐색은 수집한 데이터를 다양한 각도에서 관찰 및 이해하는 과정으로 데이터 구조 및 특성 분석을 통해 데이터의 분포와 상관관계를 파악하는 과정이다. 일반적으로 산사태는 다양한 인자들에 의해 유발되고 발생 지역에 따라 유발 인자들이 미치는 영향이 상이하기 때문에 산사태 취약성 분석 이전에 데이터 탐색을 통해 유발 인자 사이의 상관관계를 파악하고 특징적인 유발 인자를 선별한다면 효과적인 분석을 수행할 수 있다. 따라서 본 연구는 데이터 탐색이 예측 모델의 성능에 미치는 결과를 확인하기 위해 두 단계에 걸친 데이터 탐색을 수행하여 인자를 선별하고, 선별된 유발 인자들 사이의 조합과 23개의 전체 유발 인자 조합을 활용하여 딥러닝 기반의 산사태 취약성 분석을 진행하였다. 데이터 탐색 과정에서는 Pearson 상관계수 heat map과 random forest의 인자 중요도 histogram을 활용하였으며, 딥러닝 기반 산사태 취약성 분석 결과의 정확도는 분석을 통해 획득한 산사태 취약 지수 값을 이용해 제작한 산사태 취약성 지도를 confusion matrix 기반의 정확도 검증 방법을 통해 분석하였다. 분석 결과, 전체 23개의 인자를 사용한 산사태 취약성 해석 결과는 55.90%의 낮은 정확도를 보였지만 한 단계의 탐색을 거쳐 선별한 13개 인자를 활용한 취약성 해석 결과는 81.25%의 분석 정확도를 보였고, 두 단계 데이터 탐색을 모두 수행하여 선별된 9개의 유발 인자를 활용한 산사태 취약성 분석 결과는 92.80%로 가장 높은 정확도를 보였다. 따라서 데이터 탐색을 통해 특징적인 유발 인자를 선별하고 분석에 활용하는 것이 산사태 취약성 분석에서 더 좋은 분석 성능을 기대할 수 있음을 확인하였다.

EEG Feature Engineering for Machine Learning-Based CPAP Titration Optimization in Obstructive Sleep Apnea

  • Juhyeong Kang;Yeojin Kim;Jiseon Yang;Seungwon Chung;Sungeun Hwang;Uran Oh;Hyang Woon Lee
    • International journal of advanced smart convergence
    • /
    • 제12권3호
    • /
    • pp.89-103
    • /
    • 2023
  • Obstructive sleep apnea (OSA) is one of the most prevalent sleep disorders that can lead to serious consequences, including hypertension and/or cardiovascular diseases, if not treated promptly. Continuous positive airway pressure (CPAP) is widely recognized as the most effective treatment for OSA, which needs the proper titration of airway pressure to achieve the most effective treatment results. However, the process of CPAP titration can be time-consuming and cumbersome. There is a growing importance in predicting personalized CPAP pressure before CPAP treatment. The primary objective of this study was to optimize the CPAP titration process for obstructive sleep apnea patients through EEG feature engineering with machine learning techniques. We aimed to identify and utilize the most critical EEG features to forecast key OSA predictive indicators, ultimately facilitating more precise and personalized CPAP treatment strategies. Here, we analyzed 126 OSA patients' PSG datasets before and after the CPAP treatment. We extracted 29 EEG features to predict the features that have high importance on the OSA prediction index which are AHI and SpO2 by applying the Shapley Additive exPlanation (SHAP) method. Through extracted EEG features, we confirmed the six EEG features that had high importance in predicting AHI and SpO2 using XGBoost, Support Vector Machine regression, and Random Forest Regression. By utilizing the predictive capabilities of EEG-derived features for AHI and SpO2, we can better understand and evaluate the condition of patients undergoing CPAP treatment. The ability to predict these key indicators accurately provides more immediate insight into the patient's sleep quality and potential disturbances. This not only ensures the efficiency of the diagnostic process but also provides more tailored and effective treatment approach. Consequently, the integration of EEG analysis into the sleep study protocol has the potential to revolutionize sleep diagnostics, offering a time-saving, and ultimately more effective evaluation for patients with sleep-related disorders.

Importance of Meta-Analysis and Practical Obstacles in Oncological and Epidemiological Studies: Statistics Very Close but Also Far!

  • Tanriverdi, Ozgur;Yeniceri, Nese
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제16권3호
    • /
    • pp.1303-1306
    • /
    • 2015
  • Studies of epidemiological and prognostic factors are very important for oncology practice. There is a rapidly increasing amount of research and resultant knowledge in the scientific literature. This means that health professionals have major challenges in accessing relevant information and they increasingly require best available evidence to make their clinical decisions. Meta-analyses of prognostic and other epidemiological factors are very practical statistical approaches to define clinically important parameters. However, they also feature many obstacles in terms of data collection, standardization of results from multiple centers, bias, and commentary for intepretation. In this paper, the obstacles of meta-analysis are briefly reviewed, and potential problems with this statistical method are discussed.

Issues Related to the Modeling of Solid Oxide Fuel Cell Stacks

  • Yang Shi;Ramakrishna P.A.;Sohn Chang-Hyun
    • Journal of Mechanical Science and Technology
    • /
    • 제20권3호
    • /
    • pp.391-398
    • /
    • 2006
  • This work involves a method for modeling the flow distribution in the stack of a solid oxide fuel cell. Towards this end, a three dimensional modeling of the flow through a Solid Oxide Fuel Cell (SOFC) stack was carried out using the CFD analysis. This paper examines the efficacy of using cold flow analysis to describe the flow through a SOFC stack. It brings out the relative importance of temperature effect and the mass transfer effect on the SOFC manifold design. Another feature of this study is to utilize statistical tools to ascertain the extent of uniform flow through a stack. The results showed that the cold flow analysis of flow through SOFC might not lead to correct manifold designs. The results of the numerical calculations also indicated that the mass transfer across membrane was essential to correctly describe the cathode flow, while only temperature effects were sufficient to describe the anode flow in a SOFC.

얼굴 특징 변화에 따른 휴먼 감성 인식 (Human Emotion Recognition based on Variance of Facial Features)

  • 이용환;김영섭
    • 반도체디스플레이기술학회지
    • /
    • 제16권4호
    • /
    • pp.79-85
    • /
    • 2017
  • Understanding of human emotion has a high importance in interaction between human and machine communications systems. The most expressive and valuable way to extract and recognize the human's emotion is by facial expression analysis. This paper presents and implements an automatic extraction and recognition scheme of facial expression and emotion through still image. This method has three main steps to recognize the facial emotion: (1) Detection of facial areas with skin-color method and feature maps, (2) Creation of the Bezier curve on eyemap and mouthmap, and (3) Classification and distinguish the emotion of characteristic with Hausdorff distance. To estimate the performance of the implemented system, we evaluate a success-ratio with emotional face image database, which is commonly used in the field of facial analysis. The experimental result shows average 76.1% of success to classify and distinguish the facial expression and emotion.

  • PDF

에이다 부스트를 활용한 건설현장 추락재해의 강도 예측과 영향요인 분석 (Analysis of Occupational Injury and Feature Importance of Fall Accidents on the Construction Sites using Adaboost)

  • 최재현;류한국
    • 대한건축학회논문집:구조계
    • /
    • 제35권11호
    • /
    • pp.155-162
    • /
    • 2019
  • The construction industry is the highest safety accident causing industry as 28.55% portion of all industries' accidents in Korea. In particular, falling is the highest accidents type composed of 60.16% among the construction field accidents. Therefore, we analyzed the factors of major disaster affecting the fall accident and then derived feature importances by considering various variables. We used data collected from Korea Occupational Safety & Health Agency (KOSHA) for learning and predicting in the proposed model. We have an effort to predict the degree of occupational fall accidents by using the machine learning model, i.e., Adaboost, short for Adaptive Boosting. Adaboost is a machine learning meta-algorithm which can be used in conjunction with many other types of learning algorithms to improve performance. Decision trees were combined with AdaBoost in this model to predict and classify the degree of occupational fall accidents. HyOperpt was also used to optimize hyperparameters and to combine k-fold cross validation by hierarchy. We extracted and analyzed feature importances and affecting fall disaster by permutation technique. In this study, we verified the degree of fall accidents with predictive accuracy. The machine learning model was also confirmed to be applicable to the safety accident analysis in construction site. In the future, if the safety accident data is accumulated automatically in the network system using IoT(Internet of things) technology in real time in the construction site, it will be possible to analyze the factors and types of accidents according to the site conditions from the real time data.

Profile의 Composite와 Multiple Single-Segment Control의 비교 연구 (A Comparison Study between Composite and Multiple Single-Segment Profile Control)

  • 김준호;장성호;라두완
    • 산업경영시스템학회지
    • /
    • 제39권4호
    • /
    • pp.1-6
    • /
    • 2016
  • As manufacturing industries become globalized, product design affects every area of organization. The design sets the goals for a number of different departments, so if it fails to effectively communicate these goals, the entire organization is less efficient. In addition, To communicate clearly, the design must represent a product that meets its technical specification. GD&T (Geometric Dimensioning and Tolerancing) is one of the most important factors, which has an effect on efficiency of manufacture system, in designing products. However, most of designers in different industries are prone to ignore the importance of GD&T. To analyse the importance of GD&T compliance with international standards for design drawing, a comparison analysis of the difference between two methods, composite profile control and multiple single segment profile control, is performed on three different cases and suggests how it used to be more suitable. Composite profile tolerance is specified by a dual feature control frame that has one profile symbol specified with two lines of tolerance information. Whereas a multiple single segment profile control is when two or more single segment profile callouts are used to define the location and/or orientation and/or size and/or form of a part feature. In this study, the following results will be provided : a clear definition and an obvious difference of the tolerance zone, datums and datums sequence and minimization of tolerances. On this study, composite profile tolerance and multiple single segment profile tolerance were discussed. Next steps of research will consist on reaching more accurate results for profile control. Further research will be focused on dealing with the remaining 14 symbols of GD&T.

미국 프로농구(NBA)의 플레이오프 진출에 영향을 미치는 주요 변수 예측: 3점과 턴오버 속성을 중심으로 (Prediction of Key Variables Affecting NBA Playoffs Advancement: Focusing on 3 Points and Turnover Features)

  • 안세환;김영민
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.263-286
    • /
    • 2022
  • 본 연구는 웹 크롤링을 이용하여 1990년부터 2022년까지 총 32개년에 해당하는 NBA 통계 정보를 획득하고, 탐색적 데이터 분석을 통해 관심 변수를 관찰하고 관련된 파생변수를 생성한다. 입력 데이터에 대한 정제 과정을 거쳐 무의미한 변수들을 제거하고, 남은 변수에 대한 상관관계 분석, t 검정 및 분산분석을 수행하였다. 관심 변수에 대해 플레이오프 진출/미진출 그룹 간 평균의 차이를 검정하였고, 이를 보완하기 위해 순위를 기준으로 하는 3개 집단(상위/중위/하위) 간 평균 차이를 재확인하였다. 입력 데이터 중 올해 시즌 데이터만을 테스트 세트로 활용하였고, 모델 훈련을 위해서는 훈련 세트와 검증 세트를 분할하여 5-fold 교차검증을 수행하였다. 교차검증 결과와 시험 세트를 이용한 최종 분석 결과를 비교하여 성능 지표에서 차이가 없음을 확인함으로써 과적합 문제를 해결하였다. 원시 데이터의 품질 수준이 높고, 통계적 가정을 만족하기 때문에 적은 수준의 데이터 세트임에도 불구하고 대부분 모델에서 좋은 결과를 나타냈다. 본 연구는 단순히 머신러닝을 이용하여 NBA의 경기 결과를 예측하거나 플레이오프 진출 여부만을 분류하는 것에서 그치지 않고, 입력 특성의 중요도를 파악하여 높은 중요도를 갖는 주요 변수에 본 연구의 관심 대상 변수가 포함되는지를 확인하였다. Shap value의 시각화를 통해 특성 중요도의 결과만으로 해석할 수 없었던 한계를 극복하고, 변수의 진입/제거 과정에서 중요도 산출에 일관성이 부족하다는 점을 보완할 수 있었다. 본 연구에서 관심 대상으로 분류했던 3점 및 실책과 관련된 다수의 변수가 미국 프로농구에서의 플레이오프 진출에 영향을 미치는 주요 변수에 포함되는 것으로 나타났다. 본 연구는 기존의 스포츠 데이터 분석 분야에서 다루었던 경기 결과, 플레이오프 및 우승 예측 등의 주제를 포함하고 분석을 위해 여러 머신러닝 모델을 비교 분석했다는 점에서 유사성이 있지만, 사전에 관심 속성을 설정하고, 이를 통계적으로 검증함으로써 머신러닝 분석 결과와 비교하였다는 측면에서 차이가 있다. 또한 XAI 모델 중 하나인 SHAP를 이용하여 설명 가능한 시각화 결과를 제시함으로써 기존 연구와 차별화하였다.