• 제목/요약/키워드: decision trees

검색결과 312건 처리시간 0.022초

Inhalation Configuration Detection for COVID-19 Patient Secluded Observing using Wearable IoTs Platform

  • Sulaiman Sulmi Almutairi;Rehmat Ullah;Qazi Zia Ullah;Habib Shah
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권6호
    • /
    • pp.1478-1499
    • /
    • 2024
  • Coronavirus disease (COVID-19) is an infectious disease caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) virus. COVID-19 become an active epidemic disease due to its spread around the globe. The main causes of the spread are through interaction and transmission of the droplets through coughing and sneezing. The spread can be minimized by isolating the susceptible patients. However, it necessitates remote monitoring to check the breathing issues of the patient remotely to minimize the interactions for spread minimization. Thus, in this article, we offer a wearable-IoTs-centered framework for remote monitoring and recognition of the breathing pattern and abnormal breath detection for timely providing the proper oxygen level required. We propose wearable sensors accelerometer and gyroscope-based breathing time-series data acquisition, temporal features extraction, and machine learning algorithms for pattern detection and abnormality identification. The sensors provide the data through Bluetooth and receive it at the server for further processing and recognition. We collect the six breathing patterns from the twenty subjects and each pattern is recorded for about five minutes. We match prediction accuracies of all machine learning models under study (i.e. Random forest, Gradient boosting tree, Decision tree, and K-nearest neighbor. Our results show that normal breathing and Bradypnea are the most correctly recognized breathing patterns. However, in some cases, algorithm recognizes kussmaul well also. Collectively, the classification outcomes of Random Forest and Gradient Boost Trees are better than the other two algorithms.

개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향 (Pseudonymization's effect on data quality: A study under personal information protection act)

  • 김민정;유재근
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.381-393
    • /
    • 2024
  • 이 연구는 개인정보의 가명처리와 이것이 데이터 분석의 정확도에 미치는 영향을 조사하였다. 로지스틱 회귀 모델, 의사결정나무 및 랜덤 포레스트를 사용하여 가명처리의 적용 정도와 가명처리된 데이터 분석의 정확도 간의 관계를 정량적으로 평가하였으며, 이를 통해 민감한 정보의 가명처리가 데이터 분석의 정확도를 크게 손상시키지 않으면서도 개인정보보호를 실현할 수 있음을 확인하였다. 그러나, 단일한 샘플 데이터, 일관된 가명처리 비율의 적용 등의 한계가 있음을 인지하였다. 이러한 한계를 극복하기 위해, 다양한 데이터에 대한 추가적인 연구를 통하여 결과의 일반성을 강화하는 것이 필요하다. 또한, 개별 변수에 대해 최적의 가명처리 비율을 찾는 방법론을 개발하고 적용해 볼 것을 제안한다. 이 연구 결과는 규제 준수와 개인정보 보호를 달성하면서도 데이터의 활용성을 유지하는 방법에 대한 새로운 통찰을 제공한다.

빅데이터 및 인공지능을 활용한 축구선수 연봉등급 예측 (Predicting Soccer Players' Wage Grades Using Big Data and Artificial Intelligence)

  • 정현성;김진화;현대원
    • 산업융합연구
    • /
    • 제22권8호
    • /
    • pp.19-28
    • /
    • 2024
  • 본 연구는 빅데이터와 인공지능을 활용하여 축구선수의 연봉등급을 예측하는 새로운 방법을 제안한다. 축구선수의 연봉 예측은 선수의 성과와 잠재력을 정확하게 평가하고, 이를 연봉에 반영함으로써 축구 산업의 경제적 효율성을 높이는 중요한 과제이다. 본 연구는 FIFA 22에서 제공하는 선수 능력치 데이터를 분석하여, 다양한 빅데이터 및 인공지능 기법을 통해 선수의 연봉등급을 예측한다. 주요 연구 방법으로는 의사결정나무, 인공신경망, 랜덤 포레스트, 부스팅 등을 활용하였으며, 이를 통해 연봉등급을 예측하는 모델의 정확도를 비교 분석하였다. 연구 결과, 랜덤 포레스트와 부스팅 기법이 가장 높은 예측 정확도를 보였다. 이 연구는 빅데이터와 인공지능을 이용해 축구선수의 연봉등급을 예측하고, 축구 산업에 새로운 관점을 제공한다.

사물인터넷 환경에서 랜덤포레스트를 이용한 실시간 낙상 사고 예측 (Real-time Fall Accident Prediction using Random Forest in IoT Environment)

  • 방찬우;김봉현
    • 사물인터넷융복합논문지
    • /
    • 제10권4호
    • /
    • pp.27-33
    • /
    • 2024
  • 2023년 기준 국내 건설업에서 발생한 사고 재해자 수는 26,829명으로 기타의 사업(서비스업)에 이어 두 번째에 해당한다. 전 업종 재해자 사고 유형으로는 넘어짐(29,229명), 떨어짐(14,357명) 순으로 이루어져 있다. 위 자료를 토대로 본 연구에서는 건설 현장에서 빈번하게 발생하는 낙상 사고를 예측하기 위해 안전모와 깔창에 센서를 부착하고, 이를 통해 수집된 데이터를 바탕으로 랜덤 포레스트 알고리즘을 적용한 스마트 안전 장비를 제안한다. 랜덤 포레스트 모델은 여러 결정 트리를 생성하여 각 트리의 예측을 종합함으로써 높은 정확도로 낙상 사고를 실시간으로 판별할 수 있다. 이 모델은 안전모에 부착된 MPU-6050 센서에서 수집된 데이터를 통해 노동자의 낙상 사고 여부와 행동 유형을 분류한다. 안전모로부터 일차적으로 판별된 낙상사고는 깔창에 부착된 센서를 통해 이차적으로 예측하여, 예측 정확도를 높인다. 이를 통해 사고 발생 시 신속한 대응이 가능하여 노동자의 사망 및 재해사고를 줄일 수 있다고 기대한다.

울진 소광리 금강소나무 고사발생 특성 분석 및 위험지역 평가 (Risk Assessment of Pine Tree Dieback in Sogwang-Ri, Uljin)

  • 김은숙;이보라;김재범;조낭현;임종환
    • 한국산림과학회지
    • /
    • 제109권3호
    • /
    • pp.259-270
    • /
    • 2020
  • 최근 20년 동안 고온, 건조 등 이상기상 현상이 빈발해지면서 병해충으로 인한 피해가 아닌 생리적 스트레스로 인한 소나무 피해 사례가 지속적으로 보고되고 있다. 2014년도에는 울진 소광리 산림유전자원보호구역 내에 금강소나무(Pinus densiflora for. erecta Uyeki)의 집단고사가 발견되어 이에 대한 원인 구명과 산림관리방안 마련이 요구되었다. 이에 본 연구는 2008~2015년 항공사진에서 발견된 울진 소광리 금강소나무 고사 피해 발생 지역의 지형 및 임분 특성을 파악하여 고사 발생의 영향 요인을 도출하고 이를 기반으로 전체 지역의 고사피해 발생 위험지역을 예측하는 것을 목표로 하였다. 소나무 고사발생 지점 정보와 해발고도, 경사 등의 지형정보, 영급, 경급 등의 임분 정보 등 총 14개의 설명변수를 이용하여 고사발생 예측모델을 구축하였다. 모형 개발에는 Decision Tree, Random Forest (RF), Support Vector Machine (SVM) 등 기계학습 기법을 적용하였으며, RF와 SVM가 정확도 93% 이상으로 좋은 성능을 보였다. 소나무 고사와 관련된 주요 변수 분석 결과, 소나무 고사의 지형적인 취약지역은 해발고도가 높은 동시에 일사량이 높으며 수분 조건이 불리한 지역이었으며, 임분 특성 중에서는 특히 5~15m 높이의 수직적 임분밀도가 높은 소나무림, 그리고 영급이 높은 소나무림에서 고사 위험성이 높다고 평가되었다. RF와 SVM 모형 예측에 따라, 소나무 고사위험도가 높은 지역의 면적은 연구대상지 전체 소나무림 면적의 약 9.5%, 115ha로 평가되었다. 본 연구의 고사위험도 평가 결과는 금강소나무 취약지역의 현황을 조사하고 아직 피해가 발생하지 않은 취약지역에 대한 적극적인 기후변화 적응 산림관리를 수행하기 위한 기반자료로 활용될 수 있다.

비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측 모델 (A Recidivism Prediction Model Based on XGBoost Considering Asymmetric Error Costs)

  • 원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.127-137
    • /
    • 2019
  • 재범예측은 70년대 이전부터 전문가들에 의해서 꾸준히 연구되어온 분야지만, 최근 재범에 의한 범죄가 꾸준히 증가하면서 재범예측의 중요성이 커지고 있다. 특히 미국과 캐나다에서 재판이나 가석방심사 시 재범 위험 평가 보고서를 결정적인 기준으로 채택하게 된 90년대를 기점으로 재범예측에 관한 연구가 활발해졌으며, 비슷한 시기에 국내에서도 재범요인에 관한 실증적인 연구가 시작되었다. 지금까지 대부분의 재범예측 연구는 재범요인 분석이나 재범예측의 정확성을 높이는 연구에 집중된 경향을 보이고 있다. 그러나 재범 예측에는 비대칭 오류 비용 구조가 있기 때문에 경우에 따라 예측 정확도를 최대화함과 동시에 예측 오분류 비용을 최소화하는 연구도 중요한 의미를 가진다. 일반적으로 재범을 저지르지 않을 사람을 재범을 저지를 것으로 오분류하는 비용은 재범을 저지를 사람을 재범을 저지르지 않을 것으로 오분류하는 비용보다 낮다. 전자는 추가적인 감시 비용만 증가되는 반면, 후자는 범죄 발생에 따른 막대한 사회적, 경제적 비용을 야기하기 때문이다. 이러한 비대칭비용에 따른 비용 경제성을 반영하여, 본 연구에서 비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측모델을 제안한다. 모델의 첫 단계에서 최근 데이터 마이닝 분야에서 높은 성능으로 각광받고 있는 앙상블 기법, XGBoost를 적용하였고, XGBoost의 결과를 로지스틱 회귀 분석(Logistic Regression Analysis), 의사결정나무(Decision Trees), 인공신경망(Artificial Neural Networks), 서포트 벡터 머신(Support Vector Machine)과 같은 다양한 예측 기법과 비교하였다. 다음 단계에서 임계치의 최적화를 통해 FNE(False Negative Error)와 FPE(False Positive Error)의 가중 평균인 전체 오분류 비용을 최소화한다. 이후 모델의 유용성을 검증하기 위해 모델을 실제 재범예측 데이터셋에 적용하여 XGBoost 모델이 다른 비교 모델 보다 우수한 예측 정확도를 보일 뿐 아니라 오분류 비용도 가장 효과적으로 낮춘다는 점을 확인하였다.

도시 미세먼지 저감 식재를 위한 수종 선정 기준의 우선순위 도출 (Prioritization of Species Selection Criteria for Urban Fine Dust Reduction Planting)

  • 조동길
    • 한국환경생태학회지
    • /
    • 제33권4호
    • /
    • pp.472-480
    • /
    • 2019
  • 도심지 내 미세먼지 저감 식재를 위한 식물 소재 선정 시에는 식물의 흡착 기능에 영향을 미치는 식물의 잎 모양, 질감, 수피의 형태 등 형태적 특성을 종합적으로 고려하여 선정하여야 한다. 그러나 지금까지 식물을 통한 미세먼지 저감에 대한 연구는 식물의 흡착 기능보다 흡수 기능에 대한 연구가, 실외식물보다 실내식물인 관엽식물을 대상으로 한 연구가 주로 진행되어 왔다. 특히, 미세먼지 저감 수종 선정 기준이 구체적이지 않아 미세먼지 저감 식재를 위한 식물 소재 선정 기준에 대한 연구가 필요한 실정이다. 본 연구는 퍼지다기준 의사결정법(Fuzzy MCDM)을 활용하여 미세먼지 저감에 영향을 미치는 8가지 지표 항목에 대한 우선순위를 도출하고 도심 내 미세먼지 저감 식재를 위한 수종 선정 기준을 마련하였다. 이를 위하여 미세먼지 관련 분야 전공자와 미세먼지 관련 연구 경험자들을 대상으로 설문 조사를 실시하였다. 설문 조사 분석 결과, 미세먼지 저감에 영향을 미치는 지표 항목 중 잎 면적과 수종의 종류가 가장 높은 순위를 나타냈다. 그리고 잎 표면의 거칠기, 수고, 성장 속도, 잎의 복잡성, 잎 가장자리 형태, 수피 특징 순서로 우선순위가 높게 나타났다. 잎 표면이 거친 수종을 선정할 경우에는 잎에 털이 있고, 광택이 나며, 왁스층이 있는 수종을 우선적으로 선정하는 것이 좋다. 잎의 형태를 고려할 경우, 단일 잎보다 3종 혹은 2종 잎과 손바닥 형태의 잎을 선정하고, 잎의 가장자리는 밋밋한 모양보다는 톱니 모양의 잎을 선별하여 공기 중의 미세먼지가 잎의 표면에 흡착되는 표면적 비율을 높아지게 할 필요가 있다. 수피의 특성을 고려할 경우에는 피목이나 무늬종보다는 코르크층이 있고 껍질이탈이나 갈라짐이 관찰되거나, 앞으로 관찰될 가능성이 높은 수종을 선정하는 것이 바람직하다. 본 연구는 도심 내 미세먼지 저감을 위한 식재계획 시 식물의 미세먼지 흡착 기능에 영향을 미치는 식물의 형태적 특성을 중심으로 식물 소재 선정 기준에 대한 우선순위를 제시하였다는 것에 의의가 있다. 본 연구에서 도출한 결과는 도심지 내 수목 식재 계획을 위한 수종 선정 시 기초 자료로서 활용될 수 있을 것이다.

데이터 마이닝과 텍스트 마이닝의 통합적 접근을 통한 병사 사고예측 모델 개발 (Development of the Accident Prediction Model for Enlisted Men through an Integrated Approach to Datamining and Textmining)

  • 윤승진;김수환;신경식
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.1-17
    • /
    • 2015
  • 최근, 군에서 가장 이슈가 되고 있는 문제는 기강 해이, 복무 부적응 등으로 인한 병력 사고이다. 이 같은 사고를 예방하는 데 있어 가장 중요한 것은, 사고의 요인이 될 수 있는 문제를 사전에 식별 관리하는 것이다. 이를 위해서 지휘관들은 병사들과의 면담, 생활관 순찰, 부모님과의 대화 등 나름대로의 노력을 기울이고 있기는 하지만, 지휘관 개개인의 역량에 따라 사고 징후를 식별하는 데 큰 차이가 나는 것이 현실이다. 본 연구에서는 이러한 문제점을 극복하고자 모든 지휘관들이 쉽게 획득 가능한 객관적 데이터를 활용하여 사고를 예측해 보려 한다. 최근에는 병사들의 생활지도기록부 DB화가 잘 되어있을 뿐 아니라 지휘관들이 병사들과 SNS상에서 소통하며 정보를 얻기 때문에 이를 데이터화 하여 잘 활용한다면 병사들의 사고예측 및 예방이 가능하다고 판단하였다. 본 연구는 이러한 병사의 내부데이터(생활지도기록부) 및 외부데이터(SNS)를 활용하여 그들의 관심분야를 파악하고 사고를 예측, 이를 지휘에 활용하는 데이터마이닝 문제를 다루며, 그 방법으로 토픽분석 및 의사결정나무 방법을 제안한다. 연구는 크게 두 흐름으로 진행하였다. 첫 번째는 병사들의 SNS에서 토픽을 분석하고 이를 독립변수화 하였고 두 번째는 병사들의 내부데이터에 이 토픽분석결과를 독립변수로 추가하여 의사결정나무를 수행하였다. 이 때 종속변수는 병사들의 사고유무이다. 분석결과 사고 예측 정확도가 약 92%로 뛰어난 예측력을 보였다. 본 연구를 기반으로 향후 장병들의 사고예측을 과학적으로 분석, 맞춤식으로 관리한다면 군대 내 각종 사고를 미연에 예방하는데 기여할 것으로 기대된다.

Support Vector Regression에서 분리학습을 이용한 고객의 구매액 예측모형 (The Prediction of Purchase Amount of Customers Using Support Vector Regression with Separated Learning Method)

  • 홍태호;김은미
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.213-225
    • /
    • 2010
  • 본 연구에서는 기업의 마케팅 프로모션에 따른 반응고객의 구매액 예측을 위한 방법을 제시하고 SVR의 효과적인 학습방법을 제시하였다. 프로모션에 의한 고객의 구매액을 기반으로 고객을 5등급으로 등급화하고 각 등급 내에서 SVR을 적용하여 고객의 구매액을 예측하였다. 본 연구에서 제안하는 예측된 고객의 등급 내에서 고객 구매액을 예측하는 분리데이터 학습법이 프로모션에 반응한 모든 고객을 대상으로 구매액을 예측하는 전체데이터 학습법보다 높은 예측성과를 보여주었다. 일반적으로 세분화된 고객집단을 하나의 집단으로 보고 동일한 마케팅 전략을 제시하나 본 연구를 통해 구매액에 따라 등급화 된 고객의 등급 내에서 다시 고객의 거래 구매액을 예측하여 동일한 집단 내에서도 차별화된 마케팅 전략을 제시할 수 있는 기반을 제시하였다. 즉 동일한 등급에서도 고객 구매액에 따라 고객의 우선순위를 정할 수 있으며, 이는 마케팅 담당자가 프로모션을 제시할 고객을 선정할 때 유용한 정보로 활용될 수 있다.

항공 LiDAR 및 RGB 정사 영상을 이용한 딥러닝 기반의 도시녹지 분류 (Classification of Urban Green Space Using Airborne LiDAR and RGB Ortho Imagery Based on Deep Learning)

  • 손보경;이연수;임정호
    • 한국지리정보학회지
    • /
    • 제24권3호
    • /
    • pp.83-98
    • /
    • 2021
  • 도시녹지는 도시 생태계 건강성 증진을 위한 중요한 요소이며, 건강한 도시 생태계 유지 및 관리를 위해서는 도시녹지의 공간적인 현황 파악이 필요하다. 환경부에서는 2010년 이후부터 총 41개의 분류 항목을 갖는 1m 급 해상도의 세분류 토지피복지도를 제공해오고 있으나, 가로수와 같은 도시 내 고해상도 상세 녹지 정보는 기타 초지로 분류되거나 누락되어 오고 있다. 따라서, 본 연구에서는 수원시 지역을 대상으로 1m 이하 급의 고해상도 원격탐사 자료(항공 LiDAR 및 RGB 정사영상)를 이용하여, 기존 세분류 토지피복지도에서는 나타나지 않는 고해상도의 상세 도시 녹지(수목, 관목 및 초지) 정보를 분류하고자 하였다. 분류 기법으로는 딥러닝 기반의 이미지 분할방법인 U-Net 구조의 모델을 활용하였으며, 분류 항목의 수 및 사용하는 자료의 종류에 따라 총 3가지의 모델(LRGB10, LRGB5, 및 RGB5)을 제안하고 성능을 평가하였다. 검증 지역에 대한 세 모델의 평균 전체 정확도는 각 83.40%(LRGB10), 89.44%(LRGB5), 74.76%(RGB5)이며, 항공 LiDAR와 RGB 정사영상을 함께 사용하여 총 5개의 항목(수목, 관목, 초지, 건물, 및 그 외)을 분류하는 LRGB5 모델의 성능이 가장 높게 나타났다. 수원시의 수목, 관목 및 초지 기준의 전체 녹지 현황은 각 45.61%(LRGB10), 43.47%(LRGB5), 및 44.22%(RGB5)로 나타났으며, 세 모델 모두 기존 세분류 토지피복지도와 비교하여 평균 13.40%의 도시 수목 정보를 더 제공할 수 있는 것으로 나타났다. 더불어 이러한 도시녹지 분류 결과는 향후 중분류 토지피복지도와 같은 기존 GIS 정보와의 융합을 통해 가로수 녹지 비율 현황 등 추가적인 상세 녹지 현황 정보를 제공할 수 있어, 다양한 도시녹지 연구 및 정책의 기초 자료로 활용될 수 있을 것으로 기대된다.