• 제목/요약/키워드: Decision trees

검색결과 303건 처리시간 0.031초

의사결정나무분석을 이용한 심혈관질환자의 재입원 위험 요인에 대한 융합적 분석 (Convergence Analysis of Risk factors for Readmission in Cardiovascular Disease: A Machine Learning Approach)

  • 김현수
    • 융합정보논문지
    • /
    • 제9권12호
    • /
    • pp.115-123
    • /
    • 2019
  • 본 연구는 의사결정나무 통계분석법을 톨해 국민건강영양조사 자료를 2차 분석하여 심혈관질환자의 재입원 위험 요인을 확인하는 기초자료를 마련하고자 하였다. 연구대상자는 국민건강영양조사 4-6기 자료대상자 총 65,973명 중 협심증이나 심근경색 진단 병력이 있는 총 1,037명의 성인이며, SPSS window 21 Program을 이용하여 분류 분석 중 CHAID 의사결정나무 방법으로 분석하였다. 뿌리 마디(Root node)는 경제활동상태((χ2=12.063, p=.001), 자식 마디(Child node)는 개인 소득수준(χ2=6.575, p=.031), 최근 1년간 체중 변화(χ2=12.758, p=.001), 거주지역(χ2=4.025, p=.045), 직접흡연(χ2=3.884, p=.049), 교육수준(χ2=9.630, p=.024)으로 확인되었다. 끝마디(Terminal node)는 고혈압(χ2=3.854, p=.050), 당뇨(χ2=6.056, p=.014), 직업형태(χ2=7.799, p=.037)로 분석되었다. 이를 통해 심혈관질환자의 재입원 관리를 위해 다양한 요인의 통합적 접근을 고려한 프로그램의 개발 및 운영이 필요함을 제언한다.

A Single Cell Multimedia Fate Model for Endocrine Disrupting Chemicals

  • Park, Kyunghee;Junheon Youn;Daeil Kang;Lee, Choong;Lee, Dongsoo;Jaeryoung Oh;Sunghwan Jeon;Jingyun Na
    • 한국환경독성학회:학술대회논문집
    • /
    • 한국환경독성학회 2003년도 춘계학술대회
    • /
    • pp.149-149
    • /
    • 2003
  • To understand environmental paths of the transport and accumulation of endocrine disrupting chemicals (EDCs), a single cell multimedia fate model has been constructed and evaluated. The EDCs of concern were PAHs, Organochlorine Pesticides (OCPs), PCBs, Alkyl phenols, and phthalates. An evaluation model was designed for the multimedia distribution, including air, water, soil, sediment and vegetation. This model was verified using reported values and via monitoring data. Based on collected data, the distribution trends of EDCs with respect to environmental media were analyzed. Those results have applied to the model for the prediction of the spatial and temporal distribution of EDCs in Seoul. Especially, phenol compound, phthalates, PAHs, PCBs and organochlorine pesticides were estimated and the model was verified. This model was successfully conducted to environmental media, such as air (vapor and suspended particles), soils (forest soil, bare soil, and cement-concrete covered soil), water (dissolved and suspended solids), sediment, trees (deciduous and coniferous). The discrepancies between the model prediction and the measured data are approximately within or near a factor of 10 for the PAHs of three rings through that of six rings, implying that multimedia distribution of the PAHs could be predicted with a factor of 10. Concerning about the air equilibrium may be assumed, a fugacity at steady state is similar in all environmental media. Considering the uncertainties of this model, the use of equilibrium models may be sufficient for assessing chemical fates. In this study, a suggestion was made that modeling and estimation of chemicals in environmental multimedia be rigorously evaluated using the measured flux data. In addition, these data should be obtained, for example, from the precise and standardized inventory of the target chemicals. The model (EDC Seoul) will be refined in an on-going research effort and will be used to support decision-making concerning the management of EDCs.

  • PDF

해상보안관리 분석모델 개발에 관한 연구 (A Study on the Development of Analysis Model for Maritime Security Management)

  • 정우리
    • 한국항해항만학회지
    • /
    • 제36권1호
    • /
    • pp.9-14
    • /
    • 2012
  • 해적과 테러공격에 의한 해상보안사고는 해상운송이 발생한 이후에 지속적으로 증가하고 있다. 하지만 기존의 해양사고 조사방법으로 해상보안사고를 조사하고 문제점을 파악하는데 한계가 있으므로 해상보안관리를 위한 분석모델을 개발할 필요가 있다. 이러한 분석모델을 개발하기 위해 해상운송에서 해상보안관리 위협대상을 선박, 화물의 종류, 항만시스템, 인적요소, 정보흐름으로 구분하고, 이에 대한 위험평가기준을 마련하여 해상보안사고 발생가능성 4등급으로 구분하였다. 또한 해상보안관리 관련 이해관계자를 단계별로 구분하여, 국제기구, 각국정부, 해운회사, 선박에서 이루어지고 있는 각종 보안제도들의 동향을 통해 분석모델의 기본틀을 마련하였다. 해상보안관리 관련 단계주체별 이해관계자들이 시행하고 있는 각종 보안제도를 상향식 및 하향식의 의사결정 및 이행방식을 토대로 하여 해상보안관리 분석모델을 개발하였으며, 실제 Petro Ranger호에서 발생한 해상보안사고 사례를 적용하여 유효성을 입증하였다.

데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석 (An Empirical Comparison of Bagging, Boosting and Support Vector Machine Classifiers in Data Mining)

  • 이영섭;오현정;김미경
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.343-354
    • /
    • 2005
  • 데이터 마이닝에서 데이터를 효율적으로 분류하고자 할 때 많이 사용하고 있는 알고리즘을 실제 자료에 적용시켜 분류성능을 비교하였다. 분류자 생성기법으로는 의사결정나무기법 중의 하나인 CART, 배깅과 부스팅 알고리즘을 CART 모형에 결합한 분류자, 그리고 SVM 분류자를 비교하였다. CART는 결과 해석이 쉬운 장점을 가지고 있지만 데이터에 따라 생성된 분류자가 다양하여 불안정하다는 단점을 가지고 있다. 따라서 이러한 CART의 단점을 보완한 배깅 또는 부스팅 알고리즘과의 결합을 통해 분류자를 생성하고 그 성능에 대해 평가하였다. 또한 최근 들어 분류성능을 인정받고 있는 SVM의 분류성능과도 비교?평가하였다. 각 기법에 의한 분류 결과를 가지고 의사결정나무를 형성하여 자료가 가지는 데이터의 특성에 따른 분류 성능을 알아보았다. 그 결과 데이터의 결측치가 없고 관측값의 수가 적은 경우는 SVM의 분류성능이 뛰어남을 알 수 있었고, 관측값의 수가 많을 때에는 부스팅 알고리즘의 분류성능이 뛰어났으며, 데이터의 결측치가 존재하는 경우는 배깅의 분류성능이 뛰어남을 알 수 있었다.

남한지역 겨울철 황사출현일수에 대한 범주 예측모형 개발 (Binary Forecast of Asian Dust Days over South Korea in the Winter Season)

  • 손건태;이효진;김승범
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.535-546
    • /
    • 2011
  • 본 연구는 겨울철 남한지역 황사출현일수에 대한 이 범주 계절예측모형 개발을 목적으로 수행되었다. 최근 31년간 관측된 황사출현일수를 예측량으로 하고, 황사발원지 기상요소(지상기온, 강수량, 강설량, 지상풍속)에 대한 NCEP 재분석자료 예측치와 광역규모 기후지수들을 잠재적 예측인자로 사용하였다. 월별로 구분하여 예측모형을 개발하기 위하여 네 종류 통계모형(중회귀모형, 로지스틱 회귀모형, 의사결정나무모형, 지지벡터기계)을 각각 적용하였다. 예측모형 평가측도인 정분류율, 탐지확률, 잘못된 경고를 사용하여 모형 비교하고 예측모형을 제안하였다.

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

Issue-Tree기법과 QFD를 이용한 자율주행자동차 교통안전정책과제 분석 (Issue-Tree and QFD Analysis of Transportation Safety Policy with Autonomous Vehicle)

  • 남두희;이상수;김남선
    • 한국ITS학회 논문지
    • /
    • 제15권4호
    • /
    • pp.26-32
    • /
    • 2016
  • 자율주행자동차는 운전자의 조작 없이 목표지점까지 스스로 주행환경을 인식하여 운행하는 최첨단 자동차를 말하며 위성항법장치, 센서 등으로 위치를 측정하고 주행환경을 인식, 연산장치로 가감속 차선변경 등 자율주행을 제어한다. 최근, 자동차 산업은 기존 기계공학과 정보통신, 센서, 위성항법 등 첨단기술이 총 집약된 자율주행 자동차로 빠르게 진화중이다. 교통안전 정책과제 분석은 Issue-Tree를 활용하여 분석하였다. Issue-Tree 방법론은 복잡한 문제를 세분화하여 구체화하고, 체계적으로 접근하는 문제해결 도구로 자율주행자동차 도입에 따른 교통안전 관련 Issue의 해결을 위한 정책과제를 도출하기 위해 사용된다. 교통안전 정책과제를 분석하기 위해는 우선 미래 사회 및 교통여건 변화로부터 Key Word를 도출하고, 이와 연계되는 국내외 도로교통 정책/계획을 확인하여 국내외 도로 교통 정책목표 Key Word를 도출하였다. 도출된 정책목표 Key Word로부터 핵심적인 Issue를 도출하였는데, 이때 Issue-Tree 방법을 통해 체계화하였다.

Prediction of concrete compressive strength using non-destructive test results

  • Erdal, Hamit;Erdal, Mursel;Simsek, Osman;Erdal, Halil Ibrahim
    • Computers and Concrete
    • /
    • 제21권4호
    • /
    • pp.407-417
    • /
    • 2018
  • Concrete which is a composite material is one of the most important construction materials. Compressive strength is a commonly used parameter for the assessment of concrete quality. Accurate prediction of concrete compressive strength is an important issue. In this study, we utilized an experimental procedure for the assessment of concrete quality. Firstly, the concrete mix was prepared according to C 20 type concrete, and slump of fresh concrete was about 20 cm. After the placement of fresh concrete to formworks, compaction was achieved using a vibrating screed. After 28 day period, a total of 100 core samples having 75 mm diameter were extracted. On the core samples pulse velocity determination tests and compressive strength tests were performed. Besides, Windsor probe penetration tests and Schmidt hammer tests were also performed. After setting up the data set, twelve artificial intelligence (AI) models compared for predicting the concrete compressive strength. These models can be divided into three categories (i) Functions (i.e., Linear Regression, Simple Linear Regression, Multilayer Perceptron, Support Vector Regression), (ii) Lazy-Learning Algorithms (i.e., IBk Linear NN Search, KStar, Locally Weighted Learning) (iii) Tree-Based Learning Algorithms (i.e., Decision Stump, Model Trees Regression, Random Forest, Random Tree, Reduced Error Pruning Tree). Four evaluation processes, four validation implements (i.e., 10-fold cross validation, 5-fold cross validation, 10% split sample validation & 20% split sample validation) are used to examine the performance of predictive models. This study shows that machine learning regression techniques are promising tools for predicting compressive strength of concrete.

웹 로그 분석을 위한 OLAP 시스템 및 성능 평가 (OLAP System and Performance Evaluation for Analyzing Web Log Data)

  • 김지현;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.909-920
    • /
    • 2003
  • CRM을 위해서는 다차원 분석이 가능한 OLAP (On-Line Analysis Processing)기술을 적 용한 방법 그리고 데이타 마이닝을 이용한 방법들이 각광 받고 있다. 고객 데이터 중에서 웹 로그 데이터를 실시간에 다차원 분석을 하기 위해서는 OLAP을 사용해야 한다. 그러나 OLAP을 적용하게 되면 웹 로그 데이터 자체가 가지고 있는 특성에 의해 희박성이 발생되고, 사전 집계 연산을 수행 할 시 데이터의 폭발(Explosion)현상이 일어난다. 이는 저장공간의 낭비 뿐 아니라 다차원 질의 시 성능 저하를 발생 시킨다. 본 논문에서는 웹 로그 데이터의 희박성에 대한 체계적인 접근을 위해 희박성을 발생시키는 원인과 2,3 차원의 희박성 형태들에 대해 밝혀보고, 이러한 분석을 기반으로 성능 평가를 위한 테스트 데이터 모델과 질의 모델을 설계하였다. 그리고 희박성 처리를 위해 청크 방식을 사용한 MOLAP시스템을 구현해 보고, 이 시스템과 MS SQL 2000 Analysis Services, Oracle Express의 성능을 평가 및 분석 해보았다. 이는 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있다.

  • PDF

페이스북 인사이트 데이터 분석 (Data Analysis of Facebook Insights)

  • 차영준;이학준;정용규
    • 문화기술의 융합
    • /
    • 제2권1호
    • /
    • pp.93-98
    • /
    • 2016
  • 최근 정보통신기술의 발달로 인한 각종 모바일 기기와 스마트 기기를 통해 소셜 네트워크 서비스가 많이 대중화 되고 있다. SNS는 오프라인에 존재하는 사회적 관계망이 온라인으로 이동한 친목기반 인맥 형성 서비스이다. SNS는 온라인 커뮤니티와 혼동되어 사용되기도 하지만 차이점이 있다. 이러한 기기들로부터 수집된 정보를 모델링하는 알고리즘으로는 연관성, 군집화, 신경망, 결정 나무 등의 다양한 기법이 제안되고 있다. 이러한 기법들을 활용하여 여러 가지 방대한 자료를 효과적으로 사용 하는데 연구할 필요가 있다. 따라서 본 논문에서는 특히 군집화에서 좋은 성능으로 평가받는 EM 알고리즘에 대해서 페이스북 인사이트 데이터를 이용하여 군집화를 수행한 결과를 기반으로 알고리즘의 성능을 평가하였다. 이를 통하여 EM알고리즘에 따른 성능의 변화와 남호주 주립도서관 의 실험데이터의 적용결과를 기반으로 분석하였다.