• 제목/요약/키워드: Decision Tree analysis

검색결과 723건 처리시간 0.028초

동적계획법 적용에 의한 삼나무 임분의 간벌시업체계 분석 (Analysis of Optimal Thinning Prescriptions for a Cryptomeria japonica Stand Using Dynamic Programming)

  • 한희;권기범;정혜진;설아라;정주상
    • 한국산림과학회지
    • /
    • 제104권4호
    • /
    • pp.649-656
    • /
    • 2015
  • 이 연구의 목적은 국립산림과학원 한남시험림의 삼나무조림지에서 목재 및 탄소 경영을 위한 최적의 간벌시업체계를 결정하기 위해 수행되었다. 이 문제를 풀기 위해 Paderes and Brodie에 의해 개발된 PATH 알고리즘을 의사결정 지원체계로 그리고 임분생장예측을 위해 권기범 등이 개발한 임분생장모델을 적용하였다. 이 임분생장모델은 개체목간의 거리에 대한 고려가 없이 임목의 고사나 간벌과 같은 임분밀도 조절 요인에 의한 생장효과를 예측할 수 있다. 분석 결과 순현재가를 극대화하기 위한 목재생산경영은 탄소흡수량을 극대화하기 위한 탄소경영에 비해 간벌의 횟수는 적었지만 간벌강도가 상대적으로 큰 값으로 나타났다. 탄소경영의 경우 목재생산경영에 비해 탄소흡수량이 약 6% 증가한데 비해 순수익은 약 3.2% 감소하는 것으로 나타났다. 한편 탄소경영이나 목재생산경영을 위한 집약적 경영은 무간벌 시업조건을 전제로 하는 '무간벌 대조구'의 경우에 비해 약 60% 정도의 탄소흡수 및 순수익 증진효과가 있는 것으로 나타났다.

당뇨 환자의 관리행태에 대한 군집 분류 (Group Classification on Management Behavior of Diabetic Mellitus)

  • 강성홍;최순호
    • 한국산학기술학회논문지
    • /
    • 제12권2호
    • /
    • pp.765-774
    • /
    • 2011
  • 본 연구는 효율적인 당뇨관리사업을 할 수 있는 기초자료를 제공하기 위해 수행되었다. 연구를 위해 2007년, 2008년도 국민건강영양조사를 통해 검진에 참여한 당뇨인지환자 666명의 자료를 수집하여 분석하였다. 당뇨인지 환자의 관리행태에 대한 군집분류는 K-means 기법을 이용하였고 관리행태에 대한 요인분석은 의사결정나무와 다중로지스틱 회귀분석을 이용하였다. 당뇨인지환자의 군집은 크게 3개로 분류되었다. 건강행태사업 대상군은 당뇨 치료와 합병증 검사는 잘 받고 있으나 음주, 흡연, 운동실천 등 건강행태 개선이 보다 적극적으로 이루어져야 하는 집단이다, 중점관리사업 대상군은 치료를 제대로 받지 않고, 합병증검사도 하지 않으며 혈당관리를 위한 건강행태 개선도 적극적으로 하지 않는 집단이다, 합병증검사사업 대상군은 치료를 잘 받고 있으며 건강행태도 개선하고 있지만 급만성 합병증을 조기 발견하기 위한 합병증검사를 소흘히 하는 집단이다. 군집을 분류하는데 가장 중요한 요인은 고지혈증 유무로 나타났으며 그 외 성, 소득, 연령, 직업, 주관적 건강상태도 주요한 변수였다. 당뇨 조절율을 향상시키기 위해서는 각 군집의 특성에 따라 보다 특화된 당뇨관리 프로그램이 적용되어야 할 것이다.

재입원 예측 모형 개발에 관한 연구 (A Study on the Development of Readmission Predictive Model)

  • 조윤정;김유미;함승우;최준영;백설경;강성홍
    • 한국산학기술학회논문지
    • /
    • 제20권4호
    • /
    • pp.435-447
    • /
    • 2019
  • 불필요한 재입원을 예방하기 위해서는 재입원 확률이 높은 집단을 집중적으로 관리할 필요가 있다. 이를 위해서는 재입원 예측모형의 개발이 필요하다. 재원예측 모형을 개발하기 위해 1개 대학병원의 2016년에서 2017년의 2년간의 퇴원요약환자 데이터를 수집하였다. 이때 재입원 환자는 연구 기간 내에 2번 이상 퇴원한 환자라 정의 하였다. 재입원환자의 특성을 파악하기 위해 기술통계와 교착분석을 실시하였다. 재입원 예측 모형개발은 데이터마이닝 기법인 로지스틱회귀모형, 신경망, 의사결정모형을 이용하였다. 모형평가는 AUC(Area Under Curve)를 이용하였다. 로지스틱회귀모형이 AUC가 0.81로 가장 우수하게 나옴에 따라 본 연구에서는 로지스틱 회귀모형을 최종 재입원 예측 모형으로 선정을 하였다. 로지스틱회귀모형에서 선정된 재입원에 영향을 끼치는 주요한 변수는 성별, 연령, 지역, 주진단군, Charlson 동반질환지수, 퇴원과, 응급실 경유 여부, 수술여부, 재원일수, 총비용, 보험종류 등이었다. 본 연구에서 개발한 모형은 1개병원의 2년치 자료이므로 일반화하기에는 제한점이 있다. 추후에 여러 병원 장기간의 데이터를 수집하여 일반화 할 수 있는 모형을 개발하는 것이 필요하다. 더 나아가 계획에 없던 재입원 까지 예측을 할 수 있는 모형을 개발하는 것이 필요하다.

머신러닝 기반 대학생 중도 탈락 예측 모델의 성능 비교 (Performance Comparison of Machine Learning based Prediction Models for University Students Dropout)

  • 정석봉;김두연
    • 한국시뮬레이션학회논문지
    • /
    • 제32권4호
    • /
    • pp.19-26
    • /
    • 2023
  • 전국 대학생의 중도 탈락 비율의 증가는 학생 개인 뿐만 아니라 대학과 사회에 심각한 부정적 영향을 끼친다. 본 연구에서는 중도 탈락이 예상되는 학생을 사전에 식별하기 위하여, 각 대학의 학사관리 시스템에서 손쉽게 얻을 수 있는 학적 데이터를 기반으로 머신러닝 분야의 결정트리, 랜덤 포레스트, 로지스틱 회귀 및 딥러닝 기반의 중도 탈락 예측 모델을 구축하고, 그 성능을 비교·분석하였다. 분석 결과 로지스틱 회귀 기반 예측 모델의 재현율이 가장 높았으나 f-1 및 auc 값이 낮은 한계를 보였고, 랜덤 포레스트 기반의 예측 모델의 경우 재현율을 제외한 다른 모든 지표에서 가장 우수한 성능을 보였다. 또한 예측 기간에 따른 예측 모델의 성능을 확인하기 위하여 예측 기간을 단기(1개 학기 이내), 중기(2개 학기 이내) 및 장기(3개 학기 이내)로 나누어 분석해 본 결과, 장기 예측 시 가장 높은 예측력을 보였다. 본 연구를 통해 각 대학은 중도 탈락이 예상되는 학생들을 조기에 식별하고, 이들에 대한 집중 관리를 통해 중도 탈락 비율을 줄이며 나아가 대학 재정 안정화에 기여할 수 있을 것으로 기대된다.

Prediction Model for unfavorable Outcome in Spontaneous Intracerebral Hemorrhage Based on Machine Learning

  • Shengli Li;Jianan Zhang;Xiaoqun Hou;Yongyi Wang;Tong Li;Zhiming Xu;Feng Chen;Yong Zhou;Weimin Wang;Mingxing Liu
    • Journal of Korean Neurosurgical Society
    • /
    • 제67권1호
    • /
    • pp.94-102
    • /
    • 2024
  • Objective : The spontaneous intracerebral hemorrhage (ICH) remains a significant cause of mortality and morbidity throughout the world. The purpose of this retrospective study is to develop multiple models for predicting ICH outcomes using machine learning (ML). Methods : Between January 2014 and October 2021, we included ICH patients identified by computed tomography or magnetic resonance imaging and treated with surgery. At the 6-month check-up, outcomes were assessed using the modified Rankin Scale. In this study, four ML models, including Support Vector Machine (SVM), Decision Tree C5.0, Artificial Neural Network, Logistic Regression were used to build ICH prediction models. In order to evaluate the reliability and the ML models, we calculated the area under the receiver operating characteristic curve (AUC), specificity, sensitivity, accuracy, positive likelihood ratio (PLR), negative likelihood ratio (NLR), diagnostic odds ratio (DOR). Results : We identified 71 patients who had favorable outcomes and 156 who had unfavorable outcomes. The results showed that the SVM model achieved the best comprehensive prediction efficiency. For the SVM model, the AUC, accuracy, specificity, sensitivity, PLR, NLR, and DOR were 0.91, 0.92, 0.92, 0.93, 11.63, 0.076, and 153.03, respectively. For the SVM model, we found the importance value of time to operating room (TOR) was higher significantly than other variables. Conclusion : The analysis of clinical reliability showed that the SVM model achieved the best comprehensive prediction efficiency and the importance value of TOR was higher significantly than other variables.

기술력 평가항목을 이용한 고안정성 중소기업 판별력 검증 (Verification Test of High-Stability SMEs Using Technology Appraisal Items)

  • 이준원
    • 경영정보학연구
    • /
    • 제20권4호
    • /
    • pp.79-96
    • /
    • 2018
  • 본 연구는 기술력 평가항목 중 기업의 재무안정성과 관련된 항목을 신용평가모형에 반영하여 중소기업뿐만이 아닌 전체 기업을 대상으로 한 신용평가모형의 부도변별력을 높이기 위한 기술력 평가모형의 신용평가모형 내 내재화에 착안하여 시작되었다. 따라서 기술력 평가모형이 부채비율 기준의 고안정성 중소기업을 사전에 판별하는 데 적용될 수 있는지 검증하는 것을 목표로 한다. 대상 기업을 업종(제조업 vs. 비(非)제조업)과 업력(창업기업 vs. 비(非)창업기업)으로 구분하고, 3개년 동안 해당 군집의 평균 부채비율 1/2 이하를 달성한 기업에 대해 고안정성 중소기업으로 정의한 후, C5.0 기법을 적용하여 모형의 판별력을 검증하였다. 분석결과 소항목 수준에서는 업종과 업력에 따라 중요도 간 차이가 있지만, 중항목 수준에서는 기술개발역량이 고안정성 중소기업을 판별하는 중요변수로 도출되었으며, 기업의 업력에 따라 창업 초기에는 자금조달능력(수익창출능력을 고려한 자본구조, 자본비용 및 자금조달 방법의 다양성)이 미래 고안정성 중소기업 여부를 결정하는 중요변수이지만, 업력이 증가함에 따라 지속적인 성과를 가능하게 하는 기술개발 인프라가 재무안정성에 영향을 미치는 중요 변수로 변화한다는 결론을 도출하였다. 업종과 업력에 따른 모형의 분류 정확도는 71~91% 수준이며, 기술력 평가항목을 이용하여 고안정성 중소기업을 판별할 수 있다는 가능성을 확인하였다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

기록 생애주기 관점에서 본 기록관리 메타데이터 표준의 특징 분석 (Feature Analysis of Metadata Schemas for Records Management and Archives from the Viewpoint of Records Lifecycle)

  • 백재은;스기모토 시게오
    • 한국기록관리학회지
    • /
    • 제10권2호
    • /
    • pp.75-99
    • /
    • 2010
  • 인터넷과 컴퓨터의 발전으로 다양한 환경이 끊임없이 제공되고, 이로 인해 대량의 디지털 리소스가 축적, 발신되고 있다. 이는 다양한 문제를 가져왔고, 우리는 디지털 리소스를 미래에 이용가능하도록 지속하고 보존하기 위한 기본적인 문제에 직면하게 되었다. 디지털 리소스를 장기간 보존하기 위해서는 리소스에 적합한 보존 방침과 방법이 필요하고, 따라서 여러 스탠다드가 개발되고 사용되어지고 있다. 메타데이터는 디지털 리소스를 장기간 유지하기 위한 디지털 아카이브에서 가장 중요한 구성요소 중 하나 이다. 디지털 리소스의 아카이빙과 보존을 위해 사용되는 메타데이터는 많이 있다. 그러나 각각의 스탠다드 는 주된 어플리케이션에 따라 각각의 특징을 가지고 있다. 이는 각각의 스키마가 특정한 어플리케이션에 따라 적절하게 선택하고 맞춰지지 않으면 안 되는 것을 의미한다. 경우에 따라서는DCMI의 어플리케이션 프레임워크와 METS와 같이, 스키마는 거대한 프레임워크와 컨테이너 메타데이터로 결합되어 있다. 다양한 메타데이터가 있는 가운데, 본 논문에서는 아카이브를 행하기 위해 용이되어 있는 메타데이터 스키마로, 공문서 혹은 행정문서등의 아카이브를 위해 기술하고 있는 ISAD(G), 디지털 리소스를 위해 작성된 EAD, 보존한 디지털 리소스를 위해 메타데이터 프레임워크를 정의하고 있는 OAIS, 디지털 리소스의 보존을 위한 PREMIS, 그리고 리소스의 관리와 검색을 위해 작성된 AGLS Metadata를 사용하여, '보존해야 되는 리소스에 하나의 메타데이터만을 선택해서 이용한다면 어떠한 문제가 생기는 가'라고 하는 의문을 바탕으로 접근하였다. 본 논문은 기록 생애주기 모델을 기초로, 스탠다드의 특징분석을 통해서 알게 된 메타데이터 스탠다드의 특징을 보여주고 있다. 특징은 이들 스탠다드의 메타데이터 기술요소가 기록 생애주기에서의 작업(task)에 관련하는 것을 간단하게 단일의 프레임워크로 보여줬다. 메타데이터 기술요소의 상세한 분석을 통해서, 우리는 기술 생애주기의 단계와 기술요소 간의 관계의 관점에서부터 스탠다드의 특징을 확실하게 할 수 있었다. 메타데이터 스키마간의 매핑은 다른 스키마가 기록 생애주기에서 사용되기에 장기 보존과정에 있어 자주 요구된다. 따라서 이러한 스키마의 상호운용성을 향상시키기 위해서는 통일된 프레임워크를 구축하는 것이 중요하다. 이 연구에서는 디지털 아카이빙과 보존에 사용되는 다른 메타데이터 스키마의 상호운용성을 기초로 제시한다.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.