• 제목/요약/키워드: 의사결정나무 분석

검색결과 409건 처리시간 0.023초

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구: 재무적 데이터를 중심으로 (Study on Predicting the Designation of Administrative Issue in the KOSDAQ Market Based on Machine Learning Based on Financial Data)

  • 윤양현;김태경;김수영
    • 벤처창업연구
    • /
    • 제17권1호
    • /
    • pp.229-249
    • /
    • 2022
  • 본 연구는 다양한 머신러닝 기법을 통해 코스닥(KOSDAQ) 시장 내 관리종목 지정을 예측할 수 있는 모델에 대해 연구하였다. 증권시장 내 기업이 관리종목으로 지정이 되면 시장에서는 이를 부정적인 정보로 인식하여 해당 기업과 투자자에게 손실을 가져오게 된다. 본 연구를 통해 기업의 재무적 데이터를 바탕으로 조기에 관리종목 지정을 예측하고, 투자자들의 포트폴리오 리스크 관리에 도움을 주기 위한 머신러닝 접근이 타당한지 살펴본다. 본 연구를 위해 활용한 독립변수는 수익성, 안정성, 활동성, 성장성을 나타내는 21개의 재무비율을 활용하였으며, K-IFRS가 적용된 2011년부터 2020년까지 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 추출하였다. 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, LightGBM을 활용하여 관리종목 지정 예측 연구를 수행하였다. 연구결과는 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 의사결정나무 기반 학습 모형의 변수 중요도의 상위 3개 변수를 확인한 결과 각 모형에서 공통적으로 나온 재무변수는 ROE(당기순이익), 자본금회전율(Capital stock turnover ratio)로 해당 재무변수가 관리종목 지정에 있어 상대적으로 중요한 변수임을 확인하였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높은 것을 확인하였다. 기존 선행연구가 K-IFRS에 대한 고려를 하지 않았고, 다소 제한된 머신러닝에 의존하였다. 따라서 본 연구의 필요성과 함께 현실적 요구를 충족시키는 결과를 제시하였음을 알 수 있으며, 시장참여자들에게 있어 관리종목 지정에 대한 사전 예측을 확인할 수 있도록 기여했다고 볼 수 있다.

의사결정나무 분석기법을 이용한 뇌졸중 지식 취약군 규명 (Identification of Subgroups with Lower Level of Stroke Knowledge Using Decision-tree Analysis)

  • 김현경;정석희;강현철
    • 대한간호학회지
    • /
    • 제44권1호
    • /
    • pp.97-107
    • /
    • 2014
  • Purpose: This study was performed to explore levels of stroke knowledge and identify subgroups with lower levels of stroke knowledge among adults in Korea. Methods: A cross-sectional survey was used and data were collected in 2012. A national sample of 990 Koreans aged 20 to 74 years participated in this study. Knowledge of risk factors, warning signs, and first action for stroke were surveyed using face-to-face interviews. Descriptive statistics and decision tree analysis were performed using SPSS WIN 20.0 and Answer Tree 3.1. Results: Mean score for stroke risk factor knowledge was 7.7 out of 10. The least recognized risk factor was diabetes and four subgroups with lower levels of knowledge were identified. Score for knowledge of stroke warning signs was 3.6 out of 6. The least recognized warning sign was sudden severe headache and six subgroups with lower levels of knowledge were identified. The first action for stroke was recognized by 65.7 percent of participants and four subgroups with lower levels of knowledge were identified. Conclusion: Multi-faceted education should be designed to improve stroke knowledge among Korean adults, particularly focusing on subgroups with lower levels of knowledge and less recognition of items in this study.

전문가의 형태소 분류를 활용한 과학 논증 자동 채점 (Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches)

  • 이만형;유선아
    • 한국과학교육학회지
    • /
    • 제40권3호
    • /
    • pp.321-336
    • /
    • 2020
  • 본 연구는 실제 교실에서 이루어진 학생의 과학 논증과정을 기계학습을 활용한 자동 채점에 적용함으로써, 논증 자동 채점의 가능성 및 개선 방향을 탐색한다. 분자 구조에 대한 고등학생의 과학 논증수업 중 발생한 2,605개의 모든 발화를 대상으로 연구를 진행하였다. 지도 학습을 위해 5가지의 논증 요소로 발화를 분류하였고, 분류된 발화를 대상으로 텍스트 전처리를 수행하였다. 전처리된 학생 발화를 활용하여 서포트 벡터 머신, 의사결정나무, 랜덤 포레스트, 인공신경망의 기계 학습 방법으로 자동 채점 모델을 구성하였다. 불용어 처리가 되지 않은 학생 발화를 활용한 자동 채점의 결과 랜덤 포레스트의 정확도는 65.96%, kappa는 0.5298의 유미한 결과를 얻었다. 불용어 처리를 수행한 학생 발화를 활용한 새로운 채점 모델의 결과 채점의 정확도가 크게 변화하지 않음에도 논증 발화 중 과학 용어 및 논증 요소의 담화표지가 채점 모델의 분류 기준이 되는 결과를 얻었다. 또한 인간 전문가의 논증 채점 과정을 분석하여 얻어진 전문가 형태소를 자동 채점 모델에 생성 규칙 알고리즘으로 적용하였다. 그 결과 의사결정나무에서 반박에 대한 재현율(recall)이 21.74% 증가하였다. 이에 본 연구 결과는 과학 교육 연구에서 기계 학습 및 논증에 대한 자동 채점의 활용 가능성과 연구 방향성을 제안하였다.

유사 시계열 데이터 분석에 기반을 둔 교육기관의 전력 사용량 예측 기법 (Power Consumption Forecasting Scheme for Educational Institutions Based on Analysis of Similar Time Series Data)

  • 문지훈;박진웅;한상훈;황인준
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.954-965
    • /
    • 2017
  • 안정적인 전력 공급은 전력 인프라의 유지 보수 및 작동에 매우 중요하며, 이를 위해 정확한 전력 사용량 예측이 요구된다. 대학 캠퍼스는 전력 사용량이 많은 곳이며, 시간과 환경에 따른 전력 사용량 변화폭이 다양하다. 이러한 이유로, 전력계통의 효율적인 운영을 위해서는 전력 사용량을 정확하게 예측할 수 있는 모델이 요구된다. 기존의 시계열 예측 기법은 학습 시점과 예측 시점 간의 차이가 클수록 예측 구간이 넓어짐으로 예측 성능이 크게 떨어진다는 단점이 있다. 본 논문은 이를 보완하려는 방안으로, 먼저 의사결정나무를 이용해 날짜, 요일, 공휴일 여부, 학기 등을 고려하여 시계열 형태가 유사한 전력 데이터를 분류한다. 다음으로 분류된 데이터 셋에 각각의 자기회귀누적이동평균모형을 구성하여, 예측 시점에서 시계열 교차검증을 적용해 대학 캠퍼스의 일간 전력 사용량 예측 기법을 제안한다. 예측의 정확성을 평가하기 위해, 성능 평가 지표를 이용하여 제안한 기법의 타당성을 검증하였다.

분위수 부스팅을 이용한 미세먼지 농도 예측 (Particulate Matter Prediction using Quantile Boosting)

  • 권준현;임예지;오희석
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.83-92
    • /
    • 2015
  • 고농도 미세먼지($PM_{10}$)에 노출되는 것은 호흡기 질환 뿐만 아니라 피부, 안구, 심혈관계 질환 등을 야기한다. 따라서 미세먼지 농도를 정확히 예측하는 방법을 개발하는 것은 국민건강과도 깊은 관련이 있다. 현재 국립환경과학원에서는 미세먼지 농도가 높은 "나쁜날씨"를 예측하기 위해 의사결정나무 모형을 사용하고 있다. 그러나 모형 자체의 불안정성은 차치하더라도 의사결정나무는 전체 데이터의 9%밖에 차지하지 않는 "나쁜날씨"를 예측하기에 적합하지 못하다. 본 논문에서는 국립환경과학원에서 사용하는 모형의 부정확성과 부적절성을 제시하는 한편, 분위수 손실 함수를 적용한 새로운 모형의 유용성을 제시한다. 그리고 새로운 모형의 성능을 여러 ${\tau}$ 값에 대해 평가하고 비교를 통해 기존 모형 교체의 타당성을 보인다.

의사결정나무 분석법을 이용한 우울 노인 중 자살 고위험군 규명 (Identification of High-risk Groups of Suicide from the Depressed Elderly using Decision Tree Analysis)

  • 홍세훈;이동원
    • 지역사회간호학회지
    • /
    • 제30권2호
    • /
    • pp.130-140
    • /
    • 2019
  • Purpose: The aim of this study is to explore levels of suicidal ideation and identify subgroups of high suicidal risk among the depressed elderly in Korea. Methods: A descriptive cross-sectional design was adopted on secondary data from the 6th (1st year) Korean national health and nutrition examination survey (KNHANES). A total of 239 depressed elders aged 60 or over who participated in the KNHANES. The prevalence of suicidal ideation and its related factors, including sociodemographic, physical, psychological characteristics and quality of life (EQ-5D index) were examined. Descriptive statistics and a decision tree analysis were performed using the SPSS/WIN 23.0 and SPSS Modeler 14.2 programs. Results: Of the depressed elderly, 28.9% had suicidal ideation. Three groups with high suicidal ideation were identified. Predictive factors included perceived stress level, household income level, quality of life and restriction of activity. In the highest risk group were those depressed elderly with moderate and low levels of stress, less than .71 of EQ-5D index and restriction of activity, and 80.0% of these participants had suicidal ideation. The accuracy of the model was 80.8%, its sensitivity 85.9%, and its specificity 68.1%. Conclusion: Multi-dimensional intervention should be designed to decrease suicide among the depressed elderly, particularly focusing on subgroups with high risk factors. This research is expected to contribute itself to the policy design and solution building in the future as it suggests policy implications in preventing the suicide of the depressed elderly.

데이터마이닝을 적용한 여성 골프웨어 판매 예측 모델 연구: 거시경제요인과 소비자판매가격을 중심으로 (A Study on the Prediction Model for Sales of Women's Golfwear with Data Mining: Focus on Macroeconomic Factors and Consumer Sales Price)

  • 한기향
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.445-456
    • /
    • 2021
  • 본 연구는 소비자의 구매행동에 영향을 미치는 거시경제변수와 소비자 판매가격을 변수로 여성 골프웨어 판매량에 영향을 미치는 변수의 중요도를 확인하고 골프웨어의 판매 증진을 위한 가격전략을 제안하는 것을 목적으로 한다. 국내 여성 골프웨어 브랜드의 매출자료를 의사결정나무 알고리즘과 앙상블을 이용해 분석하였다. 티셔츠, 팬츠와 니트류는 소비자 판매가격이 판매량에 가장 중요한 영향을 미치는 요인인 것으로 밝혀졌으며, 스커트와 원피스의 경우 소비자 판매가격 외에 카테고리가 중요 요인인 것으로 밝혀졌다. 이러한 연구 결과는 아이템에 따라 소비자의 구매 행동에 영향을 주는 경제 변수가 다르다는 것을 의미하는 것으로 적절한 가격전략을 통해 매출 및 이윤을 극대화할 수 있음을 시사하고 있다.

대한해협에서 표층 뜰개 이동 예측 연구 (A Study on the Prediction of the Surface Drifter Trajectories in the Korean Strait)

  • 하승윤;윤한삼;김영택
    • 한국해안·해양공학회논문집
    • /
    • 제34권1호
    • /
    • pp.11-18
    • /
    • 2022
  • 본 연구는 대한해협 인근 입자추적 예측 기법의 정확도 개선을 위해서 해수유동 수치모델 결과를 이용하여 만든 입자추적 모델과 현장 관측 자료를 이용한 기계학습 기반 입자 추적 모델을 비교 및 분석하였다. 세부 연구 방법으로는 대한해협에서 관측된 표층 뜰개 이동 궤적 자료, 3개 관측소(가거도, 거제도, 교본초 관측소)의 조위 및 바람자료를 학습시켜 만든 기계 학습(선형 회귀, 의사결정나무) 기반 예측자료, 수치모델 예측자료(ROMS, MOHID)를 3가지 오차평가방법(CC, RMSE, NCLS)을 통해 비교하였다. 최종 결과로서 CC와 RMSE에서는 의사결정나무 모델의 예측 정확도가 가장 우수하였고 NCLS에서는 MOHID 모델의 예측 결과가 가장 우수하였다.

의사결정나무 분석기법을 이용한 상급종합병원 간호사의 이직 예측모형 구축 (A Predictive Model of Turnover among Nurses in a Tertiary Hospital: Decision Tree Analysis)

  • 강경옥;한나라;정정아;최영은;박진경;정석희
    • 동서간호학연구지
    • /
    • 제29권1호
    • /
    • pp.68-77
    • /
    • 2023
  • Purpose: The purposes of this study were to develop a predictive model and evaluate this model of turnover in hospital nurses. Methods: Participants were 1,565 nurses from a tertiary hospital in South Korea. Descriptive statistics and a decision-tree analysis were performed using the SPSS WIN 23.0 program. Results: The turnover groups were presented in eleven different pathways by decision tree analysis. There were three high-risk groups with a higher turnover rate than the average, and eight low-risk groups with a lower turnover rate. Among them, two low-risk groups had a 0% turnover rate. The groups were classified according to general characteristics such as position, period of temporary position, clinical career at last working unit, total clinical career, and period of leave of absence. The accuracy of the model was 83.2%, sensitivity 63.7%, and specificity 98.1%. Conclusion: This predictive model of turnover may be used to screen the turnover risk groups and contribute for decreasing the turnover of hospital nurses in South Korea.

의사결정나무 분석을 이용한 이상지질혈증 유병자의 지질관리 취약군 예측: 2019-2021년도 국민건강영양조사 자료 (Identification of subgroups with poor lipid control among patients with dyslipidemia using decision tree analysis: the Korean National Health and Nutrition Examination Survey from 2019 to 2021)

  • 김희선;정석희
    • Journal of Korean Biological Nursing Science
    • /
    • 제25권2호
    • /
    • pp.131-142
    • /
    • 2023
  • Purpose: The aim of this study was to assess lipid levels and to identify groups with poor lipid control group among patients with dyslipidemia. Methods: Data from 1,399 Korean patients with dyslipidemia older than 20 years were extracted from the Korea National Health and Nutrition Examination Survey. Complex sample analysis and decision-tree analysis were conducted with using SPSS for Windows version 27.0. Results: The mean levels of total cholesterol (TC), triglyceride (TG), low density lipoprotein-cholesterol (LDL-C), and high density lipoprotein cholesterol were 211.38±1.15 mg/dL, 306.61±1.15 mg/dL, 118.48±1.08 mg/dL, and 42.39±1.15 mg/dL, respectively. About 61% of participants showed abnormal lipid control. Poor glycemic control groups (TC ≥ 200 mg/dL or TG ≥ 150 mg/dL or LDL-C ≥ 130 mg/dL) were identified through seven different pathways via decision-tree analysis. Poor lipid control groups were categorized based on patients' characteristics such as gender, age, education, dyslipidemia medication adherence, perception of dyslipidemia, diagnosis of myocardial infarction or angina, diabetes mellitus, perceived health status, relative hand grip strength, hemoglobin A1c, aerobic exercise per week, and walking days per week. Dyslipidemia medication adherence was the most significant predictor of poor lipid control. Conclusion: The findings demonstrated characteristics that are predictive of poor lipid control and can be used to detect poor lipid control in patients with dyslipidemia.