• 제목/요약/키워드: 의사결정나무 분석

검색결과 409건 처리시간 0.023초

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

정보공시 자료를 이용한 교육/연구성과 영향요인 추출 및 대학의 군집 분석 (Data Mining Analysis of Educational and Research Achievements of Korean Universities Using Public Open Data Services)

  • 신선미;김현철
    • 컴퓨터교육학회논문지
    • /
    • 제17권1호
    • /
    • pp.117-130
    • /
    • 2014
  • 본 연구의 목적은 통계 분석과 데이터마이닝 기법을 이용하여 대학정보공시 자료 속의 새로운 패턴이나 의미 있는 결과를 도출함으로써 대학의 교육역량 및 경쟁력을 나타내는 지표 개선에 유용한 지식을 제공하는 것이다. 이를 위해 교육/연구성과를 나타내는 취업률, 기술이전건수, 전임교원 1인당 논문수 지표의 영향요인 탐색 및 의사결정나무 모형 도출과 대학평가 관련지표를 이용한 대학의 군집분석을 실시하였다. 연구 결과, 대학 교육/연구성과 지표의 공통 영향요인은 신입생충원율, 재학생충원율, 전임교원 1인당 학생수로 나타났다. 군집분석에서는 전체 대학, 대학규모별, 소재지별로 각각 실시하였을 때 유명대학, 예체능 비이공계 종교지도자양성 대학, 그 외 대학으로 군집이 형성되는 양상을 보였고, 그 주요 영향요인으로는 대학 교육/연구성과 지표인 취업률, 기술이전건수 등으로 나타났다.

  • PDF

로지스틱 회귀모형과 의사결정 나무모형을 활용한 청소년 자살 시도 예측모형 비교: 2019 청소년 건강행태 온라인조사를 이용한 2차 자료분석 (Comparison of the Prediction Model of Adolescents' Suicide Attempt Using Logistic Regression and Decision Tree: Secondary Data Analysis of the 2019 Youth Health Risk Behavior Web-Based Survey)

  • 이윤주;김희진;이예슬;정혜선
    • 대한간호학회지
    • /
    • 제51권1호
    • /
    • pp.40-53
    • /
    • 2021
  • Purpose: The purpose of this study was to develop and compare the prediction model for suicide attempts by Korean adolescents using logistic regression and decision tree analysis. Methods: This study utilized secondary data drawn from the 2019 Youth Health Risk Behavior web-based survey. A total of 20 items were selected as the explanatory variables (5 of sociodemographic characteristics, 10 of health-related behaviors, and 5 of psychosocial characteristics). For data analysis, descriptive statistics and logistic regression with complex samples and decision tree analysis were performed using IBM SPSS ver. 25.0 and Stata ver. 16.0. Results: A total of 1,731 participants (3.0%) out of 57,303 responded that they had attempted suicide. The most significant predictors of suicide attempts as determined using the logistic regression model were experience of sadness and hopelessness, substance abuse, and violent victimization. Girls who have experience of sadness and hopelessness, and experience of substance abuse have been identified as the most vulnerable group in suicide attempts in the decision tree model. Conclusion: Experiences of sadness and hopelessness, experiences of substance abuse, and experiences of violent victimization are the common major predictors of suicide attempts in both logistic regression and decision tree models, and the predict rates of both models were similar. We suggest to provide programs considering combination of high-risk predictors for adolescents to prevent suicide attempt.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.

일개 종합병원의 민간 건강검진 수검자의 검진이용 특성, 건강행태 및 건강관리 수준 분석 (Analysis of Utilization Characteristics, Health Behaviors and Health Management Level of Participants in Private Health Examination in a General Hospital)

  • 김유미;박종호;김원중
    • 한국산학기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.301-311
    • /
    • 2013
  • 본 연구의 목적은 2차 종합병원급 건강검진센터를 이용한 민간 종합검진 환자의 검진 이용특성과 이들의 건강행태 및 건강관리 수준을 분석하는 것이다. 이를 위해 대전지역 일개 2차 종합병원급 건강검진센터의 2011년 20,696명의 민간 건강검진 수검자를 대상으로 이들의 2001년에서 2011년까지 11년간의 수검자료 150,501건을 분석하였다. 민간 종합검진 수검자의 검진군 분류를 위한 군집분석은 K-means기법의 z-score표준화 방법을 이용하여 분류하였으며, 정기/비정기 검진 분류모형 개발을 위해 로지스틱회귀분석, 의사결정나무, 신경망 분석을 이용하였다. 개발된 비정기 검진군 분류 모형에 따라 신규 검진군 중 비정기 검진군이 될 확률이 높은 1,000명을 추출하여 고객관리사업 대상자로 하였다. 분석결과, 수검자는 신규 검진군, 정기 검진군, 비정기 검진군으로 분류하였다. 신규 검진군은 30대가 많고, 신장질환 의심자의 비율이 높았다. 정기 검진군은 남자, 이상지혈증 의심 비율이 높았다. 비정기 검진군은 흡연율과 운동부족 비율이 높았고, 빈혈 및 당뇨의심 비율이 높았다. 의사결정나무 분석결과 비정기 검진환자의 특성에 영향을 미치는 변수로는 성별, 연령, 거주지, 운동, 빈혈, 이상지혈증, 당뇨, 비만, 간질환 등이었다. 특히 여자 수검자로서 빈혈 검사는 정상, 운동을 하지 않는 군이면서 비만이 의심되는 수검자의 비정기적 수검율은 71.4%에 달하였다. 이러한 연구결과 토대로 맞춤형 고객관리 사업을 진행한다면 건강검진센터 효율적인 운영에 기여할 수 있을 것이다.

재가노인 사례관리의 욕구사정 정확도 향상을 위한 욕구추출 알고리즘 개발 - 데이터 마이닝 분석기법을 활용하여 - (Development of Needs Extraction Algorithm Fitting for Individuals in Care Management for the Elderly in Home)

  • 김영숙;정국인;박소라
    • 한국사회복지학
    • /
    • 제60권1호
    • /
    • pp.187-209
    • /
    • 2008
  • 본 연구자들은 재가노인의 사례관리 과정에서 가장 핵심적인 요소가 되는 욕구 중심의 통합적 사정을 위한 28개의 욕구가 포함된 사정도구를 개발하였으며, 그 후속 연구로 개발된 욕구사정도구를 활용해 전국 노인복지관 협회 산하 120개 기관의 재가 노인 676명의 사정 데이터를 수집하고 데이터마이닝의 의사결정 나무분석 기법을 활용하여 욕구에 적합한 사회복지 서비스를 제공하기 위한 욕구추출 알고리즘을 개발하였다. 본 연구를 통해 재가노인의 욕구 28개에 대한 욕구추출 알고리즘은 <표3>에 요약하였다. 욕구 8번 "외출 시 도움을 원한다."의 의사결정모형을 예로 들면, 호소 23번을 주요 변인으로 외부이동 도움을 요청할 경우 80.3%와 요청하지 않을 경우 11.4%로 구분되었다. 이용자가 외부 이동에 대한 호소가 있고, 수발자가 있는 경우 87.9%로 욕구가 증가하였지만, 수발자가 없는 이용자의 경우 47.4%로 감소하였다. 노인이 외부이동 지원에 대한 요청과 수발자가 있으며, 청소하기의 완전도움이 필요한 경우, 외부이동 도움에 대한 욕구는 94.2%로 나타났다. 그러나 이용자가 외부이동의 도움을 요청하지 않더라도, ADL의 목욕하기에 완전도움으로 응답한 경우 외출도움의 욕구는 11.4%에서 80.0%로 급격히 증가하는 것을 확인할 수 있다. 그러나 ADL 목욕하기의 기능이 부분도움 또는 완전자립의 경우 외출도움이 필요하다고 분류될 가능성은 7.7%로 낮게 나타났다. 위와 같은 의사결정모형은 최대 나무 깊이는 5수준을 정지규칙으로 하여, 부모마디와 자식마디의 사례 수를 각각 50과 25로 지정하였다. 이를 통해 "외출 시 도움을 원한다"라는 욕구의 경우 182.13%의 효과적인 의사결정을 하고 있다. 본 연구의 결과로 제시한 알고리즘은 재가노인의 욕구를 추출함에 있어서 체계적이고 과학적인 기초자료로 활용될 수 있다.

  • PDF

손상입원환자의 중증도 보정 재원일수의 변이에 관한 연구 (A study on the variation of severity adjusted LOS on Injry inpatient in Korea)

  • 김성수;김원중;강성홍
    • 한국산학기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.2668-2676
    • /
    • 2011
  • 손상입원환자의 재원일수 변이요인을 분석하기 위해 질병관리본부의 퇴원손상환자 자료를 이용하여 재원일수 중증도 보정모형을 개발하였다. 이 모형을 적용, 보정값을 산출하고 실측값과의 차이를 이용하여 재원일수를 표준화한 후 재원일수의 변이를 분석하였다. 입원손상환자의 중증도 보정 재원일수에 영향을 미치는 주요 요인은 중증도, 수술유무, 연령, 손상기전, 입원경로 등으로 나타났다. 의사결정나무 모형에 의하여 재원일수의 보정값을 산출하여 실측값과의 차이를 분석한 결과 병원규모(병상수)별, 보험유형별, 기관 소재지별로 통계적으로 유의한 차이가 있는 것으로 나타났다. 따라서 재원일수의 변이를 줄이기 위해 국가차원에서 진료행위프로토콜을 개발하여 의료기관에서 이를 활용하도록 유도하고, 더 나아가 이를 체계적으로 평가하여 지속적으로 노력하여야 할 것이다.

비행교육과정 단계별 분석을 통한 조종적성검사 항목 타당성 연구 (A Study on Propriety of Pilot Aptitude Test Using Phased Analysis of Pilot Training)

  • 김희영;김수환;문호석
    • 한국지능시스템학회논문지
    • /
    • 제26권3호
    • /
    • pp.218-225
    • /
    • 2016
  • 첨단과학기술의 집합체로서 비약적으로 발전한 항공기 성능과 나날이 고도화되어 가고 있는 군 작전 환경을 고려해 볼 때 이상적인 조종적성을 가지고 있는 인원을 선발하는 문제는 매우 중요하다. 또한 무위로 돌아갈 수밖에 없는 중도 탈락자의 손실비용과 항공사고의 대부분이 인적요인에 의해 발생하고 있다는 사실은 조종적성검사를 통한 인원선발이 왜 중요한지에 대한 좀 더 현실적인 이유가 될 것이다. 이에 본 연구에서는 한국 공군이 2004년 개선하여 조종사 선발에 사용하고 있는 조종적성검사 항목의 타당성을 다양한 분류모형을 통하여 분석하고 선택된 변수에 대한 의미와 향후 발전방향에 대하여 논의하였다. 그리고 광의의 적성검사 항목에 속하는 개인특성변수를 투입하여 분류모형을 구성함으로써 예측력을 높이는 연구를 수행하였다.