• 제목/요약/키워드: 회귀의사결정나무

검색결과 141건 처리시간 0.025초

퇴원손상심층조사 자료를 기반으로 한 급성심근경색환자 재원일수의 중증도 보정 모형 개발 (Severity-Adjusted LOS Model of AMI patients based on the Korean National Hospital Discharge in-depth Injury Survey Data)

  • 김원중;김성수;김은주;강성홍
    • 한국산학기술학회논문지
    • /
    • 제14권10호
    • /
    • pp.4910-4918
    • /
    • 2013
  • 본 연구는 급성심근경색환자의 효율적인 재원일수 관리를 위해 재원일수에 대한 중증도 보정 모형을 개발하고자 하였다. 2004-2009년 퇴원손상심층조사 자료에서 주진단이 I21인 급성심근경색환자 6,074명을 추출하였으며, 모형 개발 시 데이터마이닝 기법(다중회귀분석, 의사결정나무, 신경망 기법)을 적용하였다. 개발된 모형들 중에서 의사결정나무 모형이 가장 우수한 모형으로 판정되어 이를 본 연구의 중증도 보정 모형으로 채택하였다. 급성심근경색 환자의 재원일수의 중증도 보정에 영향을 미치는 주요한 요인은 관상동맥우회술 시행유무, 퇴원 시 사망유무, 동반지수 등 이였으며, 병상규모와 의료기관 소재지 별로 중증도 보정 재원일수와 실제 재원일수에 차이가 있었다. 급성심근경색환자의 재원일수 변이를 줄이고 효율적으로 관리하기 위해서는 개발된 모형에 각 의료기관의 자료를 적용하여 중증도를 보정한 후, 차이가 나는 요인을 규명하여 이를 해결하는 활동이 수행되어야 할 것이다.

웰니스 지역사회 중심의 고혈압 치료율 관리 방안에 관한 연구 : 광주광역시 중심으로 (The Study on Hypertension Cure Rate Management Centering around Wellness Local Community : With GwangJu as a Central Figure)

  • 양유정;박종호
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권8호
    • /
    • pp.351-361
    • /
    • 2021
  • 본 연구는 웰니스 지역사회 중심의 고혈압 치료율 관리 방안을 마련하기 위해 지역회건강조사를 이용하여 광주광역시의 고혈압 치료 요인을 파악하고, 고혈압 치료율 관리 방안을 수립하고자 시행하였다. 본 연구를 위해 2017년부터 2019년까지의 질병관리청의 지역사회건강조사 자료 총 685,820건 중 광주광역시 조사자료 13,714건을 추출하였다. 조사자료 중 30세 이상 고혈압 진단 경험이 있는 자 2,941건을 최종 연구대상자로 선정하여 SAS 9.4, SAS Enterprise Miner 15.1을 사용하여 분석하였다. 분석 결과로는 고혈압 진단 경험자의 사회경제적 특성에 따른 광주광역시 고혈압 진단 치료율 차이는 성별, 연령, 결혼 유무, 교육수준, 경제활동 여부, 월 가구소득으로 나타났고, 건강행태 특성에 따른 고혈압 치료율 차이는 현재흡연, 월간음주, 고위험음주, 아침식사, 양호한 건강수준 인지, 당뇨 동반 및 당뇨 치료, 연간 미충족 의료, 연간 보건기관 이용 여부에 통계적으로 유의한 차이가 있는 것으로 나타났다. 고혈압 치료에 영향을 미치는 요인을 파악하기 위해 로지스틱 회귀 분석과 대화식 의사결정나무 분석을 실시한 결과 동일에게 나타난 요인은 연령, 결혼유무, 당뇨 동반 및 당뇨 치료여부, 연간 미충족 의료여부로 나타났다. 본 연구의 결과로 광주광역시는 낮은 연령층에게 고혈압 치료의 중요성을 인지시키고, 합병증 질환이 발생되지 않도록 효율적인 대책 마련과 함께 보건 교육학적인 노력이 필요할 것으로 사료된다.

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

데이터마이닝을 이용한 한우의 우수 지방산합성효소 유전자 조합 선별 (Major gene identification for FASN gene in Korean cattles by data mining)

  • 김병두;김현지;이성원;이제영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1385-1395
    • /
    • 2014
  • 가축의 경제적인 특성은 환경적인 요인과 유전적인 요인의 영향을 받으며, 또한 하나의 유전자가 아닌 여러 유전자의 상호작용의 영향을 받는다고 알려져 있다. 본 논문에서는 선형회귀모형을 활용하여 환경적인 요인을 보정한 자료로 한우의 맛과 육질에 영향을 준다고 밝혀진 지방산합성효소의 단일염기다형성 5개를 이용해 한우의 경제 형질에 영향을 미치는 우수 유전자 조합을 선별하고 우수 유전자형을 밝힌다. 이를 위해 데이터마이닝 기법인 인공신경망, 로지스틱 회귀모형, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터 (60%)와 검증용 데이터 (40%)로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용시켜 정확도를 비교하였다. 그 결과 C5.0이 최적 모형으로 선정되었으며, C5.0의 의사결정나무를 통해 우수 유전자 조합을 선별하였다.

Prediction of drowning person's route using machine learning for meteorological information of maritime observation buoy

  • Han, Jung-Wook;Moon, Ho-Seok
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.1-12
    • /
    • 2022
  • 해양조난사고 발생 시 해상 익수자의 안전과 생명 보장을 위해 구조자산을 활용한 신속한 탐색 및 구조작전은 매우 중요하다. 본 연구는 해양관측부이에서 수집되는 기상정보에 다중선형회귀분석, 의사결정나무, 서포트벡터머신, 벡터자기회귀, 순환신경망의 LSTM을 활용하여 울릉도 북서해역의 표층해류를 분석하고 유향과 유속에 대한 각각의 예측모형을 구축하여 예측된 유향과 유속정보를 통해 해상 익수자의 이동경로를 예측하는 모형들을 제안한다. 본 연구에서 적용한 다양한 기계학습 모형을 MAE와 RMSE의 성능 평가척도로 비교해 볼 때 LSTM이 가장 우수한 성능을 보였다. 또한, 익수자 이동지점과 예측모형의 예측지점 간 거리 차이에 있어서도 LSTM이 다른 모형들에 비해 탁월한 성능을 나타내었다.

위계적 선형모형을 이용한 강의평가 결정요인 분석 (Determinants of student course evaluation using hierarchical linear model)

  • 조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1285-1296
    • /
    • 2013
  • 강의평가 결과에 영향을 미치는 특성변수로는 교과목 수준의 다양한 강좌특성 변수들과 수강생 수준의 다양한 인적특성 변수들이 있다. 특정 수강생은 다수의 교과목을 이수하기 때문에 다수의 교과목들은 동일한 수강생 안에 속하게 됨으로써 공유되는 특성이 있게 된다. 즉 강의평가 결과는 교과목 수준의 강좌특성 (1-수준)과 수강생 수준의 인적특성 (2-수준)에 의해 영향을 받는 다층구조 (multilevel)를 가지게 되며, 위계적 자료 특성을 가지는 복수의 분석단위의 구조가 된다. 따라서 전통적인 회귀분석에서와 같이 개별 교과목들이 독립이라는 가정을 할 수 없게 된다. 본 논문에서는 강의평가결과에 영향을 미치는 다층구조의 특성을 가진 변수들의 영향력을 보다 타당하게 분석하기 위한 방법으로 위계선형모형 (HLM; hierarchical linear model)을 이용하였다. 분석결과는 다음과 같다. 먼저 교과목 수준의 특성변수들 중에 강좌규모, 개설학년, 담당교수의 전임여부, 해당 교과목의 총 평균평점, 원어강좌 여부가 통계적으로 유의하게 강의평가 결과에 영향을 미친 것으로 나타났다. 또한 수강생 수준의 인적특성 변수들 중에는 성별, 학과계열, 대입당시 전형방법, 평균평점 등이 유의하게 강의평가 결과에 영향을 미친 것으로 나타났다.

국외 상수도 원격검침 시스템(IBM, Oracle, Itron) 분석 (Analysis of Automatic Meter Reading Systems (IBM, Oracle, and Itron))

  • 주진철;김주환;이두진;최태호;김종규
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.264-264
    • /
    • 2017
  • 국외의 상수도 원격검침 시스템 내 데이터 전송방식은 도시 규모, 계량기의 밀도, 전력공급 여부 및 통신망의 설치 여부 등을 종합적으로 고려하여 결정되었다. 대부분의 스마트워터미터 제조업체들은 계량기의 부호기가 공급하는 판독 내용(데이터)을 전송할 검침단말기와 근거리 통신망(neighborhood area network)을 연계하여 개발 및 판매하였으며, 자체 소유 통신 프로토콜을 사용하여 라디오 주파수(RF) 통신 기술을 사용하고 있다. 광역통신망(wide area network)의 경우, 노드(말단의 계량기 및 센서)들과 이에 연결된 통신망 들을 포함한 네트웍의 배열이나 구성이 스타(star), 메쉬(mesh), 버스(bus), 나무(tree) 등의 형태로 통신망이 구성되어 있으나, 스타와 메쉬형 통신망 구성형태가 가장 널리 활용되는 것으로 조사되었다. 시스템 통합운영관리 업체들인 IBM, Oracle, Itron 등은 용수 인프라 관리 또는 통합네트워크 솔루션 등의 통합 물관리 시스템(integrated water management system)을 개발하여 현장적용을 하고 있으며, 원격검침 시스템을 통해 고객들의 현재 소비량과 과거 누적 소비량, 누수 감지 서비스 및 실시간 요금 고지 등을 실시간으로 웹 포털과 앱을 통해 제공하고 있다. 또한, 일부 제조업체들은 도시 용수공급/소비 관리자가 주민의 용수사용량을 모니터링하여 일평균 용수사용량 및 사용 경향을 파악하고, 누수를 검지하여 복구 및 용수 사용 지속가능성 지수를 제시하고, 실시간으로 주민의 용수사용량 관련 데이터를 모니터링하여 용수공급의 최적화를 위한 의사결정지원 서비스를 용수공급자에게 제공하고 있다. 최근에는 인공지능을 활용해 가정용수의 용도별(세탁용수, 화장실용수, 샤워용수, 식기세척용수 등) 사용량 곡선을 패터닝하여 profiling 기법을 도입해, 스마트워터미터에서 용수사용량이 통합되어 검지될 시 용수사용량의 세부 용도별 re-profiling 기법을 도입하여 가정용수내 과소비되는 지점을 도출 후 절감을 유도하는 기술이 개발 중이다. 또한, 미래 용수 사용량 예측을 위해 다양한 시계열 자료를 분석하는 선형 종속 모형(자기회귀모형, 자기회귀이동평균모형, 자기회귀적분이동평균모형 등)과 비선형 종속 모형(Fuzzy Logic, Neural Network, Genetic Algorithm 등)을 활용한 예측기능이 구축되어 상호 비교하여 최적의 용수사용량 예측 도구를 제공되고 있다.

  • PDF

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

  • 이정미;류미나;임규건
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.149-169
    • /
    • 2018
  • 본 연구에서는 한국문화관광연구원에서 조사된 "2013년~2015년 외래 관광객 실태조사"의 약 36,000개 데이터에 대한 빅 데이터 분석을 통해 관광산업 활성화 방안을 도출해 보고자 한다. 이를 위해서 외래 관광객들의 '전반적 만족도', '재방문 의사', '추천의사' 변수에 가장 많은 영향을 끼치는 요인을 분석하고 해당 요인들의 각각에 대한 영향력에 대해 파악 하였다. 본 연구에서는 SPSS IBM Modeler 16.0의 의사결정나무(C5.0, CART, CHAID, QUEST), 인공신경망, 로지스틱 회귀분석의 데이터마이닝 기법을 이용하여 종속변수에 가장 큰 영향을 미치는 상위 변수 7개씩을 각각 도출하였고, 추가적으로 각 독립변수들의 영향력을 심도 있게 파악하기 위하여 R프로그래밍을 활용하여 SPSS IBM Modeler 16.0을 통해 도출된 각 독립변수들의 영향력을 파악하였다. 데이터 분석 결과 '전반적 만족도'에 가장 영향을 미치는 상위 변수 7개는 관광지매력도, 음식만족도, 숙박만족도, 교통수단만족도, 안내서비스만족도, 방문관광지수, 국가로 나타났으며 가장 큰 영향력을 미친 변수는 음식만족도와 관광지매력도로 분석되었다. '재방문 의사'에 가장 영향을 미치는 상위 변수 7개로는 국가, 여행 동기, 활동, 음식만족도, 제일 좋았던 활동, 관광안내서비스만족도, 관광지매력도로 나타났으며 그중 가장 큰 영향력을 미친 변수는 음식만족도와 여행 동기로 분석되었다. 마지막으로 '추천의사'에 영향을 미치는 상위 변수 7개로는 국가, 관광지매력도, 방문관광지수, 음식만족도, 활동, 관광안내서비스만족도, 비용으로 나타났으며 가장 큰 영향력을 미친 변수는 국가, 관광지매력도, 음식만족도로 분석되었다. 따라서 세 변수에 공통적으로 영향을 끼치는 요인은 음식만족도, 관광지매력도로 분석되었으며 해당 요인들이 공통적으로 한국여행에 대한 전반적 만족도와 재방문 의사, 추천의사에 미치는 영향이 크다는 것을 확인할 수 있었다. 본 연구는 외래 관광객들의 한국관광에 대한 활성화 방안을 "외래 관광객 실태조사" 빅 데이터 분석을 통해 규명함으로써 한국 관광 데이터 분석의 활용과 관광 정책 수립의 기초자료로 활용될 수 있을 것으로 기대되며 향후 기업 및 국가차원에서 한국 관광발전에 기여할 수 있는 활성화 방안을 마련하는 자료로 사용될 수 있을 것으로 기대한다.

부도예측 개선을 위한 하이브리드 언더샘플링 접근법 (A Hybrid Under-sampling Approach for Better Bankruptcy Prediction)

  • 김태훈;안현철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.173-190
    • /
    • 2015
  • 부도는 막대한 사회적, 경제적 손실을 야기할 수 있으므로, 미리 부도여부를 정확하게 예측하여 선제 대응하는 것은 경영분야에서 대단히 중요한 의사결정문제 중 하나이다. 이에 지능정보시스템 분야에서도 그간 기업의 재무 데이터에 기반해 부도예측을 개선하기 위한 노력을 기울여왔는데, 안타깝게도 기존의 연구들은 대부분 분류모형의 성능 개선을 통해 예측 정확도를 개선하는 것에만 주로 초점을 맞추어 다른 요소들을 충분히 고려하지 못했다는 한계가 있다. 이러한 배경에서 본 연구는 부도예측 모형의 정확도를 개선하기 위한 방편으로 새로운 데이터 전처리 방법, 그 중에서도 효과적인 표본추출 방법을 제안하고자 한다. 일반적으로 부도예측을 위해 사용되는 데이터들은 극심한 데이터 불균형 문제에 노출되어 있는데, 본 연구에서는 k-reverse nearest neighbor(k-RNN)와 one-class support vector machine(OCSVM) 방법을 결합한 하이브리드 언더샘플링(hybrid under-sampling) 접근법을 통해 이같은 데이터 불균형 문제를 해결하고자 하였다. 본 연구에서 제안한 접근법에서 k-RNN은 이상치를 효과적으로 제거할 수 있으며, OCSVM은 다수를 구성하는 등급의 데이터로부터 정보량이 풍부한 표본만 효과적으로 선택할 수 있는 수단으로 활용될 수 있다. 제안된 기법의 성능을 검증하기 위해, 본 연구에서는 국내 한 은행의 비외감기업 부도예측모형 구축에 제안 기법을 적용해 본 뒤, 일반적으로 많이 사용되는 랜덤샘플링(random sampling)과 제안 기법의 성능을 비교해 보았다. 그 결과, 로지스틱 회귀분석, 판별분석, 의사결정나무, SVM 등 대다수의 분류모형에 있어 분류 정확도가 개선됨을 확인할 수 있었으며, 모든 분류모형에 있어 부정 오류, 즉 부실기업을 정상으로 예측하는 오류율이 크게 감소함을 확인할 수 있었다.

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.