• 제목/요약/키워드: 회귀 나무 분석

검색결과 199건 처리시간 0.033초

질환성 심정지 발생의 지역별 변이에 관한 연구 (A Study on Regional Variations for Disease-specific Cardiac Arrest)

  • 박일수;김은주;김유미;홍성옥;김영택;강성홍
    • 디지털융복합연구
    • /
    • 제13권1호
    • /
    • pp.353-366
    • /
    • 2015
  • 본 연구의 목적은 심정지 발생의 지역별 변이요인을 규명하는 것이다. 분석을 위하여 244개 행정구역별로 건강상태 및 심정지발생에 관한 지표를 수집하여 분석용 데이터 셋을 구축하였다. 지표 선정을 위해 질병관리본부의 2010년 심정지 조사자료와 지역사회 건강조사자료를 이용하였다. 자료 분석은 다중회귀분석, 지리적 가중회귀분석, 의사결정나무분석 기법을 이용하였다. 의사결정나무를 이용하여 심정지 발생의 지역별 변이를 설명하는 최종 모형을 설정하였다. 최종 모형인 의사결정나무에 근거한 지역별 변이요인은 인구밀도, 고혈압 평생의사 경험진단율, 스트레스 인지율, 고지혈증 평생의사 경험진단율, 우울증 경험률, 건강검진 수검율, 고위험음주율, 현재 흡연율로 나타났다. 심정지 발생을 감소시키기 위한 지역별 보건정책의 수립은 지역의 건강상태, 건강행위 및 사회경제적 요인 등에 근거하여 이루어질 필요가 있다.

한국남자프로농구 경기기록 분석을 통한 승패결정요인 추정: 2010-2011시즌, 2011-2012시즌 정규리그 기록 적용 (Estimating the determinants of victory and defeat through analyzing records of Korean pro-basketball)

  • 김세형;이준우;이미숙
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.993-1003
    • /
    • 2012
  • 한국남자프로농구 경기기록을 이용하여 승패결정요인을 분석하였다. 2010년 10월부터 2011년 3월까지, 2011년 10월부터 2012년 3월까지 치러진 정규리그 (540경기)의 기록을 분석하여 승패결정요인을 추정하였다. 한국농구연맹은 7개 공격변인과 7개 수비변인에 대한 자료를 제공하고 있다. 이들 자료 중에 공헌도와 공격력에 적용되는 6개 공격변인 (2점슛 성공률, 3점슛 성공률, 자유투 성공률, 공격리바운드, 어시스트, 턴오버)과 4개 수비변인 (수비리바운드, 스틸, 굿디펜스, 블록슛)이 승패에 미치는 영향을 통계적으로 분석하기 위해 로지스틱회귀분석과 의사결정나무분석을 적용하였다. 두 분석은 PASW와 Answer Tree 통계프로그램을 사용하였으며 모든 유의수준은 .05로 설정하였다. 로지스틱회귀분석 결과, 6개 공격변인 중 2점슛 성공률, 3점슛 성공률, 턴오버가 통계적으로 승패에 유의미한 영향을 미치고 4개 수비변인 중 굿디펜스를 제외한 수비리바운드, 스틸, 블록슛이 통계적으로 승패에 유의미한 영향을 미치는 것으로 나타났다. 그리고 공격변인 의사결정나무분석 결과에서는 2점슛 성공률이 51%-58%이며, 3P%가 31%를 초과하고 TO가 11개 이하일때 승리할 수 있는 확률이 80.85%로 가장 높게 나타났다. 이에 반해 수비변인 의사결정나무분석 결과, 수비리바운드가 24개를 초과하고 스틸이 6개를 초과하며, 블록슛이 2개를 초과할 때 승리할 수 있는 확률이 94.12%로 가장 높게 나타났다.

CART 분석을 이용한 지하철 마모 영향인자 분석 (Analysis of Factors Influencing upon the Metro Wear Using the Classification and Regression Trees)

  • 정민철;이원우;김정훈;공정식
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2011년도 정기 학술발표대회
    • /
    • pp.38-38
    • /
    • 2011
  • 일반적으로 레일마모는 열차의 주행안전 및 승차감에 미치는 영향이 크고, 소음 진동의 주요원인으로 작용한다. 또한 레일마모가 발생할 경우 궤도구조의 파괴를 촉진시킴으로써 차량 및 궤도유지보수비를 크게 증가시킨다. 따라서 구간 특성 및 환경 영향 인자 등 현장에서 발생하는 마모 원인을 체계적으로 분석함으로써 마모를 저감할 수 있도록 차량운행 조건과 선로선형 및 궤도구조를 설계하는 것은 중요한 과제이다. CART(Classification And Regression Tree; 분류와 회귀나무) 분석은 패키지화된 좋은 분류 및 예측도구 기법으로 나무의 상위 분리수준에서 일반적으로 나타나는 가장 중요한 입력변수들을 사용하는 등의 입력변수를 선정하는 경우 매우 유용하다. 본 연구에서는 다변수 구간특성 및 환경인자를 고려한 검측 자료 상관관계 분석을 위한 회귀 나무기반 모델(TBM: Tree Based Model) 분석 수행을 위해 지하철 2호선 마모 데이터와 마모 데이터에 영향을 미치는 각종 다변수 구간특성 및 환경인자를 사용하였다. 2호선 지하철의 구간특성 인자 및 환경인자는 레일의 종류, 레일의 위치, 도상, 곡률반경, 캔트 슬랙 및 운행 일수 등으로 구분하였다. 레일의 종류는 ks-50kg과 ks-60kg 두 종류의 레일이 있으며, 레일의 위치는 지상과 지하로 크게 구분할 수 있다. 도상은 콘크리트 도상, 자갈 도상과 일부 구간의 방진상 콘크리트 도상으로 구분할 수 있으며, 곡률반경은 직선구간과 완화곡선 구간 및 최소 250m부터 627m까지 분포된 원 곡선 구간으로 구분할 수 있다. 캔트 간격은 최소 96cm 부터 120cm 간격으로 구분하며, 슬랙은 5~9cm에 분포하고, 운행 기간은 해당 기간 동안 유지보수 이력이 없는 구간을 선정하여 2005년부터 2006년까지 4번에 걸쳐 검측된 지하철 2호선 내선 마모데이터를 사용하였다. 총 X1부터 X7까지 총 7개의 구간특성 또는 환경특성을 영향인자로 선정하였으며, 이러한 영향인자에 의해 결정되는 종속 인자로 Y1인 직마모와 Y2인 측마모를 선정하여 이 중 실질적으로 지하철 궤도의 성능 평가에 주요 판단인자로 사용되는 측마모와 구간특성 및 환경영향인자와의 상관관계 분석을 수행하였다. 해당 마모 데이터가 검측되는 기간 동안 유지보수 이력이 없는 12272 point의 데이터를 검출하였고 CART 프로그램을 이용하여 데이터를 분석하였으며, CART 프로그램의 해석을 위해 종속변수인 직마모량은 각 검측 지점의 마모량에 해당하는 등급으로 변환하여 분석을 수행하였다. 레일의 마모에 영향을 미치는 구간특성 및 환경인자와 종속 변수로 사용된 레일의 마모량 사이의 CART를 이용한 상관관계 분석은 실제 구조물에서 영향인자간의 상관 관계와 유사하며, 추후 연구에서는 이를 바탕으로 하여 정량화된 검측 데이터를 종속변수로 하여 구간특성 또는 환경인자 등 외부 영향인자를 고려한 궤도 검측데이터와의 상관관계 분석을 수행할 계획이다.

  • PDF

온라인 게시글의 콘텐츠 특성과 조회 수간의 관계 (The Relationship between Contents Characteristics of On-line Review and Reference Rate)

  • 이원준
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.241-249
    • /
    • 2010
  • 온라인을 중심으로 마케팅 패러다임이 급격하게 변화함에 따라 기업과 소비자들의 온라인 활동에 대한 관심이 증대되어왔다. 본 연구에서는 내용 분석법(contents analysis)을 통하여 게시 글의 주요한 특성인 총 13개의 변수들을 도출하고, 이들 변수에 따른 조회 수의 차이를 분석하였다. 차이 분석 결과, '브랜드 언급', '말머리 기호', '긍정성', '정보 제공' 등 총 4개의 변수에서 유의한 차이점을 보였다. 유의한 변수중에서 상대적으로 더 큰 영향력을 보이는 변수들을 확인하기 위하여 회귀 나무 분석을 이용한 데이터 분석을 추가적으로 실시한 결과, 그중에서도 '정보 제공'과 '브랜드 언급'이 조회 수를 결정하는 가장 중요한 변수인 것으로 나타났다. 이와 같은 연구 결과들을 바탕으로 기업이 소비자의 온라인 구전 활동을 이해하고 활용할 수 있는 실무적 시사점을 제시하였으며, 더불어 향후 연구 방향을 논의하였다.

의사결정나무를 이용한 화물자동차 투어유형 선택행태 분석 (An Analysis of Choice Behavior for Tour Type of Commercial Vehicle using Decision Tree)

  • 김한수;박동주;김찬성;최창호;김경수
    • 대한교통학회지
    • /
    • 제28권6호
    • /
    • pp.43-54
    • /
    • 2010
  • 최근 화물수요모형에 화물자동차 투어행태를 반영하기 위한 접근방법이 제시되었다. 화물자동차 이동을 투어기반 접근방법으로 모형화 하기 위해서는 화물자동차 투어와 투어유형에 대한 이해가 필요하다. 본 연구는 화물자동차 투어유형을 왕복형 투어와 체인형 투어로 구분하여 이들 투어유형 선택행태를 분석하였다. 투어유형 선택행태를 분석하기 위한 방법으로는 의사결정나무(decision tree)와 로짓모형(logit model)을 이용하였다. 분석결과 화물자동차 투어유형을 분류하는 설명변수로 화물적재율, 평균화물량, 총화물량이 선정되었으며, 의사결정나무와 로짓모형이 유사한 결과를 도출하였다. 또한 소형과 중형 화물자동차의 투어유형을 분류하는 설명변수가 큰 차이를 보이지 않음에 따라 화물자동차 투어를 계획함에 있어 화물을 어떻게 적재할 것인지가 가장 중요한 것으로 나타났다. 의사결정나무와 로짓모형의 예측력을 비교한 결과는 의사결정나무가 로짓모형에 비해 상대적으로 우수한 결과를 보였는데, 이는 화물자동차 투어유형을 분류함에 있어 로짓모형과 같이 설명변수의 선형적 결합에 의한 분류 보다는 의사결정나무와 같이 다수 설명변수들의 규칙조합으로 분류하는 것이 효과적임을 나타낸다.

맥파를 이용한 사상체질의 진단에 있어서 분류방법에 따른 진단의 정확도 비교 (Comparisons of the Accuracy of Classification Methods in Sasang Constitution Diagnosis with Pulse Waves)

  • 신상훈;김종열
    • 한국콘텐츠학회논문지
    • /
    • 제9권10호
    • /
    • pp.249-257
    • /
    • 2009
  • 사상의학은 체질에 따라 치료하는 방법을 달리하므로, 체질진단의 객관화가 절실히 요구되고 있다. 본 연구는 맥파를 이용하여 사상체질을 객관적으로 진단함에 있어서, 정확도가 높으면서 실용적인 체질분류 방법을 탐색하는 것이 목적이다. 한방병원에 건강검진을 목적으로 내원한 2848명의 피험자를 대상으로 전문의가 진단한 체질, 체질량지수, 혈압, 맥파 자료를 입수하였다. 자료의 선별과정을 통하여 최종적으로 1635명의 자료를 분석에 사용하였다. 판별분석, 회귀분석, 의사결정나무, 신경망으로 체질을 예측하고 전문의가 진단한 결과와 비교하여 분류방법의 정확도를 비교하였다. 판별분석은 체질별로 공분산 행렬이 동일해야 한다는 가정을 만족시키기 어려웠으며, 체질량지수를 고려하지 않은 의사결정나무와 신경망 분석의 결과는 분석표본의 변동에 민감했다. 체질분류에 결정적인 영향을 미치는 변수인 체질량지수가 고려된 로지스틱 회귀분석 또는 의사결정나무 방법이 체질분류 방법으로 추천할 만하다.

나이브 베이즈 분류와 기상예보자료 기반의 농업용 저수지 저수율 전망을 위한 저수율 예측 다중선형 회귀모형 개발 (Development of Multiple Linear Regression Model to Predict Agricultural Reservoir Storage based on Naive Bayes Classification and Weather Forecast Data)

  • 김진욱;정충길;이지완;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.112-112
    • /
    • 2018
  • 최근 이상기후로 인한 국부적인 혹은 광역적인 가뭄이 빈번하게 발생하고 있는 추세이며 발생횟수 뿐 아니라 가뭄 심도 및 지속기간이 과거보다 크게 증가하여 그에 따른 피해가 커질 것으로 예측되고 있다. 특히, 2014~2015년도의 유례없는 가뭄으로 인해 저수지 용수공급이 제한되면서 많은 농가들이 피해를 입었다. 본 연구의 목적은 전국 농업용 저수지를 대상으로 기상청 3개월 예보자료를 활용 할 수 있는 농업용 저수지 저수율 다중선형 회귀 모형을 개발하여 저수율 전망정보를 생산하는 것이다. 본 연구에서는 전국에 적용 가능한 저수율 다중선형 회귀 모형개발을 위해 5개의 기상요소(강수량, 최고기온, 최저기온, 평균기온, 평균풍속)와 관측 저수지 저수율을 활용했다. 기상자료는 2002년부터 2017년까지의 기상청 63개 지상관측소로부터 기상관측자료를 수집하였다. 본 연구에서는 저수율 전망 단계를 세 단계로 나누었다. 첫 번째 단계로 농어촌공사에서 전국 511개 용수구역을 대상으로 군집분석 및 의사결정나무 분석을 통해 제시한 65개 대표저수지를 대상으로 기상자료 및 관측 저수율 자료를 이용하여 다중선형 회귀분석을 실시하였다. 수집한 기상요소와 저수율을 독립변수로 하여 월별 회귀식을 산정한 결과 결정계수($R^2$)는 0.51~0.95로 나타났다. 두 번째 단계로 대표저수지의 회귀분석 결과를 전국의 저수지로 확대하기 위해 나이브 베이즈 분류법을 적용하여 전국 3098개의 저수지를 65의 군집으로 분류하고 각각의 군집에 해당되는 월별 회귀식을 산정하였다. 마지막으로 전국 저수지로 산정된 회귀식과 농업 가뭄 예측을 위해 기상청의 GS5(Global Seasonal Forecasting System 5) 3개월 예보자료를 수집하여 회귀식에 적용해 2017년 전국 저수지의 3개월 저수율 전망정보를 생산하였다. 본 연구의 전국 저수지 군집결과 기반의 저수율 전망기술은 2017년도 관측 저수율과 비교한 결과 유의한 상관성을 나타냈으며 이 결과는 추후 농업용 저수지의 물 공급 및 농업가뭄 전망 자료로서 이용이 가능할 것으로 판단된다.

  • PDF

데이터마이닝 기법을 활용한 한국인의 고위험 음주 예측모형 개발 연구 (Developing the high-risk drinking predictive model in Korea using the data mining technique)

  • 박일수;한준태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1337-1348
    • /
    • 2017
  • 본 연구는 질병관리본부에서 실시한 전국 규모의 자료인 지역사회건강조사 2014년 자료를 이용하여 고위험 음주자들의 특성 및 요인을 파악하고 고위험 음주 예측모형을 개발했다. 예측모형 개발은 데이터마이닝 방법 중 로지스틱 회귀분석, 의사결정나무, 신경망 분석 3가지 방법을 적용했으며, 로지스틱 회귀분석의 주요 결과로는 40대 남자의 위험도가 높았고, 사무직과 판매서비스직의 위험도가 높았다. 특히 현재 흡연자인 경우 고위험 음주 위험도가 높았다. 3가지 방법 중 AUROC (area under a receiver operation characteristic curve) 측면에서 신경망 분석과 로지스틱 회귀분석이 가장 높게 나타났다. 또한 고위험 음주 예방을 위한 우선 관리 대상자를 선정함에 있어 신경망 분석과 로지스틱 회귀분석으로 개발된 예측모형의 사후확률을 기초로 두 가지 모형 모두 예측분포의 상위 10%인 집단에 해당되는 경우를 선정한 결과 신경망 분석이나 로지스틱 회귀모형 1가지 모형으로 적용하는 것보다 반응률 및 향상도가 다소 개선되는 것으로 나타났다. 본 연구에서 개발된 고위험 음주 예측모형과 우선 관리 대상자 선정 방법은 문제적 음주 예방 및 개선 교육, 절주 프로그램 개발 등에 보다 세분화되고 효과적인 건강관리 서비스를 제공을 위한 기초자료가 될 수 있을 것이다.

YOLOv5 및 다항 회귀 모델을 활용한 사과나무의 착과량 예측 방법 (Estimation of fruit number of apple tree based on YOLOv5 and regression model)

  • 곽희진;정윤주;전익조;이철희
    • 전기전자학회논문지
    • /
    • 제28권2호
    • /
    • pp.150-157
    • /
    • 2024
  • 본 논문은 딥러닝 기반 객체 탐지 모델과 다항 회귀모델을 이용하여 사과나무에 열린 사과의 개수를 예측할 수 있는 새로운 알고리즘을 제안한다. 사과나무에 열린 사과의 개수를 측정하면 사과 생산량을 예측할 수 있고, 농산물 재해 보험금 산정을 위한 손실을 평가하는 데에도 활용할 수 있다. 사과 착과량 측정을 위해 사과나무의 앞면과 뒷면을 촬영하였다. 촬영된 사진에서 사과를 식별하여 라벨링한 데이터 세트를 구축하였고, 이 데이터 세트를 활용하여 1단계 객체 탐지 방식의 CNN 모델을 학습시켰다. 그런데 사과나무에서 사과가 나뭇잎, 가지 등으로 가려진 경우 영상에 포착되지 않아 영상 인식 기반의 딥러닝 모델이 해당 사과를 인식하거나 추론하는 것이 어렵다. 이 문제를 해결하기 위해, 우리는 두 단계로 이루어진 추론 과정을 제안한다. 첫 번째 단계에서는 영상 기반 딥러닝 모델을 사용하여 사과나무의 양쪽에서 촬영한 사진에서 각각의 사과 개수를 측정한다. 두 번째 단계에서는 딥러닝 모델로 측정한 사과 개수의 합을 독립변수로, 사람이 실제로 과수원을 방문하여 카운트한 사과 개수를 종속변수로 설정하여 다항 회귀 분석을 수행한다. 본 논문에서 제안하는 2단계 추론 시스템의 성능 평가 결과, 각 사과나무에서 사과 개수를 측정하는 평균 정확도가 90.98%로 나타났다. 따라서 제안된 방법은 수작업으로 사과의 개수를 측정하는 데 드는 시간과 비용을 크게 절감할 수 있다. 또한, 이 방법은 딥러닝 기반 착과량 예측의 새로운 기반 기술로 관련 분야에서 널리 활용될 수 있을 것이다.

지역사회건강조사 지표를 이용한 고지혈증 유병율의 지역 간 변이와 위험 요인의 융복합적 분석 (Convergence analysis for geographic variations and risk factors in the prevalence of hyperlipidemia using measures of Korean Community Health Survey)

  • 김유미;강성홍
    • 디지털융복합연구
    • /
    • 제13권8호
    • /
    • pp.419-429
    • /
    • 2015
  • 본 연구는 고지혈증 유병률의 지역 간 변이 정도와 위험 요인을 규명하여 지역별 특성에 맞는 고지혈증 관리 사업을 지원하기 위한 기초자료를 제공하기 위해 수행되었다. 이를 위해 질병관리본부의 2012년도 시군구 지역사회건강조사 249건의 자료를 이용하여 단순 상관관계 분석, 단계적 회귀분석, 의사결정나무 등의 기법으로 분석하였다. 249개 시군구 지역의 고지혈증 유병률은 9.2%였고, 변동계수는 28.3%였다. 남동부 해안지역에 비해 수도권과 내륙지방의 고지혈증 유병률이 높았다. 의사결정나무 모형이 회귀모형에 비해 예측력이 좋았는데, 지역의 임금근로자 비율, 스트레스 인지율, 고혈압, 협심증, 관절염 유병률이 높은 지역일수록 고지혈증 유병률이 높은 것으로 나타났다. 따라서 사회 역학적 관점에서 지역사회의 개입이 가능한 지점을 중심으로 고지혈증 유병률을 감소시키기 위한 전략 마련이 필요하다.