• 제목/요약/키워드: 가중치회귀모형

검색결과 59건 처리시간 0.023초

지역회귀분석을 이용한 홍수피해위험도 산정 (Flood Risk Estimation Using Regional Regression Analysis)

  • 장옥재;김영오
    • 한국방재학회 논문집
    • /
    • 제9권4호
    • /
    • pp.71-80
    • /
    • 2009
  • 오늘날 재해의 위험으로부터 안전하게 살고자 하는 대중들의 욕구는 증가하고 있지만 최근의 기후변화와 이상홍수의 사례에서 볼 때 현재 우리가 처해 있는 자연재해로부터의 위협은 과거와는 상이하다는 것을 알 수 있다. 이렇게 변화하는 상황에 대처하기 위해서는 우리가 노출된 재해의 특성을 평가하는 과정이 선행되어져야 한다. 따라서 본 연구에서는 지역회귀분석을 적용하여 가능 피해금액을 추산하고, 이를 통해 각 지역별 홍수위험도를 평가하는 방법을 제안하였다. 홍수로 인한 피해는 인명이나 재산피해가 주를 이루기 때문에 홍수 위험도평가 결과도 홍수에 취약한 인명이나 재산으로 표현되는 것이 적절하다고 판단된다. 지역회귀분석은 강우-유출모형이나 확률분포모형의 매개변수들을 유역특성인자들로 표현하기 위해 수문학(水文學) 분야에서 널리 사용되어져 왔으며 본 연구에서는 이 방법을 홍수 피해금액 추정에 응용하였다. 지역회귀방법의 절차로는 먼저 계측지역(과거 홍수 피해금액 자료가 충분한 지역)에서는 홍수 피해금액과 시강우량 자료를 바탕으로 비선형 회귀분석을 실시하였고, 다음으로 이 회귀식의 계수를 다시 해당 지역의 인문.사회 경제학적 인자들로 표현하였다. 이러한 방법으로 지역적 인자들이 홍수 피해에 미치는 영향을 정량적으로 분석할 수 있었으며 궁극적으로 미계측지역(과거 자료가 충분하지 않은 지역)에서도 지역적 인자들을 통해 특정 빈도에 발생 가능한 홍수 피해금액을 추정할 수 있었다. 또한 추정된 홍수 피해금액과 지역 총 자산의 비를 Flood Vulnerability Index (FVI)라 하였으며 이를 통해 특정빈도 강우로 인해 도시 내에서 피해를 입을 수 있는 재산의 범위를 추정하고, 홍수위험지도로도 나타내었다. 본 연구 결과를 수자원장기종합계획에서 홍수위험도 평가를 위해 사용된 홍수피해 잠재능(Potential Flood Damage; PFD)과 비교해 보면 PFD에서는 각 인자들의 가중치 산정에서 전문가의 오판이 부분적으로 개입될 수 있다는 단점이 있었으나 지역회귀에 근거한 본 연구에서는 이러한 단점을 극복할 수 있었다. 또한 FVI는 과거 재해피해와 높은 상관관계를 나타냈지만 PFD는 실제 지역별 취약도를 잘 반영하지 못하는 것으로 나타났다.

모의실험을 기반으로 지수형 응답률 보정을 위한 세부 층 결정에 관한 연구 (A study on the determination of substrata using the information of exponential response rate by simulation studies)

  • 민주원;신기일
    • 응용통계연구
    • /
    • 제31권5호
    • /
    • pp.621-636
    • /
    • 2018
  • 정보적 표본설계 기법을 적용하여 무응답의 영향을 줄이기 위한 연구가 진행되고 있다. 특히 초모집단모형(super population model)에 포함된 오차의 분포가 정규분포를 따르고 응답률이 지수함수를 따를 때 지수형 응답률 정보를 모수추정에 사용함으로써 추정의 정확성이 향상되는 것으로 알려져 있다. 최근 Chung과 Shin (2017)은 정보적 표본설계의 가중치를 구하기 위해 세부 층을 등간격으로 나누는 방법을 고려하였으며 세부 층의 개수가 추정의 정확성에 영향을 주는 것을 확인하였다. 이에 본 연구에서는 주어진 표본 규모에 따른 최적의 세부 층 개수와 최적의 층 경계를 구하기 위해 등간격, 분위수, LH 알고리즘을 이용하여 층을 나누는 방법을 살펴보았으며 모의실험을 통하여 각 방법의 결과를 비교하였다. 또한 다양한 형태의 보조변수 분포를 이용하여 실무에서 사용할 수 있는 세부 층 경계와 세부 층 개수를 정하는 기준을 제안하였다.

응답률이 선형인 표본조사에서 편향 보정 추정 (Bias adjusted estimation in a sample survey with linear response rate)

  • 정희영;신기일
    • 응용통계연구
    • /
    • 제32권4호
    • /
    • pp.631-642
    • /
    • 2019
  • 다수의 항목무응답이 발생한 표본조사에서는 추정의 정확성이 떨어진다. 이를 해결하기 위한 많은 방법이 개발되었으나 응답률이 관심변수에 의해 영향을 받는 경우임에도 이를 고려하지 않고 랜덤으로 무응답이 발생한다는 가정 하에서 사용하는 무응답 처리 방법을 사용하게 되면 편향이 발생하는 것으로 알려져 있다. Chung과 Shin (2017)과 Min과 Shin (2018)은 응답률이 관심변수의 함수인 경우에서 발생된 편향을 적절히 처리하여 추정의 정확성을 향상시키는 방법을 제안하였다. 본 연구에서는 응답률 함수가 선형(linear)이면서 초모집단 모형의 오차가 정규분포를 따르는 경우를 살펴보았으며 층별 모집단 수가 편향 보정에 영향을 주는지도 살펴보았다. 모의실험을 통하여 제안된 추정량의 성능을 살펴보았으며 실제 자료 분석을 통해 이를 확인하였다.

기술대체 영향요인과 Lotka-Volterra 경쟁 모형을 이용한 차세대 기술 예측 (Forecasting Next Generation Technology Using Lotka-Volterra Competition Model and Factors for Technology Substitution)

  • 김혜인;정유진;윤병운
    • 기술혁신학회지
    • /
    • 제20권4호
    • /
    • pp.1262-1287
    • /
    • 2017
  • 최근 차세대 기술에 대한 사전적인 예측이 기업의 경쟁력을 좌우하고 있다. 하지만 기존 연구에서는 기술 채택에 영향을 미치는 요인 규명만 이뤄지고 있으며, 결정 요인 별 중요도나 기술 간 경쟁 양상을 파악하는 연구는 미비한 실정이다. 본 연구는 신기술의 등장으로 인해 경쟁이 심화되는 기술 대체 시기에서 기술 경쟁 양상을 확인하기 위해 Lotka-Volterra 모형을 이용하며, 이를 통해 차세대 기술을 도출하고자 과거 경쟁이 끝난 데이터를 기반으로 모형을 추정하고, 기술 대체 및 경쟁에 영향을 미치는 요인들을 선험적으로 도출하여 과거 경쟁기술과 현재 기술 경쟁 시 요인 값의 차이를 파악한다. 이후 요인과 계수 간 영향 관계를 바탕으로 도출된 각 요인 값의 차이를 반영하여 과거 데이터를 기반으로 추정된 모형을 보정하는데 이때 요인 별 중요도를 회귀분석을 통해 파악하여 가중치로 활용하였다. 이를 통해 보정된 모형을 경쟁 후보 기술과 기존 지배적 디자인 기술에 적용하여 1:1 비교를 함으로써 경쟁 관계를 파악한다. 본 연구는 시간에 따른 요인 값의 변화량과 중요도를 기반으로 특정 기술이 차세대 시장에서 지배적 디자인이 될 가능성을 정량적으로 제시하였으며, 이는 기술 대체 시기에 기업의 전략 수립 및 의사결정 시 실증적 증거로써 활용될 것으로 기대한다.

모수, 비모수, 베이지안 출산율 모형을 활용한 합계출산율 예측과 비교 (A comparison and prediction of total fertility rate using parametric, non-parametric, and Bayesian model)

  • 오진호
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.677-692
    • /
    • 2018
  • 최근 2017년 우리나라 합계출산율은 1.05명로 2005년 1.08명 수준으로 회귀하는 현상을 보이고 있다. 1.05명은 인구대체선(2.1명), 안전선(1.5명)과도 거리가 먼 초저출산 수준이고 마치 초저출산 덫에 빠질 우려가 있다. 이에 합계출산율의 합리적인 예측과 이를 통한 출산정책에 유용한 자료를 제공하는 것은 그 어느 때 보다도 중요하다. 그 동안 다양한 통계적 방법으로 합계출산율 추이를 예측하였는데, 데이터 완비성이 높고 품질이 좋은 경우 모형 접근인 모수적 방법, 데이터 추이가 단절되거나 변동이 심한 경우 평활과 가중치를 적용한 비모수적 방법, 데이터 부족과 품질 등으로 선진국의 출산율 3단계 전이현상을 참고하여 이들의 사전분포를 활용하는 베이지안 방법 등이 적용되어 왔다. 본 연구는 최근 변동이 심한 우리나라 출산율에 모수, 비모수, 그리고 베이지안 방법을 적용하여 추정과 예측을 실시하고 도출된 결과 비교를 통해 적합성과 타당성 측면에서 어떤 방법이 합리적인지 모색하고자 한다. 분석결과 합계출산율 예측값 순위는 통계청 합계출산율이 가장 높고, 베이지안, 모수, 비모수 순으로 나타났다. 2017년 TFR 1.05명 수준을 감안할 때 모수, 비모수모형으로 도출된 합계출산율 예측값이 합리적이다. 또한 출산율 자료완비성이 높고 품질이 우수할 경우 계산 효율성과 적합도 관점에서 모수적 추정과 예측 접근 방법이 타 방법보다 우수한 것으로 도출되었다.

불균형 데이터를 갖는 냉동 컨테이너 고장 판별 및 원인 분석을 위한 기계학습 모형 개발 (Development of machine learning model for reefer container failure determination and cause analysis with unbalanced data)

  • 이희원;박성호;이승현;이승재;이강배
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.23-30
    • /
    • 2022
  • 냉동 컨테이너의 고장은 큰 비용의 손실을 야기하지만, 현재 냉동 컨테이너의 알람 체계는 효율성이 떨어진다. 기존에 냉동 시스템의 시뮬레이션 데이터를 활용한 연구는 존재하지만, 냉동 컨테이너의 실제 운영 데이터를 활용한 연구는 부족하다. 이에 본 연구는 실제 냉동 컨테이너 운영 데이터를 활용하여 고장 원인을 분류하였다. 실제 데이터에서는 데이터 불균형이 발생하였으며 ENN-SMOTE, 클래스 가중치를 둔 Logistic 회귀분석과 본 연구에서 개발한 2-stage 알고리즘을 비교하여 데이터 불균형문제를 해결하였다. 2-stage 알고리즘은 XGboost, LGBoost, DNN을 사용하여 첫 번째 단계에서는 고장 및 정상을 분류하고, 두 번째 단계에서는 고장의 원인을 분류하는 알고리즘이다. 2-stage 알고리즘에서 LGBoost를 사용한 모델이 99.16%의 정확도로 가장 우수하였다. 본 연구는 데이터 불균형을 해결하기 위해 2-stage 알고리즘을 활용한 최종모델을 제안하며 이는 다른 산업에도 활용할 수 있을 것으로 사료된다.

독거여부와 거주지역에 따른 중년기와 노년기 남성과 여성의 악력 차이 (Differences in Grip Strength by Living Conditions and Living Area among Men and Women in Middle and Later Life)

  • 주수산나;전혜정;박하영
    • 한국노년학
    • /
    • 제38권3호
    • /
    • pp.551-567
    • /
    • 2018
  • 본 연구의 목적은 독거여부와 거주지역에 따라 중년기와 노년기 남성과 여성의 악력에 차이가 있는지를 탐색하는 데에 있다. 이를 위해 본 연구에서는 한국고령화연구패널 5차년도 자료를 활용하였다. 독립변수는 독거여부와 거주지역(도시, 비도시)이며, 종속변수는 악력이다. 통제변수로는 연령, 교육수준, 로그변환된 가구소득, 배우자 여부, BMI(Body Max Index), 주관적 건강, 우울감, 인지기능 수준, 흡연여부, 규칙적 운동여부, 친한 친구와 만나는 횟수, 참여하는 사회적 모임의 수가 모형에 포함되었다. 분석은 중년기 남성과 여성, 노년기 남성과 여성을 대상으로 각각 실시되었으며, 분산분석과 카이검증, 상관분석, 회귀분석을 통해 자료가 분석되었다. 회귀분석 이후 유의한 분석결과에 대한 구체적인 논의를 위해 독거여부와 거주지역의 상호작용항이 유의한 집단을 대상으로 분산분석과 카이검증이 추가적으로 실시되었다. 모든 분석에는 한국고령화연구패널의 5차년도 횡단 가중치가 적용되었다. 본 연구결과 노년기 여성들의 악력 평균이 악력의 이상치를 판별하는 절단점 점수와 유사한 것으로 나타나 노년기 여성들이 다른 생애주기나 노년기 남성들과 비교했을 때 악력과 관련하여 임상적 취약집단에 속하는 것으로 나타났다. 또한 중년 남성과 노년기 남성, 노년기 여성에게서는 독거여부와 거주지역에 따른 악력 차이가 통계적으로 유의미하지 않은 것으로 나타났다. 그러나 중년 여성들에게 있어서는 독거여부와 거주지역에 따른 악력 차이가 통계적으로 유의미한 것으로 나타났다. 구체적으로, 비도시 지역에 홀로 거주하는 독거 중년 여성이 다른 중년 여성들에 비해 평균적으로 가장 낮은 악력을 가진 것으로 나타났다. 추가적인 분석에 따르면 비도시 독거 중년 여성은 낮은 학력과 낮은 가구 소득 등 다른 중년 여성들에 비해 건강에 더 취약한 요인들을 많이 가지고 있는 것으로 나타났다. 이러한 본 연구결과는 노년기 여성과 비도시에 홀로 거주하는 중년기 독거 여성들에게 악력과 관련된 개입이 필요함을 시사한다. 본 연구는 국가 전체를 대표하는 대표성 있는 패널자료를 사용하여 가중치를 적용한 분석을 통해 일반화 가능성을 높였다는 점에서 중노년기 악력과 관련한 정책적 대상자를 선정하는 것과 관련한 신뢰성 있는 정보를 제공할 수 있다는 의의가 있다.

한국 전·후기 노인의 삶의 질 관련요인과 성별 차이 (Gender Difference in Quality of Life After Controlling for Related Factors among Korean Young-old and Old-old Elderly)

  • 정영해;조유향
    • 농촌의학ㆍ지역보건
    • /
    • 제39권3호
    • /
    • pp.176-186
    • /
    • 2014
  • 본 연구는 노인의 삶의 질 관련 요인을 파악하고, 관련 요인을 통제한 상태에서 남 녀 노인의 삶의 질에 차이가 있는지 국민건강영양조사 제5기 1차년도 자료를 사용하여, 65세 이상 노인 1,339명을 대상으로 하였다. 자료분석 방법은 층과 집락 가중치를 지정하여 SPSS 20.0 복합표본분석방법으로 분석하였는데, 연령과 성별에 따른 일반적 특성과 건강행위 및 건강상태의 차이는 로지스틱회귀분석을, 삶의 질 차이는 일반선형모형분석을, 삶의 질 관련 요인은 후진제거방법을 이용한 일반선형모형으로 파악하였으며, 성별의 차이 역시 일반선형모형을 이용하여 검증하였다. 일반적 특성에서는 교육수준(p<.001)과 경제수준(p=.005), 동거여부(p<.001)가 성별에 따라 차이가 있었으나, 거주지역은 차이가 없었으며, 건강행위는 흡연(p<.001), 음주(p<.001), 운동(p=.045)에서 차이를 보였고, 건강상태에서는 비만정도(p<.001), 만성질환유무(p<.001), 스트레스(p<.001), 우울(p=.005), 자살사고(p<.001), 주관적 건강상태(p<.001)이 성별에 따라 차이가 있는 것으로 나타났다. EQ-5D는 노년전기, 후기 모두 여자노인보다 남자노인의 점수가 높았으며, 운동능력, 자가간호능력, 일상생활불편감, 통증/불편감, 불안/우울 등 모든 하위영역에서는 여자노인의 삶의 질이 남자보다 낮았다. 삶의 질 관련변수는 교육수준(p=.001), 경제상태(p=.001), 만성질환유무(p=.052), 동거여부(p=.002), 주관적 건강상태(p<.001), 연령(p<.001), BMI(p=.045)로, 이 변수들은 노인 삶의 질의 31.5%를 설명하였다. 노년기에서도 성 인지적 차이를 감안한 접근방안이 필요함을 제언한다.

한국 노인 식사의 탄수화물 에너지비에 따른 만성질환 위험성 비교: 2007~2009년 국민건강영양조사 자료 이용 (Comparison of chronic disease risk by dietary carbohydrate energy ratio in Korean elderly: Using the 2007-2009 Korea National Health and Nutrition Examination Survey)

  • 박민선;서윤석;정영진
    • Journal of Nutrition and Health
    • /
    • 제47권4호
    • /
    • pp.247-257
    • /
    • 2014
  • 우리나라 대다수 노인이 고 탄수화물 식사를 하고 있고, 고 탄수화물 식사가 만성질환의 위험과 관련될 수 있다고 보고되었다. 이에 본 연구는 한국 노인에서 탄수화물 에너지비 수준에 따른 만성질환 위험성을 파악하고자 2007~2009년 제4기 국민건강영양조사 자료를 이용하여 65세 이상 노인 3,917명을 대상으로 1일 에너지 섭취량이 500~5,000 kcal에 속하면서, 고혈압, 당뇨, 고지혈증, 뇌졸중, 심근경색 또는 협심증, 빈혈로 치료받는 자를 제외한 1,535명에 대한 자료를 분석하였다. 식사의 탄수화물 에너지비가 55~70%인 적정군과 70%를 초과한 과다군의 두 군으로 대상자를 분류하여 영양섭취상태와 만성질환의 위험 비율을 비교하였다. 모든 자료는 제4기 국민건강영양조사의 가중치를 적용한 후 성, 거주지역, 소득수준, 교육수준 또는 에너지 섭취량을 보정하여 일반선형모델을 사용하여 분석하였다. 만성질환 위험도는 로지스틱 회귀모형을 적용하여 만성질환 위험요인의 판별기준치에 따라 위험군의 백분율과 교차비를 구하고 ${\alpha}$ = 0.05 수준에서 유의성을 검토하였다. 1) 전체 대상자 중 탄수화물 과다군이 81.4%로 적정군에 비해 4배 이상 많았다. 과다군에 남자보다는 여자가 많았고, 읍면에 거주하고, 소득수준과 교육수준이 낮은 사람이 많았다. 2) 체질량 지수에서는 두 군 간에 차이가 없었으나, 체중, 허리둘레, 이완기 혈압이 과다군에 비해 적정군에서 높았다. 3) 탄수화물비 과다군에서 육류 및 난류, 우유 및 유제품, 주류의 섭취 빈도가 낮았고, 반면에 서류의 섭취 빈도는 높았다. 남자에서는 탄수화물 적정군에서 육류 및 난류의 섭취빈도가 높았고, 여자에서는 육류 및 난류 외에도, 우유 및 유제품, 스낵류, 해조류의 섭취 빈도가 적정군에서 높았다. 4) 탄수화물: 단백질: 지방 에너지비는 과다군 79.87: 11.66: 8.46, 적정군 64.88: 16.18: 18.94로 두 군 간에 탄수화물비 외에도 단백질비와 지방비에 큰 차이가 있었고, 에너지 섭취량은 과다군의 1,492 kcal에 비해 적정군이 1,722 kcal로 높았다. 조섬유, 칼륨, 비타민 A, 카로틴, 비타민 C섭취량은 두군 간에 차이를 보이지 않았으나, 나머지 영양소-단백질, 지방, 칼슘, 인, 철분, 레티놀, 티아민, 리보플라빈, 나이아신, 수분-의 섭취량이 탄수화물 적정군에서 높았다. 5) 영양소적정섭취비 (NAR)와 영양밀도지수 (INQ) 역시 비타민 C를 제외한 모든 영양소에서 탄수화물 적정군이 높았다. 성별로 분석하였을 때에도 전체 대상자에서와 비슷한 경향이었으나, 특히 칼슘, 리보플라빈의 영양소적정섭취비와 영양밀도지수가 여자 탄수화물 과다군에서 매우 낮았다. 6) 탄수화물 적정군에서 과다군에 비해 여성은 복부비만의 위험이 1.719배, 남자는 이상지질혈증의 위험이 2.094배 높았다. 이를 요약하면 탄수화물 과다군에서 동물성 식품의 섭취빈도가 낮고 에너지 및 다수 영양소의 섭취량이 낮아 영양부족의 우려가 있으나 빈혈 위험도에는 차이가 없었고, 남자에서는 이상지질혈증, 여자에서는 복부비만의 위험이 탄수화물 적정군에 비해 낮게 나타나서 탄수화물 과다군에서 만성질환의 위험이 높고 빈혈 위험이 높으리라는 연구 가설과는 일치하지 않는 결과를 나타내었다. 추후 이에 대한 확인과 함께, 노인 연령층을 일반 성인층에서 분리하여 만성질환 위험을 낮추는데 도움을 줄 수 있는 노인의 적정 탄수화물 에너지비 설정을 위한 연구가 필요하다.