• 제목/요약/키워드: 베이지안 회귀모형

검색결과 73건 처리시간 0.023초

다중 Logistic 회귀분석을 통한 침수지역의 확률적 도출 (The probabilistic estimation of inundation region using a multiple logistic regression analysis)

  • 정민규;김진국;오랑치맥 솜야;권현한
    • 한국수자원학회논문집
    • /
    • 제53권2호
    • /
    • pp.121-129
    • /
    • 2020
  • 도시화로 인한 불투수층 증가와 하천 주변 개발은 홍수 시 위험에 노출되는 재해요인의 증가뿐 아니라 피해의 파급을 발생시켜 홍수 관리 측면에서 어려움을 낳는다. 홍수 방재대책을 위해서는 도시지역에 분포하는 다양한 지표면 공간특성을 반영하여 침수가 예상되는 지역에 대한 파악이 우선시되어야 한다. 본 연구에서는 도시하천의 홍수 위험지역을 대상으로 확률적 홍수위험 평가가 수행되었다. 홍수와 관련된 지형적 영향요인인 고도, 경사, 유출곡선지수, 하천까지 거리를 예측변수로 하여 하천 주변 침수 예상지역을 설명하기 위해 모형의 학습데이터로 100년 빈도 홍수위험 지도가 사용되었다. 연구 대상 지역은 격자로 변환하여 Bayesian Logistic 회귀분석을 수행하여 각 격자별로 홍수영향요인이 침수 여부를 설명하는 모형을 구축하였다. 최종적으로 모형을 통해 대상 지역 전체에 대하여 침수위험도를 확률적으로 제시하였다.

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

소지역모형 추정기법을 활용한 전·월세 추정 (A case study of small area estimation about charter and monthly rent price index)

  • 이승수;박원란;정성석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.327-337
    • /
    • 2017
  • 조사를 통한 자료생성은 시간과 경제적인 제약이 많고, 조사 방법 및 특성에 따라 자료의 질이 결정되며, 수집된 조사정보를 통계정보로 활용하기까지 오랜 시간이 소요된다. 이와 같은 어려움을 줄이고자 조사 표본설계 단위 보다 작은 지역 또는 다른 영역에 대한 자료를 기존에 조사된 자료 및 행정자료를 이용하여 추정하는 소지역추정 통계방법 활용 연구는 꾸준히 진행되고 있다. 따라서 본 논문에서는 소지역추정기법을 이용하여 인간이 기본적인 삶을 영위하는데 반드시 필요한 필수재이며, 동시에 우리나라에서 투자재로서의 특징을 나타내는 주택과 관련하여, 요즈음 새로운 주거형태를 차지하는 전세와 월세 지수에 모형기반 소지역추정기법을 적용하고자 한다. 적용된 소지역추정 모형은 회귀모형 추정법, 계층적 베이지안 추정법, 시-공간적 추정법이며, 분석결과 전세와 월세에서 시-공간적 추정모형이 가장 효율적인 것으로 나타났다.

선형 캘리브레이션에서 베이지안 실험계획과 기존의 최적실험계획과의 효과비교 (Performance of a Bayesian Design Compared to Some Optimal Designs for Linear Calibration)

  • 김성철
    • 응용통계연구
    • /
    • 제10권1호
    • /
    • pp.69-84
    • /
    • 1997
  • 선형 캘리브레이션 실험계획 문제에 대하여, 베이지안 의사결정론을 이용하여 평균제곱오차손실을 최소화한 Kim(1988, 1993)의 실험계획과 관련 문헌의 결과인 몇 가지 최적계획을 비교한다. 비교대상 실험계획으로서 고전적 추정량의 점근분산을 최소화하는 Buonaccorsi(1986)의 최적계획, 회귀분석 모형에서 $ M(x) = \sum x_i x_i '$의 함수를 최대화 또는 최소화하는 D-optimal 또는 A-optimal 계획, Hunter and Lamboy(1981)가 베이지안 추정량의 특성을 설명하기 위하여 그 논문에서 예로 들었던 실험계획을 고려한다. 서로 다른 기준에 의한 최적계획을 비교하기 위해서 우선 기대사후분산을 계산하여 비교하고 몇가지 사전분포에 대하여 몬테칼로 시뮬레이션을 통한 평균분산과 HPD 구간의 크기를 비교한다.

  • PDF

공간 다수준 분석을 이용한 부산지역 암발생 및 암사망 추정 (Cancer incidence and mortality estimations in Busan by using spatial multi-level model)

  • 고영규;한준희;윤태호;김창훈;노맹석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1169-1182
    • /
    • 2016
  • 한국인의 전형적인 사망 원인인 암은 보건 분야에서 중요한 문제이다. 통계청이 제시한 Cause of death statistics (2014)에 따르면, 7대 광역시 중 부산의 표준화 사망률 (standardized mortality rate; SMR)이 가장 높게 나타났다. 이 논문에서는 부산지역암센터의 암등록자료를 이용하여 암발생률과 암사망률의 정도를 추정하고자 한다. 2003~2009년 자료를 대상으로 구/동과 같은 소지역 단위를 고려하였으며, 전체 암과 4대 주요암 (위암, 대장암, 폐암, 간암)에 대해 분석하였다. 공간 상관성을 고려한 공간 다수준 모형을 통해 모형 선택과 모수 추정을 수행하였다. 공간 효과에 대해서는 조건부 자기회귀 (conditional autoregressive; CAR)를 가정하였으며 WinBUGS를 이용하였다. 분석의 결과로 각 지역에서의 공간 효과를 어떻게 분석하고 해석하는지 제시하였다.

영과잉 토빗모형을 이용한 한국 소득분포 자료의 베이지안 분석 (Bayesian analysis of Korean income data using zero-inflated Tobit model)

  • 황지수;김세완;오만숙
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.917-929
    • /
    • 2017
  • 한국노동패널조사에서 제공하는 2015년 한국 생산가능인구의 월평균 소득분포를 보면 0 관측치의 비율이 과도하게 높은 형태를 보여 기존의 소득분포에 주로 사용되는 토빗모형으로는 설명에 한계가 있다. 본 연구에서는 영과잉 특성을 반영하여 영과잉 토빗모형을 사용하여 한국인의 소득 자료를 분석한다. 영과잉 토빗모형은 2단계 모형으로 1단계에서는 소득이 0인 그룹을 두 그룹으로 나누는데, 첫 번째 그룹은 노동시장 참여의지가 없어 시장에 참여하지 않으므로 0이 관측되는 그룹(genuine zero)이고 두 번째 그룹은 노동시장 참여의지는 있으나 낮은 임금으로 인하여 절단되어 0이 관측되는 그룹(random zero)으로 가정하였다. 두 번째 random zero 그룹은 0 이상의 연속 자료와 결합하여 토빗모형을 적용한다. 1단계와 2단계 모형에 관심 있는 설명변수를 가진 회귀모형을 적용하여 노동시장 참여여부와 임금 수준에 영향을 미치는 요인을 알아본다. 마코브 체인 몬테칼로 기법을 사용하여 모수를 추정하고 기존의 토빗모형과 비교한 결과 영과잉 토빗모형이 0의 빈도추정과 모형 적합도 면에서 우수한 결과를 보였다. 분석결과 나이가 많을수록, 남자가 여자보다, 학력이 낮을수록, 노동시장에 참여할 가능성이 매우 유의하게 높으며, 사회경제적 지위가 높을수록 그리고 유보임금이 낮을수록 노동시장에 참여하지 않을 확률이 높은 것으로 나타났다. 임금수준을 보면, 남자가 여자보다, 학력이 높을수록, 기혼이 미혼 보다 매우 유의하게 더 높은 임금을 받는 것으로 나타났다.

우리나라 소비자물가상승률 예측 (Forecasting Korean CPI Inflation)

  • 강규호;김정성;신세림
    • 경제분석
    • /
    • 제27권4호
    • /
    • pp.1-42
    • /
    • 2021
  • 우리나라 소비자물가상승률에 대한 예측은 한국은행의 물가안정목표제 운용, 채권시장 참가자의 만기 포트폴리오 최적화, 부동산 시장 및 민간의 소비와 투자 등 경제 전반에 지대한 영향을 미친다. 본 연구는 향후 3년간 우리나라 소비자물가상승률 예측결과를 제시한다. 이를 위해 우선 자기회귀시차(Autoregressive Distributed Lag, ADL) 모형, AR 모형, 소규모 벡터자기회귀(VAR) 모형, 대규모 VAR 모형의 표본외 예측력을 기준으로 모형선택을 실시한다. 물가상승률에는 다수의 잠재적인 예측변수가 존재하기 때문에 12개의 거시변수를 대상으로 ADL 모형에 베이지안 변수선택기법을 도입하고, 예측력 향상을 위한 정밀한 튜닝과정을 고안하고 적용하였다. VAR 모형에는 미네소타 사전분포를 설정하여 차원의 저주 문제를 극복하고자 하였다. 최근 5년을 대상으로 한 장단기 표본외 예측결과, ADL 모형이 점예측과 분포예측 모두에서 여타 경쟁모형에 비해 전반적으로 우월하였다. 예측조합을 통한 예측결과, 우리나라 소비자물가상승률이 2022년 하반기까지는 현재 비슷한 2% 내외의 수준을 유지할 것으로 보이며, 2023년 상반기부터는 1% 내외로 하락할 것으로 전망된다. 80% 신용구간은 예측치의 대략 ±1%p이다.

연관분석을 위한 베이지안 모형 선택: 상호상관성 변수를 중심으로 (Bayesian Model Selection for Linkage Analyses: Considering Collinear Predictors)

  • 서영주
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.533-541
    • /
    • 2005
  • 본 저자는 앞선 연구에서 제안한 SSVS 방법을 이용하여 한 양적형질에 대한 연관분석에 있어, QTL에 가까이 있는 관련된 표지유전자들의 위치를 정하고자 한다. 본 논문에서는 QTL에 연관되어 있고 동시에 서로 연관되어 있는 몇 가지 표지유전자들을 대상으로 하는데, 이 유전자 좌위들의 i.b.d. 값들을 상호 상관이 있는 예측변수로서 고려하여, SSVS 방법으로 분석한다. 두개의 QTL에 강하게 연관되어 있는 표지유전자들 만을 동시에 고려한 분석의 결과, QTL에 가장 가까이 위치한 표지 유전자가 다른 유전자들보다 더 분명하게 양적형질과의 관련성을 보여주었다. SSVS를 이용한 상호 상관이 있는 표지 유전자들의 분석의 결과는 전통적인 다중회귀분석을 이용한 결과와 거의 일치했다. 본 모의실험을 바탕으로, 복합 양적형질에 대하여 서로 연관된 다중의 표지유전자들을 동시에 연관분석을 수행하는 데에 SSVS 방법이 상당히 유용하다고 결론 내린다.

베이지안 다중 비교차 분위회귀 분석 기법을 이용한 비정상성 빈도해석 모형 개발 (A Development of Nonstationary Frequency Analysis Model using a Bayesian Multiple Non-crossing Quantile Regression Approach)

  • 오랑치맥 솜야;김용탁;권영준;권현한
    • 한국연안방재학회지
    • /
    • 제4권3호
    • /
    • pp.119-131
    • /
    • 2017
  • Global warming under the influence of climate change and its direct impact on glacial and sea level are known issue. However, there is a lack of research on an indirect impact of climate change such as coastal structure design which is mainly based on a frequency analysis of water level under the stationary assumption, meaning that maximum sea level will not vary significantly over time. In general, stationary assumption does not hold and may not be valid under a changing climate. Therefore, this study aims to develop a novel approach to explore possible distributional changes in annual maximum sea levels (AMSLs) and provide the estimate of design water level for coastal structures using a multiple non-crossing quantile regression based nonstationary frequency analysis within a Bayesian framework. In this study, 20 tide gauge stations, where more than 30 years of hourly records are available, are considered. First, the possible distributional changes in the AMSLs are explored, focusing on the change in the scale and location parameter of the probability distributions. The most of the AMSLs are found to be upward-convergent/divergent pattern in the distribution, and the significance test on distributional changes is then performed. In this study, we confirm that a stationary assumption under the current climate characteristic may lead to underestimation of the design sea level, which results in increase in the failure risk in coastal structures. A detailed discussion on the role of the distribution changes for design water level is provided.

유용성과 노출 위험성 지표를 이용한 재현자료 기법 비교 연구 (A comparison of synthetic data approaches using utility and disclosure risk measures)

  • 안성빈;트랑 도안;이주희;김지우;김용재;김윤지;윤창원;정성규;김동하;권성훈;김항준;안정연;박철우
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.141-166
    • /
    • 2023
  • 재현자료를 생성하여 배포하는 것은 데이터 공개에 따른 정보 유출의 위험을 방지하는 대표적인 방법이다. 최근 산업에서 데이터의 활용이 중요해진 만큼 한국을 포함한 많은 국가 및 기관에서 재현자료에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 대표적인 재현자료 생성 기법들과 평가 지표들을 소개한다. 전통적인 재현자료 생성 방법인 다중대체와 최근 제시된 인공신경망 기반의 재현자료 생성 방법 등을 활용하여 재현자료를 생성하는 과정을 기술함에 따라 재현자료 생성 방법에 대한 전반적인 이해를 돕는다. 이에 더해 다양한 재현자료 평가 지표를 바탕으로 생성된 재현자료들을 분석 및 비교함에 따라 앞으로의 연구에 대한 방향을 제시하고 그에 대한 토대를 마련하고자 한다.