• 제목/요약/키워드: 베이지안 통계기법

검색결과 60건 처리시간 0.023초

Bayesian MBLRP 모형을 이용한 시간강수량 모의 기법 개발 (A Development of Hourly Rainfall Simulation Technique Based on Bayesian MBLRP Model)

  • 김장경;권현한;김동균
    • 대한토목학회논문집
    • /
    • 제34권3호
    • /
    • pp.821-831
    • /
    • 2014
  • 추계학적 강수발생 및 모의기법은 수문학적 모형의 입력 자료로써 널리 이용되고 있다. 그러나 Modified Bartlett-Lewis Rectangular Pulse(MBLRP)와 같은 추계학적 포아송 클러스터 강수생성 모형에 대해서 국부최적화 방법을 통한 매개변수 추정 방법은 매개변수의 신뢰성에 상당한 영향을 주는 것으로 알려져 있다. 최근에는 MBLRP 모형의 국부해추정 문제를 해소하기 위하여 Particle Swarm Optimization (PSO) 또는 Shuffled Complex Evolution developed at The University of Arizona (SCE-UA) 등 매개변수 추정 성능이 우수한 전역최적화기법이 도입되고 있지만, 제한된 매개변수 공간에서 항상 신뢰성 있는 매개변수 추정이 가능한 것은 아니다. 뿐만 아니라, 모형의 매개변수들이 갖고 있는 불확실성에 관한 연구는 아직 충분히 논의되지 않았다. 이러한 관점에서 본 연구는 Bayesian 기법과 연계한 MBLRP 모형을 개발하였으며 각 매개변수들의 사후분포(Posterior Distribution)를 유도하여 매개변수가 내포하는 불확실성을 정량적으로 평가하였다. 그 결과 관측값에 대한 시간단위 이하 강수발생 통계치를 효과적으로 복원하고 있음을 확인할 수 있었다.

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

패널자료에서의 항목무응답 대체 방법 비교 (Comparison of imputation methods for item nonresponses in a panel study)

  • 이혜정;송주원
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.377-390
    • /
    • 2017
  • 설문조사를 실시할 때 응답자가 설문조사의 일부 문항에 대하여 응답하지 않는 경우 항목무응답이 발생한다. 무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다. 패널조사 자료의 항목 무응답을 대체할 때 이전 시점의 응답 자료가 존재한다면 이를 포함하여 대체를 실시하는 것이 바람직한 것으로 여겨져 왔으나 이에 관한 직접적인 연구는 찾기 힘들다. 따라서 본 연구에서는 패널자료에서 이전 시점의 정보를 고려하지 않고 대체를 실시하는 방법과 이전 시점의 정보를 활용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 특히 이전 시점의 응답 정보를 이용하는 방법인 비대체, 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이를 이전 시점의 정보를 고려하지 않는 대체 방법들 중 흔히 사용되는 평균대체, 핫덱대체 방법과 비교하였다. 모의실험 결과 선형혼합모형에 근거한 베이지 안 대체 방법이 다른 대체 방법에 비해 무응답 비율이 높아지더라도 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높게 나타나서 가장 좋은 대체 방법으로 확인되었다.

유용성과 노출 위험성 지표를 이용한 재현자료 기법 비교 연구 (A comparison of synthetic data approaches using utility and disclosure risk measures)

  • 안성빈;트랑 도안;이주희;김지우;김용재;김윤지;윤창원;정성규;김동하;권성훈;김항준;안정연;박철우
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.141-166
    • /
    • 2023
  • 재현자료를 생성하여 배포하는 것은 데이터 공개에 따른 정보 유출의 위험을 방지하는 대표적인 방법이다. 최근 산업에서 데이터의 활용이 중요해진 만큼 한국을 포함한 많은 국가 및 기관에서 재현자료에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 대표적인 재현자료 생성 기법들과 평가 지표들을 소개한다. 전통적인 재현자료 생성 방법인 다중대체와 최근 제시된 인공신경망 기반의 재현자료 생성 방법 등을 활용하여 재현자료를 생성하는 과정을 기술함에 따라 재현자료 생성 방법에 대한 전반적인 이해를 돕는다. 이에 더해 다양한 재현자료 평가 지표를 바탕으로 생성된 재현자료들을 분석 및 비교함에 따라 앞으로의 연구에 대한 방향을 제시하고 그에 대한 토대를 마련하고자 한다.

공간적 연관구조를 고려한 총범죄 자료 분석 (Analysis of Total Crime Count Data Based on Spatial Association Structure)

  • 최정순;박만식;원유복;김학열;허태영
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.335-344
    • /
    • 2010
  • 공간자료분석에서 공간적 상관성을 배제한 일반적인 회귀모형을 통한 모수 추정값들은 신뢰성의 문제가 지적 되어 오고 있다. 본 연구에서는 공간자료의 상관성을 고려한 모형을 구축하기 위하여 일변량 조건부자기회귀모형을 이용하였으며 베이지안 기법을 통하여 모수를 추정하고 공간상관성이 고려된 공간 가산자료모형과 고려되지 않은 일반 가산자료모형을 비교하였다. 연구 대상으로는 서울시의 25개 행정자치구별 총범죄 자료를 이용하였으며 자료분석을 통하여 도시계획과 같은 국가 정책의 수립에 참고자료로 활용될 수 있으리라 판단된다.

컴퓨터모델의 확률적 보정 및 탄소성 압착문제의 신뢰도분석 응용 (Probabilistic Calibration of Computer Model and Application to Reliability Analysis of Elasto-Plastic Insertion Problem)

  • 유민영;최주호
    • 대한기계학회논문집A
    • /
    • 제37권9호
    • /
    • pp.1133-1140
    • /
    • 2013
  • 컴퓨터 해석모델은 물리현상을 바탕으로 단순화된 모델을 구축하고 해를 구하는 유용한 도구이나, 많은 경우 단순화 가정 또는 입력변수 정보의 미비나 불확실성으로 인해 실제와 차이가 발생한다. 본 연구에서는 이러한 문제에 대해 베이지안 확률이론을 이용하여 실측데이터를 통해 해석모델을 보정하는 방법을 소개하고 이를 파이로 작동기구의 탄소성 압착 문제에 적용한다. 파이로 작동기구는 고에너지의 재료를 원격으로 폭발시켜 작동하는 장치로 그 작동의 신속한 계산을 위해서 단순한 수학모델을 구축하고 실험데이터를 토대로 미지의 입력변수를 확률적으로 보정하였다. 이 때, 확률적 추정을 위해서는 현대적 계산통계기법의 하나인 Markov Chain Monte Carlo 기법을 이용하였으며, 최종적으로 그 결과를 압착거동해석에 활용하여 작동기구의 신뢰도를 평가하였다.

일반 순서 통계량을 이용한 소프트웨어 신뢰확률 중첩모형에 관한 베이지안 접근에 관한 연구 (A Study on Bayesian Approach of Software Stochastic Reliability Superposition Model using General Order Statistics)

  • 이병수;김희철;백수기;정관희;윤주용
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2060-2071
    • /
    • 1999
  • 소프트웨어 시스템이 복잡해지면 고장의 원인이 하나의 강도함수에 의해서만 일어나지 않고 여러 원인이 중첩되어 발생할 수 있다. 이러한 복잡한 시스템에 의한 우도함수의 계산상의 어려움 때문에 반복표본을 이용하는 깁스 샘플링 기법이 고려되었다. 관찰된 고장시점은 중첩모형으로 표현이 가능한 잠재(latent)변수들을 이용하여 깁스 알고리즘을 적용하였다. 단순모형과 중첩모형의 비교를 위해 사후베이즈 요인과 상대오차의 합을 이용하여 모형선택을 시도하였다. 수치적인 예에서 GOS 속성을 가진 Goel-Okumoto 모형과 Weibull 모형을 선택하고 NHPP의 자료는 Lewis와 Shedler[25]에 의해 제시된 Thining 알고리즘을 이용하여 발생된 자료를 이용하고 사전분포는 상대적으로 확산분포(diffuse priors)를 이용한 모수추정과 사후베이즈요인과 상대오차를 이용한 모형선택을 한 결과 단순모형들 보다 중첩모형이 좋은 형으로 간주할 수 있음을 보여 주었다.

  • PDF

혼합분포 기반 비정상성 강우 빈도해석 기법 개발 (A development of nonstationary rainfall frequency analysis model based on mixture distribution)

  • 최홍근;권현한;박문형
    • 한국수자원학회논문집
    • /
    • 제52권11호
    • /
    • pp.895-904
    • /
    • 2019
  • 극치 강우 자료는 정상성 빈도모델에서 효과적으로 구현되지 않는 비정상성 거동을 종종 보인다. 또한, 극치 사상의 확률밀도함수는 여름 장마와 태풍 등의 서로 다른 강우 패턴에 의해 2개 이상의 첨두를 가지는 혼합분포형태이다. 이러한 강우 패턴의 변화에 대해 Bayesian 이론을 활용한 비정상성 혼합분포(mixture distribution based nonstationary frequency, MDNF)모델을 제안하였다. 2개의 Gumbel 분포형이 혼합된 MDNF 모델은 Gumbel 분포형 매개변수 중 하나인 위치매개변수의 시변성을 효과적으로 설명한다. 제안한 모델의 성능평가를 위해 정상성 혼합분포모델과의 다양한 통계치 결과를 비교하였다. 정상성 혼합분포모델보다 전반적으로 향상된 성능을 보여주는 MDNF 모델을 통해 극치 강우 패턴이 비정상성을 보인다는 가정을 확인할 수 있다.

영과잉 토빗모형을 이용한 한국 소득분포 자료의 베이지안 분석 (Bayesian analysis of Korean income data using zero-inflated Tobit model)

  • 황지수;김세완;오만숙
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.917-929
    • /
    • 2017
  • 한국노동패널조사에서 제공하는 2015년 한국 생산가능인구의 월평균 소득분포를 보면 0 관측치의 비율이 과도하게 높은 형태를 보여 기존의 소득분포에 주로 사용되는 토빗모형으로는 설명에 한계가 있다. 본 연구에서는 영과잉 특성을 반영하여 영과잉 토빗모형을 사용하여 한국인의 소득 자료를 분석한다. 영과잉 토빗모형은 2단계 모형으로 1단계에서는 소득이 0인 그룹을 두 그룹으로 나누는데, 첫 번째 그룹은 노동시장 참여의지가 없어 시장에 참여하지 않으므로 0이 관측되는 그룹(genuine zero)이고 두 번째 그룹은 노동시장 참여의지는 있으나 낮은 임금으로 인하여 절단되어 0이 관측되는 그룹(random zero)으로 가정하였다. 두 번째 random zero 그룹은 0 이상의 연속 자료와 결합하여 토빗모형을 적용한다. 1단계와 2단계 모형에 관심 있는 설명변수를 가진 회귀모형을 적용하여 노동시장 참여여부와 임금 수준에 영향을 미치는 요인을 알아본다. 마코브 체인 몬테칼로 기법을 사용하여 모수를 추정하고 기존의 토빗모형과 비교한 결과 영과잉 토빗모형이 0의 빈도추정과 모형 적합도 면에서 우수한 결과를 보였다. 분석결과 나이가 많을수록, 남자가 여자보다, 학력이 낮을수록, 노동시장에 참여할 가능성이 매우 유의하게 높으며, 사회경제적 지위가 높을수록 그리고 유보임금이 낮을수록 노동시장에 참여하지 않을 확률이 높은 것으로 나타났다. 임금수준을 보면, 남자가 여자보다, 학력이 높을수록, 기혼이 미혼 보다 매우 유의하게 더 높은 임금을 받는 것으로 나타났다.

계층적 베이즈 모형을 이용한 대학등록금에 대한 부모님의 경제적 지원 영향 분석 (Effects of Financial College Tuition Support by Korean Parents using a Hierarchical Bayes Model)

  • 오만숙;오현숙;오민정
    • 응용통계연구
    • /
    • 제26권2호
    • /
    • pp.267-280
    • /
    • 2013
  • 최근 한국 사회에서 경제적, 정치적, 사회적 이슈가 되고 있는 대학 등록금의 경제적 부담에 영향을 미치는 요인들에 대한 분석을 위하여 통계청에서 실시한 '2010년도 사회조사'에서 수집된 자료를 기반으로 지역을 계층으로 하는 베이지안 계층모형을 이용한 분석을 수행하였다. 등록금의 70% 이상을 부모님이 지원하는가에 대한 이항 반응변수에 대하여 계층적 프로빗 모형을 설정한 후 설명변수들에 대한 요인분석을 실시하여 설명변수를 압축하고 마코브체인 몬테칼로 기법을 적용하여 모수를 추정하였다. 자료의 분석 결과, 많은 지역에서 소득과 정신적 스트레스 요인이 부모님의 등록금에 대한 경제적 지원과 유의한 관련이 있음을 보여주었다. 소득이 높은 부모일수록 자녀의 대학 등록금을 지원하며 부모로부터 경제적 지원을 받는 학생일수록 정신적 스트레스를 덜 받는 것으로 나타나 부모의 소득이 자녀의 정신건강에 유의한 영향을 미침을 보여 주었다. 반면에, 성별, 생활건강, 학교 만족도는 대부분의 지역에서 부모님의 등록금 지원과 유의한 관련이 없었다. 스트레스 또는 소득과 부모님의 지원에 대한 지역별 차이를 보면, 강원도 지역 학생들이 부모님의 지원이 낮을 경우 가장 정신적 스트레스를 많이 받는 것으로 나타났으며 소득이 많을수록 부모님의 지원 가능성이 높아지는 경향은 지방 행정도에 비하여 대도시에서 더 뚜렷하게 나타남을 알 수 있었다.