• 제목/요약/키워드: Bayesian model

검색결과 1,312건 처리시간 0.024초

베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀 (Model selection via Bayesian information criterion for divide-and-conquer penalized quantile regression)

  • 강종경;한석원;방성완
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.217-227
    • /
    • 2022
  • 분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.

한국의 에너지 소비와 경제성장의 탈동조화에 대한 분석 (An Analysis on the Decoupling between Energy Consumption and Economic Growth in South Korea)

  • 강현수
    • 아태비즈니스연구
    • /
    • 제14권4호
    • /
    • pp.305-318
    • /
    • 2023
  • Purpose - This study analyzed the decoupling phenomenon between energy consumption and economic growth in Korea from 1990 to 2021. The main purpose of this study is to suggest policy implications for achieving a low-carbon society and decoupling that Korea must move forward in the face of the climate change crisis. Design/methodology/approach - This study investigated the relationship between energy consumption and economic growth by energy source and sector using the energy-EKC (EEKC) hypothesis which included the energy consumption on the traditional Environmental Kuznets Curve (EKC), and the impulse response function (IRF) model based on Bayesian vector auto-regression (BVAR). Findings - During the analysis period, the trend of decoupling of energy consumption and economic growth in Korea is confirmed starting from 1996. However, the decoupling tendency appeared differently depending on the differences in energy consumption by sources and fields. The results of the IRF model using data on energy consumption by source showed that the impact of GDP and renewable energy consumption resulted in an increase in energy consumption of bio and waste, but a decrease in energy consumption by sources, and the impact of trade dependence was found to increase the consumption of petroleum products. Research implications or Originality - According to the main results, efficient distribution by existing energy source is required through expansion of development of not only renewable energy but also alternative energy. Additionally, in order to increase the effectiveness of existing energy policies to achieve carbon neutrality, more detailed strategies by source and sector of energy consumption are needed.

베이지안 확률 및 폐쇄 순차패턴 마이닝 방식을 이용한 설명가능한 로그 이상탐지 시스템 (An Interpretable Log Anomaly System Using Bayesian Probability and Closed Sequence Pattern Mining)

  • 윤지영;신건윤;김동욱;김상수;한명묵
    • 인터넷정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.77-87
    • /
    • 2021
  • 인터넷과 개인용 컴퓨터가 발달하면서 다양하고 복잡한 공격들이 등장하기 시작했다. 공격들이 복잡해짐에 따라 기존에 사용하던 시그니처 기반의 탐지 방식으로 탐지가 어려워졌으며 이를 해결하기 위해 행위기반의 탐지를 위한 로그 이상탐지에 대한 연구가 주목 받기 시작했다. 최근 로그 이상탐지에 대한 연구는 딥러닝을 활용해 순서를 학습하는 방식으로 이루어지고 있으며 좋은 성능을 보여준다. 하지만 좋은 성능에도 불구하고 판단에 대한 근거를 제공하지 못한다는 한계점을 지닌다. 판단에 대한 근거 및 설명을 제공하지 못할 경우, 데이터가 오염되거나 모델 자체에 결함이 발생해도 이를 발견하기 어렵다는 문제점을 지닌다. 결론적으로 사용자의 신뢰성을 잃게 된다. 이를 해결하기 위해 본 연구에서는 설명가능한 로그 이상탐지 시스템을 제안한다. 본 연구는 가장 먼저 로그 파싱을 진행해 로그 전처리를 수행한다. 이후 전처리된 로그들을 이용해 베이지안 확률 기반 순차 규칙추출을 진행한다. 결과적으로 "If 조건 then 결과, 사후확률(θ)" 형식의 규칙집합을 추출하며 이와 매칭될 경우 정상, 매칭되지 않을 경우, 이상행위로 판단하게 된다. 실험으로는 HDFS 로그 데이터셋을 활용했으며, 그 결과 F1score 92.7%의 성능을 나타내었다.

실측유량 자료를 활용한 홍수량 빈도해석 기법 평가 (Evaluation of flood frequency analysis technique using measured actual discharge data)

  • 김태정;김장경;송재현;김진국;권현한
    • 한국수자원학회논문집
    • /
    • 제55권5호
    • /
    • pp.333-343
    • /
    • 2022
  • 수자원의 계획 및 설계에 활용되는 홍수량 산정 방법은 홍수량 빈도해석 방법과 강우-유출모형에 의한 방법이 사용된다. 홍수량 빈도해석 방법은 홍수량 자료를 직접 빈도해석 하여 확률홍수량을 산정하며 이론적으로 가장 정확한 방법으로 평가된다. 기존의 홍수량 해석은 자료의 제약으로 인하여 실측유량의 직접 빈도해석은 한계가 있었으나 과거부터 국가적으로 수문조사를 수행하여 10년 이상의 실측유량 자료를 확보할 수 있는 수준에 도달하였다. 본 연구는 수위-유량 관계곡선식을 통하여 안정적으로 확보된 실측유량 자료를 활용하여 홍수량 빈도해석을 수행하였다. 홍수량 빈도해석을 위하여 Bayesian 기법을 적용하여 매개변수를 산정하고 빈도별 홍수량의 불확실성을 정량화하였다. 확률홍수량 산정 결과는 장기간의 강우량 자료를 적용하여 강우-유출모형으로 산정된 홍수량과 근접한 것을 확인하였다. 수문조사를 통하여 장기간의 실측유량 자료를 활용하여 다각적인 관점으로 수문해석이 가능할 것으로 판단된다.

한·중·일 해역의 살오징어(Todarodes pacificus) 자원평가 연구 (A Study on Stock Assessment of Japanese Flying Squid (Todarodes pacificus) in Korea·China·Japan Waters)

  • 임성수;김도훈;홍재범
    • 자원ㆍ환경경제연구
    • /
    • 제31권4호
    • /
    • pp.451-480
    • /
    • 2022
  • 본 연구는 한국에서 상업적 중요성을 가지며 국민 선호도가 높은 살오징어의 자원상태를 파악해 보고자 하였다. 본 연구에서는 기존 살오징어 자원평가 연구와의 차별성으로 두 가지를 고려하였다. 첫째, 한국에서 살오징어를 어획하는 업종들의 어획 자료를 자원평가 분석에 최대한 활용하였다. 둘째, 살오징어를 공동 어획하는 인접국인 중국과 일본의 어획 자료를 모두 포함하여 자원평가를 실시하였다. 구체적인 분석에 있어서는 어획량 기반 자원평가 모델인 Monte Carlo 방법을 활용한 CMSY(catch-maximum sustainable yield) 모델과 Schaefer 함수를 기반으로 한 Bayesian state-space(BSS) 모델을 이용하여 활용 가능한 자료의 종류와 범위에 따라 '한국' 그리고 '한·중·일'로 해역 범위를 구분하여 분석을 실시하였다. 분석 결과, 살오징어 자원량은 감소하는 추세를 보이고 있으며, 현재 최대지속어획량을 달성할 수 있는 자원량 수준보다 낮은 것으로 추정되었다. 살오징어 자원을 지속적으로 이용하기 위해서는 개별 국가들의 적극적인 자원관리 노력이 필요하며, 특히 한·중·일 공동 자원조사 및 평가 그리고 관리 방안 마련이 필요하다.

도로자산관리를 위한 포장종합평가지수의 속성과 변화과정의 모델링 (Internal Property and Stochastic Deterioration Modeling of Total Pavement Condition Index for Transportation Asset Management)

  • 한대석;도명식;김부일
    • 한국도로학회논문집
    • /
    • 제19권5호
    • /
    • pp.1-11
    • /
    • 2017
  • PURPOSES : This study is aimed at development of a stochastic pavement deterioration forecasting model using National Highway Pavement Condition Index (NHPCI) to support infrastructure asset management. Using this model, the deterioration process regarding life expectancy, deterioration speed change, and reliability were estimated. METHODS : Eight years of Long-Term Pavement Performance (LTPP) data fused with traffic loads (Equivalent Single Axle Loads; ESAL) and structural capacity (Structural Number of Pavement; SNP) were used for the deterioration modeling. As an ideal stochastic model for asset management, Bayesian Markov multi-state exponential hazard model was introduced. RESULTS:The interval of NHPCI was empirically distributed from 8 to 2, and the estimation functions of individual condition indices (crack, rutting, and IRI) in conjunction with the NHPCI index were suggested. The derived deterioration curve shows that life expectancies for the preventive maintenance level was 8.34 years. The general life expectancy was 12.77 years and located in the statistical interval of 11.10-15.58 years at a 95.5% reliability level. CONCLUSIONS : This study originates and contributes to suggesting a simple way to develop a pavement deterioration model using the total condition index that considers road user satisfaction. A definition for level of service system and the corresponding life expectancies are useful for building long-term maintenance plan, especially in Life Cycle Cost Analysis (LCCA) work.

Model selection algorithm in Gaussian process regression for computer experiments

  • Lee, Youngsaeng;Park, Jeong-Soo
    • Communications for Statistical Applications and Methods
    • /
    • 제24권4호
    • /
    • pp.383-396
    • /
    • 2017
  • The model in our approach assumes that computer responses are a realization of a Gaussian processes superimposed on a regression model called a Gaussian process regression model (GPRM). Selecting a subset of variables or building a good reduced model in classical regression is an important process to identify variables influential to responses and for further analysis such as prediction or classification. One reason to select some variables in the prediction aspect is to prevent the over-fitting or under-fitting to data. The same reasoning and approach can be applicable to GPRM. However, only a few works on the variable selection in GPRM were done. In this paper, we propose a new algorithm to build a good prediction model among some GPRMs. It is a post-work of the algorithm that includes the Welch method suggested by previous researchers. The proposed algorithms select some non-zero regression coefficients (${\beta}^{\prime}s$) using forward and backward methods along with the Lasso guided approach. During this process, the fixed were covariance parameters (${\theta}^{\prime}s$) that were pre-selected by the Welch algorithm. We illustrated the superiority of our proposed models over the Welch method and non-selection models using four test functions and one real data example. Future extensions are also discussed.

비정상 자기회귀모형에서의 벌점화 추정 기법에 대한 연구 (Model selection for unstable AR process via the adaptive LASSO)

  • 나옥경
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.909-922
    • /
    • 2019
  • 벌점화 추정 기법 중 adaptive LASSO 방법은 모형 선택과 모수 추정을 동시에 할 수 있는 유명한 방법으로 이미 정상 자기회귀모형에서 연구된 적이 있다. 본 논문에서는 이를 확장하여 확률보행과정과 같은 비정상 자기회귀모형에서 adaptive LASSO 추정량이 갖는 성질을 모의실험을 통해 연구하였다. 다만 비정상 자기회귀모형에서는 단위근의 존재 여부를 판단하는 것과 모형의 차수를 선택하는 것이 가장 중요하므로, 이를 위해 원 자기회귀모형이 아닌 ADF 검정에서 고려하는 회귀모형으로 변환하여 adaptive LASSO를 적용하였다. 일반적으로 Adaptive LASSO를 적용할 때 조절모수의 선택이 가장 중요한 문제이며, 본 논문에서는 교차검증, AIC, BIC 세 가지 방법을 이용하여 조절모수를 선택하였다. 모의실험 결과를 보면, 이 중에서 BIC가 최소가 되도록 선택한 조절모수에 대응되는 adaptive LASSO 추정량이 단위근의 존재 여부를 잘 판단할 뿐만 아니라 자기회귀모형의 차수 또한 비교적 정확하게 선택함을 확인할 수 있다.

Development and Comparison of Data Mining-based Prediction Models of Building Fire Probability

  • 홍성관;정승렬
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.101-112
    • /
    • 2018
  • A lot of manpower and budgets are being used to prevent fires, and only a small portion of the data generated during this process is used for disaster prevention activities. This study develops a prediction model of fire occurrence probability based on data mining in order to more actively use these data for disaster prevention activities. For this purpose, variables for predicting fire occurrence probability of various buildings were selected and data of construction administrative system, national fire information system, and Korea Fire Insurance Association were collected and integrated data set was constructed. After appropriate data cleansing and preprocessing, various data mining methodologies such as artificial neural network, decision trees, SVM, and Naive Bayesian were used to develop a prediction model of the fire occurrence probability of buildings. The most accurate model among the derived models is Linear SVM model which shows 68.42% as experimental data and 63.54% as verification data and it is the best model to predict fire occurrence probability of buildings. As this study develops the prediction model which uses only the set values of the specific ranges, future studies may explore more opportunites to use various setting values not shown in this study.

Bayes의 복합 의사결정모델을 이용한 다중에코 자기공명영상의 context-dependent 분류 (Context-Dependent Classification of Multi-Echo MRI Using Bayes Compound Decision Model)

  • 전준철;권수일
    • Investigative Magnetic Resonance Imaging
    • /
    • 제3권2호
    • /
    • pp.179-187
    • /
    • 1999
  • 목적 : 본 논문은 Bayes의 복합 의사결정모델을 이용한 효과적인 다중에코 자기공명영상의 분류방법을 소개한다. 동질성을 갖는 영역 혹은 경계선부위 등 영역을 명확히 분할하기 위하여 영상 내 국소 부위 이웃시스댐상의 주변정보(contextual information)를 이용한 분류 방법을 제시한다. 대상 및 방법 : 통계학적으로이질적 성분들로 구성된 영상을 대상으로 한 주변정보를 이용한 분류결과는 영상내의 국소적으로 정적인 영역들을이웃화소시스탬 내에서 정의되는 상호작용 인자의 메커니즘에 의해 분리함으로서 개선시킬 수 있다. 영상의 분류과정에서 분류결과의 정확도를 향상시키기 위하여 분류대상화소의 주변화소에 대한 분류패턴을 이용한다면 일반적으로 발생하는 분류의 모호성을 제거한다. 그러한 이유는 특정 화소와 인접한 주변의 데이터는 본질적으로 특정 화소와 상관관계를 내재하고 있으며, 만일 주변데이터의 특성을 파악할수 있다면, 대상화소의 성질을 결정하는데 도움을 얻을 수 있다. 본 논문에서는 분류 대상화소의 주변정보와 Bayes의 복합 의사결정모델을 이용한 context-dependent 분류 방법을 제시한다. 이 모델에서 주변 정보는 국소 부위 이웃시스댐으로부터 전이확률(tran­s sition probability)을 추출하여 화소간의 상관관계의 강도를 결정하는 상호인자 값으로 사용한다. 결과 : 본논문에서는 다중에코자기공명영상의 분류를 위하여 Bayes의 복합 의사결정모델을 이용한 분류방법을 제안하였다. 주변 데이터를 고려하지 않는 context-free 분류 방법에 비하여 특히 동질성을 강는 영역 혹은 경계선 부위 등에서의 분류결과가 우수하게 나타났으며, 이는 주변정보를이용한 결과이다. 결론 : 본 논문에서는클러스터링 분석과 복합 의사결정 Bayes 모델을 이용하여 다중에코 자기공명영상의 분류 결과를 향상시키기 위한 새로운 방법을 소개하였다.

  • PDF