• 제목/요약/키워드: Bootstrap technique

검색결과 59건 처리시간 0.022초

Forcing a Closer Fit in the Lower Tails of a Distribution for Better Estimating Extremely Small Percentiles of Strengths

  • Guess, Frank-M.;Leon, Ramon-V.;Chen, Weiwei;Young, Timothy-M.
    • International Journal of Reliability and Applications
    • /
    • 제5권4호
    • /
    • pp.129-145
    • /
    • 2004
  • We use a novel, forced censoring technique that closer fits the lower tails of strenth distributions to better estimate extremly smaller percentiles for measuring progress in continuous improvement initiatives. These percentiles are of greater interest for companies, government oversight organizations, and consumers concerned with safely and preventing accidents for many products in general, but specifically for medium density fiberboard (MDF). The international industrial standard for MDF for measuring highest quality is internal bond (IB, also called tensile strengh) and its smaller percentiles are crucial, especially the first percentile and lower ones. We induce censoring at a value just above the median to weight lower observations more. Using this approach, we have better fits in the lower tails of the distribution, where these samller percentiles are impacted most. Finally, bootstrap estimates of the small percentiles are used to demonstrate improved intervals by our forced censoring approach and the fitted model. There was evidence from the study to suggest that MDF has potentially different failure modes for early failures. Overall, our approach is parsimonious and is suitable for real time manufacturing settings. The approach works for either strengths distributions or lifetime distributions.

  • PDF

비매개변수적 리샘플링 기법 기반 농업용 저수지 설계홍수량 구간 추정 기법 (Estimating the design flood interval of agricultural reservoirs using a non-parametric resampling technique)

  • 박지훈;강문성;김극수;최규현;조효섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.397-397
    • /
    • 2021
  • 본 연구의 목적은 비매개변수적 리샘플링 기법을 이용하여 농업용 저수지 유입 설계홍수량의 구간을 추정하는 기법을 제안하는 데 있다. 본 연구는 설계홍수량을 점 추정하여 안전계수(safety factor)를 적용하는 기존 방법에 대한 대안을 제시하고자 한다. 설계홍수량의 구간 추정을 수행하기 위해 부트스트랩 기법(bootstrap technique)을 사용하였다. 부트스트랩 기법을 이용하여 95% 신뢰수준에 해당하는 신뢰구간을 추정하였다. 본 연구의 공간적인 범위는 남한의 30개 농업용 저수지이며, 시간적인 범위는 과거 기간(2015s: 1986-2015)과 미래기간(2040s: 2011-2040, 2070s: 2041-2070, 2100s: 2071-2100)을 설정하였다. 본 연구에서는 200년 빈도, 24시간 지속기간을 대표적인 결과로 선정하여 분석하였다. 빈도분석은 GEV 분포를 사용하였고, L-moment 방법을 이용하여 매개변수를 추정하였다. 설계홍수량은 HEC-1 모형을 이용하여 산정하였다. 최종적으로 설계홍수량 구간 추정한 결과를 기존의 점 추정한 뒤 안전계수를 적용한 기존 방법과 비교하였다. 97.5th BCa percentile 기준으로 상대적인 변화를 비교해보면, 미래로 갈수록 구간 추정으로 산정한 설계홍수량이 점차 증가하는 것으로 도출되었다. 한강 및 금강 유역에 위치한 농업용 저수지의 설계홍수량이 낙동강 유역에 비해 상대적으로 큰 변화를 보여주었다. 몇몇 농업용 저수지에 대해서 2040s 기간에 다소 감소하기도 하였으나 2070s 기간 이후에 다시 증가하는 결과를 보여주었다. 낙동강 유역의 위치는 농업용 저수지의 설계홍수량은 미래로 갈수록 크게 증가하지 않는 경향을 보여주었다. 본 연구는 설계홍수량을 추정하는 데 있어 결정론적인 방법에서 더 나아가 자료의 통계적인 특성을 고려하여 구간 추정을 수행하는 방법론을 제공할 수 있을 것으로 사료된다.

  • PDF

하이브리드 다중 분류기시스템 (Hybrid Multiple Classifier Systems)

  • 김인철
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.133-145
    • /
    • 2004
  • 단일 분류기보다 우수한 성능을 얻기 위해 다수의 분류기들을 결합하는 방법은 폭 넓게 이용되어 오고 있는 기술이다. 하나의 다중 분류기 시스템(MCS)를 구축하는 일은 두 가지 해결해야 할 문제들을 가지고 있다. 하나는 다양한 기반-레벨의 분류기들을 어떤 방법으로 생성하느냐 하는 것이고, 다른 하나는 이들의 예측을 어떤 방법으로 결합하느냐 하는 것이다. 본 논문에서는 기존의 다중 분류기 시스템들인 bagging, boosting, 그리고 staking의 특징들을 살펴본 다음, 새로운 다중 분류기 시스템들인 stacked boosting, boosting, bagged stacking, 그리고 boosted stacking들을 제안한다. 이들은 기존의 다중 분류기 시스템들의 장점들을 결합한 일종의 하이브리드 다중 분류기 시스템들이다. 새로 제안한 다중 분류기 시스템들의 성능을 평가하기 위해, 본 논문에서는 UCI KDD 데이터 아카이브에서 제공되는 서로 다른 9가지의 실세계 데이터 집합들을 이용하여 실험들을 전개하였다. 실험 결과, 본 논문에서 제안한 하이브리드 다중 분류기 시스템들, 특히 bagged stacking과 boosted stacking이 기존의 다중 분류기 시스템들에 비해 우수한 성능을 보여 주었다.

  • PDF

재표본 방법론을 활용한 베이지안 주파수 추정 (Bayesian estimation for frequency using resampling methods)

  • 박노진
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.877-888
    • /
    • 2017
  • 시계열 자료의 주기를 파악하기 위해 스펙트럴 분석이 널리 이용되고 있다. 전력 스펙트럼이나 피리오도그램을 통해서 주파수를 추정하고 그로부터 순환 주기를 계산한다. 한편에서는 통계학의 한 축인 베이지안 기법을 활용한 주파수 추정법이 연구되어 사용되고 있다. 그런데 베이지안 주파수 추정량이 수학 공식을 통해 분석적으로 표현이 가능하지 않음으로 인해 신뢰구간 추정 같은 심도 깊은 통계학적 분석이 용이하지 않은 상화에서 컴퓨터를 이용한 수치해석적인 방법으로 신뢰구간을 추정하였다. 본 논문에서는 베이지안 주파수에 대한 보다 심도 있는 분석을 위해 모수를 재표본하는 Markov chain Monte Carlo (MCMC)을 이용한 추정과 데이터를 재표본하는 시계열 재표본을 통한 추정을 시도해 보았다. 예제로서 부동산 매매/전세 가격 지수 데이터을 사용하였고 매매와 전세 가격 지수간에 3.7개월 정도의 주기 차이가 존재하나 통계학적으로는 유의미한 차이라고 할 수 없음을 알았다.

중학생의 시민의식과 공동체의식이 행복감에 미치는 영향: 진로결정의 매개효과 (The Effects of Civic Consciousness and Sense of Community on Happiness in Adolescent: Mediating Effects of Career Desision)

  • 이명하;조옥선
    • 산업융합연구
    • /
    • 제21권5호
    • /
    • pp.97-107
    • /
    • 2023
  • 본 연구는 중학생의 시민의식, 공동체의식, 진로결정과 행복감의 영향 관계에서 진로결정의 매개효과를 검증하여 행복감을 증진시키기 위한 기초자료를 제공하는데 목적이 있다. 분석자료는 한국청소년정책연구원에서 조사한 '2020년 Z세대 10대 청소년 가치관 조사' 데이터를 이용하였다. 조사대상자 중 본 연구목적에 부합하는 중학생 2,703명을 표본으로 추출하여 SPSS WIN 25.0 프로그램을 활용하여 분석하였다. 분석방법은 빈도분석, 기술통계분석, 상관분석 및 PROCESS MACRO Model Number 4를 활용하여 매개효과를 검증하고 Bootstrapp 기법을 적용하여 간접효과와 유의성을 분석하였다. 연구결과는 첫째, 중학생의 시민의식과 공동체의식이 행복감에 정적인 영향을 보였다. 둘째, 시민의식과 행복감과의 관계에서 진로결정은 부분 매개효과가 나타났다. 셋째, 공동체의식과 행복감과의 관계에서 진로결정은 부분 매개효과가 나타났다. 즉, 중학생의 행복감 증진을 위한 정책적 대안과 실천적 프로그램을 제시하였다는 점에서 의의를 갖는다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

부트스트랩 기법을 활용한 한국 수입 상품의 원산지검증 불복사례 실증분석 (An Empirical Analysis on the Appeal Case of Origin Verification for Korean Import Goods Using Bootstrapping Technique)

  • 김종혁;허상현;김석철
    • 무역학회지
    • /
    • 제42권4호
    • /
    • pp.93-114
    • /
    • 2017
  • FTA 협정에 따른 특혜관세 적용은 FTA 역외국과 비교하여 상대적 관세인하 효과로 나타나고 이는 회원국 간 수출입 규모의 증가로 이어진다. FTA 관세 제도의 안정적인 활용을 위해서는 무엇보다 관세 당국의 교역 대상 상품에 대한 명확한 원산지 적용 및 적격 여부 판단이 전제되어야 한다. 본 연구는 관세청, 조세심판원 등 관세 당국의 조세행정 집행과정 중에 확인되는 결정문을 바탕으로 원산지검증 제도에 따른 불복청구 절차를 분석하였고, 이를 통해 과세전적부심사청구 불채택 건에 대한 재심청구 비율이 아시아 국가와 서구 사회에서 어떻게 다르게 나타나며, 쟁점 사항이나 검증당사자에 따라 재심청구 빈도나 기각률이 또한 어떻게 다른지에 대한 실증 분석을 실시하였다. 더불어, FTA 국가 간 원산지검증 불복 사례의 희소성 문제를 극복하기 위해 부트스트랩 기법을 활용하여 정량적 분석을 실시하였다. 본 논문의 시사점을 요약하면, 첫째, 서구와의 국제거래가 더 높은 재심청구율을 보인다는 가설을 검정하였고, 둘째, 원산지기준 충족 여부, 직접운송 여부, 인증수출자 여부, 품목분류 적정 여부가 핵심 쟁점 요인으로써 재심사 요구와 유의한 인과관계가 있음을 보였다. 셋째, 재심사 요구와 검증 그룹 간 유의성은 관계가 없음을 밝혔으며, 마지막으로, 품목분류오류는 기각률에 상당히 유의한 영향을 미쳐 관련 사건의 경우, 재심 청구에도 불구하고 기각이 될 확률이 상당히 높다는 실무적 함의를 도출하였다.

  • PDF

영상 데이터 특징 커버리지 기반 딥러닝 모델 검증 기법 (Deep Learning Model Validation Method Based on Image Data Feature Coverage)

  • 임창남;박예슬;이정원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권9호
    • /
    • pp.375-384
    • /
    • 2021
  • 딥러닝 기법은 영상 처리 분야에서 높은 성능을 입증 받아 다양한 분야에서 적용되고 있다. 이러한 딥러닝 모델의 검증에 가장 널리 사용되는 방법으로는 홀드아웃 검증 방법, k-겹 교차 검증 방법, 부트스트랩 방법 등이 있다. 이러한 기존의 기법들은 데이터 셋을 분할하는 과정에서 클래스 간의 비율에 대한 균형을 고려하지만, 같은 클래스 내에서도 존재하는 다양한 특징들의 비율은 고려하지 않고 있다. 이러한 특징들을 고려하지 않을 경우, 일부 특징에 편향된 검증 결과를 얻게 될 수 있다. 따라서 본 논문에서는 기존 검증 방법들을 개선하여 영상 분류를 위한 데이터 특징 커버리지 기반의 딥러닝 모델 검증 기법을 제안한다. 제안하는 기법은 딥러닝 모델의 학습과 검증을 위한 훈련 데이터 셋과 평가 데이터 셋이 전체 데이터 셋의 특징을 얼마나 반영하고 있는지 수치로 측정할 수 있는 데이터 특징 커버리지를 제안한다. 이러한 방식은 전체 데이터 셋의 특징을 모두 포함하도록 커버리지를 보장하여 데이터 셋을 분할할 수 있고, 모델의 평가 결과를 생성한 특징 군집 단위로 분석할 수 있다. 검증결과, 훈련 데이터 셋의 데이터 특징 커버리지가 낮아질 경우, 모델이 특정 특징에 편향되게 학습하여 모델의 성능이 낮아지며, Fashion-MNIST의 경우 정확도가 8.9%까지 차이나는 것을 확인하였다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.