• 제목/요약/키워드: Bootstrap방법

검색결과 171건 처리시간 0.025초

FT NIR 분광법 및 이진분류 머신러닝 방법을 이용한 소나무 종자 발아 예측 (Prediction of Germination of Korean Red Pine (Pinus densiflora) Seed using FT NIR Spectroscopy and Binary Classification Machine Learning Methods)

  • 김용율;구자정;구다은;한심희;강규석
    • 한국산림과학회지
    • /
    • 제112권2호
    • /
    • pp.145-156
    • /
    • 2023
  • 본 연구에서는 -18℃ 및 4℃에서 18년간 저장된 소나무 종자 963개에 대해 FT NIR 스펙트럼을 조사하여 7개 머신러닝 방법(XGBoost, Boosted Tree, Bootstrap Forest, Neural Networks, Decision Tree, Support Vector Machine, PLS-DA)을 이용한 종자발아 예측모델을 만들고, 그 성능을 비교하였다. XGBoost 및 Boosted Tree 모델의 예측성능이 가장 우수하였으며, 정확도, 오분류율 및 AUC 값은 각각 0.9722, 0.0278, 0.9735과 0.9653, 0.0347, 0.9647이었다. 2개 모델에서 종자발아 유무를 예측하는 데 있어 상대적 중요도가 높았던 54개 파수 변수들에 대한 파장대는 크게 6개(811~1,088 nm, 1,137~1,273 nm, 1,336~1,453 nm, 1,666~1,671 nm, 1,879~2,045 nm, 2,058~2,409 nm) 그룹으로 나눌 수 있었으며, 방향족 아미노산, 셀룰로스, 리그닌, 전분, 지방산 및 수분과 관련된 것으로 추정되었다. 이상의 결과를 종합할 때, 본 연구에서 얻어진 FT NIR 스펙트럼 데이터과 2개의 머신러닝 모델은 소나무 저장종자의 발아 유무를 정확도 96% 이상으로 예측할 수 있기에 장기저장 종자 유전자원의 비파괴적 활력검정에 유용하게 활용될 수 있을 것으로 생각된다.

비매개변수적 리샘플링 기법 기반 농업용 저수지 설계홍수량 구간 추정 기법 (Estimating the design flood interval of agricultural reservoirs using a non-parametric resampling technique)

  • 박지훈;강문성;김극수;최규현;조효섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.397-397
    • /
    • 2021
  • 본 연구의 목적은 비매개변수적 리샘플링 기법을 이용하여 농업용 저수지 유입 설계홍수량의 구간을 추정하는 기법을 제안하는 데 있다. 본 연구는 설계홍수량을 점 추정하여 안전계수(safety factor)를 적용하는 기존 방법에 대한 대안을 제시하고자 한다. 설계홍수량의 구간 추정을 수행하기 위해 부트스트랩 기법(bootstrap technique)을 사용하였다. 부트스트랩 기법을 이용하여 95% 신뢰수준에 해당하는 신뢰구간을 추정하였다. 본 연구의 공간적인 범위는 남한의 30개 농업용 저수지이며, 시간적인 범위는 과거 기간(2015s: 1986-2015)과 미래기간(2040s: 2011-2040, 2070s: 2041-2070, 2100s: 2071-2100)을 설정하였다. 본 연구에서는 200년 빈도, 24시간 지속기간을 대표적인 결과로 선정하여 분석하였다. 빈도분석은 GEV 분포를 사용하였고, L-moment 방법을 이용하여 매개변수를 추정하였다. 설계홍수량은 HEC-1 모형을 이용하여 산정하였다. 최종적으로 설계홍수량 구간 추정한 결과를 기존의 점 추정한 뒤 안전계수를 적용한 기존 방법과 비교하였다. 97.5th BCa percentile 기준으로 상대적인 변화를 비교해보면, 미래로 갈수록 구간 추정으로 산정한 설계홍수량이 점차 증가하는 것으로 도출되었다. 한강 및 금강 유역에 위치한 농업용 저수지의 설계홍수량이 낙동강 유역에 비해 상대적으로 큰 변화를 보여주었다. 몇몇 농업용 저수지에 대해서 2040s 기간에 다소 감소하기도 하였으나 2070s 기간 이후에 다시 증가하는 결과를 보여주었다. 낙동강 유역의 위치는 농업용 저수지의 설계홍수량은 미래로 갈수록 크게 증가하지 않는 경향을 보여주었다. 본 연구는 설계홍수량을 추정하는 데 있어 결정론적인 방법에서 더 나아가 자료의 통계적인 특성을 고려하여 구간 추정을 수행하는 방법론을 제공할 수 있을 것으로 사료된다.

  • PDF

P300 숨긴정보검사에서 BAD 방법과 BCD 방법의 비교 (The comparison of the BAD and the BCD methods in a P300-based concealed information test)

  • 엄진섭
    • 한국심리학회지:법
    • /
    • 제12권2호
    • /
    • pp.151-169
    • /
    • 2021
  • P300 숨긴정보검사에서 거짓말 여부를 판단하기 위하여 가장 많이 사용되는 기법은 부트스트랩 진폭차이(BAD) 방법과 부트스트랩 상관차이(BCD) 방법이다. 두 방법의 정확판단율을 비교한 선행연구들은 일관되지 않은 결과를 보고하였다. 일부의 연구들에서 BAD 방법이 BCD 방법보다 더 정확하다고 보고되고 있지만, 다른 연구에서는 BCD 방법이 BAD 방법보다 더 정확한 것으로 나타났다. 본 연구의 목적은 BAD 방법의 정확도가 더 높은 조건과 BCD 방법의 정확도가 더 높은 조건을 확인하는 것이다. 몬테 카를로 연구결과, 전반적으로 BAD 방법의 오경보율이 BCD 방법의 오경보율보다 더 높았으며, BAD 방법의 적중률이 BCD 방법의 적중률보다 더 높았다. 관련자극과 무관련자극의 P300 잠재시간이 비슷한 경우에 비교하여 관련자극의 P300 잠재시간이 약 100ms 빠른 경우에는 BCD 방법의 적중률이 크게 감소하였으며, 약 100ms 느린 경우에는 BCD 방법의 적중률이 증가하였다. 관련자극의 P300 진폭이 무관련자극의 P300 진폭보다 약간 더 크면서 관련자극의 P300 잠재시간이 목표자극의 P300 잠재시간보다 긴 경우에는 BCD 방법의 적중률이 BAD 방법의 적중률보다 더 높았다. BAD 방법의 오경보율이 높은 이유와 BCD 방법의 적중률이 관련자극의 P300 잠재시간에 영향을 받는 이유에 대해서 논의하였다.

유기화합물의 승화열 예측을 위한 QSPR분석 (QSPR analysis for predicting heat of sublimation of organic compounds)

  • 박유선;이종혁;박한웅;이성광
    • 분석과학
    • /
    • 제28권3호
    • /
    • pp.187-195
    • /
    • 2015
  • 승화열은 대기 유기 오염물질의 확산에 관련된 환경적인 문제를 해결하거나, 위험한 화학 물질의 위해성을 평가하는 데에 중요한 변수이다. 하지만 실험적으로 승화열을 측정하려면 많은 시간과 비용이 소모 되며, 그 실험자체도 복잡하고 위험하다. 따라서 본 연구에서는 유기화합물의 승화열을 간단하게 예측하는 모델을 개발하기 위하여 정량적 구조-물성 상관관계 연구를 이용하였다. 군기반 전진선택방법을 적용하여 다중선형회귀방법과 서포트 벡터 머신과 같은 학습방법에 적합한 분자표현자들을 선택하도록 하였다. 개별 모델과 복합모델들은 부스트래핑 방법과 y-임의추출법에 의해 내부검증이 되었다. 외부 테스트 데이터의 예측 성능은 적용범위를 고려하므로서 개선되었다. 다중선형회귀모델에 따르면, 승화열은 분자간의 분산력, 수소결합, 정전기적 상호작용, 쌍극자-쌍극자 상호작용과 관련이 있는 것을 나타낼 수 있었다.

하이브리드 다중 분류기시스템 (Hybrid Multiple Classifier Systems)

  • 김인철
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.133-145
    • /
    • 2004
  • 단일 분류기보다 우수한 성능을 얻기 위해 다수의 분류기들을 결합하는 방법은 폭 넓게 이용되어 오고 있는 기술이다. 하나의 다중 분류기 시스템(MCS)를 구축하는 일은 두 가지 해결해야 할 문제들을 가지고 있다. 하나는 다양한 기반-레벨의 분류기들을 어떤 방법으로 생성하느냐 하는 것이고, 다른 하나는 이들의 예측을 어떤 방법으로 결합하느냐 하는 것이다. 본 논문에서는 기존의 다중 분류기 시스템들인 bagging, boosting, 그리고 staking의 특징들을 살펴본 다음, 새로운 다중 분류기 시스템들인 stacked boosting, boosting, bagged stacking, 그리고 boosted stacking들을 제안한다. 이들은 기존의 다중 분류기 시스템들의 장점들을 결합한 일종의 하이브리드 다중 분류기 시스템들이다. 새로 제안한 다중 분류기 시스템들의 성능을 평가하기 위해, 본 논문에서는 UCI KDD 데이터 아카이브에서 제공되는 서로 다른 9가지의 실세계 데이터 집합들을 이용하여 실험들을 전개하였다. 실험 결과, 본 논문에서 제안한 하이브리드 다중 분류기 시스템들, 특히 bagged stacking과 boosted stacking이 기존의 다중 분류기 시스템들에 비해 우수한 성능을 보여 주었다.

  • PDF

데이터 마이닝에서 패턴 분류를 위한 다중 SVM 분류기 (Multiple SVM Classifier for Pattern Classification in Data Mining)

  • 김만선;이상용
    • 한국지능시스템학회논문지
    • /
    • 제15권3호
    • /
    • pp.289-293
    • /
    • 2005
  • 패턴 분류는 실세계의 객체를 표현한 다양한 형태의 패턴 정보를 추출하여, 이것이 어떤 부류(클래스)인가를 결정하는 것이다. 패턴 분류 기술은 데이터 마이닝, 산업 자동화나 업무자동화를 위한 컴퓨터 응용 소프트웨어 기술로서 현재 다양한 분야에서 활용되고 있다. 패턴 분류 기술의 최대 목표는 분류 성능 향상이며 이것을 위해 지난 40년간 많은 연구자들이 다양한 접근 방법들을 시도해 왔다. 주로 이용되는 단일 분류 방법들로는 패턴들의 확률적 추론에 기반한 베이즈 분류기, 결정 트리, 거리함수를 이용하는 방법, 신경망, 군집화 등이 있으나 대용량 다차원 데이터를 분석하기에는 효율적이지 못하다. 따라서 상호 보완적인 여러 분류기들을 사용해 결합을 통하여 성능 향상에 도움을 주고 있는 다중 분류기 시스템에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 다중 SVM(Support Vector Machine) 분류기에 관한 기존 연구의 문제점을 지적하고 새로운 모델을 제안한다. SVM을 다중 클래스 분류기로 확장하기 위해 일대다 정책을 기반으로 하여 각각의 SVM 출력값을 비선형 패턴을 갖는 신호로 간주하고 이를 신경망에 학습하여 최종 분류 성능 결과를 결합하는 모델인 BORSE(Bootstrap Resampling SVM by Ensemble)를 제안한다.

위험률의 변화점에 대한 비모수적 추정 (Nonparametric estimation of hazard rates change-point)

  • 정광모
    • 응용통계연구
    • /
    • 제11권1호
    • /
    • pp.163-175
    • /
    • 1998
  • 위험률 변화점모형에서 특별한 함수형이나 분포함수에 대한 가정을 하지 않는 일반적인 모형을 고려하였다. 이러한 모형은 지금까지 주로 다루어 왔던 상수항 위험률의 변화점모형뿐만 아니라 여러 유형의 변화점모형을 내포한다. 중도절단된 자료하에서 위험률 변화점에 관한 모수적 모형을 가정하지 않고 변화점 이전과 이후의 넬슨(Nelson) 누적위험함수 추정량의 기울기 차를 이용하여 추정량을 제안하고, 그의 점근적 성질을 규명한다. 붓스트랩 추정량의 일치성과 점근분포를 유도하고, 몇가지 분포함수의 경우에 몬테칼로 모의실험을 통해 제안된 방법의 경험적 성질을 살펴보았다. 또한, 심장병 이석환자의 생존시간 자료를 통해 변화점을 추정하고 추정량의 붓스트랩 분포를 구하였다.

  • PDF

일반화선형모형에서 선형성의 타당성을 진단하는 그래프 (A Graphical Method of Checking the Adequacy of Linear Systematic Component in Generalized Linear Models)

  • 김지현
    • Communications for Statistical Applications and Methods
    • /
    • 제15권1호
    • /
    • pp.27-41
    • /
    • 2008
  • 그림으로 일반화 선형모형의 적합성을 진단하는 방법을 제안한다. 이 그림은 일반화 선형모형에서 연결함수를 설명변수들의 선형결합으로 표현할 수 있다는 가정을 진단할 때 유용하다. 이 그림에서 연결함수와 설명변수들의 관계를 비모수적으로 추정하는 작업이 필요한데, 이를 위해 여러 가능한 기법중에서 부스팅 기법을 적용하였다. 정규분포와 이항분포 자료로 모의실험을 실시하여 새로이 제안한 진단그림의 효과성을 보였다. 그리고 진단그림의 한계와 기술적 세부사항들을 설명하였다.

확률 모형을 이용한 콩나물 무침의 미생물적 품질 변화 예측 (Estimating variation in the microbiological quality of seasoned soybean sprouts using probability model)

  • 박진표
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.909-916
    • /
    • 2010
  • 냉장 조리 개념으로 가공되어 유통되는 한국 고유 식품에 대해서 다양한 조건에서의 안정성을 평가하여 안전한 저장 및 유통 조건을 찾고, 조건별 저장기한의 설정 방법을 찾고자한다. 이를 위해 한국 고유 식품 중에 냉장 조리 개념으로 가공되어 유통되는 콩나물 무침의 품질 변화에 영향을 많이 미치는 미생물적인 변화를 예측하기위해서, 콩나물 무침에 오염된 초기 균수에 대한 확률분포를 예측하였다. 그리고 저장 중 식품품질 변화를 예측하기 위해서 콩나물 무침을 0, 5, 10 그리고 $15^{\circ}C$에서 1-5일간 저장하였을 때 증식한 미생물 수에 대한 붓스트랩 신뢰구간을 구하였다.

분포함수를 기초로 일반화가중선형모형 (Generalized Weighted Linear Models Based on Distribution Functions - A Frequentist Perspective)

  • 여인권
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.489-498
    • /
    • 2004
  • 이 논문에서는 일반화가중선형모형이라는 새로운 형태의 선형모형을 제시한다. 일반화가중선형모형은 설명변수와 반응변수의 관계를 설명분포함수의 선형결합이 반응변수의 평균에 대한 연결분포함수를 통해 모형화 되는 형태를 가지는 것으로 가정한다. 이모형은 일반화선형 모형에서 연결함수를 선택할 때 발생할 수 있는 모수공간과 선형 예측값의 공간이 일치하지 않을 수 있다는 문제가 발생하지 않고 모수에 대한 해석이 용이하다는 장점이 있다. 이 논문에서는 설명분포함수와 연결분포함수를 선택하는데 있어 발생할 수 있는 문제와 해결책에 대해 알아본다. 또한 모형에 포함되어 있는 모수를 추정하는데 고려해야 할 주의 사항과 이 사항들을 고려한 최대가능도추정법과 재표집 방법을 이용한 구간추정과 가설검정에 대해 알아본다.