A Combined Multiple Regression Trees Predictor for Screening Large Chemical Databases

대용량 화학 데이터 베이스를 선별하기위한 결합다중회귀나무 예측치

  • 임용빈 (이화여자대학교 자연과학대학 통계학과) ;
  • 이소영 (이화여자대학교 자연과학대학 통계학과) ;
  • 정종희 (이화여자대학교 자연과학대학 통계학과)
  • Published : 2001.03.01

Abstract

It has been shown that the multiple trees predictors are more accurate in reducing test set error than a single tree predictor. There are two ways of generating multiple trees. One is to generate modified training sets by resampling the original training set, and then construct trees. It is known that arcing algorithm is efficient. The other is to perturb randomly the working split at each node from a list of best splits, which is expected to generate reasonably good trees for the original training set. We propose a new combined multiple regression trees predictor which uses the latter multiple regression tree predictor as a predictor based on a modified training set at each stage of arcing. The efficiency of those prediction methods are compared by applying to high throughput screening of chemical compounds for biological effects.

다중나무예측치들이 한 개의 나무 예측치 보다 검증용 자료 오분류률을 줄이는데 있어서 더 정확하다 라는 것은 잘 알려져 있는 사실이다. 다중나무를 생성하는 두 가지 방법이 있다. 하나는 원래의 훈련용 자료를 재 추출하여 수정된 훈련용자료들을 만든 다음에 각각의 수정된 훈련용 자료에 근거하여 나무를 만드는 것이다. arcing 알고리즘이 효율적이라고 알려져있다. 다른 방법은 각각의 마디에서 최적 분리의 후보들 중에서 랜덤하게 하나를 선택하여 나무를 생성하는데에, 이 과정을 반복하면 원래의 훈련용 자료에 대해서 비교적 좋은 나무들을 생성하리라 기대되다. 우리는 arcing의 각 단계에서 후자의 다중회귀나무예측치들을 사용하는 결합다중회귀나무예측치를 제안하고, 효능 있는 화합물들을 찾기 위한 고속의 대량 선별 자료 분석의 예를 통해서 예측방법들의 효율성을 비교한다.

Keywords

References

  1. Machine Learning v.26 no.2 Bagging predictors Breiman, L.
  2. Classification and regression trees Breiman, L.;Friedman, J. H.;Olshen, R. A.;Stone, C. J.
  3. Arcing Classifiers Breiman, L.
  4. Machine Learning: Proceedings of the Thirteenth International Conference Experiments with a newboosting algorithm Freund, Y.;Schapire, R.
  5. Accepted for publication in J. Compt. Graph. Statist Prediction Extreme Values in Large Datasets Tatsuoka, K.;Gu, G.;Sacks, J.;Young, S. S.
  6. Uncertainty in Artifical Intelligence v.4 Multiple decision trees Kwok, S.;Carter, C.
  7. submitted to J. Amer. Chem. Soc. Analysis of a large structure/biological activity data set using recursive partitoning Rusinko, A.;Farmen, M.;Lambert, C.;Brown, P.;Yound, S.
  8. Modern Applied Statistics with Splus Venables, W. N.;Ripley, B. D.