Improving Generalization Performance of Neural Networks using Natural Pruning and Bayesian Selection

자연 프루닝과 베이시안 선택에 의한 신경회로망 일반화 성능 향상

  • 이현진 (한국싸이버대학교 컴퓨터정보통신학부) ;
  • 박혜영 (일본이화학연구소 뇌수리연구팀) ;
  • 이일병 (연세대학교 컴퓨터과학과)
  • Published : 2003.04.01

Abstract

The objective of a neural network design and model selection is to construct an optimal network with a good generalization performance. However, training data include noises, and the number of training data is not sufficient, which results in the difference between the true probability distribution and the empirical one. The difference makes the teaming parameters to over-fit only to training data and to deviate from the true distribution of data, which is called the overfitting phenomenon. The overfilled neural network shows good approximations for the training data, but gives bad predictions to untrained new data. As the complexity of the neural network increases, this overfitting phenomenon also becomes more severe. In this paper, by taking statistical viewpoint, we proposed an integrative process for neural network design and model selection method in order to improve generalization performance. At first, by using the natural gradient learning with adaptive regularization, we try to obtain optimal parameters that are not overfilled to training data with fast convergence. By adopting the natural pruning to the obtained optimal parameters, we generate several candidates of network model with different sizes. Finally, we select an optimal model among candidate models based on the Bayesian Information Criteria. Through the computer simulation on benchmark problems, we confirm the generalization and structure optimization performance of the proposed integrative process of teaming and model selection.

신경회로망 설계 및 모델선택의 목표는 최적의 구조를 가지는 일반화 성능이 우수한 네트워크를 구성하는 것이다. 하지만 학습데이타에는 노이즈(noise)가 존재하고, 그 수도 충분하지 않기 때문에 최종적으로 표현하고자 하는 진확률 분포와 학습 데이타에 의해 표현되는 경험확률분포(empirical probability density) 사이에는 차이가 발생한다. 이러한 차이 때문에 신경회로망을 학습데이타에 대하여 과다하게 적합(fitting)시키면, 학습데이타만의 확률분포를 잘 추정하도록 매개변수들이 조정되어 버리고, 진확률 분포로부터 멀어지게 된다. 이러한 현상을 과다학습이라고 하며, 과다학습된 신경회로망은 학습데이타에 대한 근사는 우수하지만, 새로운 데이타에 대한 예측은 떨어지게 된다. 또한 신경회로망의 복잡도가 증가 할수록 더 많은 매개변수들이 노이즈에 쉽게 적합되어 과다학습 현상은 더욱 심화된다. 본 논문에서는 통계적인 관점을 바탕으로 신경회로망의 일반화 성능을 향상시키는 신경회로 망의 설계 및 모델 선택의 통합적인 프로세스를 제안하고자 한다. 먼저 학습의 과정에서 적응적 정규화가 있는 자연기울기 학습을 통해 수렴속도의 향상과 동시에 과다학습을 방지하여 진확률 분포에 가까운 신경회로망을 얻는다. 이렇게 얻어진 신경회로망에 자연 프루닝(natural pruning) 방법을 적용하여 서로 다른 크기의 후보 신경회로망 모델을 얻는다. 이러한 학습과 복잡도 최적화의 통합 프로세스를 통하여 얻은 후보 모델들 중에서 최적의 모델을 베이시안 정보기준에 의해 선택함으로써 일반화 성능이 우수한 최적의 모델을 구성하는 방법을 제안한다. 또한 벤치마크 문제를 이용한 컴퓨터 시뮬레이션을 통하여, 제안하는 학습 및 모델 선택의 통합프로세스의 일반화 성능과 구조 최적화 성능의 우수성을 검증한다.

Keywords

References

  1. Bishop, C. M., Neural Networks for Pattern Recognition, Oxford University Press, 1995
  2. Haykin, S., Neural Networks; A Comprehensive Foundation, Prentice-Hall :Second Edition, Inc., 1999
  3. Reed, R. D., Marks, R. J., Neural Smithing: Supervised Learning in Feedforward Artificial Neural Networks, MIT Press, 1999
  4. Andersen, T., Rimer, M., Martinez, T., Optimal Artificial Neural Network Architecture Selection for Baggin. Proceedings of International Joint Conference on Neural Networks, 2, 790 - 795, 2001
  5. Ripley, B., Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press, 1996
  6. Hansen, L. K., Pedersen, M. W., Controlled Growth of Cascade Correlation Nets, Proceedings of International Conference on Neural Networks, 797-800, 1994
  7. Larsen, J., Svarer, C., Andersen, L. N., Hansen, L. K., Adaptive Regularization in Neural Network Modeling, Neural Networks: Tricks of the Trade, Lecture Notes in Computer Science, 1524, Germany: Springer-Verlag, 113-132, 1998
  8. Hintz-Madsen, M., Hansen, L. K., Larsen, J., Pedersen, M. W., Larsen, M., 'Neural classifier construction using regularization, pruning and test error estimation,' Neural Networks, 11, 1659-1670, 1998 https://doi.org/10.1016/S0893-6080(98)00093-8
  9. Lee, H., Jee, T., Park, H., Lee, Y., A Hybrid Approach to Complexity Optimization of Neutral Networks, Proceedings of International Conference on Neural Information Processing, 3, 1455-1460, 2001
  10. 박혜영, Efficient On-line Learning Algorithms Based on Information Geometry for Stochastic Neural Networks, 연세대학교 박사학위 청구 논문, 2000
  11. Amari, S., Natural gradient works efficiently in learning, Neural Computation, 10(2), 251-276, 1998 https://doi.org/10.1162/089976698300017746
  12. Amari, S., Park, H., Fukumizu, K., Adaptive method of realizing natural gradient learning for multilayer perceptrons, Neural Computation,12(6), 1399-1409, 2000 https://doi.org/10.1162/089976600300015420
  13. Park, H., Practical Consideration on Generalization Property of Natural Gradient Learning, Lecture Notes in Computer Science, 2084, 402-409, 2001
  14. Heskes, T., On Natural Learning and Pruning in Multilayered Perceptrons, Neural Computation, 12, 1037-1057, 2000 https://doi.org/10.1162/089976600300015637
  15. Laar, P. V. D., Heskes, T., Pruning Using Parameter and Neuronal Metrics, Neural Computation, 11, 977-993, 1999 https://doi.org/10.1162/089976699300016548
  16. Krogh, A., Hertz, J. A., A Simple Weight Decay Can Improve Generalization, Advances in Neural Information Processing Systems, 4, 950-957, 1992
  17. Pedersen, M. W., Hansen, L. K., Larsen, J., Pruning with generalization based weight saliencies: (OBD, (OBS, Advances in Neural Information Processing Systems, 8, 521-527, 1996
  18. Qi, M., Zhang, G. P., An investigation of model selection criteria for neural network time series forecasting, European Journal of Operational Research, 132, 666-680, 2001 https://doi.org/10.1016/S0377-2217(00)00171-5
  19. Murphy, P. M., Aha, D. W., UCI Repository of Machine Learning Databases[Machine Readable Data Repository], Univ. of California, Dept of Information and Computer Science, 1996