Abstract
The objective of a neural network design and model selection is to construct an optimal network with a good generalization performance. However, training data include noises, and the number of training data is not sufficient, which results in the difference between the true probability distribution and the empirical one. The difference makes the teaming parameters to over-fit only to training data and to deviate from the true distribution of data, which is called the overfitting phenomenon. The overfilled neural network shows good approximations for the training data, but gives bad predictions to untrained new data. As the complexity of the neural network increases, this overfitting phenomenon also becomes more severe. In this paper, by taking statistical viewpoint, we proposed an integrative process for neural network design and model selection method in order to improve generalization performance. At first, by using the natural gradient learning with adaptive regularization, we try to obtain optimal parameters that are not overfilled to training data with fast convergence. By adopting the natural pruning to the obtained optimal parameters, we generate several candidates of network model with different sizes. Finally, we select an optimal model among candidate models based on the Bayesian Information Criteria. Through the computer simulation on benchmark problems, we confirm the generalization and structure optimization performance of the proposed integrative process of teaming and model selection.
신경회로망 설계 및 모델선택의 목표는 최적의 구조를 가지는 일반화 성능이 우수한 네트워크를 구성하는 것이다. 하지만 학습데이타에는 노이즈(noise)가 존재하고, 그 수도 충분하지 않기 때문에 최종적으로 표현하고자 하는 진확률 분포와 학습 데이타에 의해 표현되는 경험확률분포(empirical probability density) 사이에는 차이가 발생한다. 이러한 차이 때문에 신경회로망을 학습데이타에 대하여 과다하게 적합(fitting)시키면, 학습데이타만의 확률분포를 잘 추정하도록 매개변수들이 조정되어 버리고, 진확률 분포로부터 멀어지게 된다. 이러한 현상을 과다학습이라고 하며, 과다학습된 신경회로망은 학습데이타에 대한 근사는 우수하지만, 새로운 데이타에 대한 예측은 떨어지게 된다. 또한 신경회로망의 복잡도가 증가 할수록 더 많은 매개변수들이 노이즈에 쉽게 적합되어 과다학습 현상은 더욱 심화된다. 본 논문에서는 통계적인 관점을 바탕으로 신경회로망의 일반화 성능을 향상시키는 신경회로 망의 설계 및 모델 선택의 통합적인 프로세스를 제안하고자 한다. 먼저 학습의 과정에서 적응적 정규화가 있는 자연기울기 학습을 통해 수렴속도의 향상과 동시에 과다학습을 방지하여 진확률 분포에 가까운 신경회로망을 얻는다. 이렇게 얻어진 신경회로망에 자연 프루닝(natural pruning) 방법을 적용하여 서로 다른 크기의 후보 신경회로망 모델을 얻는다. 이러한 학습과 복잡도 최적화의 통합 프로세스를 통하여 얻은 후보 모델들 중에서 최적의 모델을 베이시안 정보기준에 의해 선택함으로써 일반화 성능이 우수한 최적의 모델을 구성하는 방법을 제안한다. 또한 벤치마크 문제를 이용한 컴퓨터 시뮬레이션을 통하여, 제안하는 학습 및 모델 선택의 통합프로세스의 일반화 성능과 구조 최적화 성능의 우수성을 검증한다.