Hyperparameter Optimization for Image Classification in Convolutional Neural Network

합성곱 신경망에서 이미지 분류를 위한 하이퍼파라미터 최적화

  • Lee, Jae-Eun (Dept. of Convergence & Applications Engineering, Pukyong National University) ;
  • Kim, Young-Bong (Dept. of Convergence & Applications Engineering, Pukyong National University) ;
  • Kim, Jong-Nam (Dept. of Convergence & Applications Engineering, Pukyong National University)
  • 이재은 (부경대학교 IT융합응용공학과) ;
  • 김영봉 (부경대학교 IT융합응용공학과) ;
  • 김종남 (부경대학교 IT융합응용공학과)
  • Received : 2020.08.12
  • Accepted : 2020.09.22
  • Published : 2020.09.30

Abstract

In order to obtain high accuracy with an convolutional neural network(CNN), it is necessary to set the optimal hyperparameters. However, the exact value of the hyperparameter that can make high performance is not known, and the optimal hyperparameter value is different based on the type of the dataset, therefore, it is necessary to find it through various experiments. In addition, since the range of hyperparameter values is wide and the number of combinations is large, it is necessary to find the optimal values of the hyperparameters after the experimental design in order to save time and computational costs. In this paper, we suggest an algorithm that use the design of experiments and grid search algorithm to determine the optimal hyperparameters for a classification problem. This algorithm determines the optima values of the hyperparameters that yields high performance using the factorial design of experiments. It is shown that the amount of computational time can be efficiently reduced and the accuracy can be improved by performing a grid search after reducing the search range of each hyperparameter through the experimental design. Moreover, Based on the experimental results, it was shown that the learning rate is the only hyperparameter that has the greatest effect on the performance of the model.

합성곱 신경망 모형에서 높은 정확도를 얻기 위해서는 최적의 하이퍼파라미터를 설정하는 작업이 필요하다. 하지만 높은 성능을 낼 수 있는 하이퍼파라미터 값이 정확히 알려진 바가 없으며, 자료마다 최적의 하이퍼파라미터 값이 달라질 수 있기 때문에 매번 실험을 통해서 찾아야만 한다. 또한, 하이퍼파라미터 값들의 범위가 넓고 조합 수가 많기 때문에 시간과 계산량을 줄이기 위해서는 최적값을 찾기 위한 실험 계획을 먼저 한 후에 탐색을 하는 것이 필요하다. 그러나 아직까지 합성곱 신경망 모형에서 하이퍼파라미터 최적화를 위하여 실험계획법을 이용한 연구 결과가 보고되지 않았다. 본 논문에서는 이미지 분류 문제에서 통계방법 중 하나인 실험계획법의 요인배치법을 이용하여 실험 계획을 하고 합성곱 신경망 분석을 한 후에, 높은 성능을 갖는 값을 중심으로 그리드 탐색을 하여 최적의 하이퍼파라미터를 찾는 방법을 제안한다. 실험 계획을 통하여 각 하이퍼파라미터들의 탐색 범위를 줄인 후에 그리드 탐색을 함으로써 효율적으로 연산량을 줄이고 정확도를 높힐 수 있음을 보였다. 또한 실험 결과에서 모형 성능에 가장 큰 영향을 주는 하이퍼파라미터가 학습률이라는 것을 확인할 수 있었다.

Keywords

Acknowledgement

본 연구는 산업통상자원부와 한국산업기술진흥원의 "지역혁신 클러스터 육성사업(R&D P0004797)"으로 수행된 연구결과임.

References

  1. J. Bergstra, Y. Bengio, "Random search for hyper-parameter optimization," The Journal of Machine Learning Research, vol. 13, no. 1, pp. 281-305, 2012.
  2. J. Snoek, H. Larochelle, R. P. Adams, "Practical bayesian optimization of machine learning algorithms," Proceeding of Neural Information Processing Systems, pp. 2951-2959, 2012.
  3. J. Bergstra, R. Bardenet, Y. Bengio, B. Kegl, "Algorithms for hyper-parameter optimization," Proceeding of Advances in Neural Information Processing Systems, vol. 63, no. 3, pp. 2546-2554, 2011.
  4. A. Klein, S. Falkner, S. Bartels, P. Hennig, F. Hutter, "Fast bayesian optimization of machine learning hyperparameters on large datasets," Proceeding of International Conference on Artificial Intelligence and Statistics, pp. 528-536, 2017.
  5. S. Falkner, A. Klein, F. Hutter, "BOHB: Robust and efficient hyperparameter optimization at scale," Proceeding of International Conference on Machine Learning, pp. 1437-1446, 2018.
  6. T. Hinz, N. Navarro-Guerrero, S. Magg, S. Wermter, "Speeding up the hyperparameter optimization of deep convolutional neural networks," International Journal of Computational Intelligence and Applications, vol. 17, no. 2, 2018.
  7. S. Albelwi, A. Mahmood, "A framework for designing the architectures of deep convolutional neural networks," Entropy, vol. 19, no. 6, 2017.
  8. S. S. Talathi, "Hyper-parameter optimization of deep convolutional networks for object recognition," Proceeding of IEEE International Conference on Image Processing, pp. 3982-3986, 2015.
  9. R. Andonie, A. C. Florea, "Weighted random search for CNN hyperparameter optimization," International Journal of Computers Communications & Control, vol. 15, no. 2, pp. 432-445, 2020.
  10. G. A. Lujan-Moreno, P. R. Howard, O. G. Rojas, D. C. Montgomery, "Design of experiments and response surface methodology to tune machine learning hyperparameters, with a random forest case-study," Expert Systems with Applications, vol. 109, pp. 195-205, 2018. https://doi.org/10.1016/j.eswa.2018.05.024