DOI QR코드

DOI QR Code

통계적 기계학습 기술을 이용한 시뮬레이션 결과 예측 시스템 개발

Development of a Simulation Prediction System Using Statistical Machine Learning Techniques

  • 이기용 (숙명여자대학교 컴퓨터과학부) ;
  • 신윤재 (숙명여자대학교 컴퓨터과학부) ;
  • 최연정 (숙명여자대학교 컴퓨터과학부) ;
  • 김선정 (한국과학기술정보연구원 슈퍼컴퓨팅융합연구센터) ;
  • 서영균 (한국과학기술정보연구원 슈퍼컴퓨팅융합연구센터) ;
  • 사정환 (한국과학기술정보연구원 슈퍼컴퓨팅융합연구센터) ;
  • 이종숙 (한국과학기술정보연구원 슈퍼컴퓨팅융합연구센터) ;
  • 조금원 (한국과학기술정보연구원 슈퍼컴퓨팅융합연구센터)
  • 투고 : 2016.10.05
  • 심사 : 2016.10.13
  • 발행 : 2016.11.30

초록

컴퓨터 시뮬레이션은 전산유쳬역학, 나노 물리, 계산화학, 구조 동역학, 전산설계 등 여러 계산과학공학 분야에서 시스템의 움직임을 예측하기 위해 널리 사용되고 있다. 하지만 시뮬레이션의 정밀도와 복잡도가 점점 증가함에 따라 시뮬레이션을 수행하는 비용 역시 크게 증가하고 있다. 따라서 시뮬레이션의 수행비용을 줄이는 것은 특히 입력 변수들의 값을 변화시켜가며 시뮬레이션을 반복적으로 수행하는 경우, 시뮬레이션 수행 시간 단축을 위해 매우 중요하다. 본 논문은 어떤 시뮬레이션의 수행이 요청되었을 때, 해당 시뮬레이션을 실제로 수행하지 않고도 기존에 수행된 시뮬레이션의 결과를 저장하여 이전에 획득되거나 혹은 예측된 결과를 반환하는 시스템을 개발한다. 이를 위해 본 논문에서 개발된 시스템은 크게 다음 2가지 기능을 제공한다: (1) 수행이 완료된 시뮬레이션의 결과를 데이터베이스에 저장하는 기능, (2) 사용자가 요청한 시뮬레이션의 결과를 통계적 기계학습 기술을 사용하여 예측하는 기능. 본 논문에서 개발한 예측 시스템의 예측 성능을 실제 유체역학 시뮬레이션 데이터를 사용하여 평가한 결과, 출력변수에 따라 0.9%의 매우 낮은 평균 예측 오차율을 보였다. 본 논문에서 개발한 시스템을 통하여 사용자들은 계산 및 저장 자원에 큰 부하를 주는 시뮬레이션을 실제 수행하지 않고도, 수행을 원하는 시뮬레이션의 결과를 빠르게 예측해 볼 수 있다.

Computer simulation is widely used in a variety of computational science and engineering fields, including computational fluid dynamics, nano physics, computational chemistry, structural dynamics, and computer-aided optimal design, to simulate the behavior of a system. As the demand for the accuracy and complexity of the simulation grows, however, the cost of executing the simulation is rapidly increasing. It, therefore, is very important to lower the total execution time of the simulation especially when that simulation makes a huge number of repetitions with varying values of input parameters. In this paper we develop a simulation service system that provides the ability to predict the result of the requested simulation without actual execution for that simulation: by recording and then returning previously obtained or predicted results of that simulation. To achieve the goal of avoiding repetitive simulation, the system provides two main functionalities: (1) storing simulation-result records into database and (2) predicting from the database the result of a requested simulation using statistical machine learning techniques. In our experiments we evaluate the prediction performance of the system using real airfoil simulation result data. Our system on average showed a very low error rate at a minimum of 0.9% for a certain output variable. Using the system any user can receive the predicted outcome of her simulation promptly without actually running it, which would otherwise impose a heavy burden on computing and storage resources.

키워드

참고문헌

  1. Angela B. Shiflet and George W. Shiflet, "Introduction to Computational Science: Modeling and Simulation for the Sciences," 2nd edition, Princeton University Press, 2014.
  2. Y.-K. Suh, et. al., "EDISON: A Web-based HPC Simulation Execution Framework for Large-scale Scientific Computing Software," in Proc. of CCGrid'16, pp.608-612, May 2016.
  3. R: The R Project for Statistical Computing [Internet], https://www.r-project.org/.
  4. PhET [Internet], https://phet.colorado.edu/.
  5. ALF: Simulating Genome Evolution [Internet], http://alfsim.org/.
  6. BiDaS [Internet], http://bioserver-3.bioacademy.gr/Bioserver/BiDaS/.
  7. WebArrayDB [Internet], http://www.webarraydb.org/webarray/.
  8. Cipran Docan, Manish Parashar, and Scott Klasky, "DataSpaces: an interaction and coordination framework for coupled simulation workflows," Cluster Computing, Vol.15, No.2, pp.163-181, 2012. https://doi.org/10.1007/s10586-011-0162-y
  9. Adam Hospital, Pau Andrio, Cesare Cugnasco, Laia Codo, Yolanda Becerra, Pablo D. Dans, Federica Battistini, Jordi Torres, Ramon Goni, Modesto Orozco, and Josep Ll. Gelpi, "BIGNASim: a NoSQL database structure and analysis portal for nucleic acids simulation data," Nucleic Acids Research, Vol.44, 2016.
  10. D. Mishin, D. Medvedev, A. S. Szalay, R. Plante, and M. Graham, "Data Sharing and Publication Using the SciDrive Service," Astronomical Data Analysis Software and Systems, Vol.485, 2014.
  11. Anand Kumar, Vladimir Grupcev, Meryem Berrada, Joseph C. Fogarty, Yi-Cheng Tu, Xingquan Zhu, Sagar A Pandit, and Yuni Xia, "DCMS: A data analytics and management system for molecular simulation," Journal of Big Data, Vol.1, No.9, 2014.
  12. Julien C. Thibault, Julio C. Facelli, and Thomas E. Cheatham, III, "iBIOMES: Managing and Sharing Biomolecular Simulation Data in a Distributed Environment," Journal of Chemical Information and Modeling, Vol.53, pp.726-736, 2013. https://doi.org/10.1021/ci300524j
  13. Jian Huang, Xuechen Zhang, Greg Eisenhauer, Karsten Schwan, Matthew Wolf, Stephane Ethier, and Scott Klasky, "Scibox: Online Sharing of Scientific Data via the Cloud," in Proceedings of the 28th IEEE International Parallel & Distributed Processing Symposium, pp.145-154, 2014.
  14. Ki Yong Lee, Yoonjae Shin, Yeonjeong Choe, Young-kyoon Suh, Jeonghwan Sa, and Kum Won Cho, "Design of a Simulation Data Management System for Efficient Computational Science and Engineering Simulations," in Proc. of KIPS Spring Conference, April, 2016.
  15. Ki Yong Lee, Yoonjae Shin, Yeonjeong Choe, SeonJeong Kim, Young-kyoon Suh, Jeonghwan Sa, and Kum Won Cho, "Design and Implemenation of a Data-Driven Simulation Service System," in Proc. of 6th International Conference on Emerging Databases (EDB 2016), October, 2016.
  16. MongoDB [Internet], https://www.mongodb.com/.
  17. Node.js [Internet], https://nodejs.org/.
  18. rJava [Internet], https://www.rforge.net/rJava/.
  19. EDISON-CFD, [Internet], https://cfd.edison.re.kr/.
  20. NACA airfoil [Internet], https://en.wikipedia.org/wiki/NAC A_airfoil/.
  21. T. Hastie, R. Tibshirani, and J. Friedman, "The Elements of Statistical Learning," 2nd Edition, Springer, 2008.