DOI QR코드

DOI QR Code

Fraud Detection System Model Using Generative Adversarial Networks and Deep Learning

생성적 적대 신경망과 딥러닝을 활용한 이상거래탐지 시스템 모형

  • Ye Won Kim (Finance/Public Big Data Team Data Science, LG CNS) ;
  • Ye Lim Yu (Finance/Public Big Data Team Data Science, LG CNS) ;
  • Hong Yong Choi (Finance/Public Big Data Team Data Science, LG CNS)
  • 김예원 (LG CNS 금융/공공빅데이터팀) ;
  • 유예림 (LG CNS 금융/공공빅데이터팀) ;
  • 최홍용 (LG CNS 금융/공공빅데이터팀)
  • Received : 2019.07.18
  • Accepted : 2019.10.07
  • Published : 2020.02.29

Abstract

Artificial Intelligence is establishing itself as a familiar tool from an intractable concept. In this trend, financial sector is also looking to improve the problem of existing system which includes Fraud Detection System (FDS). It is being difficult to detect sophisticated cyber financial fraud using original rule-based FDS. This is because diversification of payment environment and increasing number of electronic financial transactions has been emerged. In order to overcome present FDS, this paper suggests 3 types of artificial intelligence models, Generative Adversarial Network (GAN), Deep Neural Network (DNN), and Convolutional Neural Network (CNN). GAN proves how data imbalance problem can be developed while DNN and CNN show how abnormal financial trading patterns can be precisely detected. In conclusion, among the experiments on this paper, WGAN has the highest improvement effects on data imbalance problem. DNN model reflects more effects on fraud classification comparatively.

인공지능이 다루기 어려운 개념에서 아주 익숙한 도구로 자리매김 하고 있다. 이와 더불어 금융권에서도 인공지능 기술을 도입하여 기존 시스템의 문제점을 개선하고자 하는 추세이며, 그 대표적인 예가 이상거래탐지 시스템(Fraud Detection System, FDS)이다. 결제 수단의 다양화 및 전자금융거래의 증가에 따라 치밀해져 가는 사이버 금융사기(Fraud)를 기존의 규칙기반 FDS로는 탐지하기 어려워지고 있다. 이를 극복하기 위해 딥러닝 기술을 적용하여 이상거래 탐지율을 향상시키고, 이상행위에 즉각 대응하며, 탐지 결과의 반영을 자동화하고자 하는 시도가 이루어지고 있다. 딥러닝 FDS 구축에서 핵심 문제는 데이터 불균형과 이상거래 패턴의 변동이다. 본 논문에서는 생성적 적대 신경망(Generative Adversarial Network, GAN)을 활용한 오버샘플링 기법을 통해 데이터 불균형 문제를 개선하고, 이상거래 분류기로써 심층 신경망(Deep Neural Network, DNN)과 합성곱 신경망(Convolutional Neural Network, CNN)을 적용하여 이러한 문제를 개선하고자 하였다. 실험 결과, GAN 오버샘플링이 이상거래 데이터의 불균형 문제를 개선하는데 효과를 보였으며, WGAN이 가장 높은 개선 효과가 있음을 확인하였다. 또한 제안 FDS 모형의 AUC가 0.9857로 랜덤포레스트 FDS 모형에 비해 약 6.5% 향상되어, 딥러닝이 이상거래 탐지에 뛰어난 성능을 가짐을 입증하였다. 더불어 딥러닝 모형 중 DNN은 CNN에 비해 오버샘플링의 효과를 더 잘 반영함을 확인하였다.

Keywords

References

  1. 김량형, 유동희, 김건우, "데이터마이닝 기법을 이용한 기업부실화 예측 모델 개발과 예측성능 향상에 관한 연구", Information Systems Review, 제18권, 제2호, 2016, pp. 173-198. https://doi.org/10.14329/isr.2016.18.2.173
  2. 김주현, 원정임, "비지도학습 딥러닝을 활용한 이상거래탐지 시스템 모델", 한국정보과학회 학술발표논문집, 2018, pp. 917-919.
  3. 김한용, 이우주, "불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점", Korean Journal of Applied Statistics, 제30권, 제5호, 2017, pp. 681-690. https://doi.org/10.5351/KJAS.2017.30.5.681
  4. 박재훈, 김휘강, 김은진, "의사결정나무를 이용한 이상금융거래 탐지 정규화 방법에 관한 연구", Journal of The Korea Institute of Information Security & Cryptology, 제25권, 제1호, 2015, pp. 133-146. https://doi.org/10.13089/JKIISC.2015.25.1.133
  5. 서상현, 전용진, 이종수, 정호재, 김준태, "불균형 빅데이터의 효율적인 분류를 위한 생성적 적대 신경망 기반 오버샘플링 기법", 한국정보과학회 학술발표논문집, 2017, pp. 1030-1032.
  6. 손민재, 정승원, 황인준, "Conditional GAN을 활용한 오버샘플링 기법", 한국정보처리학회 추계학술대회 논문집, 제25권, 제2호, 2018, pp. 609-612.
  7. 이용현, 구해모, 김형주, "오토인코더를 활용한 효율적인 신용카드 사기 탐지 지도 기법", 정보과학회컴퓨팅의 실제논문지, 제25권, 제1호, 2019, pp. 1-8. https://doi.org/10.5626/KTCP.2019.25.1.1
  8. Arjovsky, M., S. Chintala, and L. Bottou, "Wasserstein gan", arXiv preprint, arXiv:1701.07875, 2017.
  9. Burez, J. and D. Van den Poel, "Handling class imbalance in customer churn prediction", Expert Systems with Applications, Vol.36, 2009, pp. 4626-4636. https://doi.org/10.1016/j.eswa.2008.05.027
  10. Chawla, N. V., K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: Synthetic minority over-sampling technique", Journal of Articial Intelligence Research, Vol.16, 2002, pp. 321-357. https://doi.org/10.1613/jair.953
  11. Dal Pozzolo, A., O. Caelen, R. A. Johnson, and G. Bontempi, "Calibrating probability with under-sampling for unbalanced classification", In Computational Intelligence, 2015 IEEE Symposium Series on, 2015, pp. 159-166.
  12. Douzas, G. and F. Bacao, "Effective data generation for imbalanced learning using conditional generative adversarial networks", Expert Systems with Applications, Vol.91, 2018, pp. 464-471. https://doi.org/10.1016/j.eswa.2017.09.030
  13. Ester, M., H. P. Kriegel, J. Sander, and X. Xu, "A density-based algorithm for discovering clusters in large spatial databases with noise", In Proceedings of Second International Conference on Knowledge Discovery and Data Mining, 1996, pp. 226-231.
  14. Fernandez-Delgado, M., E. Cernadas, S. Barro, and D. Amorim, "Do we need hundreds of classifiers to solve real world classification problems?", Journal of Machine Learning Research, Vol.15, No.1, 2014, pp. 3133-3181.
  15. Goodfellow, I. J., J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, Generative Adversarial Nets, NIPS' 2014, 2014.
  16. Haixiang, G., L. Yijing, J. Shang, G. Mingyun, H. Yuanyue, and G. Bing, "Learning from class-imbalanced data", Review of Methods and Applications, Vol.73, 2017, pp. 220-239. https://doi.org/10.1016/j.eswa.2016.12.035
  17. Ham, J., Y. Chen, M. M. Crawford, and J. Ghosh, "Investigation of the random forest framework for classification of hyperspectral data", IEEE Transactions on Geoscience and Remote Sensing, Vol.43, No.3, 2005, pp. 492-501. https://doi.org/10.1109/TGRS.2004.842481
  18. Haykin, S., Neural Networks and Learning Machines, Pearson Prentice-Hall, New York, NY, 2009.
  19. He, H. and E. A. Garcia, "Learning from imbalanced data", IEEE Transactions on Knowledge and Data Engineering, Vol.21, No.9, 2009, pp. 1263-1284 https://doi.org/10.1109/TKDE.2008.239
  20. Hearst, M. A., S. T. Dumais, E. Osuna, J. Platt, and B. Scholkopf, "Support vector machines", IEEE Intelligent Systems and Their Applications, Vol.13, No.4, 1998, pp. 18-28. https://doi.org/10.1109/5254.708428
  21. Hinton, G. E., S. Osindero, and Y. The, "A fast learning algorithm for deep belief nets", Neural Computation, Vol.18, 2006, pp. 1527-1554. https://doi.org/10.1162/neco.2006.18.7.1527
  22. Liaw, A. and M. Wiener, "Classification and regression by random Forest", R News, Vol.2, No.3, 2002, pp. 18-22.
  23. Mirza, M. and S. Osindero, "Conditional generative adversarial nets", arXiv preprint, arXiv:1411.1784, 2014.
  24. Murphy, K., Machine Learning: A Probabilistic Perspective, MIT Press, 2012.
  25. Purushu, P., N. Melcher, B. Bhagwat, and J. Woo, "Predictive analysis of financial fraud detection using azure and spark ML", Asisa Pacific Journal of Information Systems, Vol.28, No.4, 2018, pp. 308-319. https://doi.org/10.14329/apjis.2018.28.4.308
  26. Rumelhart, D. E., G. E. Hinton, and R. J. Williams, "Learning internal representations by error propagation", Parallel Distributed Processing, Vol.1, 1987, pp. 318-362. https://doi.org/10.7551/mitpress/4943.003.0128
  27. Wang, J., J. Yang, S. L. Xiao, and D. Zhou, "Face recognition based on deep learning", Human Centered Computing, 2014, pp. 812-820.
  28. Zheng, P., S. Yuan, X. Wu, J. Li, and A. Lu, "One-class adversarial nets for fraud detection", arXiv preprint, arXiv:1803.01798, 2018.