피싱 웹사이트 URL의 수준별 특징 모델링을 위한 컨볼루션 신경망과 게이트 순환신경망의 퓨전 신경망

  • 부석준 (연세대학교 컴퓨터과학과) ;
  • 김혜정 (경일대학교 사이버보안학과)
  • 발행 : 2019.06.30

초록

폭발적으로 성장하는 소셜 미디어 서비스로 인해 개인간의 연결이 강화된 환경에서는 URL로써 전파되는 피싱 공격의 위험성이 크게 강조된다. 최근 텍스트 분류 및 모델링 분야에서 그 성능을 입증받은 딥러닝 알고리즘은 피싱 URL의 구문적, 의미적 특징을 각각 모델링하기에 적절하지만, 기존에 사용하는 규칙 기반 앙상블 방법으로는 문자와 단어로부터 추출되는 특징간의 비선형적인 관계를 효과적으로 융합하는데 한계가 있다. 본 논문에서는 피싱 URL의 구문적, 의미적 특징을 체계적으로 융합하기 위한 컨볼루션 신경망 기반의 퓨전 신경망을 제안하고 기계학습 방법 중 최고의 분류정확도 (0.9804)를 달성하였다. 학습 및 테스트 데이터셋으로 45,000건의 정상 URL과 15,000건의 피싱 URL을 수집하였고, 정량적 검증으로 10겹 교차검증과 ROC커브, 정성적 검증으로 오분류 케이스와 딥러닝 내부 파라미터를 시각화하여 분석하였다.

키워드

참고문헌

  1. H. J. Kim, "Image-based malware classification using convolutional neural network," Advances in Computer Science and Ubiquitous Compuging, pp. 1352-1357, 2017.
  2. V. Suganya, "A review on phishing attacks and various anti-phishing techniques," Int. Journal of Computer Applications, vol. 139, pp. 20-23, 2016. https://doi.org/10.5120/ijca2016909084
  3. K. L. Chiew, K. S. C. Yong and C. Tan, "A survey of phishing attacks: their types, vectors and technical approaches," Expert Systems with Applications, vol. 106, pp. 1-20, 2018. https://doi.org/10.1016/j.eswa.2018.03.050
  4. I. Qabajeh, F. Thabtah and F. Chiclana, "A recent review of conventional vs. automated cybersecurity anti-phishing techniques," Computer Science Review, vol. 29, pp. 44-55, 2018. https://doi.org/10.1016/j.cosrev.2018.05.003
  5. J. Y. Kim, S. J. Bu and S. B. Cho, "Zero-day malware detection using transferred generative adversarial networks based on deep autoencoders," Information Sciences, vol. 460, pp. 83-102, 2018. https://doi.org/10.1016/j.ins.2018.04.092
  6. H. J. Kim, "Malware classification using convolutional and recurrent neural network," In Summer Annual Conf. of the Institute of Electronics and Information Engineering, pp. 1329-1331, 2017.
  7. P. Prakash, M. Kumar, R. R. Kompella and M. Gupta, "Phishnet: Predictive blacklisting to detect phishing attacks," In Proc. of IEEE Int. Conf. on Computer Communications, pp. 1-5, 2010.
  8. J. Ma, L. K. Saul, S. Savage and G. M. Voelker, "Beyond blacklists: learning to detect malicious web sites from suspicious URLs," In Proc. of the 15th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pp. 1245-1254, 2009.
  9. A. Le, A. Markopoulou and M. Faloutsos, "Phishdef: URL names say it all," In Proc. of IEEE Int. Conf. on Computer Communications, pp. 191-195, 2011.
  10. R. Verma and K. Dyer, "On the character of phishing URLs: Accurate and robust statistical learning classifiers," In Proc. of the 5th ACM Conf. on Data and Application Security and Privacy, pp. 111-122, 2015.
  11. A. C. Bahnsen, E. C. Bohorquez, S. Villegas, J. Vargas and F. A. Gonzalez, "Classifying phishing URLs using recurrent neural networks," In 2017 APWG Symposium on Electronic Crime Research, pp. 1-8, 2017.
  12. J. Zhao, N. Wang, Q. Ma and Z. Cheng, "Classifying malicious URLs using gated recurrent neural networks," In Int. Conf. on Innovative Mobile and Internet Services in Ubiquitous Computing, pp. 385-394, 2018.
  13. A. Anand, K. Gorde, J. R. A. Moniz, N. Park, T. Chakraborty and B. T. Chu, "Phishing URL detection with oversampling based on text generative adversarial networks," In 2018 IEEE Int. Conf. on Big Data, pp. 1168-1177, 2018.
  14. W. Yang, W. Zuo and B. Cui, "Detecting malicious URLs via a keyword-based convolutional gated recurrent unit neural network," IEEE Access, 2019.
  15. X. Zhang, J. Zhao and Y. LuCun, "Character-level convolutional networks for text classification," In Advances in Neural Information Processing Systems, pp. 649-657, 2015.
  16. T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado and J. Dean, "Distributed representations of words and phrases and their compositionality," In Advances in Neural Information Processing Systems, pp. 3111-3119, 2013.
  17. OpenDNS, "Phishtank," http://www.phishtank.com.
  18. NetScape, "Dmoz open directory project," http://www.dmoz.org.