DOI QR코드

DOI QR Code

CTR 예측을 위한 비전 트랜스포머 활용에 관한 연구

A Study on Utilization of Vision Transformer for CTR Prediction

  • 김태석 (배재대학교 경영학과) ;
  • 김석훈 (배재대학교 전자상거래학과) ;
  • 임광혁 (배재대학교 전자상거래학과)
  • Kim, Tae-Suk (Department of Business Administration, Pai-Chai University) ;
  • Kim, Seokhun (Department of Electronic Commerce, Pai-Chai University) ;
  • Im, Kwang Hyuk (Department of Electronic Commerce, Pai-Chai University)
  • 투고 : 2021.10.04
  • 심사 : 2021.10.18
  • 발행 : 2021.12.31

초록

Click-Through Rate(CTR) 예측은 추천시스템에서 후보 항목의 순위를 결정하고 높은 순위의 항목들을 추천하여 고객의 정보 과부하를 줄임과 동시에 판매 촉진을 통한 수익 극대화를 달성할 수 있는 핵심 기능이다. 자연어 처리와 이미지 분류 분야는 심층신경망(deep neural network)의 활용을 통한 괄목한 성장을 하고 있다. 최근 이 분야의 주류를 이루던 모델과 차별화된 어텐션(attention) 메커니즘 기반의 트랜스포머(transformer) 모델이 제안되어 state-of-the-art를 달성하였다. 본 연구에서는 CTR 예측을 위한 트랜스포머 기반 모델의 성능 향상 방안을 제시한다. 자연어와 이미지 데이터와는 다른 이산적(discrete)이며 범주적(categorical)인 CTR 데이터 특성이 모델 성능에 미치는 영향력을 분석하기 위해 임베딩의 일반화(regularization)와 트랜스포머의 정규화(normalization)에 관한 실험을 수행한다. 실험 결과에 따르면, CTR 데이터 입력 처리를 위한 임베딩 과정에서 L2 일반화의 적용과 트랜스포머 모델의 기본 정규화 방법인 레이어 정규화 대신 배치 정규화를 적용할 때 예측 성능이 크게 향상됨을 확인하였다.

Click-Through Rate (CTR) prediction is a key function that determines the ranking of candidate items in the recommendation system and recommends high-ranking items to reduce customer information overload and achieve profit maximization through sales promotion. The fields of natural language processing and image classification are achieving remarkable growth through the use of deep neural networks. Recently, a transformer model based on an attention mechanism, differentiated from the mainstream models in the fields of natural language processing and image classification, has been proposed to achieve state-of-the-art in this field. In this study, we present a method for improving the performance of a transformer model for CTR prediction. In order to analyze the effect of discrete and categorical CTR data characteristics different from natural language and image data on performance, experiments on embedding regularization and transformer normalization are performed. According to the experimental results, it was confirmed that the prediction performance of the transformer was significantly improved when the L2 generalization was applied in the embedding process for CTR data input processing and when batch normalization was applied instead of layer normalization, which is the default regularization method, to the transformer model.

키워드

과제정보

이 논문은 2019년 대한민국 교육부와 한국연구재단의 인문사회분야 신진연구자지원사업의 지원을 받아 수행된 연구임(NRF-2019S1A5A8033018)

참고문헌

  1. 김은미 (2021). 감성분석을 이용한 뉴스정보와 딥러닝 기반의 암호화폐 수익률 변동 예측을 위한 통합모형. 지식경영연구, 22(2), 19-32. https://doi.org/10.15813/KMR.2021.22.2.002
  2. 김태석 (2020). CNN을 활용한 CTR 예측 시각화 분석. 자료분석학회논문지, 22(6), 2603-2614.
  3. 문현실, 임진혁, 김도연, 조윤호 (2020). 시각 정보를 활용한 딥러닝 기반 추천 시스템. 지식경영연구, 21(3), 27-44. https://doi.org/10.15813/KMR.2020.21.3.002
  4. 원종관, 홍태호 (2021). 텍스트 마이닝과 딥러닝을 활용한 암호화폐 가격 예측: 한국과 미국시장 비교. 지식경영연구, 22(2), 1-17. https://doi.org/10.15813/KMR.2021.22.2.001
  5. Alex, K., Sutskever, I., & Hinton, G. (2012). Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097-1105.
  6. Cortes, C., Mohri, M., & Rostamizadeh, A. (2012). L2 regularization for learning kernels. arXiv preprint arXiv:1205.2653.
  7. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
  8. Huang, L., Qin, J., Zhou, Y., Zhu, F., Liu, L., & Shao, L. (2020). Normalization techniques in training DNNs: Methodology, analysis and application. arXiv preprint arXiv:2009.12836.
  9. Huang, T., Zhang, Z., & Zhang, J. (2019). FiBiNET: Combining feature importance and bilinear feature interaction for click-through rate prediction. In Proceedings of the 13th ACM Conference on Recommender Systems, 169-177.
  10. Lian, J., Zhou, X., Zhang, F., Chen, Z., Xie, X., & Sun, G. (2018). xDeepFM: Combining explicit and implicit feature interactions for recommender systems. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1754-1763.
  11. Liu, B., Tang, R., Chen, Y., Yu, J., Guo, H., & Zhang, Y. (2019). Feature generation by convolutional neural network for click-through rate prediction. In Proceedings of the World Wide Web Conference, 1119-1129.
  12. Ng, A. Y. (2004). Feature selection, L1 vs. L2 regularization, and rotational invariance. In Proceedings of the 21st International Conference on Machine Learning, 78.
  13. Song, W., Shi, C., Xiao, Z., Duan, Z., Xu, Y., Zhang, M., & Tang, J. (2019). AutoInt: Automatic feature interaction learning via self-attentive neural networks. In Proceedings of the 28th ACM International Conference on Information and Knowledge Management, 1161-1170.
  14. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Proceedings of the 28th International Conference on Neural Information Processing Systems, 3104-3112.
  15. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems, 6000-6010.
  16. Wang, R., Fu, B., Fu, G., & Wang, M. (2017). Deep & cross network for ad click predictions. In Proceedings of The 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1-7.
  17. Wu, Y., & He, K. (2018). Group normalization. In Proceedings of the European Conference on Computer Vision, 3-19.