기업 정보보안 사고의 분쟁 유형 도출; BERTopic, Top2Vec, LDA 기반 토픽모델링의 성능 평가를 중심으로

Identify Dispute Types of Corporate Information Security Incidents; Focusing on Performance Evaluation of BERTopic, Top2Vec, and LDA-based Topic Modeling

  • 박민정 (금오공과대학교 경영학과) ;
  • 손영진 (이화여자대학교 경영학과) ;
  • 채상미 (이화여자대학교 경영학과)
  • Minjung Park (Dept. of Business Administration, Kumoh National Institute of Technology) ;
  • Young Jin Son (Dept. of Business Administration, Ewha Womans University) ;
  • Sangmi Chai (Dept. of Business Administration, Ewha Womans University)
  • 발행 : 2024.05.23

초록

최근 AI 를 비롯한 데이터 기반의 비즈니스 모델 증가에 따라, 데이터 유출 등의 기업 정보보안 사고가 빈번하게 발생하고 있다. 해당 사고들은 종종 법적 분쟁으로 이어지며, 이는 기업의 막대한 경제적 손실을 초래하며 정보보안 사고를 선제적으로 대비하기 위한 기술적, 관리적 조치 마련을 위한 기업의 관심이 증가하고 있다. 이에 본 연구에서는 최근 들어 급증한 기업의 정보보안 관련 판례를 대상으로 BERTopic, Top2Vec, LDA 를 활용하여 토픽 모델링을 수행하여 산출된 토픽 기반의 기업 정보보안 사고를 유형화하고자 한다. 전통적으로 각각 다른 법적 요소와 판결을 담고 있어, 유사 사건 간의 비교 및 분석이 어려운 판례 데이터의 특징을 반영하여 본 연구에서는 앞서 제시된 3가지의 모델을 각각 적용한다. 이를 통하여 각 모델 수행 결과의 성능 비교를 통하여 기업의 정보보안 사건의 유형화 및 동향을 파악하는 동시에 판례 데이터를 분석하기 위한 최적의 모델을 확인한다.

키워드

참고문헌

  1. Patterson, Clare M., Jason RC Nurse, and Virginia NL Franqueira. "Learning from cyber security incidents: A systematic review and future research agenda." Computers & Security (2023): 103309.
  2. Grootendorst, Maarten. "BERTopic: Neural topic modeling with a class-based TF-IDF procedure." arXiv preprint arXiv:2203.05794 (2022).
  3. Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." Journal of machine Learning research 3.Jan (2003): 993-1022.
  4. Egger, R., & Yu, J. (2021). Identifying hidden semantic structures in Instagram data: a topic modelling comparison. Tourism Review, 77(4), 1234-1246.
  5. Yu, Dejian, and Bo Xiang. "Discovering topics and trends in the field of Artificial Intelligence: Using LDA topic modeling." Expert Systems with Applications (2023): 120114.
  6. Abdelrazek, A., Eid, Y., Gawish, E., Medhat, W., & Hassan, A. (2023). Topic modeling algorithms and applications: A survey. Information Systems, 112, 102131.
  7. Gan, Lin, et al. "Experimental Comparison of Three Topic Modeling Methods with LDA, Top2Vec and BERTopic." International Symposium on Artificial Intelligence and Robotics. Singapore: Springer Nature Singapore, 2023.
  8. Zengul, Ferhat, et al. "A practical and empirical comparison of three topic modeling methods using a COVID-19 corpus: LSA, LDA, and Top2Vec." (2023).
  9. Borcin, Martin, and Joemon M. Jose. "Optimizing BERTopic: Analysis and Reproducibility Study of Parameter Influences on Topic Modeling." European Conference on Information Retrieval. Cham: Springer Nature Switzerland, 2024.
  10. An, Yusung, Hayoung Oh, and Joosik Lee. "Marketing insights from reviews using topic modeling with BERTopic and deep clustering network." Applied Sciences 13.16 (2023): 9443.