초록
오늘날 온라인 도박 사이트를 통한 불법 도박이 큰 사회문제가 되고 있다. 인터넷 기술의 발전과 스마트폰 보급으로 시공간의 제약이 사라지고 불법 온라인 도박을 누구나 쉽게 접근할 수 있게 되었기 때문이다. 이를 막기 위해 국내에서는 자체 모니터 요원의 탐지, '누리캅스'와 같은 제보 시스템 등을 활용해 불법 사이트를 탐지하고 있지만 이러한 수동적인 프로세스로는 인력부족 같은 한계로 모든 불법 사이트를 탐지하기 어려운 실정이다. 이에 여러 학자들이 인공지능 기반의 자동 불법 도박 사이트 탐지 기술을 연구해왔다. Xu et al. (2019)은 가짜 사이트들의 HTML Tag 구조에는 차별적인 특징이 있다는 점을 발견하였다. 이는 HTML Tag 구조가 불법 사이트를 탐지하는데 주요한 특징정보가 될 수 있음을 시사하지만, 불법 사이트 탐지 모델에 HTML Tag 구조를 반영하여 모형의 성능을 제고하고자 하는 연구는 지금까지 거의 시도되지 않았다. 이러한 배경에서 본 연구는 HTML Tag 구조를 특징화하여 모형의 성능을 향상시키고자 하였고, HTML Tag 구조를 적절하게 벡터화하기 위한 방법론으로 Doc2Vec을 변형한 Tag2Vec을 제안한다. Tag2Vec 기반 모델의 효과를 검증하기 위해 '더 치트'의 유해 사이트 목록과 Google 검색을 통한 정상 사이트 목록을 데이터 세트로 활용하여 실증분석을 수행하였다. 그 결과 비교 모델로 설정된 URL 기반 탐지 모델보다 본 연구에서 제안하는 Tag2Vec 기반 탐지 모델이 분류 정확도, Recall, F1_Score에서 모두 향상된 성능을 보임을 확인할 수 있었다. 이러한 본 연구의 제안모델은 향후 지능형 기술을 통해 우리 사회의 건강도를 제고하는데 효과적으로 활용될 수 있을 것으로 기대된다.
Illegal gambling through online gambling sites has become a significant social problem. The development of Internet technology and the spread of smartphones have led to the proliferation of illegal gambling sites, so now illegal online gambling has become accessible to anyone. In order to mitigate its negative effect, the Korean government is trying to detect illegal gambling sites by using self-monitoring agents or reporting systems such as 'Nuricops.' However, it is difficult to detect all illegal sites due to limitations such as a lack of staffing. Accordingly, several scholars have proposed intelligent illegal gambling site detection techniques. Xu et al. (2019) found that fake or illegal websites generally have unique features in the HTML tag structure. It implies that the HTML tag structure can be important for detecting illegal sites. However, prior studies to improve the model's performance by utilizing the HTML tag structure in the illegal site detection model are rare. Against this background, our study aimed to improve the model's performance by utilizing the HTML tag structure and proposes Tag2Vec, a modified version of Doc2Vec, as a methodology to vectorize the HTML tag structure properly. To validate the proposed model, we perform the empirical analysis using a data set consisting of the list of harmful sites from 'The Cheat' and normal sites through Google search. As a result, it was confirmed that the Tag2Vec-based detection model proposed in this study showed better classification accuracy, recall, and F1_Score than the URL-based detection model-a comparative model. The proposed model of this study is expected to be effectively utilized to improve the health of our society through intelligent technology.