DOI QR코드

DOI QR Code

A Study on the Classification Model of Overseas Infringing Websites based on Web Hierarchy Similarity Analysis using GNN

GNN을 이용한 웹사이트 Hierarchy 유사도 분석 기반 해외 침해 사이트 분류 모델 연구

  • 서주현 (호서대학교 정보보호학과) ;
  • 유선모 (호서대학교 정보보호학과) ;
  • 박종화 (성균관대학교 빅데이터학과) ;
  • 박진주 (아주대학교 사이버보안학과) ;
  • 이태진 (호서대학교 정보보호학과)
  • Received : 2023.06.05
  • Accepted : 2023.06.20
  • Published : 2023.06.30

Abstract

The global popularity of K-content(Korean Wave) has led to a continuous increase in copyright infringement cases involving domestic works, not only within the country but also overseas. In response to this trend, there is active research on technologies for detecting illegal distribution sites of domestic copyrighted materials, with recent studies utilizing the characteristics of domestic illegal distribution sites that often include a significant number of advertising banners. However, the application of detection techniques similar to those used domestically is limited for overseas illegal distribution sites. These sites may not include advertising banners or may have significantly fewer ads compared to domestic sites, making the application of detection technologies used domestically challenging. In this study, we propose a detection technique based on the similarity comparison of links and text trees, leveraging the characteristic of including illegal sharing posts and images of copyrighted materials in a similar hierarchical structure. Additionally, to accurately compare the similarity of large-scale trees composed of a massive number of links, we utilize Graph Neural Network (GNN). The experiments conducted in this study demonstrated a high accuracy rate of over 95% in classifying regular sites and sites involved in the illegal distribution of copyrighted materials. Applying this algorithm to automate the detection of illegal distribution sites is expected to enable swift responses to copyright infringements.

전 세계적으로 한류 콘텐츠가 유행하며 국내뿐만 아니라 해외에서도 국내 저작물의 저작권 침해 사례가 지속적으로 증가하고 있다. 이에 대응하기 위한 국내 불법 저작물 유통 사이트를 탐지하는 기술에 대한 연구가 활발하게 진행되고 있으며 최근 연구는 국내 불법 저작물 유통 사이트들이 광고 배너를 상당수 포함하고 있는 특징을 활용한 연구가 존재한다. 그러나 해외 불법 저작물 유통 사이트의 경우 광고 배너를 포함하지 않거나 국내 사이트에 비해 적은 양의 광고를 포함하고 있어 국내와 같은 탐지 기술의 적용이 제한적이다. 본 연구에서는 저작물 불법 공유 사이트가 게시물과 저작물의 이미지를 유사한 계층 구조로 포함하는 특징을 이용하여 링크 트리 및 텍스트 유사도 비교 기반의 탐지 기술을 제안한다. 대량의 링크로 작성된 대규모 트리의 정확한 유사도 비교를 위해 GNN(Graph Neural Network)를 활용한다. 본 연구의 실험에서 일반 사이트와 저작물 불법 유통 사이트를 분류에 95% 이상의 높은 정확도를 보였고 해당 알고리즘을 적용하여 불법 유통 사이트의 자동화된 탐지를 통해 신속한 저작권 침해 대응이 가능할 것으로 기대된다.

Keywords

1. 서론

최근 한류 콘텐츠의 성장에 따라 중국, 베트남, 인도네시아, 프랑스 등 해외에서 한류 콘텐츠를 불법으로 유통하는 저작권 침해 사이트들로 인해 피해가 상당하여 저작권 보호를 위한 대책 요구가 증가하고 있다.[1] 해외 한류 콘텐츠 불법 유통량 4억 7천7백만개 중 2022년 출시된 한류 콘텐츠의 불법 유통량의 수는 1억 1천4백만 개로 기하급수적으로 늘어나게 되어 앞으로 더 많은 피해가 예상된다.[1] 기존에도 저작물 불법 유통에 대응하기 위하여 해당 사이트들을 탐지하기 위한 연구가 진행되어 국내 저작권 침해 사이트들에 대해 조치하고 있다. 하지만 기존 연구들의 경우 저작권 침해 사이트 내 키워드 목록 추출 후 해당 키워드 존재 여부를 활용한 탐지 기법과 국내 저작권 침해 사이트 내 불법 광고 배너가 많이 존재하는 특징을 이용하여 특징 분석 및 저작권 침해 의심 사이트 광고 배너 내 해당 특징 존재 여부 등을 활용한 탐지 기법이 많이 소개되어 있다.[3][4][5] 하지만 해외 저작권 침해 사이트의 경우 광고 배너를 포함하지 않거나 포함하더라도 그 양이 국내 사이트에 비해 상당히 적은 경우가 많아 현재 소개된 기법 중 광고 배너를 활용한 기법으로는 탐지에 있어 한계가 있다.

본 논문에서는 이미지를 다량 포함하고 유사한 마크업 구조에서 링크와 이미지를 포함하고 있는 해외 저작권 침해 사이트의 특징을 이용하여 링크 트리 및 텍스트 유사도 비교 알고리즘을 통해 저작권 침해 사이트 여부를 판단하는 기법을 제안한다. 이를 통해 해외 저작권 침해 사이트의 탐지율이 높아질 것으로 기대된다.

SOBTCQ_2023_v23n2_47_2_f0001.png 이미지

(그림 1) 해외 저작권 침해 사이트 예시

2. 관련 연구

불법 저작물 유통 피해의 증가에 대응하기 위하여 저작권 침해 사이트 탐지 기법이 연구되어 제안되었고 제안된 기법을 활용하여 국내 저작권 침해 사이트에 대한 탐지 및 차단 조치가 진행되고 있다.

2.1 광고 배너 키워드 기반 탐지 기법

김의진[3] 등에 의해 제안된 ‘저작권 침해 의심 데이터 분석을 통한 저작권 침해 사이트 탐지 기법’ 연구에서는 침해 사이트에 존재하는 특징을 기반으로 ‘침해 키워드’를 도출한 뒤, 침해 의심 사이트 내에 해당 키워드가 존재할 경우 판단하는 방법과 침해 사이트 내 불법 광고 배너에서 높은 빈도로 사용되는 키워드를 추출하고 Google Vision API의 OCR 기능을 이용하여 메인 페이지 내 해당 키워드가 존재할 경우 저작권 침해 사이트로 판단하는 2가지 방법을 제시한다. 광고 배너의 비중이 높은 국내 저작권 침해 사이트의 경우 높은 탐지율을 보이지만 해외 저작권 침해사이트의 경우 광고를 포함하지 않거나 포함된 경우 국내 사이트에 비해 그 수가 매우 적은 경우가 많아 해당 기법으로 탐지 시에 한계가 있다.

SOBTCQ_2023_v23n2_47_2_f0002.png 이미지

(그림 2) 광고배너 키워드 기반 탐지 제안 기법

2.2 HTML 태그 순서 기반 탐지 기법

이기룡[6] 등에 의해 제안된 ‘HTML 태그 순서를 이용한 불법 사이트 탐지 자동화 기술’ 연구에서는 기존 불법 사이트 웹페이지들의 태그 집합과 새로 탐지된 저작권 침해 의심 사이트 웹페이지 소스 코드 태그를 추출 후 유사도 측정 알고리즘으로 LCS(Longest Common Subsequence) 적용하여 기존 침해 사이트 및 신규 침해 의심 사이트 간 HTML 태그 유사도를 측정하여 저작권 침해 사이트로 판단하는 방법을 제시한다.

SOBTCQ_2023_v23n2_47_3_f0001.png 이미지

(그림 3) HTML 태그 순서 기반 탐지 제안 기법

2.3 트리 유사도 알고리즘

트리 유사도 비교 분석을 위한 기법은 다음과 같다.

1. TED(Tree Edit Distance)

2. LCS(Longest Common Subsequence)

3. Document Similarity

4. Tree Comparison

5. GNN(Graph Neural Networks)

해외 저작권 침해 사이트의 경우 사이트 내 이미지의 양이 매우 방대하고 유사한 마크업 구조를 가지고 있는 경우가 많아 이미지 태그 부분의 마크업을 기준으로 유사도를 측정하고자 한다. 완전히 일치하지 않지만 유사한 마크업 구조의 유사도를 측정하기 위하여 마크업을 트리로 변환한 후 GNN을 통한 학습 및 유사도를 측정하고자 한다.

\(\begin{align}\text {유사도} =1-\frac{\text { treedistace }\left(T_{1}, T_{2}\right)}{\gamma_{\max }\left(\left|T_{1}\right|+\left|T_{2}\right|\right)}\end{align}\)       (1)

*T1, T2 : 기준 사이트의 Tree구조와 비교대상 사이트의 Tree구조

*γmax:: 두 트리의 최상단 root에서 가장 밑단의 leaf까지의 거리 중 가장 큰 값

*T1, T2 : 기준 사이트의 Tree구조와 비교대상 사이트의 Tree구조

*γmax:: 두 트리의 최상단 root에서 가장 밑단의 leaf까지의 거리 중 가장 큰 값

2.4 Graph Neural Network

GNN(Graph Neural Networks)는 그래프 데이터에 대한 기계 학습을 수행하기 위한 신경망 아키텍쳐로 M. Gori 등[7] 논문에서 최초로 재귀 신경망을 확장한 GNN에 대한 개념이 제시되었다. 그 후 F. Scarselli 등[8] 논문에서 대부분의 실용적인 그래프 유형을 처리할 수 있는 기능과 함수를 제안하였고 해당 개념을 기반으로 Y. Li, D. Tarlow 등[9] 논문에서 그래프 구조화된 입력에 대한 특징 학습 기술을 연구하여 유연하고 널리 사용되는 신경망 모델 클래스를 얻어 성능 최적화를 구현하였다. C. Gallicchio 등[10] 논문에서는 그래프 도메인에 ESN(Echo State Network) 접근법을 일반화한 GraphESN(Graph Echo State Network)를 제안하였다. 위의 제안 연구들은 RecGNN 범주로 분리되며 계산 비용이 많이 들어 여러 연구가 진행중이다. A. Micheli[11] 논문에서 공간 기반 ConvGNN이 등장하였다. 이후 J. Atwood and D. Towsley [12] 논문에서 관계적 노드 분류 작업에서 확률적 관계 모델 및 그래프 커널 기반 방법보다 우수한 성능을 보이는 DCNN(Difusin Convolutional Neural Networks)을 제안하였고 M. Niepert, M. Ahmed 등[13] 논문에서 그래프에 대해CNN(Convoultional Neural Network)을 학습하는프레임워크를 제안하였다. J. Gilmer, S. S. Schoenholz MPNN(Message Passing Neural Networks)이라는 단일 공통 프레임워크로 재정립하고 새로운 변형을 제안한다. 공간기반 외에 스펙트럼 기반 ConvGNN이 존재하며 J. Bruna, W. Zaremba 등[15] 논문에서 스펙트럼 그래프 이론을 기반으로 제안되었다. 이후 스펙트럼 기반 ConvGNN에 대한 연구는 계속 되어 여러 알고리즘이 개발되었다. M. Henaff, J. Bruna[16] 논문에서 스펙트럴 네트워크를 확장하고 그래프 추정 절차를 통합한 방법을 개발하였고 M. Defferrard, X. Bresson 등[17] 논문에서 스펙트럴 그래프 기반 CNN의 개념을 제시한다. T. N. Kipf and M. Welling[18] 논문에서는 그래프 구조 데이터에 대한 확장 가능한 반지도 학습 접근 방식을 제안하며 R. Levie, F. Monti 등[19] 논문에서는 그래프의 주파수 대역에 특화된 스펙트럼 필터를 효율적으로 계산할 수 있는 새로운 유형의 매개변수화된 복소 함수로 구성된 모델을 제안한다.

H. Dai, Z. Kozareva 등[10]의 논문 또한 반복 알고리즘에 대한 임베딩 표현을 제안하고 학습 방법을 설계하여 성능 최적화 관련 연구를 제안한다.

3. 제안 모델

저작권 침해 의심 사이트의 계층 구조를 통한 분석을 위하여 트리 구조 기반 유사도 비교를 진행한다. 텍스트 기반 유사도 비교를 진행하여 정확성을 높이고자 한다. DataSet을 생성하기 위해 해외 검색엔진에서 국내 저작물명을 검색한 후 검색 결과 내 사이트 URL을 목록화 한다. 이외에 해외 저작권 침해 의심사이트로 신고받은 사이트 URL을 해당 국가 목록에 추가한다. URL 목록을 대상으로 하여 정보 수집을 진행한다.

3.1 링크 트리 유사도 비교

저작권 침해 사이트 수집 시 이미지 및 링크 관련사항이 저장되어 있는 a 태그 및 href 속성 기준으로 추출한다. 해외 저작권 침해 의심사이트 및 기준 데이터가 될 기존 침해 사이트 태그를 수집하고 트리 구조로 변경하여 데이터를 생성한다. 수집된 URL별 트리와 평가 기준인 기존 해외 저작권 침해 사이트 트리를 도출한 뒤 GNN을 이용하여 비교 및 유사도를 측정한다. 측정된 유사도를 통해 해당 URL의 저작권 침해 사이트 여부를 판별한다

알고리즘 1 : 저작권 침해 사이트 그래프 편집

JAKO202322843204587_algor 1.png 이미지 

3.2 택스트 유사도 비교

해외 저작권 침해 의심 사이트를 BeaurifulSoup 라이브러리를 사용하여 HTML 내 텍스트 데이터를 추출하여 텍스트 그룹을 생성한다. 해당 텍스트 그룹의 경우 한국어 텍스트가 아닌 다국어로 되어있어 자연어 처리를 위해 gensim 라이브러리를 사용하여 전처리를 진행한다. 이후 도출된 텍스트 그룹과 기존 침해 사이트의 텍스트 그룹과 유사도 알고리즘을 사용하여 비교한다. 유사도 측정 시 사용할 알고리즘에는 TF-IDF와 Cosine Similarity를 사용하여 측정한다. 측정된 유사도를 통해 해당 URL의 저작권 침해 사이트 여부를 판별한다.

SOBTCQ_2023_v23n2_47_4_f0001.png 이미지

(그림 4) 제안 모델 개요

4. 실험 결과

4.1 DataSet

해외 검색엔진 및 의심 사이트로 신고된 URL 8건을 기준으로 탐지 여부를 판단한다. 해당 목록 외에 탐지의 정확도를 판단하기 위하여 Pixabay와 같은 이미지 사이트와 저작물명 검색 시 나온 일반 URL 16건을 추가하여 Dataset을 생성하여 침해 사이트 8건, 정상 사이트 16건으로 총 24건의 Data를 사용하여 진행한다.

실험 시 기준 URL은 기존에 탐지된 중국 저작권 침해 사이트를 기준으로 진행한다.

4.2 링크 트리 유사도 비교

4.2.1 해외 침해 사이트 그래프 변환

SOBTCQ_2023_v23n2_47_5_f0001.png 이미지

(그림 5) 해외 침해 의심사이트(1) 구조

SOBTCQ_2023_v23n2_47_5_f0002.png 이미지

(그림 6) 해외 침해 의심사이트(1) 그래프 변환

SOBTCQ_2023_v23n2_47_5_f0003.png 이미지

(그림 7) 해외 침해 의심사이트(2) 구조

SOBTCQ_2023_v23n2_47_5_f0004.png 이미지

(그림 8) 해외 침해 의심사이트(2) 그래프 변환

SOBTCQ_2023_v23n2_47_5_f0005.png 이미지

(그림 9) 해외 침해 의심사이트(3) 구조

SOBTCQ_2023_v23n2_47_6_f0001.png 이미지

(그림 10) 해외 침해 의심사이트(3) 그래프 변환

4.2.2 링크 트리 유사도 측정 결과

생성한 트리를 통해 GNN 학습 및 유사도 비교 실험 진행 후 해당 결과의 정확도를 계산한다.

\(\begin{align}\text {cosine similarity}=\frac{X \cdot Y}{\|X\|_{2} \cdot\|Y\|_{2}}\\\end{align}\)       (2)

SOBTCQ_2023_v23n2_47_6_f0002.png 이미지

(그림 11) 링크 트리 유사도 측정 과정

<표 1> 링크 트리 유사도 정확도 측정 결과

SOBTCQ_2023_v23n2_47_6_t0001.png 이미지

결과를 통해 계산된 정확도는 87.5%이며 탐지율이 높은 편이나 약간의 오차가 존재한다. 결과 중 오류로 탐지된 1건의 경우 검색엔진에서 탐지되었으나 일반사이트인 경우이다. 이와 같은 오류를 줄이고자 텍스트 유사도 비교를 추가 진행한다.

4.3 텍스트 유사도 비교

생성한 DataSet 기준으로 텍스트 유사도 비교를 위해 HTML 내 텍스트를 추출한다.

- 漫畫首頁

- 首頁

- 日漫

- 熱門漫畫

- 熱門古風漫畫

- 最近更新

추출된 텍스트와 기존 침해사이트 텍스트 기준으로 유사도 측정을 진행한다.

SOBTCQ_2023_v23n2_47_6_f0003.png 이미지

(그림 12) 텍스트 유사도 측정 과정

<표 1> 텍스트 유사도 정확도 측정 결과

SOBTCQ_2023_v23n2_47_6_t0002.png 이미지

결과를 통해 계산된 정확도는 62.5%이며 현재 표본이 작아 정확도가 높은 편은 아니나 기존 링크 트리유사도 비교 오류로 탐지된 일반 사이트의 경우 0.01의 유사도를 보이며 미탐지 되었다.

5. 결론

본 논문에서는 광고 배너 위주의 기존 저작권 침해 의심 사이트 탐지 기법보다 링크 트리와 키워드를 기준으로 이미지 위주의 마크업 구조를 가진 해외 저작권 침해 의심 사이트와 기존 침해 사이트의 유사도를 판별, 탐지하는 기법을 제안한다. 현재 데이터가 적어 프로토타입으로 진행되었고 추후 대량의 데이터를 사용한 검증 진행 예정이다..

해외 저작권 침해 사이트 기준의 탐지 기법을 제안함으로서 최근 지속적으로 문제가 발생하는 한류 콘텐츠에 대한 해외 저작권 침해 사이트의 신속한 조치가 가능할 것으로 예상된다.

References

  1. 한국저작권보호원, "해외 한류콘텐츠 침해 실태조사", 연구보고서, 2023.
  2. 한국저작권보호원, "해외 저작권 보호체계 효율화를 위한방안 연구", 연구보고서, 2022
  3. 김의진. "저작권 침해 의심 데이터 분석을 통한 저작권 침해사이트 탐지 기법." 국내석사학위논문 아주대학교, 2022.
  4. S. K. Choi and J. Kwak, "Feature Analysis and Detection Techniques for Piracy Sites", KSII Transactions on Internet and Information Systems, Vol. 14, No. 5, pp. 2204-2220, May, 2020.
  5. E. J. Kim and J. Kwak, "Intelligent Piracy Site Detection Technique with High Accuracy", KSII Transactions on Internet and Information Systems, Vol. 15, No. 1, pp.285-301, Jan. 2021. https://doi.org/10.3837/tiis.2021.01.016
  6. 이기룡과 이희조, "HTML 태그 순서를 이용한 불법 사이트 탐지 자동화 기술", 정보과학회논문지, vol. 43, no.10, pp 1173-1178, 10 2016. https://doi.org/10.5626/JOK.2016.43.10.1173
  7. M. Gori, G. Monfardini, and F. Scarselli, "A new model for learning in graph domains," in Proceedings. 2005 IEEE International Joint Conference on Neural Networks vol. 2. pp. 729-734, 2005.
  8. F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini, "The Graph Neural Network Model," IEEE Transactions on Neural Networks, vol. 20, no. 1, pp. 61-80, Jan. 2009. https://doi.org/10.1109/TNN.2008.2005605
  9. Y. Li, D. Tarlow, M. Brockschmidt, and R. Zemel, "Gated Graph Sequence Neural Networks." arXiv, Sep. 22, 2017.
  10. C. Gallicchio and A. Micheli, "Graph Echo State Networks," in The 2010 International Joint Conference on Neural Networks (IJCNN), pp. 1-8. Jul. 2010.
  11. C. Gallicchio and A. Micheli, "Graph Echo State Networks," in The 2010 International Joint Conference on Neural Networks (IJCNN),pp. 1-8. Jul. 2010.
  12. J. Atwood and D. Towsley, "Diffusion-Convolu tional Neural Networks." arXiv, Jul. 08, 2016.
  13. M. Niepert, M. Ahmed, and K. Kutzkov, "Learning Convolutional Neural Networks for Graphs." arXiv, Jun. 08, 2016.
  14. J. Gilmer, S. S. Schoenholz, P. F. Riley, O. Vinyals, and G. E. Dahl, "Neural Message Passing for Quantum Chemistry." arXiv, Jun. 12, 2017.
  15. J. Bruna, W. Zaremba, A. Szlam, and Y. LeCun, "Spectral Networks and Locally Connected Networks on Graphs." arXiv, May 21, 2014.
  16. M. Henaff, J. Bruna, and Y. LeCun, "Deep Convolutional Networks on Graph-Structured Data." arXiv, Jun. 16, 2015.
  17. M. Defferrard, X. Bresson, and P. Vandergheynst, "Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering." arXiv, Feb. 05, 2017.
  18. T. N. Kipf and M. Welling, "Semi-Supervised Classification with Graph Convolutional Networks." arXiv, Feb. 22, 2017.
  19. R. Levie, F. Monti, X. Bresson, and M. M. Bronstein, "CayleyNets: Graph Convolutional Neural Networks With Complex Rational Spectral Filters," IEEE Transactions on Signal Processing, vol. 67, no. 1, pp. 97-109, Jan. 2019. https://doi.org/10.1109/TSP.2018.2879624