A Discriminating Mechanism of Suspected Copyright Infringement Video with Strong Distortion Resistance

Yu, Ho-jei;Kim, Chan-hee;Chung, A-yun;Oh, Soo-hyun;

doi:10.13089/JKIISC.2021.31.3.387

정보보호학회논문지 (Journal of the Korea Institute of Information Security & Cryptology)

제31권3호
/
Pages.387-400
/
2021
/
1598-3986(pISSN)
/
2288-2715(eISSN)

한국정보보호학회 (Korea Institute of Information Security and Cryptology)

DOI QR Code

왜곡 저항력이 강한 저작권 침해 영상 저작물 판별 기법

A Discriminating Mechanism of Suspected Copyright Infringement Video with Strong Distortion Resistance

유호제 (호서대학교) ;
김찬희 (호서대학교) ;
정아윤 (호서대학교) ;
오수현 (호서대학교)

Yu, Ho-jei (Hoseo University) ;
Kim, Chan-hee (Hoseo University) ;
Chung, A-yun (Hoseo University) ;
Oh, Soo-hyun (Hoseo University)

투고 : 2021.02.26
심사 : 2021.04.12
발행 : 2021.06.30

https://doi.org/10.13089/JKIISC.2021.31.3.387 인용 PDF KSCI HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

클라우드 환경의 발전에 따른 스트리밍 플랫폼과 콘텐츠의 증가로 합법적인 콘텐츠뿐만 아니라 불법 복제된 콘텐츠 또한 빠른 속도로 증가하고 있다. 따라서 다양한 콘텐츠에 대한 저작권 침해 여부를 판별할 수 있는 기술의 개발이 요구된다. 한국저작권보호원에서는 AI를 활용한 영상 콘텐츠 실증시스템을 운영하고 있지만, 해상도 변화와 같은 왜곡에 대해 한계점을 가지고 있다. 본 논문에서는 스켈레톤 정보를 활용하여 불법 스트리밍 플랫폼에서 유통 중인 영상 콘텐츠에 대해 왜곡 저항력이 강한 저작권 침해 여부 판단 기술을 제안한다. 제안하는 기법은 빠른 연산을 위해 수집된 데이터를 이진 데이터로 변환하여 원본 영상과의 해밍거리를 계산하는 방법을 사용하였으며, 실험 결과 평균 215KB의 크기와 94.79%의 정확도로 불법 복제 영상물을 판별할 수 있음을 확인하였다.

The increase in number of streaming platforms and contents thereof, owing to an advancement of cloud environment, has triggered the rapid proliferation of illegally replicated contents as well as legal contents. This necessitates the development of technology capable of discriminating the copyright infringement of various contents. The Korea Copyright Protection Agency operates a video content demonstration system using AI, but it has limitations on distortions such as resolution changes. In this paper, we propose the powerful mechanism using skeleton, which is resistant against distorted video contents and capable of discriminating copyright infringement of platforms streaming illegal video contents. The proposed mechanism exploits the calculation of Hamming distance to the original video by converting collected data into binary ones for the efficient calculation. As a result of the experiment, the proposed mechanism have demonstrated the discrimination of illegally replicated video contents with an accuracy of 94.79% and average magnitude of 215KB.

키워드

Ⅰ. 서론

4차 산업혁명의 시작으로 클라우드 서비스와 5G 네트워크 기술이 비약적으로 성장하고 있다. 이를 활용하는 기술 중 콘텐츠를 내려받지 않고 실시간으로 이용할 수 있는 스트리밍 서비스가 있다. 스트리밍 서비스는 인터넷을 통해 각종 미디어 콘텐츠를 제공하는 서비스로 OTT(Over The Top) 서비스라고 불린다. 최근에는 OTT 서비스를 제공하기 위해 넷플릭스와 같은 플랫폼들이 점차 증가하고 있고 이를 이용하는 사람들도 늘어나고 있다[1-3].

과거에는 저장장치에서 콘텐츠를 생성하고 유통하였지만, 현재에는 디지털 미디어 콘텐츠를 제작하고 인터넷으로 유통되는 방식으로 발전했다. 최근 모바일 기기의 보급이 확산함에 따라 디지털 콘텐츠의 제작 및 배포가 빠른 속도로 증가하면서 불법으로 복제된 디지털 콘텐츠 또한 빠르게 증가하고 있다[4-5].

한국저작권보호원에서는 유통 중인 콘텐츠를 효율적으로 관리하기 위하여 온라인 통신망에서 서비스를 제공하는 OSP(Online Service Provider)를 통해 관리하고 있지만, 불법 스트리밍 플랫폼들은 해당 사이트에 있는 광고를 통해 부당한 이익을 얻고 있다[6]. ‘2019 저작권 보호 연차보고서’에 따르면[7], 2018년 기준 콘텐츠별 잠재적 합법저작물 시장 침해율은 영상 콘텐츠가 29.8%로 가장 많은 비중을 차지한다. 저작권 침해 관련 현행 저작권법은 OSP에게 책임을 두고 있지만, 불법 스트리밍 플랫폼을 차단하기 위해서는 침해 행위를 일일이 파악해야 하는 어려운 점이 있다[8].

불법 복제된 영상 콘텐츠의 유통을 방지하기 위한 저작권 침해 콘텐츠를 판별하는 기법으로 워터마크 기반의 핑거프린팅과 특징점 기반의 핑거프린팅이 있다[9-11]. 워터마크 기반의 핑거프린팅은 저작권 정보를 미디어 콘텐츠에 삽입함으로써 저작권 침해를 방지하고 배포자를 추적할 수 있지만, 간단한 왜곡에도 정보를 되찾기 힘들다는 단점이 있다. 특징점 기반의 핑거프린팅은 데이터에서 찾은 특징점을 기준으로 저작권 침해 의심 여부를 판단하여 간단한 왜곡에는 정보의 변형이 없다는 장점을 갖는다. 하지만 최근에는 화면의 화질을 낮추거나 광고 마크를 삽입하는 등 다양한 왜곡을 추가해 기존 저작권 침해 영상 콘텐츠 탐지 기법을 교묘하게 피하고 있어, 저작권을 보호하기 위해 다양한 왜곡에도 저항력을 갖는 불법 영상 콘텐츠 판별 기술에 대한 연구가 필요하다.

본 논문에서는 OpenPose를 활용한 기존 연구에서 비효율적인 특징점 추출로 데이터 크기가 증가하는 문제점을 개선하기 위해 모든 스켈레톤 정보를 수집하는 방법이 아닌, 필요한 정보만 수집하여 특징점 데이터 크기를 줄이고 연산량을 최소화하는 저작권 침해 영상물 판별 메커니즘을 제안한다. 또한, 연산량을 줄이기 위해 원본 영상의 해상도 정규화를 진행하였고, 최소한의 특징점 데이터를 가지고 정확도를 높이기 위해 수집되는 프레임 수와 단일 프레임에서 수집할 수 있는 최대 사람 수를 제한하여 실제 운영되는 불법 스트리밍사이트에서 샘플 영상을 수집 및 검증한다. OpenPose의 경우 해상도 변화에 강한 저항력을 가지고 있고, 좌표를 이진 데이터로 변환하여 연산량을 줄일 수 있는 장점이 있다. 그러므로 제안하는 메커니즘은 증가하고 있는 스트리밍 시장에서 불법 스트리밍 콘텐츠를 빠르게 판별하여 침해 여부를 탐지하는데 효과적일 것으로 생각한다.

Ⅱ. 관련 연구

영상 콘텐츠의 경우 디지털 신호가 가지는 뛰어난 원본 재생 능력 때문에 복제가 쉽다[12]. 워터마크 기반의 핑거프린팅 기법을 사용하는 영상 콘텐츠의 경우 복제가 이루어지면 워터마크가 사라지는 문제가 발생할 수 있어 특징점 기반의 핑거프린팅을 활용한 연구가 진행 중이다[13-15].

2.1 한국저작권보호원의 영상물 침해방지 인공지능 실증시스템

한국저작권보호원에서 영상물 침해방지와 불법 복제를 탐지하기 위한 인공지능 실증시스템을 개발하였다[16]. 영상물 침해방지 실증시스템은 Fig. 1.과 같이 불법 공유되고 있는 영상물에 대해 왜곡 유형을 확인하고 침해 여부를 판단하는 시스템이다.

JBBHCB_2021_v31n3_387_f0001.png 이미지

Fig. 1. Video Demonstration System

영상 저작권 보호를 위해 음성, 텍스트, 얼굴, 마크 식별기술을 적용하여 설계된 실증시스템은 원본이 확보되지 않은 영상 콘텐츠에 대해 빠르게 보호할 수 있고, 영상 필터링 기술 회피를 목적으로 제작 및 유포되는 복합적인 왜곡 영상을 식별하기 위해 영상별 특성에 맞는 특징 데이터를 추출하여 탐지한다. 또한, 복합 ROI(Region Of Interest) 유형, 해상도 변화 등 새로운 유형을 분석하여 모델 설계에 적용하였다. 하지만 영상물 침해방지 실증시스템에서 탐지할 수 없는 경우 모든 불법 복제 저작물을 관리하지 못하는 문제가 발생한다. 이를 해결하기 위해 한국저작권보호원에서는 재택 모니터링 요원을 두고 불법 저작물을 관리하고 있다. Fig. 2.는 한국저작권보호원의 불법 복제물 심의 및 시정 권고 체계로 불법 복제물 조사부터 심의까지 사람이 직접 이행하고 있어 왜곡 영상을 식별하는 실증시스템과 연계할 수 있는 시스템이 필요하다.

JBBHCB_2021_v31n3_387_f0002.png 이미지

Fig. 2. Deliberation System of Illegal Copies

2.2 OpenPose를 활용한 불법 복제 영상 콘텐츠 실증시스템

스켈레톤 정보를 이용하여 두 영상의 유사도를 판별하는 연구는 이전에도 진행되었다[17]. 해당 연구는 CMU Perceptual Computing 연구소의 OpenPose[18]를 통해 영상에서 스켈레톤 정보를 추출하고 이진 좌표를 사용하는 해밍거리를 이용하여 영상의 유사도를 측정하는 실험을 하였다. Fig. 3. 은 이전 연구에서 진행한 왜곡 영상 식별 과정으로 입력 영상으로 왜곡 영상이 들어오는 경우 ROI를 추출하고 OpenPose를 통해 스켈레톤 데이터를 추출한다. 추출된 특징점을 이진 좌표로 정보를 단순화하고 원본 영상과 비교하여 영상의 정보를 찾는다.

JBBHCB_2021_v31n3_387_f0003.png 이미지

Fig. 3. Identification Process of Distorted Video

실험에서는 원본 영상의 정보를 찾기 위해 영상의 모든 정보를 1번씩 확인하여 해밍거리가 가장 낮은 값을 원본 영상이라 판단하였다. 원본 영상과 왜곡 영상 3개를 입력 영상으로 구성하여 해밍거리를 측정한 결과값을 도출하였고, 약 90%의 정확도를 보여주었다. 하지만 입력 영상과 비교 영상의 비효율적인 특징점 데이터 생성으로 인해 데이터 크기가 크고, 연산량이 많아 이를 개선할 필요가 있다.

Ⅲ. 제안하는 탐지 메커니즘

본 논문에서 제안하는 탐지 메커니즘은 먼저 스트리밍 영상 콘텐츠의 왜곡 유형을 분석하여 많이 발생하는 왜곡 유형에 대해 정규화를 진행한다. 정규화된 영상들은 기존 연구처럼 스켈레톤을 추출하지만, 데이터 크기를 최소화하기 위해 사람 수와 프레임 수를 제한하여 수집한다. 마지막으로 이진 좌표로 변환 후 해밍거리 계산을 통해 유사도를 측정하여 저작권 침해 영상을 판별할 수 있다.

3.1 전체 시스템 구성

불법 사이트에서 유통 중인 불법 복제 영상을 판별하기 위해서는 원본 영상에 대한 스켈레톤 정보가 수집되어야 한다. 원본 영상은 다운로드가 가능한 합법 OSP 사이트에서 수집하고 정확도를 위해 해상도를 정규화하여 저장한다. 원본 영상과 비교하기 위한 불법 복제 영상의 경우 유통되는 경로는 불법 OSP 사이트와 합법 스트리밍사이트가 있으며 유통 경로별 특징을 분석하여 영상을 정규화한다.

특징에 맞게 정규화를 진행한 원본 영상과 불법 복제 영상들을 왜곡 저항력이 강한 OpenPose를 통해 스켈레톤 데이터를 추출하고 정확도와 효율성을 만족하는 2가지 규칙을 적용하여 5개의 특징점 블록을 생성한다. 생성된 특징점 블록에는 사람 수를 기준으로 정렬된 프레임이 존재하며 프레임에는 스켈레톤 좌표(X, Y)가 포함되어 있다. 원본 영상들과 불법 복제 영상과의 유사도 분석을 통해 저작권 침해 여부를 판별하기 위해서 특징점 블록에 존재하는 스켈레톤 좌표 간의 거리를 계산해야 한다. 하지만 X, Y 좌표 간의 거리를 비교하기 위해서는 제곱과 제곱근 연산이 필요해 연산 수행 시간이 오래 걸릴 수 있어 효율성이 떨어지게 된다. 본 논문에서는 이를 해결하기 위해 스켈레톤 좌표를 이진 좌표로 변환하여 해밍거리를 계산하게 된다. 이진 좌표를 사용하는 해 밍거리는 덧셈과 나눗셈만 필요하여 X, Y 좌표를 가지고 있는 스켈레톤에 비해 연산속도를 향상할 수 있다. 마지막으로 원본 영상과 해밍거리가 가장 낮은 영상이 원본 영상과 같은 영상으로 판단하게 되며 전체 시스템 구성을 도식화하면 Fig. 4.과 같다.

JBBHCB_2021_v31n3_387_f0004.png 이미지

Fig. 4. System Configuration of the proposed mechanism

3.2 침해 의심 영상 저작물 탐지 메커니즘

침해 의심 영상 저작물을 탐지하고 정확도를 높이기 위해서는 불법 복제 영상에서의 왜곡 유형을 찾아 정규화해야 한다. 이를 위해 불법 복제물이 유통 중인 사이트에서 영상 콘텐츠를 다운로드하여 왜곡 유형을 찾고, 사이트별로 왜곡 유형을 정규화하였다. 또한, 기존 연구의 비효율적인 특징점 데이터 수집을 해결하기 위해 스켈레톤 정보 생성과 특징점 데이터를 생성하는 과정, 원본 영상 콘텐츠와 비교하는 과정을 개선하였다.

3.2.1 불법 OSP의 스트리밍 영상 콘텐츠 특징 분석

불법 영상 콘텐츠의 왜곡 유형을 분석하기 위해 사이트 49개를 대상으로 192개의 영상을 수집하여 특징을 분석하였다. 불법 OSP 사이트에서 발생하는 왜곡 유형은 해상도 변화와 광고 문구 삽입, 외국어 자막 삽입이며 해상도 변화 왜곡 유형이 가장 많이 발견되었다. 해상도 변화 왜곡 유형은 Fig. 5.와 같이 원본 영상의 1920x1080(1080p) 해상도를 특정 해상도로 낮추면서 영상을 유포하고 있다.

JBBHCB_2021_v31n3_387_f0005.png 이미지

Fig. 5. Example of Resolution Change

Table 1.은 수집된 영상을 해상도별로 정리한 표이며 원본 영상이 1080p 해상도를 가지고 있지만 약 86.5%의 영상이 원본 영상보다 낮은 해상도로 유통되고 있고, 270p 해상도를 가진 영상이 최소 해상도를 가지고 있는 것을 확인하였다. 또한, 25%의 영상이 16:9 비율의 해상도가 아닌 일부가 잘린 영상으로 유통되고 있는 것을 확인하였다.

Table 1. Resolution Change in sample data

JBBHCB_2021_v31n3_387_t0001.png 이미지

다음으로 발생하는 왜곡 유형은 영상 외 문구 삽입 유형이다. Fig. 6.와 같이 기존 불법 복제물 탐지 시스템을 무력화하기 위해 영상에 불필요한 마크나 자막을 삽입한다. 하지만 OpenPose의 경우 신체의 일부가 가려져도 스켈레톤을 추출할 수 있어 별도의 정규화를 진행하지 않았다.

JBBHCB_2021_v31n3_387_f0006.png 이미지

Fig. 6. Example of Add Tex

불법 OSP 사이트뿐만 아니라 유튜브와 같은 합법 스트리밍사이트에서도 불법 복제물이 유포되고 있다. 합법 스트리밍사이트에서 발견되는 왜곡 유형은 해상도 변화 유형과 PIP(Picture in Picture) 왜곡 유형으로 PIP 왜곡 유형이 가장 많이 발견된다. PIP 왜곡 유형은 Fig. 7.과 같이 영상 안에 다른 영상을 추가하여 불법 복제물 탐지 시스템을 무력화하는 방법이다. 본 논문에서는 PIP 유형을 탐지하기 위해 YOLO(You Only Look Once) 알고리즘을 사용한다[19]. YOLO는 객체탐지를 위한 딥러닝 기술로 PIP 왜곡 유형이 들어오는 경우 ROI를 검출하여 영상을 정규화한다.

JBBHCB_2021_v31n3_387_f0007.png 이미지

Fig. 7. Example of Picture in Picture

합법 스트리밍사이트에서 발견되는 다른 왜곡 유형은 영상의 일부분이 잘린 유형이다. 해당 유형은 Fig. 8.과 같이 원본 영상의 해상도가 854x480인 경우 800x448처럼 영상의 일부분을 잘라서 유포되고 있다. 잘린 영상 부분은 스켈레톤을 추출하고 이진 좌표로 변환 시 원본 스켈레톤 정보와 다르게 스켈레톤 데이터가 이동할 수 있어 문제가 될 수 있다. 따라서 잘린 영상에 대해서도 해상도 정규화가 필요하다.

JBBHCB_2021_v31n3_387_f0008.png 이미지

Fig. 8. Example of Cropping

3.2.2 관심 영역 추출

PIP 왜곡 유형이 영상에 가해졌을 때 YOLO를 활용하여 원본 영상 부분을 ROI로 잡아 검출하는 시스템을 구성하였다. ROI를 검출하기 위해서는 YOLO 모델의 학습이 필요해 PIP 왜곡 유형의 불법 복제 영상을 수집하였고 영상마다 2프레임씩 추출하여 학습데이터로 사용하였다. 또한, 복합 ROI 유형과 수직 반전, 수평 반전 등 여러 유형을 학습하기 위해 학습데이터를 직접 생성하여 총 300개의 프레임으로 학습을 진행하였다. Fig. 9.는 YOLO 학습에 사용한 데이터셋이다.

JBBHCB_2021_v31n3_387_f0009.png 이미지

Fig. 9. Train Dataset

YOLO는 지도학습 모델을 사용하므로 ROI 라벨링이 필요하다. 라벨링을 생성하기 위해 Darknet에서 제공하는 YOLO Marker를 사용하여 모든 프레임의 ROI를 수동으로 라벨링 후 학습을 진행한다. 또한, 학습 시 과적합을 방지하기 위해 데이터셋 개수의 최대 30배까지 Epoch를 진행하며 생성된 모델을 이용해 프레임의 ROI를 검출한다. ROI를 검출할 때는 YOLO가 검출한 시작좌표(x₁ , y₁)와 끝좌표(x₂ , y₂)의 빈도수를 계산하고 가장 많은 빈도 수를 가지는 좌표를 ROI라고 판단한다. 그 후 해당 좌표를 기준으로 영상을 추출하여 PIP 왜곡 유형을 제거할 수 있다.

3.2.3 스켈레톤 정보 추출

OpenPose에서는 자세 추정 학습모델로 COCO, MPI, BODY25 모델을 제공하고 있다. 본 논문에서는 3가지 모델 중 가장 효율적인 모델을 선택하기 위해 10명이 있는 프레임을 가지고 테스트를 진행하였다. 그 결과 Table 2.와 같이 BODY25 모델이 빠른 연산 시간을 보여주며 1명의 사람에게서 추출할 수 있는 키 포인트 수가 많고 탐지율이 가장 높은 것을 확인하였다. 따라서 본 논문에서는 연산 시간과 정확도를 고려하여 BODY25 모델을 선택하였다.

Table 2. Accuracy Comparison of OpenPose Models

JBBHCB_2021_v31n3_387_t0002.png 이미지

BODY25를 통해 추출된 스켈레톤 정보는 한 사람당 25개의 키 포인트를 얻을 수 있으며 각 키 포인트에는 X 좌표와 Y 좌표, 해당 좌표에 키 포인트가 존재할 확률 정보가 들어가 있다. OpenPose를 사용한 스켈레톤 추출의 경우 낮은 해상도와 높은 해상도의 차이가 없어 불법 OSP 사이트에서 유통되는 불법 복제 영상에 대해서도 스켈레톤을 추출할 수 있다. 하지만 Fig. 10.과 같이 270p 이하의 영상에서 스켈레톤 추출 시 인식하지 못한 스켈레톤 정보가 있는 것을 확인하여 영상을 수집할 때 360p 이상의 해상도를 갖는 영상을 수집해야 한다.

JBBHCB_2021_v31n3_387_f0010.png 이미지

Fig. 10. Comparison between 270p and 1080p

또한, 원본 영상의 최소 해상도는 1080p로 스켈레톤을 추출할 때 영상 데이터의 크기가 매우 크고 많은 소요 시간이 필요해 원본 영상의 해상도를 최소화하였다. Fig. 11.은 원본 영상을 270p, 360p, 480p, 720p로 변환하여 스켈레톤 추출 시간과 프레임에 존재하는 평균 사람 수를 계산한 결과이며 480p와 720p의 사람 수는 비슷하지만, 연산 시간은 480p가 빠르므로 480p가 가장 효율적인 해상도를 보여주고 있다. 따라서 본 논문에서는 원본 영상을 480p로 정규화하고 불법 복제 영상의 정보를 찾는다. 또한, 불법 복제 영상이 480p 이하의 해상도일 때 왜곡 저항력이 강한 OpenPose를 사용하여 비슷한 스켈레톤을 추출할 수 있지만 720p 해상도를 가진 불법 복제 영상의 경우 추출 시간을 줄이기 위해 480p로 정규화하여 스켈레톤 정보를 추출한다.

JBBHCB_2021_v31n3_387_f0011.png 이미지

Fig. 11. Normalization Results for Resolution

3.2.4 특징점 정보 생성

스켈레톤 정보를 영상 전체 프레임으로 잡지 않고 특정 프레임으로 제한하기 위해서는 기준점이 필요하다. 따라서 본 논문에서는 프레임 안에 존재하는 사람 수를 기준점으로 잡고 20%의 오차범위 안에 있는 인접한 프레임끼리 묶어 블록을 생성한다. 이를 도식화하면 Fig. 12.와 같고 첫 프레임의 사람 수(12명)를 기준으로 이후 프레임에 10명부터 14명 사이의 사람이 존재한다면 단일 블록으로 묶는다.

JBBHCB_2021_v31n3_387_f0012.png 이미지

Fig. 12. Generation Process of Single Bloc

특징점 블록을 생성할 때는 평균 사람 수가 가장 많은 블록을 기준으로 상위 5개를 생성하지만 Fig. 13.과 같이 한 프레임에 사람 수가 많은 경우 키 포인트를 이진 좌표로 변경 시 전부 1로 채워질 수 있다. 입력 영상과 비교하는 영상의 특징점 블록이 1로 채워지는 경우 정확도가 떨어지고 연산량이 많아질 수 있다. 따라서 특징점 블록을 생성할 때 최대 사람 수를 제한하여 이진 좌표로 변환 시 모든 정보가 1로 채워지는 것을 방지한다. 또한, 연산 과정을 줄일 수 있어 효율성을 향상할 수 있다.

JBBHCB_2021_v31n3_387_f0013.png 이미지

Fig. 13. Example of a Crowded Frame

본 논문에서는 Table 3.과 같이 28개의 영상에서 특징점 블록을 생성할 때 최대 사람 수 제한을 10명, 15명, 20명으로 테스트하였다. 그 결과 정확도와 연산 시간을 고려했을 때, 최대 15명일 때 특징점 데이터를 생성해야 한다. 하지만, 사람 수만 제한하는 경우 정확도가 떨어지고 연산 시간이 오래 걸리는 것을 확인하였다.

Table 3. Normalization Results for the number of People Counts

JBBHCB_2021_v31n3_387_t0003.png 이미지

사람 수를 15명 이하로 제한하게 되면 특징점 블록 생성 시 단일 블록의 프레임이 최대 300프레임까지 생성되는 것을 확인하였다. 프레임 수가 많으면 연산 과정이 많아지게 되므로 단일 블록의 프레임 수를 제한해야 한다. Table 4.는 28개 영상에서 단일 블록 프레임을 30프레임, 40프레임, 50프레임일 경우 정확도와 연산 시간을 비교한 결과이며 30프레임과 50프레임일 때는 정확도가 낮고 50프레임의 경우 연산 시간이 오래 걸리는 것을 확인하였다. 따라서 40프레임이 가장 효율성이 높은 것을 알 수 있다.

Table 4. Normalization Results for the number of Frame Counts

JBBHCB_2021_v31n3_387_t0004.png 이미지

결과적으로 본 논문에서는 이전 연구보다 효율성을 높이기 위해서 특징점 블록을 생성할 때 최대 15명의 사람 수와 40프레임으로 제한하여 5개의 특징점 블록을 생성하며 Fig. 14.는 5개의 특징점 블록의 생성과정을 도식화한 것이다.

JBBHCB_2021_v31n3_387_f0014.png 이미지

Fig. 14. Generation Process of Feature Block

3.2.5 특징점 정보 이진 좌표 변환

영상에서 추출한 특징점 블록을 이용하여 영상의 유사도를 판별할 수 있는 알고리즘이 필요하다. OpenPose를 사용한 스켈레톤 추출은 X 좌표, Y 좌표를 가지고 있어 2개의 좌표를 비교할 때 유클리드 거리를 사용하여 계산해야 한다. 유클리드 거리를 사용하면 제곱과 제곱근을 사용하여 연산량이 많아져 효율성이 떨어진다.

본 논문에서는 연산량과 데이터 크기를 줄이기 위해서 특징점 블록을 이진 좌표로 변환하여 해밍거리를 구하는 방법을 사용한다. Fig. 15.는 특징점 블록 안에 있는 단일 프레임을 이진 좌표로 변환하는 과정을 보여주며 셀 안에 키 포인트가 있는 경우 1로 변환하고 없는 경우 0으로 변환하여 저장한다.

JBBHCB_2021_v31n3_387_f0015.png 이미지

Fig. 15. Transformation Process of Binary Coordinate

이진 좌표로 변환 시 Fig. 15.는 8x8 행렬을 사용하였지만 높은 정확도와 효율성을 위해 여러 가지 행렬의 크기를 변경하여 테스트하였다. Table 5.는 행렬의 크기가 7x7, 8x8, 9x9일 때 해밍거리와 연산 시간을 계산한 결과이며 8x8과 9x9의 정확도는 92.85%로 같지만, 연산 시간은 약 23.7% 차이가 발생하는 것을 확인하였다. 따라서 8x8 크기의 행렬이 가장 효율성이 높은 것을 확인하였고, 본 논문에서는 스켈레톤 좌표를 8x8 크기의 이진 좌표로 변환하여 해밍거리를 계산한다.

Table 5. Normalization Results for Matrix Sizes

JBBHCB_2021_v31n3_387_t0005.png 이미지

3.2.6 해밍거리를 활용한 특징점 정보 비교

영상의 유사도를 판별하기 위해 특징점 데이터를 이진 좌표로 변환하고 해밍거리를 계산한다. 해밍거리는 2개의 프레임의 이진 좌표를 비교하여 일치하지 않는 좌표의 개수를 계산하며 Fig. 16.과 같이 일치하지 않는 좌표의 합을 나타낸다. 기존 연구에서의 과도한 특징점 데이터 생성 문제점을 해결하기 위해 본 논문에서는 최소한의 특징점 데이터를 생성하였고 최종 해밍거리를 계산할 때 기존 방법이 아닌 새로운 방법을 제안하며 본 절에서 사용하는 표기법은 다음과 같다.

JBBHCB_2021_v31n3_387_f0016.png 이미지

Fig. 16. Hamming Distance Calculation

Ÿ I/C _{block N} : 입력/비교 영상에서 생성한 N 번째 특징점 블록

Ÿ I/C _{frame N} : 특징점 블록의 N 번째 프레임

Ÿ I/C _{person N} : 프레임의 N 번째 스켈레톤

Ÿ R_N : N 번째 해밍거리 임시 결과값

Ÿ MIN(x, y) : 2개의 입력값 중 최소값을 반환

Ÿ AVG(x, y) : 2개의 입력값의 평균값을 반환

JBBHCB_2021_v31n3_387_f0016.png 이미지

Fig. 16. Hamming Distance Calculation

특징점 블록에는 3개의 프레임이 있고, 프레임에는 2명의 사람이 있다고 가정한다. 사람 간의 해밍 거리 계산은 한 사람의 이진 좌표와 비교 대상의 모든 사람을 비교하게 되므로 I_{person 1}과 C_{person 1} , C_{person 2}를 계산한다. 2개의 결과 중 최소값이 I_{person 1}의 해밍거리가 되며 이를 도식화하면 Fig. 17.과 같고 의사 코드로 표현하면 Fig. 18.과 같다.

JBBHCB_2021_v31n3_387_f0017.png 이미지

Fig. 17. Hamming Distance Calculation between People

JBBHCB_2021_v31n3_387_f0018.png 이미지

Fig. 18. Pseudo Code of Hamming Distance Calculation between People

I_{frame 1}의 해밍거리를 구하기 위해 I_{frame 1}의 해밍거리 임시값을 생성하며 I_{person 1}부터 I_{person 2}까지 더한 값에 사람 수 2명을 나눈 값이 임시 해밍거리가 된다. 이를 도식화하면 Fig. 19.와 같다.

JBBHCB_2021_v31n3_387_f0019.png 이미지

Fig. 19. Candidate Hamming Distance Calculation of the Frame

I_{frame 1}과 C_{frame 1}부터 C_{frame 3}까지 Fig. 17.과 같은 과정을 수행하면 I_{frame 1}에는 3개의 임시값이 생성되고 I_{frame 1}의 해밍거리는 임시값 3개의 평균값이 된다. 이를 도식화하면 Fig. 20.과 같다.

JBBHCB_2021_v31n3_387_f0020.png 이미지

Fig. 20. Hamming Distance Calculation of The Frame

I_{frame 1}부터 I_{frame 3}까지 해밍거리를 계산하면 3개의 해밍거리를 얻을 수 있으며, I_{block 1}의 임시 해밍거리는 3개의 해밍거리의 평균값을 계산하여 얻을 수 있다. 이를 도식화하면 Fig. 21과 같다.

JBBHCB_2021_v31n3_387_f0021.png 이미지

Fig. 21. Candidate Hamming Distance Calculation of the Feature Block

C_{block 1}부터 C_{block 5}까지 반복하면 I_{block 1}에는 5개의 임시 해밍거리가 나오게 되며 5개의 해밍거리의 최소값이 I_{block 1}의 해밍거리가 된다. 이를 I_{block 5}까지 반복하면 5개의 해밍거리가 나오며 최종두 영상 간의 해밍거리는 I_{block 1}부터 I_{block 5}까지의 5개 해밍거리의 최소값이 된다. 저작권 침해 영상 저작물을 판별하는 전체 과정을 의사 코드로 표현하면 Fig. 21.과 같다.

JBBHCB_2021_v31n3_387_f0022.png 이미지

Fig. 22. Pseudo Code of Hamming Distance Calculation between Video

Ⅳ. 탐지 테스트 결과

본 논문에서 불법 복제 영상 콘텐츠를 탐지하기 위한 구현 환경은 Table 6.과 같고 데이터셋은 Table 7.과 같이 원본 영상 콘텐츠 50개와 불법 OSP 사이트 49개에서 다운로드받은 불법 복제 영상 180개, 합법 스트리밍사이트에서 다운로드받은 불법 복제 영상 12개를 사용하였다.

Table 6. Experimental Environment

JBBHCB_2021_v31n3_387_t0006.png 이미지

Table 7. Test Dataset

JBBHCB_2021_v31n3_387_t0007.png 이미지

4.1 관심 영역 추출 결과

입력 영상의 다양한 해상도에도 ROI를 검출할 수 있는 모델을 만들기 위해 각 영상을 360p, 480p, 720p로 변환하여 프레임을 추출하였고 라벨링을 진행하였다. 또한, 1,000단위의 Epoch마다 모델을 생성하게 하여 총 6개의 모델을 생성하였으며 학습 결과 Fig. 23.과 같이 1,500번의 Epoch부터 학습 손실률(training loss)이 0.2로 수렴하였다.

JBBHCB_2021_v31n3_387_f0023.png 이미지

Fig. 23. YOLO Training outcomes

ROI 검출 시 모든 프레임을 확인하면 많은 시간이 소요되기 때문에 효율성이 떨어질 수 있어 프레임을 건너뛰면서 찾아야 한다. 따라서 0.3 이하의 학습 손실률을 가진 5,000번째 모델부터 8,000번째 모델까지 4개의 모델에 대한 검증과 동시에 건너뛰는 프레임 수에 대한 테스트를 진행하였다. 검증을 위해 학습에 사용된 영상과는 다른 영상을 사용하였고 수동으로 설정한 ROI 시작좌표(x₁ , y₁), 끝좌표(x₂ , y₂)보다 멀어진 수치를 계산하였다. 검증하는 식은 다음과 같다.

(O_xn ,O_yn ) : Original Coordinates (1)

(V_xn ,V_yn ) : ValidationCoordinates (2)

\(\operatorname{Los} s=\sum_{n=1}^{2}\left(\left|O_{x n}-V_{x n}\right|+\left|O_{y n}-V_{y n}\right|\right)\) (3)

식 1은 원본 ROI 시작좌표(x₁ , y₁)와 끝좌표(x₂ , y₂)를 의미하고 식 2는 YOLO 모델이 추출한 ROI 시작좌표(x₁ , y₁)와 끝좌표(x₂ , y₂)를 의미한다. Fig. 24.는 각 모델과 건너뛰는 프레임 수를 적용하고 식 3의 연산을 통해 나온 결과이며 5,000번째 모델의 검증 손실률(validation loss)이 가장 낮아 855프레임씩 건너뛰면서 ROI를 검출하는 것이 가장 정확도가 높았다.

JBBHCB_2021_v31n3_387_f0024.png 이미지

Fig. 24. YOLO Model validation

5,000번 모델과 855프레임씩 건너뛰면서 ROI를 검출한 결과는 Fig. 25.와 같으며 추출된 ROI 영상의 왜곡 영상이 남아있는 것을 확인하였다. 하지만 추출된 ROI 영상에 대해 스켈레톤을 추출하였을 때는 Fig. 26.과 같이 원본과 차이가 없는 것을 확인하였고 이진 좌표로 변환할 시 동일한 좌표를 가지고 있는 것을 확인하였다.

JBBHCB_2021_v31n3_387_f0025.png 이미지

Fig. 25. Result of ROI extraction

JBBHCB_2021_v31n3_387_f0026.png 이미지

Fig. 26. Comparison of Skeleton in Original Video and ROI Extraction Video

4.2 특징점 블록 크기 결과

본 논문에서는 비효율적인 특징점 데이터 추출로 인한 데이터 크기 증가와 연산 시간 증가를 해결하기 위해 영상의 일부분을 특징점으로 잡고 저작권 침해 영상을 판별하였다. Table 8.은 단일 영상에서 기존 연구와 특징점 데이터 크기를 비교한 결과이며 영상 전체의 스켈레톤 데이터를 특징점으로 잡는 경우 평균 56,498.57KB의 크기를 가지고 있고, 제안하는 메커니즘의 경우 평균 215.32KB의 크기를 가지고 있어 99.62% 감소한 것을 보여준다.

Table 8. Comparison Results of Feature Block Size

JBBHCB_2021_v31n3_387_t0008.png 이미지

Fig. 27.은 최대 사람 수와 최대 프레임 수를 제한하는 경우의 특징점 데이터 크기를 비교한 그래프이며 특징점 데이터가 50KB만 증가하여도 해밍거리 계산 시간이 크게 증가하는 것을 확인하였다. 따라서 전체 영상을 특징점 데이터로 활용하는 경우 효율성이 매우 떨어지는 것을 알 수 있다.

JBBHCB_2021_v31n3_387_f0027.png 이미지

Fig. 27. Comparison Results of Feature Block Size and Running Time by Limit Situation

침해 의심 영상 저작물이 저작권을 침해하는 영상인지 판별하기 위해서 해상도, 사람 수, 프레임 수, 행렬 크기를 제한하고 원본 영상들과 해밍거리를 계산하였다. Table 9.는 실제 유통되고 있는 불법 복제 영상에 대해 저작권 침해 여부를 판별한 결과로 입력 영상의 제목이 원본 영상의 제목이 아닌 임의의 값이나 사이트의 이름이 포함된 것을 알 수 있었고, 제안하는 메커니즘을 통해 원본 영상의 제목을 찾을 수 있었다. 그 결과, 총 192개의 불법 복제 영상에 대해 182개의 영상의 원본 정보를 확인할 수 있었고 94.79%의 탐지율을 보여주었다. 원본 정보를 찾지 못하는 경우는 불법 복제 영상의 해상도가 270p일 때 스켈레톤 데이터를 온전하게 뽑지 못하는 경우와 Fig. 28.과 같이 영상의 도입부에서 사람 수가 많아 특징점 데이터로 사용되는 경우 특정 회차를 알 수 없는 경우가 있다. 회차와 상관없이 원본 정보를 못 찾는 경우 해밍거리는 4.5 이상 나오는 것을 확인하였고 원본 정보를 찾는 경우 1 이하의 해밍거리가 나오는 것을 확인하였다. 따라서 저작권 침해 영상물을 판별할 때 1 이하의 해밍거리가 나온 영상에 대해서 불법 복제물임을 판별한다.

Table 9. Experimental Results

JBBHCB_2021_v31n3_387_t0009.png 이미지

JBBHCB_2021_v31n3_387_f0028.png 이미지

Fig. 28. Example of The Video Having the Same Introduction

불법 복제 영상에 대한 판별 시간은 단일 스레드만 사용하여 판별한 경우를 보여준다. 원본 영상이 50개인 경우 평균 173.17초의 시간을 보여주고 있어 시스템 성능을 높이거나 다중 스레드를 사용하여 효율성을 높일 수 있을 것으로 본다.

기존 방식[17]에서는 판별 속도가 오래 걸려 원본 영상 10개와 입력 영상 프레임을 1/1000, 원본 영상의 프레임을 1/000로 줄여 저작권 침해 영상물을 판별하였다. 그 결과 원본 영상과의 해밍거리는 1.10으로 침해 영상물을 판별하였고 20.88초의 시간이 소요된 것을 확인하였다. 또한, 전체 프레임을 특징점으로 잡는 경우 해밍거리는 2.18로 확인할 수 있지만, 소요 시간은 [17]에서 확인할 수 없었다. 따라서 본 논문과의 비교를 위해 원본 영상 10개와 약 123,300개의 프레임을 가지는 입력 영상을 전체 프레임을 특징점으로 가지는 경우를 테스트하였다. 그 결과 Table 10.과 같이 해밍거리는 크게 차이가 없지만, 특징점 크기와 연산 시간이 약 99% 감소한 것을 확인하였다. 따라서 제안하는 메커니즘이 기존 방식보다 99% 빠르게 저작권 침해 영상 저작물을 판별할 수 있는 장점이 있는 것을 확인할 수 있다.

Table 10. Comparison Results of Existing Mechanism

JBBHCB_2021_v31n3_387_t0010.png 이미지

Ⅴ. 결론

제안하는 메커니즘은 원본 영상을 480p로 정규화하여 최대 15명의 사람과 40프레임을 기준으로 특징점 데이터를 생성하였다. 그 결과 기존 연구 대비 데이터 크기가 99.6% 줄어든 평균 215KB의 크기를 가진 특징점 데이터를 생성하여 94.79%의 탐지율로 저작권 침해 여부를 판별하였다. 이를 통해 증가하고 있는 불법 복제 영상을 빠르게 판별하여 저작권 환경을 보호하는데 효과적일 것으로 생각한다.

다만 실험환경의 제약으로 평균 173.17초의 소요시간을 보여 환경개선 및 알고리즘의 최적화가 필요해 보인다. 따라서 향후에는 다중 스레드를 이용하여 성능을 개선하고 사이트별 영상 수집 및 판별 자동화, 영상에 가할 수 있는 다양한 왜곡 유형을 분석하여 사전에 대처할 수 있도록 연구할 계획이다.

참고문헌

Seong Wook Jung, "Growth of the OTT Platform and changes in the film industry," Master's Thesis, Pusan National University, Aug. 2020.
E. Sundaravel and N. Elangovan, "Emergence and future of over-the-top (OTT) video services in India: an analytical research," International Journal of Business, vol. Management and Social Research, vol. 08, no. 2, pp. 489-499, May 2020.
Yong-kuk Chung and Wei Zhang, "Ef ects of service characteristics of a subscription-based OTT on user satisfaction and continuance intention: evaluation by netflix users," Journal of Korea Contents Association, 20(12), pp. 123-135, Dec. 2020. https://doi.org/10.5392/JKCA.2020.20.12.123
You-jin Song and Seung-in Kim, "The rational regulation of illegal & harmful information in cyberspace," Journal of the Korea Convergence Society, 8(9), pp. 231-236, Sep. 2017. https://doi.org/10.15207/JKCS.2017.8.9.231
Chang-hoon Lee, "Protection of copyright infringement and broadcast content on illegal link sites," Korean Broadcasters Association, (409), pp. 167-188, Jun. 2017.
Yong-seok Yoo and Shin-uk Park, "Expansion phenomena of online service providers' responsibilities and discussion for effective limit setting - focusing on online plattform service provider -," Institute for the Study of Law Dong-A University, (89), pp. 209-236, Nov. 2020.
Korea Copyright Protection Agency, Annual Report on Copyright Protection - As of 2018, A Survey of The Distribution Status of Illegal Copies, Aug. 2019.
Don-yeon Lee, Ji-sub Lee, Soo-jin Lee and Cheol-ho Choi, "Streaming link site and online service provider's infringement of copyright - focused on legal principle of aiding and legislative improvement -," (95), pp. 305-349, Dec. 2019.
W.Y. Yoo, Y.H. Seo, J.G. Choi and J.H. Park, "Technical trends of digial figerprinting & buyer-seller watermarking," Electronics and Telecommunications Research Institute Electronic communication trend analysis, 19(3), pp. 96-106, Jun. 2004.
Kang-hyeon Rhee, "A design on the multimedia fingerprinting code based on feature point for forensic marking," The Institute of Electronics Engineers of Korea - Computer and Information, 48(4), pp. 27-34, Jul. 2011.
Yong-seok Seo, Won-gyum Kim, Seon-hwa Lee, Young-ho Suh and Hwang Chi-Jung, "A study on digital fingerprinting technology for the copyright protection of the image contents printout," The Journal of the Korean Content Society 2006 Annual Conference, 4(2), pp. 242-245, Nov. 2006.
Dae-il Yoon and Hae-kwang Kim, "A study on image fingerprint for illegal copy detection," 2007 Korean Electronics Association Summer Conference, 30(1), pp. 525-526, Jun. 2007.
Kang-hyeon Rhee, "An embedded watermark into multiple lower bitplanes of digital image," The Institute of Electronics Engineers of Korea - Computer and Information, 43(6), pp. 101-109, Nov. 2006.
Heusu Son, Sung-woo Byun and Soek-pil Lee, "Content-based video retrieval for illegal copying contents detection using hashing," The transactions of The Korean Institute of Electrical Engineers, 67(10), pp. 1358-1363, Oct. 2018. https://doi.org/10.5370/KIEE.2018.67.10.1358
Bong-jun Park and Chang-soo Kim, "The software development for preventing video illegal copy of media contents," 2010 Korea Multimedia Association Spring Conference, 13(1), pp. 429-432, May 2010.
Korea Copyright Protection Agency, C STORY, vol. 13, pp. 8-11, Dec. 2018.
Min-chul Kwon, "A study on method for the determination of copyright infringement in internet distributed video," Master's Thesis, Yonsei University, Dec. 2017.
Z. Cao, G. Hidalgo, T. Simon, S. -E. Wei and Y. Sheikh, "OpenPose: realtime multi-Person 2D pose estimation using part affinity fields," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 1, pp. 172-186, Jan. 2021. https://doi.org/10.1109/TPAMI.2019.2929257
Github, "Darknet Yolo v3", www.github.com/AlexeyAB/darknet/tree/darknet_yolo_v3, May. 2020

정보보호학회논문지 (Journal of the Korea Institute of Information Security & Cryptology)

왜곡 저항력이 강한 저작권 침해 영상 저작물 판별 기법

A Discriminating Mechanism of Suspected Copyright Infringement Video with Strong Distortion Resistance

초록

키워드

Ⅰ. 서론

Ⅱ. 관련 연구

2.1 한국저작권보호원의 영상물 침해방지 인공지능 실증시스템

2.2 OpenPose를 활용한 불법 복제 영상 콘텐츠 실증시스템

Ⅲ. 제안하는 탐지 메커니즘

3.1 전체 시스템 구성

3.2 침해 의심 영상 저작물 탐지 메커니즘

3.2.1 불법 OSP의 스트리밍 영상 콘텐츠 특징 분석

3.2.2 관심 영역 추출

3.2.3 스켈레톤 정보 추출

3.2.4 특징점 정보 생성

3.2.5 특징점 정보 이진 좌표 변환

3.2.6 해밍거리를 활용한 특징점 정보 비교

Ⅳ. 탐지 테스트 결과

4.1 관심 영역 추출 결과

4.2 특징점 블록 크기 결과

4.3 저작권 침해 영상 저작물 판별 결과

Ⅴ. 결론

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)