Acknowledgement
본 연구는 문화체육관광부 및 한국콘텐츠진흥원의 2023년도 문화기술 연구개발 사업으로 수행되었음(과제명 : OTT 콘텐츠 저작권 보호 기술 개발 및 적용을 위한 저작권기술(+법) 융합인재양성, 과제번호 : RS-2023-00225267)
DOI QR Code
Spark는 대용량의 데이터를 처리를 위해 분산된 데이터를 네트워크로 모은 다음, 데이터를 분할하는 작업인 Shuffle을 진행한다. 이때 Spark 클러스터의 어느 한 노드의 네트워크 전송 속도가 느릴 경우 병목 현상으로 인한 전체 처리 성능이 저하된다. 이에 본 논문에서는 네트워크 병목 현상을 예방하기 위한 클러스터 구성 방법을 제안한다. 본 논문에서 제안하는 노드 선택 시스템은 iperf 도구를 이용해 노드들의 대역폭을 측정하고 이에 따라 노드 선택 알고리즘을 통해 클러스터를 구성한다. 기존 Spark 클러스터와 본 논문이 제안하는 시스템으로 구성한 클러스터를 비교했을 때, 250MB 로그 파일을 제외하고 750MB 로그 파일부터는 네트워크 전송 속도가 낮은 노드를 가지고 있는 클러스터의 성능이 병목 현상으로 인해 느려졌다. 본 논문의 제안에 따라 노드들의 네트워크 전송 속도를 고려하여 클러스터를 구성하면 네트워크 전송 속도로 발생하는 병목 현상을 예방할 수 있다.
본 연구는 문화체육관광부 및 한국콘텐츠진흥원의 2023년도 문화기술 연구개발 사업으로 수행되었음(과제명 : OTT 콘텐츠 저작권 보호 기술 개발 및 적용을 위한 저작권기술(+법) 융합인재양성, 과제번호 : RS-2023-00225267)