• 제목/요약/키워드: 분산 인-메모리 프레임워크

검색결과 8건 처리시간 0.027초

쿠버네티스에서 ML 워크로드를 위한 분산 인-메모리 캐싱 방법 (Distributed In-Memory Caching Method for ML Workload in Kubernetes)

  • 윤동현;송석일
    • Journal of Platform Technology
    • /
    • 제11권4호
    • /
    • pp.71-79
    • /
    • 2023
  • 이 논문에서는 기계학습 워크로드의 특징을 분석하고 이를 기반으로 기계학습 워크로드의 성능 향상을 위한 분산 인-메모리 캐싱 기법을 제안한다. 기계학습 워크로드의 핵심은 모델 학습이며 모델 학습은 컴퓨팅 집약적 (Computation Intensive)인 작업이다. 쿠버네티스 기반 클라우드 환경에서 컴퓨팅 프레임워크와 스토리지를 분리한 구조에서 기계학습 워크로드를 수행하는 것은 자원을 효과적으로 할당할 수 있지만, 네트워크 통신을 통해 IO가 수행되야 하므로 지연이 발생할 수 있다. 이 논문에서는 이런 환경에서 수행되는 머신러닝 워크로드의 성능을 향상하기 위한 분산 인-메모리 캐싱 기법을 제안한다. 특히, 제안하는 방법은 쿠버네티스 기반의 머신러닝 파이프라인 관리 도구인 쿠브플로우를 고려하여 머신러닝 워크로드에 필요한 데이터를 분산 인-메모리 캐시에 미리 로드하는 새로운 방법을 제안한다.

  • PDF

SWAT: 분산 인-메모리 시스템 기반 SWRL과 ATMS의 효율적 결합 연구 (SWAT: A Study on the Efficient Integration of SWRL and ATMS based on a Distributed In-Memory System)

  • 전명중;이완곤;바트셀렘;박현규;박영택
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.113-125
    • /
    • 2018
  • 최근 빅데이터의 시대가 도래하여 다양한 분야로부터 다량의 지식을 얻을 수 있다. 수집된 지식은 정형화된 형태의 지식으로 가공하여 표현되며, 그 중 W3C의 온톨로지 표준 언어인 OWL이 대표적인 정형화 표현 형식이다. 이렇게 표현된 대용량의 온톨로지로부터 내재된 정보를 도출하기 위해 다양한 방법의 심볼릭 추론(Symbolic Reasoning) 연구가 활발하게 진행되고 있다. 그러나 대부분의 추론 연구들은 서술논리(Description Logic)표현 기반의 제한적인 규칙표현을 지원하며 실생활 기반의 서비스를 구축하기에는 많은 제약이 따른다. 또한 잘못된 지식으로부터 도출된 결과는 규칙들 사이의 종속관계에 따라 연쇄적으로 잘못된 지식이 생산될 수 있기 때문에 이러한 잘못된 지식에 대한 처리를 위한 지식관리가 필요하다. 따라서 본 논문에서는 해당 문제를 해결하기 위해 SWRL(Semantic Web Rule Language) 기반의 추론과 ATMS(Assumption-based Truth Maintenance System)간의 결합을 통해 새롭게 도출된 지식에 대한 관리를 할 수 있는 SWAT(SWRL + ATMS) 시스템을 제안한다. 또한 이 시스템은 대용량 데이터를 처리하기 위해 분산 인-메모리 프레임워크 기반의 SWRL추론과 ATMS를 병합 구축하였으며 이를 바탕으로 웹 형태의 ATMS 모니터링 시스템을 통하여 사용자가 손쉽게 잘못된 지식을 검색 및 수정할 수 있도록 한다. 본 논문에서 제안하는 방법에 대한 평가를 위해 LUBM(Lehigh University Benchmark)데이터 셋을 사용하였으며, 대용량 데이터에 대한 SWRL 추론과 잘못 추론된 정보에 대한 삭제를 통해 효율적인 추론과 관리가 가능한 결합 방법임을 증명한다.

GPU 클러스터 기반 대용량 온톨로지 추론 (Scalable Ontology Reasoning Using GPU Cluster Approach)

  • 홍진영;전명중;박영택
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.61-70
    • /
    • 2016
  • 근래에 들어 다양한 시멘틱 서비스를 위하여 기존의 지식을 바탕으로 새로운 지식을 고속으로 추론할 수 있는 대용량 온톨로지 추론 기법이 요구되고 있다. 이런 추세에 따라 대규모의 클러스터를 활용하는 하둡 및 Spark 프레임워크 기반의 온톨로지 추론 엔진 개발이 연구되고 있다. 또한, 기존의 CPU에 비해 많은 코어로 구성되어 있는 GPGPU를 활용하는 병렬 프로그래밍 방식도 온톨로지 추론에 활용되고 있다. 앞서 말한 두 가지 방식의 장점을 결합하여, 본 논문에서는 RDFS 대용량 온톨로지 데이터를 인-메모리 기반 프레임워크인 Spark를 통해 분산시키고 GPGPU를 이용하여 분산된 데이터를 고속 추론하는 방법을 제안한다. GPGPU를 통한 온톨로지 추론은 기존의 추론 방식보다 저비용으로 고속 추론을 수행하는 것이 가능하다. 또한 Spark 클러스터의 각 노드를 통하여 대용량 온톨로지 데이터에 대한 부하를 줄일 수 있다. 본 논문에서 제안하는 추론 엔진을 평가하기 위하여 LUBM10, 50, 100, 120에 대해 추론 속도를 실험하였고, 최대 데이터인 LUBM120(약 1백7십만 트리플, 2.1GB)의 실험 결과, 인-메모리(Spark) 추론 엔진 보다 7배 빠른 추론 성능을 보였다.

이미지 검색 시스템을 위한 Spark 기반의 이미지 벡터 추출 기법 (Image Vector Extraction Method using Spark Framework for Image Retrieval System)

  • 김태연;서호진;이영구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.726-729
    • /
    • 2015
  • 최근 네트워크 및 카메라 모듈의 발전으로 인해 생성되는 이미지 데이터의 양이 대용량화 되고 있으며, 이미지 데이터를 이용한 이미지 검색 서비스가 제공되고 있다. 이미지 검색 서비스를 제공하기 위해 이미지 데이터베이스 구축이 요구된다. 효율적인 데이터베이스 구축을 위해 Bow 기법을 이용하여 데이터의 차수를 낮춘 후 이미지 벡터를 저장하는 방식을 사용한다. 그러나 이미지 데이터의 수가 급격히 증가하여 오랜 수행 시간을 요구한다. 본 논문에서 인-메모리 기반 분산 프레임워크인 스파크를 이용한 이미지 벡터 생성 과정을 분산 설계하였다. 실험을 통해 제안하는 분산 처리 기법이 기존방법에 비해 효율적임을 보인다.

하둡 클러스터 기반의 대용량 정성 공간 추론기의 설계 (Design of a Large-Scale Qualitative Spatial Reasoner Based on Hadoop Clusters)

  • 김종환;김종훈;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1316-1319
    • /
    • 2015
  • 본 논문에서는 대규모 분산 병렬 컴퓨팅 환경인 하둡 클러스터 시스템을 이용하여, 공간 객체들 간의 위상 관계를 효율적으로 추론하는 대용량 정성 공간 추론기를 제안한다. 본 논문에서 제안하는 공간 추론기는 추론 작업의 순차성과 반복성을 고려하여, 작업들 간의 디스크 입출력을 최소화할 수 있는 인-메모리 기반의 아파치 스파크 프레임워크를 이용하여 개발하였다. 따라서 본 추론기에서는 추론의 대상이 되는 대용량 공간 지식들을 아파치 스파크의 분산 데이터 집합 형태인 PairRDD와 RDD로 변환하고, 이들에 대한 데이터 오퍼레이션들로 추론 작업들을 구현하였다. 또한, 본 추론기에서는 추론 시간의 많은 부분을 차지하는 이행 관계 추론에 필요한 조합표를 효과적으로 축소함으로써, 공간 추론 작업의 성능을 크게 향상시켰다. 대용량의 공간 지식 베이스를 이용한 성능 분석 실험을 통해, 본 논문에서 제안한 정성 공간 추론기의 높은 성능을 확인할 수 있었다.

분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현 (Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function)

  • 구해모;남창민;이우현;이용재;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.105-112
    • /
    • 2018
  • 데이터의 양이 증가하면서 단일 노드 데이터베이스로는 저장과 처리를 동시에 수행하기에는 부족하다. 따라서, 데이터를 분산시켜 복수 노드로 구성된 분산 데이터베이스에 저장되고 있으며 분석 역시 효율성을 위해 병렬 기능을 제공해야한다. 전통적인 분석 방식은 데이터베이스에서 분석 노드로 데이터를 이동시킨 후 분석을 수행하기 때문에 네트워크의 비용이 발생하며 사용자가 분석을 위해 분석 프레임 워크도 다를 수 있어야한다. 본 연구는 군집화 분석 기법인 K-Means 군집화 알고리즘을 관계형 데이터 베이스와 칼럼 기반 데이터베이스를 이용한 분산 데이터베이스 환경에서 SQL로 구현하는 In-database 분석 함수로의 설계와 구현 그리고 관계형 데이터베이스에서의 성능 최적화 방법을 제안한다.

온톨로지 및 순서 규칙 기반 대용량 스트리밍 미디어 이벤트 인지 (Ontology and Sequential Rule Based Streaming Media Event Recognition)

  • 소치승;박현규;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.470-479
    • /
    • 2016
  • UCC(User Created Contents) 형태의 다양한 영상 미디어 데이터가 증가함에 따라 의미 있는 서비스를 제공하기 위해 많은 분야에서 활발한 연구가 진행 중이다. 그 중 시맨틱 웹 기반의 미디어 분류에 대한 연구가 진행되고 있지만 기존의 미디어 온톨로지는 메타 정보를 이용하기 때문에 정보의 부재에 따른 한계점이 있다. 따라서 본 논문에서는 영상에서 인지되는 객체를 정하고 그 조합으로 구성된 서술 논리 기반의 온톨로지를 구축하고 영상의 장면에 따른 순서 기반의 규칙을 정의하여 이벤트 인지에 대한 기틀을 제안한다. 또한 증가하는 미디어 데이터에 대한 처리를 위해 분산 인-메모리 기반 프레임워크인 아파치 스파크 스트리밍을 이용하여, 영상 분류를 병렬로 처리하는 방법에 대해 설명한다. 유튜브에서 추출한 영상을 대상으로 대용량 미디어 온톨로지 데이터를 생성하고, 이를 이용하여 제시된 기법에 대한 성능 평가를 진행하여 타당성을 입증한다.

GPGPU를 활용한 스파크 기반 공간 연산 (Spatial Computation on Spark Using GPGPU)

  • 손찬승;김대희;박능수
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권8호
    • /
    • pp.181-188
    • /
    • 2016
  • 최근 급격히 증가하는 공간 데이터를 효율적으로 처리하기 위해 많은 연구들이 진행되고 있다. 기존 관계형 데이터베이스 시스템을 확장한 공간 데이터베이스 시스템은 확장성에 대한 문제가 있으며, 분산 처리 플랫폼인 하둡을 확장한 SpatialHadoop은 중간 연산 결과를 디스크에 작성하기 때문에 파일 입출력의 오버헤드로 성능이 저하되는 문제가 있다. 본 논문은 인-메모리 기반 분산 처리 프레임워크인 스파크를 확장한 공간 연산 스파크를 제안하였다. 또한 공간 연산 스파크의 성능을 향상시키기 위하여 GPGPU를 결합한 모델을 개발하였다. 공간 연산 스파크는 중간 연산 결과를 메모리에 유지시키는 스파크의 특징을 그대로 사용하고 있으며, GPGPU 기반 공간 연산 스파크의 경우 다수의 PE를 이용하여 병렬처리하기 때문에 효율적으로 공간 연산을 수행할 수 있다. 본 논문은 단일 AMD 시스템에서 공간 연산 스파크와 GPGPU 기반 공간 연산 스파크를 구현하였다. 공간 연산 스파크와 GPGPU 기반 공간 연산 스파크의 성능을 평가하기 위하여 Point-in-Polygon 연산과 Spatial Join 연산을 수행하였으며, SpatialHadoop에 비하여 최대 8배의 성능 향상을 확인하였다.