• 제목/요약/키워드: computation-intensive

검색결과 108건 처리시간 0.027초

쿠버네티스에서 ML 워크로드를 위한 분산 인-메모리 캐싱 방법 (Distributed In-Memory Caching Method for ML Workload in Kubernetes)

  • 윤동현;송석일
    • Journal of Platform Technology
    • /
    • 제11권4호
    • /
    • pp.71-79
    • /
    • 2023
  • 이 논문에서는 기계학습 워크로드의 특징을 분석하고 이를 기반으로 기계학습 워크로드의 성능 향상을 위한 분산 인-메모리 캐싱 기법을 제안한다. 기계학습 워크로드의 핵심은 모델 학습이며 모델 학습은 컴퓨팅 집약적 (Computation Intensive)인 작업이다. 쿠버네티스 기반 클라우드 환경에서 컴퓨팅 프레임워크와 스토리지를 분리한 구조에서 기계학습 워크로드를 수행하는 것은 자원을 효과적으로 할당할 수 있지만, 네트워크 통신을 통해 IO가 수행되야 하므로 지연이 발생할 수 있다. 이 논문에서는 이런 환경에서 수행되는 머신러닝 워크로드의 성능을 향상하기 위한 분산 인-메모리 캐싱 기법을 제안한다. 특히, 제안하는 방법은 쿠버네티스 기반의 머신러닝 파이프라인 관리 도구인 쿠브플로우를 고려하여 머신러닝 워크로드에 필요한 데이터를 분산 인-메모리 캐시에 미리 로드하는 새로운 방법을 제안한다.

  • PDF

On the computation of low-subsonic turbulent pipe flow noise with a hybrid LES/LPCE method

  • Hwang, Seungtae;Moon, Young J.
    • International Journal of Aeronautical and Space Sciences
    • /
    • 제18권1호
    • /
    • pp.48-55
    • /
    • 2017
  • Aeroacoustic computation of a fully-developed turbulent pipe flow at $Re_{\tau}=175$ and M = 0.1 is conducted by LES/LPCE hybrid method. The generation and propagation of acoustic waves are computed by solving the linearized perturbed compressible equations (LPCE), with acoustic source DP(x,t)/Dt attained by the incompressible large eddy simulation (LES). The computed acoustic power spectral density is closely compared with the wall shear-stress dipole source of a turbulent channel flow at $Re_{\tau}=175$. A constant decaying rate of the acoustic power spectrum, $f^{-8/5}$ is found to be related to the turbulent bursts of the correlated longitudinal structures such as hairpin vortex and their merged structures (or hairpin packets). The power spectra of the streamwise velocity fluctuations across the turbulent boundary layer indicate that the most intensive noise at ${\omega}^+$ < 0.1 is produced in the buffer layer with fluctuations of the longitudinal structures ($k_zR$ < 1.5).

다중 참조 영상 움직임 추정을 위한 고속 전역탐색법 (A fast full search algorithm for multiple reference image motion estimation)

  • 강현수;박성모
    • 대한전자공학회논문지SP
    • /
    • 제43권1호
    • /
    • pp.1-8
    • /
    • 2006
  • 본 논문은 다중 참조영상(multiple reference image)에 적용 가능한 새로운 고속 전역탐색 움직임 추정 기법을 제안한다. 제안된 방법은 기존의 비트율을 고려한 연속제거알고리즘(rate constrained successive elimination algorithm: RSEA)을 다중 참조영상에 확대 적용하는 방법이다. 첫 번째 참조영상에 대한 움직임 추정의 계산량에 비해 그 이후 참조영상에 대한 움직임 추정의 계산량이 적어질 수 있음을 보일 것이다. 계산량 감축을 위해, 본 논문에서 최적 움직임 벡터의 후보 블록의 개수를 감소시킬 수 있는 새로운 조건을 소개한다. 실험 결과을 통해 제안된 방법이 기존의 RSEA과 동일한 움직임 추정오차를 가지면서도 계산량을 감소시킴을 보일 것이다.

A Scalable Heuristic for Pickup-and-Delivery of Splittable Loads and Its Application to Military Cargo-Plane Routing

  • Park, Myoung-Ju;Lee, Moon-Gul
    • Management Science and Financial Engineering
    • /
    • 제18권1호
    • /
    • pp.27-37
    • /
    • 2012
  • This paper is motivated by a military cargo-plane routing problem which is a pickup-and-delivery problem in which load splits and node revisits are allowed (PDPLS). Although this recent evolution of a VRP-model enhances the efficiency of routing, a solution method is more of a challenge since the node revisits entail closed walks in modeling vehicle routes. For such a case, even a compact IP-formulation is not available and an effective method had been lacking until Nowak et al. (2008b) proposed a heuristic based on a tabu search. Their method provides very reasonable solu-tions as demonstrated by the experiments not only in their paper (Nowak et al., 2008b) but also in ours. However, the computation time seems intensive especially for the class of problems with dynamic transportation requests, including the military cargo-plane routing problem. This paper proposes a more scalable algorithm hybridizing a tabu search for pricing subproblem paused as a single-vehicle routing problem, with a column generation approach based on Dantzig-Wolfe decomposition. As tested on a wide variety of instances, our algorithm produces, in average, a solution of an equiva-lent quality in 10~20% of the computation time of the previous method.

선형 제약 조건화를 통한 내쉬 협상 해법 기반 효율적 자원 할당 방법 (Efficient Resource Allocation Strategies Based on Nash Bargaining Solution with Linearized Constraints)

  • 최지수;정승현;박형곤
    • 전기학회논문지
    • /
    • 제65권3호
    • /
    • pp.463-468
    • /
    • 2016
  • The overall performance of multiuser systems significantly depends on how effectively and fairly manage resources shared by them. The efficient resource management strategies are even more important for multimedia users since multimedia data is delay-sensitive and massive. In this paper, we focus on resource allocation based on a game-theoretic approach, referred to as Nash bargaining solution (NBS), to provide a quality of service (QoS) guarantee for each user. While the NBS has been known as a fair and optimal resource management strategy, it is challenging to find the NBS efficiently due to the computationally-intensive task. In order to reduce the computation requirements for NBS, we propose an approach that requires significantly low complexity even when networks consist of a large number of users and a large amount of resources. The proposed approach linearizes utility functions of each user and formulates the problem of finding NBS as a convex optimization, leading to nearly-optimal solution with significantly reduced computation complexity. Simulation results confirm the effectiveness of the proposed approach.

Performance analysis of local exit for distributed deep neural networks over cloud and edge computing

  • Lee, Changsik;Hong, Seungwoo;Hong, Sungback;Kim, Taeyeon
    • ETRI Journal
    • /
    • 제42권5호
    • /
    • pp.658-668
    • /
    • 2020
  • In edge computing, most procedures, including data collection, data processing, and service provision, are handled at edge nodes and not in the central cloud. This decreases the processing burden on the central cloud, enabling fast responses to end-device service requests in addition to reducing bandwidth consumption. However, edge nodes have restricted computing, storage, and energy resources to support computation-intensive tasks such as processing deep neural network (DNN) inference. In this study, we analyze the effect of models with single and multiple local exits on DNN inference in an edge-computing environment. Our test results show that a single-exit model performs better with respect to the number of local exited samples, inference accuracy, and inference latency than a multi-exit model at all exit points. These results signify that higher accuracy can be achieved with less computation when a single-exit model is adopted. In edge computing infrastructure, it is therefore more efficient to adopt a DNN model with only one or a few exit points to provide a fast and reliable inference service.

HTML5 캔버스를 활용하는 웹 어플리케이션의 스냅샷 기반 연산 오프로딩 (Snapshot-Based Offloading for Web Applications with HTML5 Canvas)

  • 정인창;정혁진;문수묵
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.871-877
    • /
    • 2017
  • 최근 모바일 기기와 같이 하드웨어 성능이 부족한 기기에서 연산량이 많은 어플리케이션을 효과적으로 수행할 수 있는 방법들이 많이 연구되고 있다. 연산 오프로딩 기법이란 모바일 기기에서 하드웨어 성능이 좋은 서버로 복잡한 연산을 보내서 수행 한 뒤 결과를 받아서 반영하는 방법이다. 연산 오프로딩 기법의 어려움 중 하나는 서버와 클라이언트 사이에서 동작 중인 어플리케이션의 상태를 주고받는 일이다. 스냅샷 기반의 연산 오프로딩 기법은 스냅샷을 이용하여 웹 어플리케이션의 상태를 쉽게 전송할 수 있도록 하였다. 하지만 HTML5 캔버스를 사용하는 웹 어플리케이션의 경우 스냅샷이 캔버스의 상태를 포함하지 못하는 문제가 있어서 스냅샷 기반의 연산 오프로딩을 적용할 수 없었다. 본 연구에서는 스냅샷에 캔버스의 상태를 저장할 수 있는 코드 생성 기술을 제안하여 캔버스를 사용하는 웹 어플리케이션에도 스냅샷 기반 연산 오프로딩 기법을 사용할 수 있도록 하였다.

이동통신 단말기를 위한 재구성 가능한 구조의 H.264 인코더의 움직임 추정기와 3차원 그래픽 렌더링 가속기 설계 (Reconfigurable Architecture Design for H.264 Motion Estimation and 3D Graphics Rendering of Mobile Applications)

  • 박정애;윤미선;신현철
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권1호
    • /
    • pp.10-18
    • /
    • 2007
  • 휴대용 단말기에서의 동영상 및 3차원 영상을 처리하는 것이 일반화되면서, H.264 및 3차원 그래픽 가속기 데이타를 처리하기 위한 연산량이 크게 증가하고 있다. 본 연구에서는 H.264 인코더의 움직임 추정기 및 디코더의 움직임 보상기와 3차원 그래픽 렌더링 가속기를 재구성 가능하도록 설계하였다. 움직임 추정기는 효율적인 데이타 스캐닝 방법과 DAU, FDVS 알고리즘을 사용하여, JM8.2에 제시된 다중 프레임 움직임 추정보다 연산량을 평균적으로 70% 이상 감소시키면서 화질 열화가 없도록 하였다. 3차원 그래픽 렌더링 가속기는 중심선 트래버셜 알고리즘을 사용하여 병렬 처리하도록 함으로써 처리량을 증가시켰다. 움직임 추정기와 3차원 렌더링 가속기의 메모리를 재구성 가능한 구조로 설계하여, 2.4Mbits (47%)의 메모리를 공유하였으며, 메모리를 8개의 블록으로 분산시켜 사용되지 않는 부분의 전력 소모를 최소화 할 수 있도록 하였다. 또한, 움직임 보상기와 3차원 렌더링 가속기의 픽셀 프로세서를 공유하여 약 7%의 하드웨어면적을 감소 시켰다.

MDCT/IMDCT의 계산 복잡도를 개선하기 위한 효율적인 알고리즘 (An Efficient Algorithm for Improving Calculation Complexity of the MDCT/IMDCT)

  • 조양기;이원표;김희석
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.106-113
    • /
    • 2003
  • Modified Discrete Cosine Transform (MDCT)와 역변환인 IMDCT는 서브밴드 및 변환 코딩 기법에서 시간 영역 에일리어징 제거(Time Domain Aliasing Cancellation)를 기반으로 하는 분석/합성 필터 뱅크로서 채택되고 있으며, MPEG 오디오 표준의 레이어-Ⅲ에서 가장 많은 연산 량을 필요로 한다 본 논문에서는 MDCT/IMDCT를 효율적으로 계산할 수 있는 새로운 알고리즘을 제안하였다. 제안한 알고리즘은 DCT를 이용하여 MDCT/IMDCT를 계산하는 알고리즘에 기반을 두고 있기 때문에, MDCT/IMDCT 계산을 위해 두 개의 DCT-Ⅱ를 이용한다. 더불어, 제안한 알고리즘은 4로 나누어지는 길이의 입력을 갖는 MDCT/IMDCT의 계산에도 적용할 수 있다. 제안한 알고리즘은 계산 복잡도 면에서 기존의 알고리즘들과 비교하여 적은 계산 량을 필요로 하며, 구조적인 면에서 병렬적인 구조로 나타낼 수 있기 때문에, VLSI 구현에 매우 적합하다.

향상된 재구성능력을 가진 고속 어레이 구조 (Fast Array Architecture with Improved Reconfigurability)

  • 이재익;김진상;조원경;김영수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 하계종합학술대회 논문집(2)
    • /
    • pp.451-454
    • /
    • 2004
  • The reconfigurable architecture is increasingly important for design of multi-mode communication systems and computation-intensive DSP systems. The proposed coarse-grain architecture is based on a reconfigurable processing element consisting of a MAC unit, a register file, a context data register, and PE interconnect control blocks. The main feature of the Proposed architecture is the loop context which enables faster configuration. Also, we propose another area-efficient reconfigurable architecture with improved reconfigurability. The SystemC modeling results show that the proposed architecture can reduce 9 clock cycles of 2D DCT compared to existing architectures.

  • PDF