• 제목/요약/키워드: CPU bandwidth

검색결과 77건 처리시간 0.026초

GPU 에서의 고속 스테레오 정합을 위한 메모리 효율적인 Belief Propagation (Memory-Efficient Belief Propagation for Stereo Matching on GPU)

  • 최영규;윌리엄;박인규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 추계학술대회
    • /
    • pp.52-53
    • /
    • 2012
  • Belief propagation (BP) is a commonly used global energy minimization algorithm for solving stereo matching problem in 3D reconstruction. However, it requires large memory bandwidth and data size. In this paper, we propose a novel memory-efficient algorithm of BP in stereo matching on the Graphics Processing Units (GPU). The data size and transfer bandwidth are significantly reduced by storing only a part of the whole message. In order to maintain the accuracy of the matching result, the local messages are reconstructed using shared memory available in GPU. Experimental result shows that there is almost an order of reduction in the global memory consumption, and 21 to 46% saving in memory bandwidth when compared to the conventional algorithm. The implementation result on a recent GPU shows that we can obtain 22.8 times speedup in execution time compared to the execution on CPU.

  • PDF

고성능 PC 클러스터 시스템을 위한 VIA 기반 RDMA 메커니즘 구현 (A VIA-based RDMA Mechanism for High Performance PC Cluster Systems)

  • 정인형;정상화;박세진
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권11호
    • /
    • pp.635-642
    • /
    • 2004
  • PC 클러스터 상에서 기존의 TCP/IP와 같은 통신 프로토콜의 높은 소프트웨어 오버헤드를 제거하기 위한 노력으로 산업계 표준으로 Virtual Interface Architecture(VIA)가 제안되었다. VIA가 제공하는 통신 방식중, Remote Direct Memory Access(RDMA) 방식은 커널과 리모트 노드의 개입 없이 통신을 가능하게 함으로써 PC 클러스터 시스템에 효율적인 통신 방법을 제공한다. 본 논문에서는 VIA 기반 RDMA 메커니즘을 하드웨어로 구현하였다. 일반적인 송수신방식과 비교하여 본 논문에서 구현한 RDMA 메커니즘은 커널의 개입 없이 무복사 통신을 가능하게 하며, 또한 리모트 노드의 CPU의 사용 없이 통신을 수행할 수 있다. 실험결과, RDMA를 하드웨어 VIA 기반 네트워크 어댑터상에 구현함으로써 최소 12.5${\mu}\textrm{s}$의 지연시간, 최대 95.5MB/s의 대역폭을 얻을 수 있었다. 결과적으로 본 논문에서 구현한 VIA 기반 RDAM 메커니즘은 PC 클러스터 시스템에 효율적인 통신 방법을 제공한다.

모바일 멀티플레이어 게임을 위한 하이브리드 클라이언트-서버 구조의 대역폭 요건과 우선순위 기반 동기화 기법 (Bandwidth Requirement and Priority-based Synchronization Methods in Hybrid Client-Server Architecture for Mobile Multiplayer Games)

  • 김진환
    • 한국멀티미디어학회논문지
    • /
    • 제17권4호
    • /
    • pp.526-534
    • /
    • 2014
  • Most of the multiplayer games available online are based on a client-server architecture because this architecture gives better administration control to the game providers than peer-to-peer architecture. In this architecture, the server is responsible for all the communication between the connected clients. The weakness of this architecture is its bandwidth requirement and scalability. Peer-to-peer architectures have then been proposed to solve these issues. In this paper, we propose a hybrid client-server architecture in which the game state is partially shared by the mobile terminal to achieve consistency among different players. Like a peer-to-peer architecture, this architecture uses client-side capacities to reduce bandwidth requirements for the server and improves consistency in wireless networks. Client events have different timeliness and consistency requirements according to their nature in the game world. These requirements lead to tasks with different priorities on CPU processing. In the proposed architecture, either the server or the client applies consistency mechanism according to the priority level. Simulation experiments show that the bandwidth of the server in this architecture is smaller than that of the client-server architecture. As a result, the server in the proposed architecture can accommodate more clients with enhancing the scalability.

Implementing I/O Bandwidth Sharing Scheme between Multiple Linux Containers based on Dm-zoned for Zoned Namespace SSDs

  • Seokjun Lee;Sungyong Ahn
    • International journal of advanced smart convergence
    • /
    • 제12권4호
    • /
    • pp.237-245
    • /
    • 2023
  • In the cloud service, system resource such as CPU, memory, I/O bandwidth are shared among multiple users. Particularly, in Linux containers environment, I/O bandwidth is distributed in proportion to the weight of each container through the BFQ I/O scheduler. However, since the I/O scheduler can only be applied to conventional block storage devices, it cannot be applied to Zoned Namespace(ZNS) SSD, a new storage interface that has been recently studied. To overcome this limitation, in this paper, we implemented a weighted proportional I/O bandwidth sharing scheme for ZNS SSDs in dm-zoned, which emulates conventional block storage using ZNS SSDs. Each user receives a different amount of budget, which is required to process the user's I/O requests based on the user's weight. If the budget is exhausted I/O requests cannot be processed and requests are queued until the budget replenished. Each budget refill period, the budget is replenished based on the user's weight. In the experiment, as a result, we can confirm that the I/O bandwidth can be distributed on their weight as we expected.

Hadoop 기반 분산 컴퓨팅 환경에서 네트워크 I/O의 성능개선을 위한 TIPC의 적용과 분석 (Applying TIPC Protocol for Increasing Network Performance in Hadoop-based Distributed Computing Environment)

  • 유대현;정상화;김태훈
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권5호
    • /
    • pp.351-359
    • /
    • 2009
  • 최근 인터넷 서비스 기반의 데이터는 대용량화되고 있으며 대용량 데이터를 효과적으로 처리할 수 있는 구글 플랫폼, Apache Hadoop과 같은 플랫폼 기술이 각광받고 있다. 이러한 플랫폼에서는 분산 프로그래밍을 위한 기법으로 MapReduce가 수행되며, 이 과정에서 각 태스크의 결과를 전달하기 위한 네트워크 I/O의 부하 문제가 발생한다. 본 논문에서는 구글 플랫폼, Hadoop과 같은 대규모 PC 클러스터상의 분산 컴퓨팅 환경에서 네트워킹 부하를 경감하고 성능을 향상시키는 방안으로 TIPC(Transparent Inter-Process Communication)의 적용을 제안한다. TIPC는 경량화된 연결설정 및 스택 크기, 계층적 주소체계로 인해 TCP보다 가볍고 CPU 부하가 적은 장점을 가지고 있다. 본 논문에서는 Hadoop 기반 분산 컴퓨팅 환경의 특징을 분석하여 그와 유사한 실험환경을 모델화하고 다양한 프로토콜의 비교실험을 수행하였다. 실험결과 평균 전송률에서 CUBIC-TCP, SCTP와 비교해 TIPC의 성능이 가장 우수하였으며, TIPC는 CPU 점유율 측면에서 TCP와 비교해 최대 15%의 낮은 CPU 점유율을 보였다.

MPEG 동영상 전송을 위한 GOP 단위의 최소 변경 대역폭 할당 기법 (Minimum Variable Bandwidth Allocation over Group of Pictures for MPEG Video Transmission)

  • 곽준원;이면재;송하윤;박도순
    • 정보처리학회논문지C
    • /
    • 제9C권5호
    • /
    • pp.679-686
    • /
    • 2002
  • 비디오 서버에서 압축된 형태로 저장된 비디오 데이터를 화질의 저하 없이 클라이언트로 전송하기 위해서는 프레임당 대역폭을 일정하게 조절하는 방법이 필요하다. 이에 스무딩 기법은 프레임당 비트수가 다른 가변 비트율(VBR : Variable Bit Rate)을 가진 비디오 스트림을 일련의 고정된 전송률로 전송하는 방법이다. 본 논문에서는 비디오 서버에 저장된 비디오 스트림을 클라이언트측으로 전송할 경우 최소의 대역폭과 전송률 변화 횟수를 가지며 비디오 서버의 CPU 오버헤드를 최소화하는 스무딩 알고리즘을 제시한다. 제시된 알고리즘의 효용성을 증명하기 위해 기존의 다른 스무딩 알고리즘들과 다양한 환경에서 비친 분석하였다.

기가비트 네트워크 지원을 위한 TOE 기반 IPSec 시스템 (The IPSec Systems on TOE for Gigabit Network)

  • 신치훈;김선욱;박경;김성운
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.1035-1038
    • /
    • 2005
  • This paper describes the designs and the implementations of two H/W IPSec Systems, look-aside and inline, on TOE (Transport Offloading Engine). These systems aim for guaranteeing the security of datagram networks while preserving the bandwidth of gigabit networks. The TOE offloads a host CPU from network burdens, so that it makes the gigabit wire speed possible, and then deeper level security architecture of the IPSec guarantees the security of gigabit service network dominated by datagram packets. The focus of this paper is to minimize the TOE's performance degradation caused by the computation-oriented IPSec. The look-aside IPSec system provides a significant improvement in the CPU offload of the IPSec cryptography loads. However, the inline system completely offloads the host CPU from whole IPSec loads, providing significant additional cost saving compared to the look-aside system. In this paper, the implementations of TOE cards including commercial IPSec processors are presented. As the result of performance evaluation with the protocol analyzer, we can get the fact that the inline IPSec system is 8 times faster than the S/W system and 2 times faster than the look-aside system.

  • PDF

CUDA 를 이용한 가상 객체들간의 병렬 충돌 검사 알고리즘 (Parallel Intersection Detection Algorithm using CUDA)

  • 이연희;김영준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.451-455
    • /
    • 2008
  • CUDA 는 GPGPU 프로그래밍을 위해 nVIDIA 사에서 개발한 병렬 처리 프로그래밍 개발환경이다. 본 논문에서는 가상 객체들 간의 삼각형 충돌 검사 부분을 CUDA 를 이용해 병렬적으로 구현하였다. 삼각형 충돌 검사는 실시간 충돌 검사 시 주요 병목현상을 일으키는 부분이다. 하지만 CPU 와 GPU 간의 데이터 전송 지연 문제 때문에 기존의 오브젝트 스페이스상의 GPU 기반의 충돌 검사 방법으로는 이 병목현상을 해결하기 어려웠다. 그러나 데이터 전송 지연 문제를 크게 완화시킨 CUDA 를 이용해 데이터 전송에 소모되는 비용을 줄이고 또한 삼각형 충돌 검사를 병렬적으로 수행함으로써 가상 객체를 형성하는 삼각형 집합들의 충돌검사 알고리즘의 성능을 크게 향상시킬 수 있었다.

  • PDF

InfiniBand RDMA 기반 Apache Storm의 네트워크 구조 설계 (Design of InfiniBand RDMA-based Network Structure of Apache Storm)

  • 양석우;손시운;최성윤;최미정;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.679-681
    • /
    • 2017
  • Apache Storm은 대용량 데이터 스트림을 처리하기 위한 실시간 분산 병렬 처리 프레임워크이며, 이를 사용해 다수의 프로세스 및 스레드를 동시에 동작시킬 수 있다. 하지만, 이러한 멀티 프로세스 및 스레드 환경을 제공하는 Storm은 많은 네트워크 시스템 호출을 수행하고, 이는 잦은 문맥 전환(context switch), 운영체제로의 버퍼 복사, 운영체제 내의 버퍼 복사 등으로 인해 CPU 과부하 문제를 발생시킬 수 있다. 이러한 문제는 고성능 네트워크 장비인 InfiniBand의 IPoIB(IP over InfiniBand) 통신을 사용할 때, InfiniBand가 지원하는 대역폭(bandwidth) 대비 저용량 데이터의 송수신으로 인해 더 잦은 문맥 전환과 버퍼 복사가 발생하여 CPU 과부하 문제가 더욱 심각해진다. 따라서, 본 논문에서는 InfiniBand의 RDMA(Remote Direct Memory Access)를 Storm에 적용하는 설계안을 제시함으로써 CPU 과부하 문제를 해결한다.

GPU 기반의 MPEG-2 디코더의 구현 (Implementation of GPU based MPEG-2 Decoder)

  • 김경수;김홍식;김정길;박우찬
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권3호
    • /
    • pp.371-377
    • /
    • 2008
  • 최근 GPU 성능은 CPU 성장 속도에 비하여 급속도로 증가하고 있으며 계산이 많이 요구되는 다양한 응용 프로그램에서 GPU를 이용하려는 시도가 활발히 진행되고 있다. 본 논문에서는 GPU 프로그래밍 언어인 CG를 이용하여 MPEG-2 디코더를 구현하였다. 제안된 방법은 텍스쳐 데이터를 사용하여 비디오 표준에 맞춘 블록 렌더링을 하는 방식이며, 이는 스트림 프로세싱 구조인 GPU의 파이프라인을 이용하여 높은 병렬성을 가지고 실행된다. 또한 시스템 메모리와 GPU 사이의 데이터 대역폭을 줄이기 위해 그래픽 카드의 지역 메모리를 사용한다. 제안한 방법을 적용한 결과 CPU 보다 2배 이상의 성능 향상을 볼 수 있었다.

  • PDF