• 제목/요약/키워드: memory bottleneck

검색결과 90건 처리시간 0.026초

CPU-GPU환경에서 효율적인 메인메모리 접근을 위한 융합 프로세서 구조 개발 (A Development of Fusion Processor Architecture for Efficient Main Memory Access in CPU-GPU Environment)

  • 박현문;권진산;황태호;김동순
    • 한국전자통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.151-158
    • /
    • 2016
  • 이기종시스템 구조(HSA)는 두 유닛의 각각에 메모리 폴(pools)이 가상메모리를 통해 공유할 수 있게 됨에 따라 CPU와 GPU 아키텍처의 오랜 문제를 해결하였다. 그러나 물리적 실제 시스템에서는 가상메모리 처리를 위해 GPU와 GPU 사이의 빈번한 메모리 이동으로 병목현상(Bottleneck)과 일관성 요청(Coherence request)의 오버헤드를 갖게 된다. 본 연구는 CPU와 GPU간의 효율적인 메인 메모리 접근방안으로 퓨전프로세서 알고리즘을 제안하였다. CPU가 요청한 처리할 메모리 영역을 GPU의 코어에 맞게 분배 제어해주는 기능으로 작업관리자(Job Manager)와 Re-mapper, Pre-fetcher를 제안하였다. 이를 통해 CPU와 GPU간의 빈번한 메시지도 감소되고 CPU의 메모리주소에 없는 Page-Table 요청이 낮아져 두 매체간의 효율성이 증대되었다. 제안한 알고리즘의 검증 방안으로 QEMU(:short for Quick EMUlator)기반의 에뮬레이터를 개발하고 CUDA(:Compute Unified Device. Architecture), OpenMP, OpenCL 등의 알고리즘과 비교평가를 하였다. 성능평가 결과, 본 연구에서 제안한 융합 프로세서 구조를 기존과 비교했을 때 최대 198%이상 빠르게 처리되면서 메모리 복사, 캐시미스 등의 오버헤드를 최소화하였다.

공간 메인 메모리 DBMS를 위한 효율적인 회복 시스템 (An Efficient Recovery System for Spatial Main Memory DBMS)

  • 김정준;주성완;강홍구;홍동숙;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제8권3호
    • /
    • pp.1-14
    • /
    • 2006
  • 최근 실시간 서비스의 요구 사항을 갖는 위치 기반 서비스(Location Based Service : LBS)와 텔레매틱스(Telematics) 서비스를 효율적으로 제공하기 위해서 공간 메인 메모리 DBMS에 대한 관심이 급증하고 있다. 이러한 공간 메인 메모리 DBMS에서는 시스템 장애가 발생하였을 경우 메인 메모리상의 모든 공간 데이타를 잃어버릴 수 있으므로 데이타베이스의 안정성을 위한 회복 시스템은 매우 중요하다. 회복 시스템에서 로그와 체크포인트 수행 과정 중 발생하는 디스크 입출력은 전체 시스템 성능을 저하하는 중요한 요인이 되고 있다. 그러므로, 공간 메인 메모리 DBMS에서 디스크 입출력을 줄일 수 있는 효율적인 회복 시스템에 대한 연구가 절실히 필요하다. 본 논문에서는 공간 메인 메모리 DBMS를 위한 효율적인 회복 시스템에 대해서 연구하였다. 먼저 로그 기법으로는 디스크 입출력을 줄이고 트랜잭션의 동시성 향상을 위해 사전 완료 기법을 사용하였고, 전체 시스템 성능을 향상시키기 위해 기존의 퍼지-핑퐁 체크포인트 기법에서 발생하는 동일 페이지에 대한 중복 디스크 입출력 문제를 해결한 퍼지-쉐도우 체크포인트 기법을 제안하여 회복 시스템 구현 시 사용하였다. 그리고 마지막으로 본 논문에서 개발한 회복 시스템의 성능 평가를 수행하여 효율성을 입증하였다.

  • PDF

기가비트 이더넷 스위치에서 빠른 MAC 주소 테이블의 검색 방법 (Practical MAC address table lookup scheme for gigabit ethernet switch)

  • 이승왕;박인철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.799-802
    • /
    • 1998
  • As we know, gigabit ethernet is a new technology to be substituted for current fast ethernet used widely in local area network. The switch used in gigabit ethernet should deal with frames in giga-bps. To do such a fast switching, we need that serveral processes meet the budgets, such as MAC address table lookup, several giga speed path setup, fast scheduling, and etc. Especially MAC address table lookup has to be processed in the same speed with speed of incoming packets, thus the bottleneck in the process can cause packet loss by the overflow in the input buffer. We devise new practical hardware hashing method to perform fast table lookup by minimizing the number of external memory access and accelerating with hardware.

  • PDF

K증권 홈트레이닝 시스템 분석을 통한 성능개선에 관한 연구 (A study for performance improvement by system analysis of HTS running K Securities)

  • 김현호;박용덕
    • 디지털산업정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.19-28
    • /
    • 2009
  • Computer system performance has always had the possibility of affecting business profitability, but with the advent of the World Wide Web where customers interact directly with Web servers, response time can have a direct and dramatic impact on business revenue. This paper is written in the operation environment and system analysis of HTS(Home Trading System) running K Securities. This paper also shows the method for performance improvement through investigation and analysis for the overall systems resources whether HTS has an appropriate performance or not. Performance analysis includes specially CPU analysis, Memory analysis, Disk Input/Output analysis and application analysis. Besides providing more detailed server specification for expansion from now on, system performance can be maintained with effect in the future. Through this study it is possible to manage the performance of HTS more easily and to solve problems such as a bottleneck more quickly.

A Bit-level ACSU of High Speed Viterbi Decoder

  • Kim, Min-Woo;Cho, Jun-Dong
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제6권4호
    • /
    • pp.240-245
    • /
    • 2006
  • Viterbi decoder is composed of BMU(Branch metric Unit), ACSU(Add Compare Select Unit), and SMU(Survivor path Memory Unit). For high speed viterbi decoders, ACSU is the main bottleneck due to the compare-select and feedback operation. Thus, many studies have been advanced to solve the problem. For example, M-step look ahead technique and Minimized method are typical high speed algorithms. In this paper, we designed a bit-level ACSU(K=3, R=1/2, 4bit soft decision) based on those algorithms and switched the matrix product order in the backward direction of Minimized method so as to apply Code-Optimized-Array in order to reduce the area complexity. For experimentation, we synthesized our design by using SYNOPSYS Design compiler, with TSMC 0.18 um library, and verified the timing by using CADENCE verilog-XL.

A High Speed Bit-level Viterbi Decoder

  • 김민우;조준동
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2006년도 춘계학술대회
    • /
    • pp.311-315
    • /
    • 2006
  • Viterbi decoder는 크게 BM(Branch metric), ACS(Add-Compare-Select), SM(Survivor Memory) block 으로 구성되어 있다. 이중 ACSU 부분은 고속 데이터 처리를 위한 bottleneck이 되어 왔으며, 이의 해결을 위한 많은 연구가 활발히 진행되어 왔다. look ahead technique은 ACSU를 M-step으로 처리하고 CS(Carry save) number를 사용한 새로운 비교 알고리즘을 제안하여 high throughput을 추구했으며, minimized method는 block processing 방식으로 forward, backward 방향으로 decoding을 수행하여 ACSU 부분의 feedback을 완전히 제거하여 exteremely high throughput 을 추구하고 있다. 이에 대해 look ahead technique 의 기본 PE(Processing Element)를 바탕으로 minimized method 알고 리즘의 core block 을 bit-level 로 구현하였으며 : code converter 를 이용하여 CS number 가운데 redundat number(l)를 제거하여 비교기를 더 간단히 하였다. SYNOPSYS의 Design compiler 와 TSMC 0.18 um library 를 이용하여 합성하였다.

  • PDF

개선된 PF_RING을 이용한 고성능 패킷 캡쳐 (Improved PF_RING for High Performance Packet Capture)

  • 단조위;김용수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.1012-1015
    • /
    • 2008
  • The packet capturing becomes a bottleneck in the network intrusion detection and monitoring system as the network performance developing. Many approaches, zero copy, interrupt coalescing and NAPI which attempt to improve packet capturing performance of Linux, are inefficient. PF_RING is a new type of network socket that dramatically improves the packet capture speed, but not perfect. This paper proposes some solutions which can improve the memory utilization and save some data copy time based on the commodity network adapters rather than on the commercial network adapters.

적응적인 복수 해슁과 프리픽스그룹화를 이용한 고속 IP 주소 검색 구조 (A High-speed IP Address Lookup Architecture using Adaptive Multiple Hashing and Prefix Grouping)

  • 박현태;문병인;강성호
    • 대한전자공학회논문지TC
    • /
    • 제43권5호
    • /
    • pp.137-146
    • /
    • 2006
  • IP 주소 검색 구조는 라우터 시스템에서 고속 네트워크 기술의 중요한 이슈가 되고 있으며 패킷 전달의 성능을 좌우하는 주요한 문제 요소로 지적되고 있다. 본 논문에서는 복수 해슁의 적응적인 적용과 프리픽스 그룹화를 이용하여 효율적인 고속 IP 주소 검색 구조를 제안한다. 여러 라우팅 데이터의 엔트리 분포를 분석하여 프리픽스를 그룹화하고 그룹별로 적용되는 해쉬함수의 개수를 적응적으로 적용하여 해슁에 의한 충돌(collision)을 줄일 수 있었으며 이를 통해 테이블의 수를 최적화하고 메모리 효율을 높일 수 있었다. 또한 제안하는 구조는 단 한 번의 메모리 접근만으로 포워딩 테이블의 구성 및 검색 과정을 수행할 수 있는 고속 구조이다.

Parallel Multithreaded Processing for Data Set Summarization on Multicore CPUs

  • Ordonez, Carlos;Navas, Mario;Garcia-Alvarado, Carlos
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.111-120
    • /
    • 2011
  • Data mining algorithms should exploit new hardware technologies to accelerate computations. Such goal is difficult to achieve in database management system (DBMS) due to its complex internal subsystems and because data mining numeric computations of large data sets are difficult to optimize. This paper explores taking advantage of existing multithreaded capabilities of multicore CPUs as well as caching in RAM memory to efficiently compute summaries of a large data set, a fundamental data mining problem. We introduce parallel algorithms working on multiple threads, which overcome the row aggregation processing bottleneck of accessing secondary storage, while maintaining linear time complexity with respect to data set size. Our proposal is based on a combination of table scans and parallel multithreaded processing among multiple cores in the CPU. We introduce several database-style and hardware-level optimizations: caching row blocks of the input table, managing available RAM memory, interleaving I/O and CPU processing, as well as tuning the number of working threads. We experimentally benchmark our algorithms with large data sets on a DBMS running on a computer with a multicore CPU. We show that our algorithms outperform existing DBMS mechanisms in computing aggregations of multidimensional data summaries, especially as dimensionality grows. Furthermore, we show that local memory allocation (RAM block size) does not have a significant impact when the thread management algorithm distributes the workload among a fixed number of threads. Our proposal is unique in the sense that we do not modify or require access to the DBMS source code, but instead, we extend the DBMS with analytic functionality by developing User-Defined Functions.

가상화 환경에서 NVMe SSD 성능 분석 및 직접 접근 엔진 개발 (Performance Analysis of NVMe SSDs and Design of Direct Access Engine on Virtualized Environment)

  • 김세욱;최종무
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.129-137
    • /
    • 2018
  • 낸드 플래시 메모리 기반의 NVMe(Non-Volatile Memory express) SSD(Solid State Drive)는 멀티 I/O 큐 환경을 제공하는 PCIe 인터페이스 기반에 NVMe 프로토콜을 사용하는 저장장치이다. NVMe SSD는 Multi-core 시스템에서 병렬 I/O 처리가 가능하고 SATA SSD에 비해 대역폭이 크며 대용량의 저장 공간을 제공하기 때문에 데이터 센터, 클라우드 컴퓨팅 등에 사용될 차세대 저장장치로 주목받고 있다. 하지만 가상화 시스템에서는 소프트웨어 I/O 스택의 병목으로 인하여 NVMe SSD의 성능을 충분히 활용하지 못하고 있다. 특히, Xen과 KVM과 같이 호스트 시스템의 I/O 스택을 사용하는 경우에는, 호스트 시스템과 가상머신의 중복된 I/O 스택을 통해서 입출력이 처리되기 때문에 성능 저하가 크게 발생한다. 본 논문에서는 NVMe SSD에 직접 접근하는 기술을 KVM 가상화 시스템에 적용함으로써 가상 머신 I/O의 성능을 향상시키는 Direct-AIO (Direct-Asynchronous I/O)엔진을 제안한다. 그리고 QEMU 에뮬레이터에 제안한 엔진을 개발하고 기존의 I/O 엔진과의 성능 차이를 비교 및 분석한다.