• 제목/요약/키워드: memory efficiency

검색결과 712건 처리시간 0.03초

Large-scale 3D fast Fourier transform computation on a GPU

  • Jaehong Lee;Duksu Kim
    • ETRI Journal
    • /
    • 제45권6호
    • /
    • pp.1035-1045
    • /
    • 2023
  • We propose a novel graphics processing unit (GPU) algorithm that can handle a large-scale 3D fast Fourier transform (i.e., 3D-FFT) problem whose data size is larger than the GPU's memory. A 1D FFT-based 3D-FFT computational approach is used to solve the limited device memory issue. Moreover, to reduce the communication overhead between the CPU and GPU, we propose a 3D data-transposition method that converts the target 1D vector into a contiguous memory layout and improves data transfer efficiency. The transposed data are communicated between the host and device memories efficiently through the pinned buffer and multiple streams. We apply our method to various large-scale benchmarks and compare its performance with the state-of-the-art multicore CPU FFT library (i.e., fastest Fourier transform in the West [FFTW]) and a prior GPU-based 3D-FFT algorithm. Our method achieves a higher performance (up to 2.89 times) than FFTW; it yields more performance gaps as the data size increases. The performance of the prior GPU algorithm decreases considerably in massive-scale problems, whereas our method's performance is stable.

온 칩 버스 구조와 메모리 할당에 대한 효율적인 설계 공간 탐색 (Efficient Exploration of On-chip Bus Architectures and Memory Allocation)

  • 김성찬;임채석;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권2호
    • /
    • pp.55-67
    • /
    • 2005
  • 시스템 수준 설계에서 계산 부분과 통신 부분의 분리는 프로세서의 선택이나 기능 블록의 프로세서에 대한 할당 결과에 관계없이 설계자로 하여금 독립적인 통신 구조의 설계 공간 탐색을 가능하게 해준다. 본 논문은 버스 기반의 온 칩 통신 구조와 메모리 할당의 최적화를 위한 2단계 설계 공간 탐색 방법을 제안한다. 제안된 설계 공간 탐색 방법은 정적 성능 예측 방법을 사용하여 통신 구조에 대한 방대한 설계 공간을 빠르고 효과적으로 줄인다. 이렇게 축소된 통신 구조들의 설계 공간에 대해서는 정확한 성능 예측을 위하여 프로세서들의 메모리 트레이스론 이용한 트레이스 기반 시뮬레이션을 적용한다. 프로세서들의 동시적인 접근에 의한 버스의 충돌은 프로세서간 공유 메모리뿐 아니라 프로세서의 로컬 메모리에서도 기인하므로 메모리 할당 또한 중요하게 다루어져야 하는 부분이다. 제안된 설계 공간 탐색 방법의 효율성은 4-채널 DVR과 OFDM DVB-T용 수신기 내부의 이퀄라이저 부분을 이용하여 검증하였다.

RUF 버퍼를 이용한 간단하고 효율적인 안티알리아싱 기법 (A Simple and Efficient Antialiasing Method with the RUF buffer)

  • 김병욱;박우찬;양성봉;한탁돈
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권3_4호
    • /
    • pp.205-212
    • /
    • 2003
  • 본 논문은 전형적인 슈퍼샘플링과 거의 동일한 수준의 고화질 영상을 생성하는 동시에, 요구되는 메모리 크기와 메모리 대역폭을 줄일 수 있는 간단하고 효율적인 하드웨어 지원 안티알리아싱 알고리즘과 렌더링 구조를 제안한다. 본 논문에서는 가장 최근에 색상 값 결정을 위해 사용된 프레그먼트의 일부분 또는 병합된 결과를 저장하는 RUF (Recently Used Fragment) 버퍼와 RUF 버퍼의 정보를 이용하여 효과적으로 색상 값을 결정하는 알고리즘을 제안한다. 제안된 방법은 데이타 구조상 샘플링 포인트 수가 늘어날수록 슈퍼샘플링에 비해 메모리 절약 효과가 크다. 또한 본 논문의 실험결과 8산개(sparse) 샘플링 포인트를 가지는 경우, 슈퍼샘플링에 비해 제안된 안티알리아싱 기법은 약 1.3%의 색상 차이를 가지나, 렌더링 과정에서 요구되는 메모리 크기가 약 31%로 감소하였으며, 실험에 사용된 3차원 모델에 대해 평균 11%의 메모리 대역폭 감소를 보인다.

메모리 크기에 효율적인 적분영상 하드웨어 설계 연구 (A Study of Integral Image Hardware Design for Memory Size Efficiency)

  • 이수현;정용진
    • 전자공학회논문지
    • /
    • 제51권9호
    • /
    • pp.75-81
    • /
    • 2014
  • 적분영상은 입력영상의 픽셀 값을 기준좌표부터 순차적으로 누적하여 만든 영상으로, Haar-like features와 같은 네모난 박스 모양의 필터 연산을 효율적으로 처리하기 위하여 사용된다. 그러나 적분영상은 입력영상보다 3배 이상 많은 메모리를 소모하기 때문에, 메모리 자원이 제한적인 하드웨어 설계 환경에서는 사용이 어렵다. 본 논문에서는 효율적인 메모리 사용을 위한 적분영상 하드웨어 설계 방법을 제안한다. 해당 방법은 적분영상 이외에 세로적분영상과 가로적분영상을 생성하고, 입력영상을 재사용 하는 방법을 사용한다. 그리고 박스 필터의 크기에 따라 modulo 연산을 적용하여 적분영상의 데이터 크기를 줄이는 방법을 함께 적용하였다. 적분 영상 데이터를 읽기 위해 나누어진 영상 데이터를 다시 덧셈해야하는 연산 오버헤드가 발생하지만, 4개의 데이터를 단순히 더하는 연산이므로 병렬처리가 가능한 하드웨어 환경에서는 큰 영향을 미치지 않는다. Xilinx사의 Virtex5-LX330T를 대상으로 실험한 결과 $640{\times}480$ 크기의 8bit gray-scale 입력영상에서 최대 $32{\times}32$ 크기의 필터사용을 기준으로 50%의 적분영상 메모리를 감소시킬 수 있다.

HEVC 복호화기의 메모리 접근 복잡도 분석 (An Analysis of Memory Access Complexity for HEVC Decoder)

  • 조송현;김영남;송용호
    • 전자공학회논문지
    • /
    • 제51권5호
    • /
    • pp.114-124
    • /
    • 2014
  • HEVC는 JCT-VC에 의해 개발된 최신 비디오 코딩 표준이다. HEVC는 H.264/AVC에 비해 약 2배의 주관적 코딩효율을 제공한다. HEVC 개발의 주요목표 중 하나는 UHD급 비디오를 효율적으로 코딩하는 것이기 때문에, HEVC는 UHD급 비디오를 코딩하는데 널리 사용될 것으로 예측된다. 이러한 고해상도 비디오의 복호화는 많은 양의 메모리 접근을 발생시키기 때문에 복호화 시스템은 고대역폭의 메모리 시스템 및 내부 통신 아키텍처가 필요하다. 이러한 요구사항을 파악하기 위해서 본 논문은 HEVC 복호화기의 메모리 접근 복잡도를 분석한다. 우리는 먼저 임베디드 프로세서와 데스크탑에서 동작하는 소프트웨어 HEVC 복호화기의 메모리 접근량을 측정하였다. 또한 우리는 HEVC 복호화기의 데이터흐름을 분석하여 HEVC 복호화기의 메모리 대역폭 모델을 만들었다. 측정결과, 소프트웨어 복호화기는 6.9~40.5GB/s의 DRAM 접근을 하였다. 또한 분석결과에 따르면 하드웨어 복호화기는 2.4GB/s의 DRAM 대역폭을 요구하는 것으로 파악된다.

플래시 메모리 기반의 효율적인 공간 인덱스 기법 (An Efficient Spatial Index Technique based on Flash-Memory)

  • 김정준;심희정;강홍구;이기영;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권2호
    • /
    • pp.133-142
    • /
    • 2009
  • 최근 무선 인터넷이 발전하고 모바일 단말기 사용이 증가함에 따라 위치 기반 서비스(LBS: Location Based Service)에 대한 요구가 증가되고 있으며, 모바일 단말기 환경에서 효율적인 위치 기반 서비스를 제공하기 위해 공간 데이타를 저장 및 관리하는 공간 인덱스의 연구가 필수적으로 요구되고 있다. 플래시 메모리는 모바일 단말기에서 대용량의 공간 데이타를 효율적으로 저장하기 위한 보조 저장 장치로 많이 사용된다. 그러나 플래시 메모리에 기존 공간 인덱스를 그대로 적용할 경우 빈번한 노드 갱신에 의한 쓰기 연산 증가로 인덱스 성능이 저하된다. 이러한 문제점을 해결하고자 최근 플래시 메모리 기반 공간 인덱스가 연구되고 있지만 버퍼와 플래시 메모리의 공간 활용도가 낮아 효율성이 떨어지는 문제점이 있다. 따라서, 본 논문에서는 기존의 플래시 메모리 기반 공간 인덱스들의 문제점을 해결하기 위해 노드 압축 기법과 쓰기 연산 지연 기법을 적용한 FR-Tree(Flash-Memory based R-Tree)를 제안하였다. FR-Tree의 노드 압축 기법은 공간 데이타의 MBR(Minimum Bounding Rectangle)을 상대 좌표값과 MBR 크기 값을 이용해 압축함으로써 플래시 메모리의 공간 활용도를 높였다. 그리고 쓰기 연산 지연 기법은 공간 데이타의 삽입, 갱신, 삭제시 플래시 메모리에 저장된 공간 인덱스에 바로 반영하지 않고 버퍼에 임시적으로 저장한 후 일괄적으로 플래시 메모리에 반영하여 플래시 메모리의 쓰기 연산 횟수를 줄였다. 특히, 버퍼내 동일한 공간 데이타들의 중복 저장을 방지하여 버퍼의 공간 활용도를 높였다. 마지막으로, 본 논문에서는 다양한 성능 평가를 통해 FR-Tree가 플래시 메모리에서 기존 공간 인덱스들에 비해 성능이 우수함을 입증하였다.

  • PDF

메모리 참조 공간 연관성을 이용한 효율적인 쉬어-왑 분해 볼륨렌더링 (Efficient Shear-warp Volume Rendering using Spacial Locality of Memory Access)

  • 계희원;신영길
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권3_4호
    • /
    • pp.187-194
    • /
    • 2004
  • 쉬어-왑 분해 볼륨렌더링은 좋은 화질과 빠른 속도를 보이지만 대화형 분류 환경에서 메모리 참조 효율이 떨어지는 문제점이 있다. 본 논문에서는 대화형 분류 환경에서 효율적인 렌더링을 수행하기 위해 객체와 이미지에 대한 메모리 참조 공간 연관성을 갖는 알고리즘을 제안한다. 이를 위하여 쉬어-왑 분해에 회전을 추가한 확장 모델을 제안하여 객체와 이미지 모두에서 스캔라인 단위로 렌더링을 가능하게 한다. 또한 제안 모델이 가지고 있는 전후향 합성 혼란, 홀 발생, 계산 증가의 문제에 대한 원인을 제시하고 해결 방법을 보인다. 본 제안 모델은 렌더링 시 효율적 메모리 참조로 우수한 성능을 나타낸다.

Low Cost Endurance Test-pattern Generation for Multi-level Cell Flash Memory

  • Cha, Jaewon;Cho, Keewon;Yu, Seunggeon;Kang, Sungho
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제17권1호
    • /
    • pp.147-155
    • /
    • 2017
  • A new endurance test-pattern generation on NAND-flash memory is proposed to improve test cost. We mainly focus on the correlation between the data-pattern and the device error-rate during endurance testing. The novelty is the development of testing method using quasi-random pattern based on device architectures in order to increase the test efficiency during time-consuming endurance testing. It has been proven by the experiments using the commercial 32 nm NAND flash-memory. Using the proposed method, the error-rate increases up to 18.6% compared to that of the conventional method which uses pseudo-random pattern. Endurance testing time using the proposed quasi-random pattern is faster than that of using the conventional pseudo-random pattern since it is possible to reach the target error rate quickly using the proposed one. Accordingly, the proposed method provides more low-cost testing solutions compared to the previous pseudo-random testing patterns.

GPU를 활용한 R*-tree에서의 부분 노드 병렬 처리 방법 (A Parallel Processing Method for Partial Nodes in R*-tree Using GPU)

  • 김성;오병우
    • Spatial Information Research
    • /
    • 제20권6호
    • /
    • pp.139-144
    • /
    • 2012
  • 공간 데이터 처리는 GIS, 텔레매틱스 등 광범위한 분야에서 널리 사용되고 있다. 그러나 현재 사용되고 있는 공간 데이터 질의 처리 기법은 CPU를 사용하여 순차적으로 질의 처리를 수행하므로 질의 처리 시간이 상대적으로 오래 걸린다는 단점이 존재한다. 그러나 공간 데이터 질의 처리를 병렬로 수행했을 때 처리 시간을 줄이는 것이 가능하다. 따라서 본 연구에서는 GPU를 활용하여 공간 데이터 질의 처리를 병렬로 수행하는 연구를 진행한다. 또한, CPU를 이용하여 질의 처리를 수행한 결과와 비교하여 속도 향상 정도에 대한 결과를 제시한다.

낸드 플래시 메모리의 이주 오버헤드 감소 및 수명연장을 위한 가비지 컬렉션 기법 (Garbage Collection Technique for Reduction of Migration Overhead and Lifetime Prolongment of NAND Flash Memory)

  • 황상호;곽종욱
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.125-134
    • /
    • 2016
  • NAND flash memory has unique characteristics like as 'out-place-update' and limited lifetime compared with traditional storage systems. According to out-of-place update scheme, a number of invalid (or called dead) pages can be generated. In this case, garbage collection is needed to reclaim invalid pages. Because garbage collection results in not only erase operations but also copy operations of valid (or called live) pages to other blocks, many garbage collection techniques have proposed to reduce the overhead and to increase the lifetime of NAND Flash systems. This techniques sometimes select victim blocks including cold data for the wear leveling. However, most of them overlook the cost of selecting victim blocks including cold data. In this paper, we propose a garbage collection technique named CAPi (Cost Age with Proportion of invalid pages). Considering the additional overhead of what to select victim blocks including cold data, CAPi improves the response time in garbage collection and increase the lifetime in memory systems. Additionally, the proposed scheme also improves the efficiency of garbage collection by separating cold data from hot data in valid pages. In experimental evaluation, we showed that CAPi yields up to, at maximum, 73% improvement in lifetime compared with existing garbage collections.