• Title/Summary/Keyword: 메모리 크기와 대역폭

Search Result 43, Processing Time 0.025 seconds

A Low-Complexity Real-Time Barrel Distortion Correction Processor Combined with Color Demosaicking (컬러 디모자이킹이 결합된 저 복잡도의 실시간 배럴 왜곡 보정 프로세서)

  • Jeong, Hui-Seong;Park, Yun-Ju;Kim, Tae-Hwan
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.51 no.9
    • /
    • pp.57-66
    • /
    • 2014
  • This paper presents a low-complexity barrel distortion correction processor for wide-angle cameras. The proposed processor performs the barrel distortion correction jointly with the color demosaicking, so that the hardware complexity can be reduced significantly. In addition, to reduce the required memory bandwidth, an efficient memory interface is proposed by utilizing the spatial locality of the memory access in the correction process. The proposed processor is implemented with 35K logic gates in a $0.11-{\mu}m$ CMOS process and its correction speed is 150 Mpixels/s at the operating frequency of 606MHz, where the supported frame size is $2048{\times}2048$ and the required memory bandwidth is 1 read/cycle.

Design and Performance Evaluation of a Flash Compression Layer for NAND-type Flash Memory Systems (NAND형 플래시메모리를 위한 플래시 압축 계층의 설계 및 성능평가)

  • Yim Keun Soo;Bahn Hyokyung;Koh Kern
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.32 no.4
    • /
    • pp.177-185
    • /
    • 2005
  • NAND-type flash memory is becoming increasingly popular as a large data storage for mobile computing devices. Since flash memory is an order of magnitude more expensive than magnetic disks, data compression can be effectively used in managing flash memory based storage systems. However, compressed data management in NAND-type flash memory is challenging because it supports only page-based I/Os. For example, when the size of compressed data is smaller than the page size. internal fragmentation occurs and this degrades the effectiveness of compression seriously. In this paper, we present an efficient flash compression layer (FCL) for NAND-type flash memory which stores several small compressed pages into one physical page by using a write buffer Based on prototype implementation and simulation studies, we show that the proposed scheme offers the storage of flash memory more than $140\%$ of its original size and expands the write bandwidth significantly.

Functionality-based Processing-In-Memory Accelerator for Deep Neural Networks (딥뉴럴네트워크를 위한 기능성 기반의 핌 가속기)

  • Kim, Min-Jae;Kim, Shin-Dug
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.8-11
    • /
    • 2020
  • 4 차 산업혁명 시대의 도래와 함께 AI, ICT 기술의 융합이 진행됨에 따라, 유저 레벨의 디바이스에서도 AI 서비스의 요청이 실현되었다. 이미지 처리와 관련된 AI 서비스는 피사체 판별, 불량품 검사, 자율주행 등에 이용되고 있으며, 특히 Deep Convolutional Neural Network (DCNN)은 이미지의 특색을 파악하는 데 뛰어난 성능을 보여준다. 하지만, 이미지의 크기가 커지고, 신경망이 깊어짐에 따라 연산 처리에 있어 낮은 데이터 지역성과 빈번한 메모리 참조를 야기했다. 이에 따라, 기존의 계층적 시스템 구조는 DCNN 을 scalable 하고 빠르게 처리하는 데 한계를 보인다. 본 연구에서는 DCNN 의 scalable 하고 빠른 처리를 위해 3 차원 메모리 구조의 Processing-In-Memory (PIM) 가속기를 제안한다. 이를 위해 기존 3 차원 메모리인 Hybrid Memory Cube (HMC)에 하드웨어 및 소프트웨어 모듈을 추가로 구성하였다. 구체적으로, Processing Element (PE)간 데이터를 공유할 수 있는 공유 캐시 및 소프트웨어 스택, 파이프라인화된 곱셈기 및 듀얼 프리페치 버퍼를 구성하였다. 이를 유명 DCNN 알고리즘 LeNet, AlexNet, ZFNet, VGGNet, GoogleNet, RestNet 에 대해 성능 평가를 진행한 결과 기존 HMC 대비 40.3%의 속도 향상을 29.4%의 대역폭 향상을 보였다.

A Study of WSN data sending algorithm using bloom filter (센서 네트워크에서 bloom filter를 이용한 데이터 전달 방법에 대한 연구)

  • Kim, Jung-Sik;Jang, Hyun-Jun;Im, Eul-Gyu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06d
    • /
    • pp.225-228
    • /
    • 2007
  • 센서 네트워크는 일반적으로 자원이 극히 한정되어있는 센서 노드를 이용하여 구성이 되게 된다. 센서노드의 대역폭, 계산 능력, 메모리, 전력과 같이 많은 부분에서 일반적인 네트워크 노드보다 훨씬 적은 자원만을 사용할 수 있다. 이 중 전력은 센서 노드를 동작하게 해주는 매우 중요한 요소이기 때문에, 효율적으로 전력 사용이 필요하다. 전력 소모를 줄이는 방법에는 여러 가지가 존재하게 되는데, 본 논문에서는 센서 노드에서 송신하는 데이터의 크기를 줄이는 방법에 대해서 제안하였다. 제안하는 방법은 bloom filter를 이용하여 데이터의 내용을 필터링하도록 하였다. 그리고 기존 데이터 대신 작은 크기의 필터링 된 값을 베이스 스테이션으로 전송함으로 전력 소모를 줄이게 된다.

  • PDF

Development of Automatic TCP Buffer Tuning Technology for Improving the End-­to-­End Network Performance (End-­to­-End 네트워크 성능향상을 위한 자동화된 TCP Buffer Tuning 기술 개발)

  • 류기철;심은숙;김동균;변태영;석우진;변옥환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10c
    • /
    • pp.106-108
    • /
    • 2003
  • 기존 TCP 기술은 높은 대역폭(High­Bandwidth) 및 큰 전송지연(High Delay)을 가진 통신에는 적합하지 못하다. TCP 기술의 성능향상을 위한 방법으로 TCP 제어 알고리즘을 수정하는 방법과 TCP Tuning 방법이 있다. 본 논문에서는 TCP Buffer Tuning 기술에 초점을 맞춰 통신망 상황에 따른 응용프로그램별로 자동화된 Buffer Tuning 기법을 제공하는 기술을 제안한다. ATBT(Automatic TCP Buffer Tuning) 에서는 송신측의 Buffer 크기를 조절하여 성능향상을 나타냈고, DRS(Dynamic Right Sizing)에서는 수신측의 Buffer 크기를 조절하여 성능향상을 도모하였다. 본 논문에서는 ATBT와 DRS의 장점을 접목하여 구현함으로써 보다 나은 성능향상을 나타내고 각 송.수신측의 모든 연결에 대해서는 Buffer를 공평하게 할당하여 메모리 사용의 효율을 높이고자 한다.

  • PDF

A Survey on Efficient Transmission method in Wireless Image Sensor Networks (Wireless Imgae Sensor Networks 에서 효율적인 전송 기법에 관한 연구)

  • Lee, Jong Seung;Lee, Kangwhan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.298-301
    • /
    • 2009
  • 최근 들어 무선 멀티미디어 서비스를 위한 Wireless Sensor Network 에 관한 연구가 활발히 진행됨에 따라 그 응용의 한 부분으로써 이미지 센서를 이용하여 이미지 데이터를 전송하는 WISN(Wireless Image Sensor Networks) 에 관한 연구가 시작되었다. WISN은 센서노드의 제한된 자원(배터리, 대역폭, 처리속도, 메모리 크기)으로 인해 많은 어려움을 갖는다. 특히 그 중에서 제한된 배터리로 인해 이미지 센서노드는 효율적인 에너지 관리가 필요하다. 이미지 센서노드의 에너지 소모는 이미지 캡쳐 과정, 이미지 데이터의 처리 및 가공(compression)과정, 이미지 데이터의 전송 과정에서 발생한다. 또한 수 Kbyte 이미지 데이터는 기존의 무선센서 네트워크의 데이터보다 훨씬 크기 때문에 빈번한 이미지 데이터의 전송은 노드의 수명을 단축시켜 전체 네트워크의 분단을 초래한다. 본 논문에서는 이러한 문제점을 해결하기 위해 JPEG 이미지 크기의 변화량을 고려하여 전송 횟 수를 최소화하는 기법을 제안한다. 종단 센서노드는 자신이 이전 JPEG이미지와 현재 JPEG이미지의 크기를 비교하여 특정 임계값 이하이면 전송하지 않고, 임계값 이상일 때에는 변화된 특정 부분의 이미지만을 보냄으로써 데이터량을 줄이게 된다. 결과적으로 효율적 에너지 관리를 통해 센서 노드의 라이프타임을 향상 시키는 결과를 가진다. 제안된 기법을 검증하기 위하여 테스트 보드를 만들어 제안된 기법과 일반적인 방법에서의 데이터의 전송 횟수 및 에너지 소모량과 노드의 라이프타임을 비교하여 제안된 기법의 성능의 우수함을 보였다.

  • PDF

Block-based Adaptive Bit Allocation for Reference Memory Reduction (효율적인 참조 메모리 사용을 위한 블록기반 적응적 비트할당 알고리즘)

  • Park, Sea-Nae;Nam, Jung-Hak;Sim, Dong-Gy;Joo, Young-Hun;Kim, Yong-Serk;Kim, Hyun-Mun
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.46 no.3
    • /
    • pp.68-74
    • /
    • 2009
  • In this paper, we propose an effective memory reduction algorithm to reduce the amount of reference frame buffer and memory bandwidth in video encoder and decoder. In general video codecs, decoded previous frames should be stored and referred to reduce temporal redundancy. Recently, reference frames are recompressed for memory efficiency and bandwidth reduction between a main processor and external memory. However, these algorithms could hurt coding efficiency. Several algorithms have been proposed to reduce the amount of reference memory with minimum quality degradation. They still suffer from quality degradation with fixed-bit allocation. In this paper, we propose an adaptive block-based min-max quantization that considers local characteristics of image. In the proposed algorithm, basic process unit is $8{\times}8$ for memory alignment and apply an adaptive quantization to each $4{\times}4$ block for minimizing quality degradation. We found that the proposed algorithm can obtain around 1.7% BD-bitrate gain and 0.03dB BD-PSNR gain, compared with the conventional fixed-bit min-max algorithm with 37.5% memory saving.

A Software VIA based PC Cluster System on SCI Network (SCI 네트워크 상의 소프트웨어 VIA기반 PC글러스터 시스템)

  • Shin, Jeong-Hee;Chung, Sang-Hwa;Park, Se-Jin
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.4
    • /
    • pp.192-200
    • /
    • 2002
  • The performance of a PC cluster system is limited by the use of traditional communication protocols, such as TCP/IP because these protocols are accompanied with significant software overheads. To overcome the problem, systems based on user-level interface for message passing without intervention of kernel have been developed. The VIA(Virtual Interface Architecture) is one of the representative user-level interfaces which provide low latency and high bandwidth. In this paper, a VIA system is implemented on an SCI(Scalable Coherent Interface) network based PC cluster. The system provides both message-passing and shared-memory programming environments and shows the maximum bandwidth of 84MB/s and the latency of $8{\mu}s$. The system also shows better performance in comparison with other comparable computer systems in carrying out parallel benchmark programs.

Design of HEVC Motion Estimation Engine with Search Window Data Reuse and Early Termination (탐색 영역 데이터의 재사용 및 조기중단이 가능한 HEVC 움직임 추정 엔진 설계)

  • Hur, Ahrum;Park, Taewook;Lee, Seongsoo
    • Journal of IKEEE
    • /
    • v.20 no.3
    • /
    • pp.273-278
    • /
    • 2016
  • In HEVC variable block size motion estimation, same search window data are duplicatedly used in each block size. It increases memory bandwidth, and it is difficult to exploit early termination. In this paper, largest block size and its corresponding smaller block sizes with same positions are performed at the same time. It reduces memory bandwidth and computation by reusing search window data and computation results. In the early termination, image quality can be degraded when it determines early termination by observing largest block size only, since smaller block sizes cannot be equally terminated due to their relative positions. So, in this paper, processing order of early termination is changed to perform smaller block sizes in turns. The designed motion estimation engine was described in Verilog HDL and it was synthesized and verified in 0.18um process technology. Its gate count and maximum operating frequency are 36,101 gates and 263.15 MHz, respectively.

Bandwidth Efficient Summed Area Table Generation for CUDA (CUDA를 이용한 효율적인 합산 영역 테이블의 생성 방법)

  • Ha, Sang-Won;Choi, Moon-Hee;Jun, Tae-Joon;Kim, Jin-Woo;Byun, Hye-Ran;Han, Tack-Don
    • Journal of Korea Game Society
    • /
    • v.12 no.5
    • /
    • pp.67-78
    • /
    • 2012
  • Summed area table allows filtering of arbitrary-width box regions for every pixel in constant time per pixel. This characteristic makes it beneficial in image processing applications where the sum or average of the surrounding pixel intensity is required. Although calculating the summed area table of an image data is primarily a memory bound job consisting of row or column-wise summation, previous works had to endure excessive access to the high latency global memory in order to exploit data parallelism. In this paper, we propose an efficient algorithm for generating the summed area table in the GPGPU environment where the input is decomposed into square sub-images with intermediate data that are propagated between them. By doing so, the global memory access is almost halved compared to the previous methods making an efficient use of the available memory bandwidth. The results show a substantial increase in performance.