• Title/Summary/Keyword: 계층적 메모리 구조

Search Result 106, Processing Time 0.029 seconds

Analysis on the GPU Performance according to Hierarchical Memory Organization (계층적 메모리 구성에 따른 GPU 성능 분석)

  • Choi, Hongjun;Kim, Jongmyon;Kim, Cheolhong
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.3
    • /
    • pp.22-32
    • /
    • 2014
  • Recently, GPGPU has been widely used for general-purpose processing as well as graphics processing by providing optimized hardware for parallel processing. Memory system has big effects on the performance of parallel processing units such as GPU. In the GPU, hierarchical memory architecture is implemented for high memory bandwidth. Moreover, both memory address coalescing and memory request merging techniques are widely used. This paper analyzes the GPU performance according to various memory organizations. According to our simulation results, GPU performance improves by 15.5%, 21.5%, 25.5%, 30.9% as adding 8KB L1, 16KB L1, 32KB L1, 64KB L1 cache, respectively, compared to case without L1 cache. However, experimental results show that some benchmarks decrease performance since memory transaction increases due to data dependency. Moreover, average memory access latency is increased as the depth of hierarchical cache level increases when cache miss occurs significantly.

Design and Implementation of NAND Flash Memory Access Layer (NAND플래시 메모리의 효율적 사용을 위한 접근계층의 설계 및 구현)

  • 박정태;최문선;김성조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.178-180
    • /
    • 2004
  • 최근 소형 모바일 기기들이 대중화되고 그 종류가 다양해지면서 플래시 메모리가 기본 저장 매체로서 많이 사용되고 있다. 플래시 메모리는 기존의 하드디스크 같은 자기 매체에 비해서 크기가 작고, 전력소모도 적으며 내구성도 높다. 멀티미디어 데이터를 다루는 기기들이 증가하면서 플래시 메모리 중에서도 비용이 저렴하고 단일 칩으로도 대용량을 가지는 NAND형 플래시 메모리를 저장장치로 사용하는 기기들이 계속해서 늘어나고 있다. NAND 플래시 메모리는 기존에 많이 사용되던 NOR 플래시 메모리와는 다른 않은 특징이 있다. 따라서 NAND 플래시 메모리에 적합한 저장 기법을 설계하기 위해서는 NAND 플래시 메모리의 특징을 잘 이해하고 이용해야 한다. 이에 본 논문에서는 NAND 플래시 메모리를 효율적으로 사용할 수 있도록 해주는 접근계층을 설계, 구현하고 이에 대한 구조와 세부 특징에 대해서 살펴본다. 본 논문에서 구현한 접근계층은 하드웨어에 종속적이지 않으며 NAND 플래시 메모리가 제공하는 다양한 기능을 상위 계층에서 충분히 활용할 수 있도록 설계되었다.

  • PDF

Pipelined VLSI Architectures for the Hierarchical Block-Matching Algorithm (계층적 블록매칭 알고리즘을 위한 파이프라인식 VLSI 아키텍쳐)

  • Kim, Hyeong-Cheol;Maeng, Seung-Ryeol
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.7
    • /
    • pp.1691-1716
    • /
    • 1998
  • 본 논문에서는 계층적 블록매칭 알고리즘(HBMA)을 위한 두 가지 병렬 VLSI 아키텍쳐를 제안한다. HBMA는 계층에 따른 반복수행과 공간 인터폴레이션을 기반으로 수행되며, 이러한 수행 특성은 병렬처리의 장애요소인 데이터 종속성을 내재하고 있다. 제안된 아키텍쳐는 HBMA의 계층간 데이터 종속성을 해결하기 위하여 기본적으로 파이프라인 구조를 채택하고 있으며, HBMA에서 주어진 매개변수에 따라 세 단계의 스테이지로 구성된다. 제안된 아키텍쳐는 입력 프레임 데이터의 흐름을 제어하는 방식에 따라 두 가지 종류로 구분된다. U-Architecture는 단방향 스캔 순서를 따르도록 설계되었으며, B-Architecture는 양방향 스캔 수서를 따르도록 설계되었다. 각 아키텍쳐의 내부 메모리와 인터폴레이션 모듈은 해당 스캔 순서에 따라 동기적으로 동작할 수 있는 구조를 가진다. 성능분석의 결과로서 본 논문에서 제안한 두 가지 아키텍쳐가 모두 방송용 비디오 포맷을 실시간으로 처리할 수 있음을 보이고, HDTV 포맷은 가까운 장래의 VLSI 기술로 실시간 성능을 얻을 수 있음을 보였다. 또한, B-Architecture는 공간 연결성 내부 메모리 구조를 채택함으로써 입력 데이터의 재활용도를 높이고, 이에 따라 Q-Architecture에 비해서 데이터 입출력 핀의 개수를 약 반정도 줄일 수 있는 특성을 보이고 있다.

  • PDF

Acceleration of Range Query in R-tree Using GPU Parallel Processing (GPU를 이용한 R-tree의 질의처리 병렬화)

  • Kim, Min-Cheol;Choi, Won-Ik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.37-40
    • /
    • 2011
  • 계층적 색인 구조는 대용량의 다차원 데이터에 대한 범위질의를 가장 효율적으로 처리하는 색인 구조이다. 계층적 색인 구조에서 범위질의의 속도를 향상시키기 위해서 색인 구조의 구성 시 발생하는 인접노드간의 겹치는 영역을 줄이는 기법들과 다량의 데이터를 한 번에 읽어 상향식 방식으로 색인 구조의 공간 활용도를 증가시키는 벌크 로딩 기법들이 제안되었다. 하지만 CPU기반에서 개별의 노드들을 순차적으로 질의처리 하는 계층적 색인 구조는 공간 활용도의 증가와 노드 간의 중첩 영역을 줄이는 것만으로는 질의 처리 성능 향상에 한계가 있다. 따라서 본 논문에서는 기존의 CPU기반 계층적 색인 구조 중의 대표적인 예인 R-tree의 저장 구조를 GPU 메모리에 적합하도록 변경을 하였다. 또한 기존 CPU기반 계층적 색인 구조의 순차적인 노드 검색을 GPU를 이용해 병렬적으로 노드를 검사하여 성능을 향상시켰다. 이와 같은 방식으로 질의 영역의 크기에 따라서 성능 향상정도가 다르지만 최대 100배 이상의 성능을 향상시켰다.

Hardware Abstraction Architecture for Low Cost Flash Memories in Wireless Sensor Nodes (무선 센서 노드상의 저가형 플래시 메모리를 위한 하드웨어 추상화 구조)

  • Kim, Chang-Hoon;Kwon, Young-Jik
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.14 no.2
    • /
    • pp.72-80
    • /
    • 2009
  • In this parer, we propose a hardware abstraction architecture(HAA) for low cost flash memories that can be applicable to wireless sensor nodes. The proposed HAA consists of three layers. The three layers are 1) HHL(Hardware Interlace Layer), HAL(Hardware Adaption Layer), and HPL(Hardware Presentation Layer), where HIL provides a platform independent interlace to applications of upper layers, HAL performs hardware resource management, program status control, and generation of logical instructions as main core of the HAA, and HPL initializes hardware and communicates data between MCU and flash memory. We implemented our HAA on AT45DB flash memory, and the HAA used 4,384 bytes program memory and 195 bytes data memory respectively. Since the proposed HAA is composed of well defined three layers and shows a low utilization of memory, it can provides a high efficiency in terms of flexibility, scalability, and re-usability, and thus the HAA is well suited for wireless sensor nodes.

A Cache Controller to Maximize Effectiveness of Hierarchical Memory Architecture (계층적 메모리 구조의 효과를 극대화하는 캐시 제어기)

  • Uh Bong Yong;Ju Young Kwan;Cheon Joong Nam;Kim Suk Il
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.32 no.11_12
    • /
    • pp.608-616
    • /
    • 2005
  • A cache architecture is proposed here which evokes prefetch at level 1 cache miss. Existing structures only prefetch at level 2 cache miss. In the proposed cache architecture, level 1 cache miss would select demand fetch block and prefetch block from the level 2 cache and store to level 1 cache and prefetch cache, respectively. According to an experimental analysis using 11 benchmark programs, the hierarchical cache architecture that employs both a level 1 cache prefetcher and a level 2 cache prefetcher obtained a maximum $19\%$ increased performance when compared to the cache architecture that employs only a level 2 cache prefetcher.

An Efficient Implementation of B-Tree Using Lazy Update on Flash Memory (플래시 메모리 상에서 지연 갱신을 이용한 B-트리의 효율적인 구현)

  • Kim, Bo-Kyeong;Yoo, Min-Hee;Lee, Dong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.69-72
    • /
    • 2011
  • 플래시 메모리 기반의 저장 시스템은 빠른 접근 속도, 작고 가벼운 특성, 저전력 소모 등의 이유로 하드 디스크를 대체하는 저장 매체로 주목 받고 있다. 플래시 메모리는 하드 디스크와 다르게 읽기 쓰기 소거 연산이 필요하며 수혈 단위와 수혈 시간 이 비대칭적이다. 또한 제자리 갱신이 불가능하기 때문에 가장 느린 소거 동작을 선행하여 갱신 연산을 수행한다. 기존 호스트 시스템은 읽기 쓰기 연산 만을 수행하기 때문에 플래시 메모리를 바로 사용하기 위해서는 별도의 소프트웨어 중간 계층인 플래시 전환 계층이 필요하다. 그러나 디스크 기반의 B-트리를 플래시 전환 계층 위에서 인덱스로 사용하면 B-트리 특성상 제자리 갱신이 빈번하게 발생하기 때문에 성능 저하가 발생한다. 따라서 플래시 메모리 특성을 고려한 새로운 인덱스 구조가 필요하게 되었다. 플래시 메모리 전용의 인덱스 ${\mu}$-트리와 LSB-트리가 제안 되었지만, ${\mu}$-트리는 페이지 관리의 비효율성, LSB-트리는 임시 노드 관리 추가 비용의 문제점을 가지고 있다. 본 논문에서 ${\mu}$-트리와 LSB 트리의 문제점을 해결하기 위하여 지연 갱신을 이용한 B-트리를 제안한다. 제안하는 인덱스는 변경이 일어나는 노드를 메모리에 적재시켜 데이터 삽입 시 노드 갱신을 지연시키고 노드 분할 없이 데이터의 순차 삽입을 처리하여 검색 및 쓰기 성능을 향상시킨다. 본 논문에서는 관련 연구인 ${\mu}$-트리와 LSB-트리를 수식을 통하여 제안하는 인덱스 구조의 우수성을 보인다.

An Efficient Data Distribution Method on a Distributed Shared Memory Machine (분산공유 메모리 시스템 상에서의 효율적인 자료분산 방법)

  • Min, Ok-Gee
    • The Transactions of the Korea Information Processing Society
    • /
    • v.3 no.6
    • /
    • pp.1433-1442
    • /
    • 1996
  • Data distribution of SPMD(Single Program Multiple Data) pattern is one of main features of HPF (High Performance Fortran). This paper describes design is sues for such data distribution and its efficient execution model on TICOM IV computer, named SPAX(Scalable Parallel Architecture computer based on X-bar network). SPAX has a hierarchical clustering structure that uses distributed shared memory(DSM). In such memory structure, it cannot make a full system utilization to apply unanimously either SMDD(shared Memory Data Distribution) or DMDD(Distributed Memory Data Distribution). Here we propose another data distribution model, called DSMDD(Distributed Shared Memory Data Distribution), a data distribution model based on hierarchical masters-slaves scheme. In this model, a remote master and slaves are designated in each node, shared address scheme is used within a node and message passing scheme between nodes. In our simulation, assuming a node size in which system performance degradation is minimized,DSMDD is more effective than SMDD and DMDD. Especially,the larger number of logical processors and the less data dependency between distributed data,the better performace is obtained.

  • PDF

Efficient OFTL (Octree Flash Translation Layer) Technique for 3-D Vertical NAND Flash Memory (3차원 수직구조 NAND 플래시 메모리를 위한 효율적인 OFTL (Octree Flash Translation Layer) 기법)

  • Kim, Seung-Wan;Kim, Hun;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.227-229
    • /
    • 2014
  • 플래시 메모리는 빠른 처리 속도, 비휘발성, 저 전력, 강한 내구성 등으로 인해 최근 스마트폰, 태블릿, 노트북, 컴퓨터와 같은 여러 분야에서 많이 사용하고 있다. 최근 기존에 사용하던 NAND 플래시가 미세화 기술의 한계에 봉착함에 따라 기존 2차원 구조의 NAND플래시를 대처할 장치로 3차원 수직구조 NAND 플래시 메모리(3D Vertical NAND)가 주목받고 있다. 기존의 플래시 메모리는 데이터를 효율적으로 삽입/삭제/검색하기 위해 B-tree와 같은 색인기법을 필요로 한다. 플래시 메모리 상에서 B-tree 구현에 관한 기존 연구로서는 BFTL(B-Tree Flash Translation Layer)기법이 최초로 제안되었다. 현재 3차원 V-NAND 구조의 플래시 메모리가 시작품으로 제작되어 머지않아 양산 될 예정이다. 본 논문에서는 향후 출시될 3차원 구조의 플래시 메모리에 적합한 Octree 기반의 파일시스템을 제안한다.

  • PDF

A Study on English-Korean Messenger MT System based on Structured Translation Memory (구조화된 번역 메모리 기반 영한 메신저 자동 번역 시스템에 관한 연구)

  • Choi, Sung-Kwon;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.361-364
    • /
    • 2011
  • 본 논문의 목표는 크게 두 가지이다. 하나는 2010년에 개발한 메신저 자동번역 시스템을 소개하는 것이고, 다른 하나는 메신저 대화체 문장을 더욱 고품질로 번역하기 위한 구조화된 번역 메모리(Structured Translation Memory)를 소개하는 것이다. 구조화된 번역 메모리는 기존의 문자열 기반의 번역 메모리와 자동 번역 시스템의 경계를 허무는 개념으로 구조를 표현하는 계층적 번역 메모리들로 구성된다. 구조화된 번역 메모리는 문자열 번역 메모리, 원형 어휘로 구성된 번역 메모리, 고유명사가 청킹된 번역 메모리, 날짜/숫자가 청킹된 번역 메모리, 기본명사구가 청킹된 번역 메모리, 문장 패턴 번역 메모리로 단계적으로 구성된다. 구조화된 번역 메모리를 적용하기 전의 2010년의 영한 메신저 자동 번역 시스템의 번역률이 81.67%였던 반면에, 구조화된 번역 메모리를 적용하려는 2011년의 영한 메신저 자동 번역 시스템의 시물레이션 번역률은 85.25%인 것으로 평가되었다. 따라서 구조화된 번역 메모리를 적용하였을 때는 기존의 번역률보다 3.58% 향상할 것으로 예측된다.