• 제목/요약/키워드: Hierarchical Memory Architecture

검색결과 26건 처리시간 0.021초

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

범용 그래픽 처리 장치의 메모리 설계를 위한 그래픽 처리 장치의 메모리 특성 분석 (Analysis on Memory Characteristics of Graphics Processing Units for Designing Memory System of General-Purpose Computing on Graphics Processing Units)

  • 최홍준;김철홍
    • 스마트미디어저널
    • /
    • 제3권1호
    • /
    • pp.33-38
    • /
    • 2014
  • 소비전력 증가와 같은 문제점들로 인하여, 마이크로프로세서만으로는 컴퓨팅 시스템의 성능을 향상시키기 점점 어려워지고 있다. 이와 같은 상황에서, 대용량 병렬 연산에 특화된 그래픽 처리 장치를 활용하여 중앙 처리 장치가 담당하던 범용 작업을 수행하게 하는 범용 그래픽 처리 장치 기술이 컴퓨터 시스템의 성능을 개선시킬 수 있는 방안으로 주목을 받고 있다. 하지만, 그래픽스 관련 응용프로그램과 범용 응용프로그램의 특징은 매우 상이하기 때문에, 그래픽 처리 장치가 범용 응용프로그램을 수행하는 경우에는 많은 제약 사항으로 인하여 자신의 뛰어난 연산 자원을 활용하지 못하는 실정이다. 일반적으로 그래픽스 관련 응용프로그램에 비해 범용 응용프로그램은 메모리를 매우 많이 요청하기 때문에 범용 그래픽 처리 장치 기술을 효율적으로 활용하기 위해서는 메모리 설계가 매우 중요하다. 특히, 긴 접근 시간을 요구하는 외부 메모리 요청은 성능에 큰 오버헤드이다. 그러므로 외부 메모리로의 접근 횟수를 줄일 수 있는 다중 레벨 캐쉬 구조를 효율적으로 활용할 수 있다면, GPU의 성능은 크게 향상 될 것이 분명하다. 본 논문에서는 다중 레벨 캐쉬 구조에 따른 그래픽 처리 장치의 성능을 다양한 벤치마크 프로그램을 통하여 정량적으로 분석하고자 한다.

계층 비트라이에 의한 최적 페이지 인터리빙 메모리 (An Optimum Paged Interleaving Memory by a Hierarchical Bit Line)

  • 조경연;이주근
    • 대한전자공학회논문지
    • /
    • 제27권6호
    • /
    • pp.901-909
    • /
    • 1990
  • With a wide spread of 32 bit personal computers, a simple structure and high performance memory system have been highly required. In this paper, a memory block is constructed by using a modified hierarchical bit line in which the DRAM bit line and the latch which works as a SRAM cell are integrated by an interface gate. And the new architecture memory DSRAM(Dynamic Static RAM) is proposed by interleaving the 16 memory block. Because the DSRAM works with 16 page, the page is miss ratio becomes small and the RAS precharge time which is incurred by page miss is shortened. So the DSRAM can implement an optimum page interleaving and it has good compatibility to the existing DRAMs. The DSRAM can be widely used in small computers as well as a high performance memory system.

  • PDF

저전송률 동영상 압축을 위한 새로운 계층적 움직임 추정기의 VLSI 구조 (A New VLSI Architecture of a Hierarchical Motion Estimator for Low Bit-rate Video Coding)

  • 이재헌;나종범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.601-604
    • /
    • 1999
  • We propose a new hierarchical motion estimator architecture that supports the advanced prediction mode of recent low bit-rate video coders such as H.263 and MPEG-4. In the proposed VLSI architecture, a basic searching unit (BSU) is commonly utilized for all hierarchical levels to make a systematic and small sized motion estimator. Since the memory bank of the proposed architecture provides scheduled data flow for calculating 8$\times$8 block-based sum of absolute difference (SAD), both a macroblock-based motion vector (MV) and four block-based MVs are simultaneously obtained for each macroblock in the advanced prediction mode. The proposed motion estimator gives similar coding performance compared with full search block matching algorithm (FSBMA) while achieving small size and satisfying the advanced prediction mode.

  • PDF

계층적 메모리 구조의 효과를 극대화하는 캐시 제어기 (A Cache Controller to Maximize Effectiveness of Hierarchical Memory Architecture)

  • 어봉용;주영관;전중남;김석일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.608-616
    • /
    • 2005
  • 이 논문에서는 계층적 캐시 구조에서 기존의 레벨 2 캐시 미스 시에만 선인출 하도록 되어있는 구조를 레벨 1 캐시 미스 시에도 선인출 하도록 하는 캐시구조를 제안하였다. 즉, 레벨 1 캐시 미스가 발생하면 레벨 2 캐시로부터 요구블록과 선인출 블록을 선택하여 레벨 1 캐시와 선인출 캐시에 각각 적재한다. 11개의 벤치마크 프로그램에 대한 실험결과, 레벨 1 캐시 선인출기와 레벨 2 캐시 선인출기로 구성한 계층적 캐시구조가 레벨 2 캐시 선인출기만 채용한 기존의 캐시구조에 비하여 최대 $19\%$의 성능향상을 얻을 수 있었다.

분산공유 메모리 시스템 상에서의 효율적인 자료분산 방법 (An Efficient Data Distribution Method on a Distributed Shared Memory Machine)

  • 민옥기
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1433-1442
    • /
    • 1996
  • 자료 분산은 SPMD(Single Program Multiple Data)형태의 병렬성을 제공하는 HPF (High Performance Fortran)의 주기능으로 구현 방법에 따라 컴파일러 성능을 좌우한 다. 본 논문에서는 SPAX(Scalable Parallel Architecture computer based on X-bar network)상에 자료 분산 기능을 제공하기 위한 설계 주안점과 효율적인 모델에 관하 여 기술하였다. SPAX는 분산공유 메모리 (DSM:distributed shared memory)를 사용한 계층적 클러스터링 구조를 가진다. 이러한 메모리 구조에서는 분산 메모리 자료 분산 (DMDD:Distributed Memory Data Distribution)이나 공유 메모리 자료 분산(SMDD: Shared Memory Data Distribution)방법으로는 시스템 가용성을 만족할 수 없다. 그래 서 계층적 마스터-슬래브 형태의 분산공유 메모리 자료분산(DSMDD:Distributed Shared Memory Data Distribution)모델을 설계하였다. 이 모델은 각 노드에 원격 마 스터와 슬래브들을 할당하고 노드내에서는 공유 메모리를 그리고 노드간에는 메세지 전달 인터페이스를 사용한다. 시뮬레이션을 수행한 결과, 시스템 성능 저하를 최소화 하는 노드 크기로 DSMDD를 수행하였을 때 SMDD나 DMDD보다 훨씬 더 효율적이였다. 특 히, 논리적 프로세서 갯수가 많을수록, 분산된 자료들 간의 자료 종속성이 적을수록 성능이 우수하였다.

  • PDF

상용 응용을 위한 병렬처리 구조 설계 (Design of the new parallel processing architecture for commercial applications)

  • 한우종;윤석한;임기욱
    • 전자공학회논문지B
    • /
    • 제33B권5호
    • /
    • pp.41-51
    • /
    • 1996
  • In this paper, anew parallel processing system based on a cluster architecture which provides scalability of a parallel processing system while maintains shared memory multiprocessor characteristics is proposed. In recent days low cost, high performnce microprocessors have led to construction of large scale parallel processing systems. Such parallel processing systems provides large scalability but are mainly used for scientific applications which have large data parallelism. A shared memory multiprocessor system like TICOM is currently used as aserver for the commercial application, however, the shared memory multiprocessor system is known to have very limited scalability. The proposed architecture can support scalability and performance of the parallel processing system while it provides adaptability for the commerical application, hence it can overcome the limitation of the shared memory multiprocessor. The architecture and characteristics of the proposed system shall be described. A proprietary hierarchical crsossbar network is designed for this system, of which the protocol, routing and switching technique and the signal transfer technique are optimized for the proposed architecture. The design trade-offs for the network are described in this paper and with simulation usihng the SES/workbench, it is explored that the network fits to the proposed architecture.

  • PDF

고성능 프로세서-메모리 혼합 구조의 설계 및 성능 분석 (Design and Performance Analysis of High Performance Processor-Memory Integrated Architectures)

  • 김영식;김신덕;한탁돈
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2686-2703
    • /
    • 1998
  • 프로세서 메모리 혼합 구조는 해마다 증가하는 프로세서와 메모리간의 성능 격차를 해결하는 대안으로 연구가 활발히 진행되고 있다. 본 논문에서는 프로세서 메모리 혼합 구조의 여러 가지 설계 대안들을 고찰하였다. 이를 위해서 DRAM 접근 시간의 분석적 모델을 제안하고 성능 향상점 및 성능 병목점을 찾았다. 제안한 분석적 모델에 의하여 DRAM 페이지 적중률을 증대하여 성능을 향상시키는 구조로써 새로운 온칩 DRAM 구조인 프리차지 연기 뱅크 아키텍쳐를 제안하였다. 또한 제안한 뱅크 아키텍쳐에 효율적으로 적용할 수 있는 뱅크 인터리빙 방법을 제시하였다. 제안한 구조는 기존의 일반적 DRAM 구조 및 계층적 다중-뱅크 구조보다 우수함을 시뮬레이션을 통하여 증명하였다. 시뮬레이션은 SimpleScalar 툴을 개조하여 사용하였고, SPEC95 벤치마크에 대해서, 캐쉬 메모리의 크기, 뱅크 개수, 프리차지 연기 시간 등의 변화에 대한 성능을 분석하였다.

  • PDF

A Technique for Improving the Performance of Cache Memories

  • Cho, Doosan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권3호
    • /
    • pp.104-108
    • /
    • 2021
  • In order to improve performance in IoT, edge computing system, a memory is usually configured in a hierarchical structure. Based on the distance from CPU, the access speed slows down in the order of registers, cache memory, main memory, and storage. Similar to the change in performance, energy consumption also increases as the distance from the CPU increases. Therefore, it is important to develop a technique that places frequently used data to the upper memory as much as possible to improve performance and energy consumption. However, the technique should solve the problem of cache performance degradation caused by lack of spatial locality that occurs when the data access stride is large. This study proposes a technique to selectively place data with large data access stride to a software-controlled cache. By using the proposed technique, data spatial locality can be improved by reducing the data access interval, and consequently, the cache performance can be improved.

패킷 분류를 위한 계층 이진 검색 트리 (Hierarchical Binary Search Tree (HBST) for Packet Classification)

  • 추하늘;임혜숙
    • 한국통신학회논문지
    • /
    • 제32권3B호
    • /
    • pp.143-152
    • /
    • 2007
  • 네트워크 상에서 정책 기반의 라우팅이나 품질보장(Quality of Service)과 같은 새로운 서비스들을 제공하기 위해서 인터넷 라우터는 패킷을 여러 개의 플로우로 분류하고 각 플로우에 대하여 서로 다른 처리를 해주어야 하는데, 이를 패킷 분류라 한다. 패킷 분류 기능은 초당 수백 기가 비트의 속도로 입력되는 모든 패킷에 대하여 선속도(wire-speed)로 처리되어야 하므로 인터넷 라우터 내에서 새로운 병목점으로 작용하고 있다. 따라서 빠른 속도의 패킷 분류 구조의 필요성이 대두되고 있는데 본 논문에서는 계층 트리를 이용한 패킷 분류 구조를 제안한다. 제안하는 구조는 빈 노드를 갖지 않는 이진 검색 트리를 계층적으로 연결하여 패킷 분류를 수행하는 구조로서, 메모리 효율성을 높이고 메모리 접근 횟수를 줄임으로써 검색 성능을 향상시킨 구조이다.