• 제목/요약/키워드: 계층적 메모리 구조

검색결과 106건 처리시간 0.026초

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

NAND플래시 메모리의 효율적 사용을 위한 접근계층의 설계 및 구현 (Design and Implementation of NAND Flash Memory Access Layer)

  • 박정태;최문선;김성조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.178-180
    • /
    • 2004
  • 최근 소형 모바일 기기들이 대중화되고 그 종류가 다양해지면서 플래시 메모리가 기본 저장 매체로서 많이 사용되고 있다. 플래시 메모리는 기존의 하드디스크 같은 자기 매체에 비해서 크기가 작고, 전력소모도 적으며 내구성도 높다. 멀티미디어 데이터를 다루는 기기들이 증가하면서 플래시 메모리 중에서도 비용이 저렴하고 단일 칩으로도 대용량을 가지는 NAND형 플래시 메모리를 저장장치로 사용하는 기기들이 계속해서 늘어나고 있다. NAND 플래시 메모리는 기존에 많이 사용되던 NOR 플래시 메모리와는 다른 않은 특징이 있다. 따라서 NAND 플래시 메모리에 적합한 저장 기법을 설계하기 위해서는 NAND 플래시 메모리의 특징을 잘 이해하고 이용해야 한다. 이에 본 논문에서는 NAND 플래시 메모리를 효율적으로 사용할 수 있도록 해주는 접근계층을 설계, 구현하고 이에 대한 구조와 세부 특징에 대해서 살펴본다. 본 논문에서 구현한 접근계층은 하드웨어에 종속적이지 않으며 NAND 플래시 메모리가 제공하는 다양한 기능을 상위 계층에서 충분히 활용할 수 있도록 설계되었다.

  • PDF

계층적 블록매칭 알고리즘을 위한 파이프라인식 VLSI 아키텍쳐 (Pipelined VLSI Architectures for the Hierarchical Block-Matching Algorithm)

  • 김형철;맹승렬
    • 한국정보처리학회논문지
    • /
    • 제5권7호
    • /
    • pp.1691-1716
    • /
    • 1998
  • 본 논문에서는 계층적 블록매칭 알고리즘(HBMA)을 위한 두 가지 병렬 VLSI 아키텍쳐를 제안한다. HBMA는 계층에 따른 반복수행과 공간 인터폴레이션을 기반으로 수행되며, 이러한 수행 특성은 병렬처리의 장애요소인 데이터 종속성을 내재하고 있다. 제안된 아키텍쳐는 HBMA의 계층간 데이터 종속성을 해결하기 위하여 기본적으로 파이프라인 구조를 채택하고 있으며, HBMA에서 주어진 매개변수에 따라 세 단계의 스테이지로 구성된다. 제안된 아키텍쳐는 입력 프레임 데이터의 흐름을 제어하는 방식에 따라 두 가지 종류로 구분된다. U-Architecture는 단방향 스캔 순서를 따르도록 설계되었으며, B-Architecture는 양방향 스캔 수서를 따르도록 설계되었다. 각 아키텍쳐의 내부 메모리와 인터폴레이션 모듈은 해당 스캔 순서에 따라 동기적으로 동작할 수 있는 구조를 가진다. 성능분석의 결과로서 본 논문에서 제안한 두 가지 아키텍쳐가 모두 방송용 비디오 포맷을 실시간으로 처리할 수 있음을 보이고, HDTV 포맷은 가까운 장래의 VLSI 기술로 실시간 성능을 얻을 수 있음을 보였다. 또한, B-Architecture는 공간 연결성 내부 메모리 구조를 채택함으로써 입력 데이터의 재활용도를 높이고, 이에 따라 Q-Architecture에 비해서 데이터 입출력 핀의 개수를 약 반정도 줄일 수 있는 특성을 보이고 있다.

  • PDF

GPU를 이용한 R-tree의 질의처리 병렬화 (Acceleration of Range Query in R-tree Using GPU Parallel Processing)

  • 김민철;최원익
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.37-40
    • /
    • 2011
  • 계층적 색인 구조는 대용량의 다차원 데이터에 대한 범위질의를 가장 효율적으로 처리하는 색인 구조이다. 계층적 색인 구조에서 범위질의의 속도를 향상시키기 위해서 색인 구조의 구성 시 발생하는 인접노드간의 겹치는 영역을 줄이는 기법들과 다량의 데이터를 한 번에 읽어 상향식 방식으로 색인 구조의 공간 활용도를 증가시키는 벌크 로딩 기법들이 제안되었다. 하지만 CPU기반에서 개별의 노드들을 순차적으로 질의처리 하는 계층적 색인 구조는 공간 활용도의 증가와 노드 간의 중첩 영역을 줄이는 것만으로는 질의 처리 성능 향상에 한계가 있다. 따라서 본 논문에서는 기존의 CPU기반 계층적 색인 구조 중의 대표적인 예인 R-tree의 저장 구조를 GPU 메모리에 적합하도록 변경을 하였다. 또한 기존 CPU기반 계층적 색인 구조의 순차적인 노드 검색을 GPU를 이용해 병렬적으로 노드를 검사하여 성능을 향상시켰다. 이와 같은 방식으로 질의 영역의 크기에 따라서 성능 향상정도가 다르지만 최대 100배 이상의 성능을 향상시켰다.

무선 센서 노드상의 저가형 플래시 메모리를 위한 하드웨어 추상화 구조 (Hardware Abstraction Architecture for Low Cost Flash Memories in Wireless Sensor Nodes)

  • 김창훈;권영직
    • 한국산업정보학회논문지
    • /
    • 제14권2호
    • /
    • pp.72-80
    • /
    • 2009
  • 본 논문에서는 무선 센서 노드에 사용 가능한 저가형 플래시 메모리를 위한 하드웨어 추상화 구조(Hardware Abstraction Architecture: HAA)를 제안한다. 제안된 HAA는 3개 의 계층으로 이루어져 있으며, 세 개의 계층은 HIL(Hardware Interlace Layer), HAL(Hardware Adaption Layer), HPL(Hardware Presentation Layer)로 구성된다. 여기서 HIL은 상위 계층의 어플리케이션에 대해 플랫폼 독립적인 인터페이스를 제공하고, HAL은 하드웨어 추상계층에서 가장 핵심적인 부분으로서 하드웨어 자원 제어, 상태관리,논리적 명령어를 생성하며, HPL은 하드웨어 초기화 및 플래시 메모리와의 통신 부분을 담당한다. 제안된 HAA는 무선 센서노드에 가장 많이 사용되고 있는 Atmel사의 AT45DB 계열의 플래시 메모리에 적용되었으며, 4,384 바이트의 프로그램 메모리와 195 바이트의 데이터 메모리를 사용한다. 따라서 본 논문에서 제안된 HAA 구조는 3계층으로 설계되었기 때문에 소프트왜어 개발 측면에서 높은 유연성, 확장성, 재사용성을 제공하며, 낮은 메모리를 시용하기 때문에 무선 센서 노드용으로 적합하다 할 수 있다.

계층적 메모리 구조의 효과를 극대화하는 캐시 제어기 (A Cache Controller to Maximize Effectiveness of Hierarchical Memory Architecture)

  • 어봉용;주영관;전중남;김석일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.608-616
    • /
    • 2005
  • 이 논문에서는 계층적 캐시 구조에서 기존의 레벨 2 캐시 미스 시에만 선인출 하도록 되어있는 구조를 레벨 1 캐시 미스 시에도 선인출 하도록 하는 캐시구조를 제안하였다. 즉, 레벨 1 캐시 미스가 발생하면 레벨 2 캐시로부터 요구블록과 선인출 블록을 선택하여 레벨 1 캐시와 선인출 캐시에 각각 적재한다. 11개의 벤치마크 프로그램에 대한 실험결과, 레벨 1 캐시 선인출기와 레벨 2 캐시 선인출기로 구성한 계층적 캐시구조가 레벨 2 캐시 선인출기만 채용한 기존의 캐시구조에 비하여 최대 $19\%$의 성능향상을 얻을 수 있었다.

플래시 메모리 상에서 지연 갱신을 이용한 B-트리의 효율적인 구현 (An Efficient Implementation of B-Tree Using Lazy Update on Flash Memory)

  • 김보경;유민희;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.69-72
    • /
    • 2011
  • 플래시 메모리 기반의 저장 시스템은 빠른 접근 속도, 작고 가벼운 특성, 저전력 소모 등의 이유로 하드 디스크를 대체하는 저장 매체로 주목 받고 있다. 플래시 메모리는 하드 디스크와 다르게 읽기 쓰기 소거 연산이 필요하며 수혈 단위와 수혈 시간 이 비대칭적이다. 또한 제자리 갱신이 불가능하기 때문에 가장 느린 소거 동작을 선행하여 갱신 연산을 수행한다. 기존 호스트 시스템은 읽기 쓰기 연산 만을 수행하기 때문에 플래시 메모리를 바로 사용하기 위해서는 별도의 소프트웨어 중간 계층인 플래시 전환 계층이 필요하다. 그러나 디스크 기반의 B-트리를 플래시 전환 계층 위에서 인덱스로 사용하면 B-트리 특성상 제자리 갱신이 빈번하게 발생하기 때문에 성능 저하가 발생한다. 따라서 플래시 메모리 특성을 고려한 새로운 인덱스 구조가 필요하게 되었다. 플래시 메모리 전용의 인덱스 ${\mu}$-트리와 LSB-트리가 제안 되었지만, ${\mu}$-트리는 페이지 관리의 비효율성, LSB-트리는 임시 노드 관리 추가 비용의 문제점을 가지고 있다. 본 논문에서 ${\mu}$-트리와 LSB 트리의 문제점을 해결하기 위하여 지연 갱신을 이용한 B-트리를 제안한다. 제안하는 인덱스는 변경이 일어나는 노드를 메모리에 적재시켜 데이터 삽입 시 노드 갱신을 지연시키고 노드 분할 없이 데이터의 순차 삽입을 처리하여 검색 및 쓰기 성능을 향상시킨다. 본 논문에서는 관련 연구인 ${\mu}$-트리와 LSB-트리를 수식을 통하여 제안하는 인덱스 구조의 우수성을 보인다.

분산공유 메모리 시스템 상에서의 효율적인 자료분산 방법 (An Efficient Data Distribution Method on a Distributed Shared Memory Machine)

  • 민옥기
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1433-1442
    • /
    • 1996
  • 자료 분산은 SPMD(Single Program Multiple Data)형태의 병렬성을 제공하는 HPF (High Performance Fortran)의 주기능으로 구현 방법에 따라 컴파일러 성능을 좌우한 다. 본 논문에서는 SPAX(Scalable Parallel Architecture computer based on X-bar network)상에 자료 분산 기능을 제공하기 위한 설계 주안점과 효율적인 모델에 관하 여 기술하였다. SPAX는 분산공유 메모리 (DSM:distributed shared memory)를 사용한 계층적 클러스터링 구조를 가진다. 이러한 메모리 구조에서는 분산 메모리 자료 분산 (DMDD:Distributed Memory Data Distribution)이나 공유 메모리 자료 분산(SMDD: Shared Memory Data Distribution)방법으로는 시스템 가용성을 만족할 수 없다. 그래 서 계층적 마스터-슬래브 형태의 분산공유 메모리 자료분산(DSMDD:Distributed Shared Memory Data Distribution)모델을 설계하였다. 이 모델은 각 노드에 원격 마 스터와 슬래브들을 할당하고 노드내에서는 공유 메모리를 그리고 노드간에는 메세지 전달 인터페이스를 사용한다. 시뮬레이션을 수행한 결과, 시스템 성능 저하를 최소화 하는 노드 크기로 DSMDD를 수행하였을 때 SMDD나 DMDD보다 훨씬 더 효율적이였다. 특 히, 논리적 프로세서 갯수가 많을수록, 분산된 자료들 간의 자료 종속성이 적을수록 성능이 우수하였다.

  • PDF

3차원 수직구조 NAND 플래시 메모리를 위한 효율적인 OFTL (Octree Flash Translation Layer) 기법 (Efficient OFTL (Octree Flash Translation Layer) Technique for 3-D Vertical NAND Flash Memory)

  • 김승완;김훈;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.227-229
    • /
    • 2014
  • 플래시 메모리는 빠른 처리 속도, 비휘발성, 저 전력, 강한 내구성 등으로 인해 최근 스마트폰, 태블릿, 노트북, 컴퓨터와 같은 여러 분야에서 많이 사용하고 있다. 최근 기존에 사용하던 NAND 플래시가 미세화 기술의 한계에 봉착함에 따라 기존 2차원 구조의 NAND플래시를 대처할 장치로 3차원 수직구조 NAND 플래시 메모리(3D Vertical NAND)가 주목받고 있다. 기존의 플래시 메모리는 데이터를 효율적으로 삽입/삭제/검색하기 위해 B-tree와 같은 색인기법을 필요로 한다. 플래시 메모리 상에서 B-tree 구현에 관한 기존 연구로서는 BFTL(B-Tree Flash Translation Layer)기법이 최초로 제안되었다. 현재 3차원 V-NAND 구조의 플래시 메모리가 시작품으로 제작되어 머지않아 양산 될 예정이다. 본 논문에서는 향후 출시될 3차원 구조의 플래시 메모리에 적합한 Octree 기반의 파일시스템을 제안한다.

  • PDF

구조화된 번역 메모리 기반 영한 메신저 자동 번역 시스템에 관한 연구 (A Study on English-Korean Messenger MT System based on Structured Translation Memory)

  • 최승권;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.361-364
    • /
    • 2011
  • 본 논문의 목표는 크게 두 가지이다. 하나는 2010년에 개발한 메신저 자동번역 시스템을 소개하는 것이고, 다른 하나는 메신저 대화체 문장을 더욱 고품질로 번역하기 위한 구조화된 번역 메모리(Structured Translation Memory)를 소개하는 것이다. 구조화된 번역 메모리는 기존의 문자열 기반의 번역 메모리와 자동 번역 시스템의 경계를 허무는 개념으로 구조를 표현하는 계층적 번역 메모리들로 구성된다. 구조화된 번역 메모리는 문자열 번역 메모리, 원형 어휘로 구성된 번역 메모리, 고유명사가 청킹된 번역 메모리, 날짜/숫자가 청킹된 번역 메모리, 기본명사구가 청킹된 번역 메모리, 문장 패턴 번역 메모리로 단계적으로 구성된다. 구조화된 번역 메모리를 적용하기 전의 2010년의 영한 메신저 자동 번역 시스템의 번역률이 81.67%였던 반면에, 구조화된 번역 메모리를 적용하려는 2011년의 영한 메신저 자동 번역 시스템의 시물레이션 번역률은 85.25%인 것으로 평가되었다. 따라서 구조화된 번역 메모리를 적용하였을 때는 기존의 번역률보다 3.58% 향상할 것으로 예측된다.