• 제목/요약/키워드: 메모리 계층

검색결과 260건 처리시간 0.025초

딥뉴럴네트워크를 위한 기능성 기반의 핌 가속기 (Functionality-based Processing-In-Memory Accelerator for Deep Neural Networks)

  • 김민재;김신덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.8-11
    • /
    • 2020
  • 4 차 산업혁명 시대의 도래와 함께 AI, ICT 기술의 융합이 진행됨에 따라, 유저 레벨의 디바이스에서도 AI 서비스의 요청이 실현되었다. 이미지 처리와 관련된 AI 서비스는 피사체 판별, 불량품 검사, 자율주행 등에 이용되고 있으며, 특히 Deep Convolutional Neural Network (DCNN)은 이미지의 특색을 파악하는 데 뛰어난 성능을 보여준다. 하지만, 이미지의 크기가 커지고, 신경망이 깊어짐에 따라 연산 처리에 있어 낮은 데이터 지역성과 빈번한 메모리 참조를 야기했다. 이에 따라, 기존의 계층적 시스템 구조는 DCNN 을 scalable 하고 빠르게 처리하는 데 한계를 보인다. 본 연구에서는 DCNN 의 scalable 하고 빠른 처리를 위해 3 차원 메모리 구조의 Processing-In-Memory (PIM) 가속기를 제안한다. 이를 위해 기존 3 차원 메모리인 Hybrid Memory Cube (HMC)에 하드웨어 및 소프트웨어 모듈을 추가로 구성하였다. 구체적으로, Processing Element (PE)간 데이터를 공유할 수 있는 공유 캐시 및 소프트웨어 스택, 파이프라인화된 곱셈기 및 듀얼 프리페치 버퍼를 구성하였다. 이를 유명 DCNN 알고리즘 LeNet, AlexNet, ZFNet, VGGNet, GoogleNet, RestNet 에 대해 성능 평가를 진행한 결과 기존 HMC 대비 40.3%의 속도 향상을 29.4%의 대역폭 향상을 보였다.

플래시 스토리지의 성능 지연 방지를 위한 비휘발성램 기반 쓰기 증폭 감소 기법 (NVM-based Write Amplification Reduction to Avoid Performance Fluctuation of Flash Storage)

  • 이은지;정민성;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권4호
    • /
    • pp.15-20
    • /
    • 2016
  • 플래시 메모리는 초소형 전자기기부터 미디어 서버에 이르기까지 현대의 다양한 시스템에서 스토리지로 활용되고 있다. 플래시 메모리의 쓰기 증폭 (Write Amplification)은 가비지 컬렉션에서 발생하는 것으로 불규칙적인 성능의 주요 원인으로 지적되고 있다. 갑작스러운 속도지연은 실시간성 미디어를 위한 스토리지 시스템에서 치명적인 단점이 될 수 있다. 본 논문은 비휘발성램을 플래시 메모리 스토리지의 버퍼캐시로 사용하고 두 계층 간의 협동적 데이터 관리를 통해 플래시 메모리의 쓰깆 WAF를 절감하는 기법에 대해 제안한다. 비휘발성램에 캐쉬된 데이터는 플래시 메모리에서 가비지 컬렉션 수행 시 복사하지 않도록 한다. 이것은 복사되는 페이지의 수를 감소시켜 스토리지의 성능 및 내구성을 향상시킨다. 제안된 기법은 ssdsim 시뮬레이터에 구현되었으며 WAF와 응답시간의 표준편차를 각각 51.4%와 35.4% 개선할 수 있음을 보인다.

가상주소 변환 과정에 대한 부담의 줄임 (Peducing the Overhead of Virtual Address Translation Process)

  • 우종정
    • 한국정보처리학회논문지
    • /
    • 제3권1호
    • /
    • pp.118-126
    • /
    • 1996
  • 메모리의 계층적 구조는 메모리의 접근 속도를 개선하고 프로그래밍 공간을 확장 하는데 유용한 메카니즘이다. 그러나 이 구조는 데이타의 참조를 위해서 적어도 두번- 주소 변환을 위한 TLB 와 원하는 데이타를 위한 데이타 캐시-의 메모리 접근이 필요하다. 만약 캐시의 크기가 가상 메모리의 페이지 크기와 캐시 메모리의 연관 정도의 곱보다 커지면 TLB접근과 데이타 캐시의 접근을 병렬로 수행하기 어려우며, 따라서 프로세서 타이밍의 임계 경로가 길어져 성능에 영향을 미친다. 이들의 병렬 접근을 성취하기 위하여 직접 사상 TLB와 조그마한 완전 연관 사상 TLB를 결합하나 혼합 사상 TLB를 제 안한다. 전자는 TLB 접근에 따른 지연시간을 줄 일 수 있으며 후자는 전자로부터 발생한 충돌 부재를 제거할 수 있게 된다. 트레이스 구동 모의 실험 결과에 의하면 제안된 TLB 는 4개의 엔트리로만 구성된 완전사상 TLB를 추가하더라도 부재율의 상승에 의한 영향이 주소변환에 따른 지연시간 축소에 위하여 상쇄되므로 효과적이다.

  • PDF

IPSiNS: 낸드 플래시 메모리 기반 저장 장치를 위한 입출력 성능 시뮬레이션 도구 (IPSiNS: I/O Performance Simulation Tool for NAND Flash Memory-based Storage System)

  • 윤경훈;정호영;박성민;심효기;차재혁;강수용
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권5호
    • /
    • pp.333-337
    • /
    • 2007
  • 낸드 플래시 메모리 기반 저장장치를 블록 디바이스로 가상화하는데 사용되는 플래시 변환 계층(FTL)는 플래시 메모리의 특성만을 고려하여 설계되었다. 그러나 FTL에서는 운영체제의 버퍼교체정책을 거쳐 발생되는 입출력 요청을 처리하기 때문에, 버퍼교체정책과 FTL 알고리즘은 큰 연관성을 가지게 된다. 따라서, 버퍼교체정책과 FTL 알고리즘을 동시에 고려하지 않고서는 플래시메모리 기반 저장장치를 사용하는 시스템의 전체적인 입출력 성능을 평가할 수 없으므로, 그 두 요소를 동시에 고려한 버퍼교체정책 또는 FTL 알고리즘에 대한 연구가 필요하다. 본 연구에서는 그러한 통합연구에 사용될 수 있는 입출력 성능 평가 도구인 IPSiNS를 개발하였다.

고성능 프로세서-메모리 혼합 구조의 설계 및 성능 분석 (Design and Performance Analysis of High Performance Processor-Memory Integrated Architectures)

  • 김영식;김신덕;한탁돈
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2686-2703
    • /
    • 1998
  • 프로세서 메모리 혼합 구조는 해마다 증가하는 프로세서와 메모리간의 성능 격차를 해결하는 대안으로 연구가 활발히 진행되고 있다. 본 논문에서는 프로세서 메모리 혼합 구조의 여러 가지 설계 대안들을 고찰하였다. 이를 위해서 DRAM 접근 시간의 분석적 모델을 제안하고 성능 향상점 및 성능 병목점을 찾았다. 제안한 분석적 모델에 의하여 DRAM 페이지 적중률을 증대하여 성능을 향상시키는 구조로써 새로운 온칩 DRAM 구조인 프리차지 연기 뱅크 아키텍쳐를 제안하였다. 또한 제안한 뱅크 아키텍쳐에 효율적으로 적용할 수 있는 뱅크 인터리빙 방법을 제시하였다. 제안한 구조는 기존의 일반적 DRAM 구조 및 계층적 다중-뱅크 구조보다 우수함을 시뮬레이션을 통하여 증명하였다. 시뮬레이션은 SimpleScalar 툴을 개조하여 사용하였고, SPEC95 벤치마크에 대해서, 캐쉬 메모리의 크기, 뱅크 개수, 프리차지 연기 시간 등의 변화에 대한 성능을 분석하였다.

  • PDF

마모도 평준화를 위한 File Clustering 알고리즘 (A File Clustering Algorithm for Wear-leveling)

  • 이태화;차재혁
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권1호
    • /
    • pp.51-57
    • /
    • 2013
  • 플래시 메모리 기반의 저장 장치는 고성능, 저전력, 내구성과 경량 등의 특징을 가지고 있어 기존에 사용되고 있던 저장장치를 빠르게 대체하고 있다. 플래시 메모리 기반의 저장 장치는 기존 저장장치인 블록 저장 장치로 가상화하기 위한 계층인 FTL (Flash Translation Layer) 을 가지고 있다. 가비지 컬렉션(Garbage Collection)은 FTL의 주요한 기능으로서 플래시 메모리의 수명과 성능에 큰 영향을 끼친다. 플래시 메모리의 수명은 가비지 컬렉션에 의해 발생되는 지우기의 횟수와 마모도의 영향을 받는다. 본 논문에서는 마모도 평준화 개선을 위해 File 정보를 알 수 있는 환경에서 File Clustering 알고리즘을 제시한다. File Clustering은 같은 File에서의 요청이 또다시 같이 호출 될 것을 기대하여 같은 File로부터 온 요청을 같은 블록에 할당하는 알고리즘이다. 이를 위해 FTL의 기능 중 페이지 할당 정책을 제안하였고, 최소한의 마모도 평준화를 보장하기 위해 MIN-MAX GAP을 사용하였다. 본 논문에서 제안하는 알고리즘을 검증하기 위해 TPC 벤치마크를 이용하였고 이를 통해 마모도 평준화 하지 않은 분산보다 690%이상 값이 개선되었고, 기존에 연구되던 Hot/Cold보다도 좋은 분산을 갖는 것을 보였다.

PCI 익스프레스 컨트롤러의 통합 설계 및 기능 검증 (A H/W & S/W Co-Design and Functional Co-Verification for PCI Express Controller)

  • 현유진;성광수
    • 대한임베디드공학회논문지
    • /
    • 제2권1호
    • /
    • pp.9-16
    • /
    • 2007
  • 본 논문에서는 차세대 통신 플랫폼을 위한 PCI 익스프레스의 전송계층과 데이터 연결계층의 모든 기능을 지원하는 PCI 익스프레스 컨트롤러를 설계하였다. 설계된 컨트롤러를 효과적으로 제어하기 위해 8051 마이크로프로세서를 이용하였다. 또한, 본 논문에서는 PCI 익스프레스 컨트롤러와 8051 마이크로프로세서의 통합 검증을 위한 방법으로 벡터 생성 부분, 테스트 벤치, 그리고 메모리로 구성된 테스트 벤치를 하나의 가상 마이크로프로세서로 가정하였다. 그리고 PCI 익스프레스의 모든 프로토콜을 지원할 수 있는 어셈블리 수준의 명령어들을 테스트 벤치에 적용되도록 하였다. 특히 일반적인 기본 동작 검증과 설계 기반 검증에서 찾지 못한 특수 경우의 에러를 찾기 위한 검증을 위해 랜덤 검증 환경 및 테스트 파라미터를 정의 하였다. 제안된 검증 환경과 명령어를 통해 설계된 PCI 컨트롤러의 검증 결과 랜덤 테스트 검증을 통해 효과적으로 오류를 찾을 수 있었다.

  • PDF

모바일 환경의 캐쉬 invalidation 문제 해결을 위한 계층적 캐쉬 모델 (Hierarchical Cache Model for Cache Invalidation in Mobile Environment)

  • 박슬예;김길용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.307-309
    • /
    • 2001
  • 인터넷 환경의 서버-클라이언트 모델에서 네트웍 부하를 줄이고 시스템 성능을 향상시키기 위한 방법으로 캐쉬가 있다. 모바일 클라이언트의 경우 적은 메모리와 스토리지 용량으로 인하여 캐쉬를 좀 더 효과적으로 다루는 방법이 필요하다. 특히 모바일 클라이언트 내의 캐쉬 된 데이터가 무효화(invalidation)되는 문제는 무선 네트웍의 낮은 대역폭과 불안정상 등의 관점에서 기존의 인터넷 환경과 다르게 접근될 필요가 있다. 또한 모바일 클라이언트는 리소스(배터리) 등의 문제로 인해 항상 네트웍과 지속적으로 연결을 하지 못하므로, 본 연구는 이러한 환경에서 캐쉬 된 데이터의 무효화 문제 해결을 위한 계층적 캐쉬 알고리즘을 제시한다. 서버-클라이언트 사이에 MSS(Mobile Switching Station)모델을 구성하고 AVI-based 알고리즘을 바탕으로 모바일 클라이언트에 대한 무효성 보고 횟수를 최소화하는 방법을 제시한다.

개념 계층을 이용한 스트리밍 데이터의 관리 기법 (Streaming Data Management Technique using Concept Hierarchy)

  • 한창희;박석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.154-156
    • /
    • 2004
  • 센서 네트웍, 유비쿼터스 컴퓨팅 환경으로 발전하면서 스트리밍 데이터와 같이 무한한 데이터의 처리에 대한 요구가 많이 커지고 있다. 스트리밍 데이터에 대한 질의 처리는 크게 실시간으로 처리가 요구되는 질의와 과거 데이터에 대한 동향 근사치 요청질의로 나누어질 수 있다. 기존의 스트리밍 데이터 처리에 대한 연구들은 실시간 질의 처리만을 고려하고 과거 데이터에 대한 질의에 대한 고려는 미약하다. 그리고 사용자가 과거의 데이터에 대한 동향 분석을 요청하는 질의, 또는 과거 어느 시점의 데이터에 대한 요청 혹은 근사치를 요구하는 질의에 대해서는 처리를 할 수 없는 한계점이 있다. 본 논문에서는 스트리밍 데이터 프로세서의 메모리의 범위를 넘어서서 삭제되는 과거 데이터를 디스크의 I/O처리 속도에 맞추기 위해서 로드 셰딩 기법을 적용해서 저장한 후에 개념 계층을 이용해서 사용자가 원하는 데이터만을 효과적으로 저장하는 기법을 제안한다.

  • PDF

6LoWPAN의 계층적 라우팅 기법에서 이웃 노드 리스트를 이용한 Short-cut 라우팅 알고리즘 (Short-cut Routing Algorithm Using Neighbor Node List in Hierarchical Routing for 6LoWPAN)

  • 강문경;진교홍
    • 한국항행학회논문지
    • /
    • 제11권3호
    • /
    • pp.296-305
    • /
    • 2007
  • 6LoWPAN에서 사용되는 계층적 라우팅 프로토콜인 HiLow는 적은 메모리 사용과 낮은 에너지 소모율을 보이지만 최적의 경로를 제공하지 못하는 단점이 있다. 본 논문에서는 HiLow 라우팅 알고리즘의 성능을 개선하기 위해서 계층적 라우팅 경로정보 뿐만 아니라 소스 노드 주위의 이웃 노드의 정보를 활용하여 데이터가 전달될 최적의 다음 홉(Next hop)을 결정하는 알고리즘을 제안하였다. 제안된 알고리즘은 컴퓨터 시뮬레이션을 통해 성능을 분석하였으며, 그 결과 홉 수, 전송되는 메시지 수 측면에서 많은 개선이 있음을 알 수 있었다.

  • PDF