• 제목/요약/키워드: Cache-miss

검색결과 99건 처리시간 0.028초

버퍼 시스템을 내장한 새로운 플래쉬 메모리 패키지 구조 및 성능 평가 (A New Flash Memory Package Structure with Intelligent Buffer System and Performance Evaluation)

  • 이정훈;김신덕
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권2호
    • /
    • pp.75-84
    • /
    • 2005
  • 이 연구는 공간적/시간적 지역성의 효과론 이용하기 위하여 SRAM 버퍼를 사용하는 고성능 NAND-Type 플래쉬 메모리 패키지의 설계에 관한 것이다. 제안된 SRAM 버퍼를 내장한 새로운 NAND형 플래쉬 메모리 패키지 구조는 크게 세 부분으로 구성되어 있다. 즉, 작은 블록 크기의 완전 연관 희생 버퍼(victim buffer)와 큰 블록 크기를 지원하는 완전 연관 공간 버퍼(spatial buffer), 그리고 동적 페칭 유닛(dynamic fetching unit)으로 구성되어 있다. 제안하는 새로운 NAND 형 플래쉬 메모리 패키지는 기존의 NAND형 플래쉬 메모리 구조와 비교할 때 매우 뛰어난 성능 향상 및 저 전력 소비를 이끌어낼 수 있다. 시뮬레이션 결과에 따르면 제안된 NAND 플래쉬 메모리 패키지는 기존의 NAND 플래쉬 메모리와 비교하여 접근 실패율에서는 70%, 평균 메모리 접근 시간에서는 67%의 감소 효과를 보여준다. 더욱이 주어진 크기(e.g., 3KB)의 SRAM 버퍼를 이용한 제안된 패키지는 여덟 배 크기의 직접 사상 버퍼(e.g., 32KB)를 이용한 패키지 및 두 배 크기의 완전 연관 버퍼(e.g., 8KB)를 이용한 패키지보다도 평균 접근 실패율 및 평균 메모리 접근 시간에서 더욱 우수한 성능 향상을 이끌어낼 수 있다.

다중 프로세서에서의 캐시접근 실패율을 위한 경험적 모델링 (Empirical Modeling for Cache Miss Rates in Multiprocessors)

  • 이강우;양기주;박춘식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권1_2호
    • /
    • pp.15-34
    • /
    • 2006
  • 본 논문에서는, 소규모 시뮬레이션을 통하여 수집된 표본에 통계적인 추정방법을 적용하여 모델을 구하는 경험적 모델링 기법을 제안한다. 이 기법을 이용하여 대칭형 구조를 갖는 다중프로세서 시스템에서의 캐시접근실패율을 위한 두 종류의 모델을 구하였다. 목표시스템의 사양이 고정되었을 때 입력데이타의 크기변화에 따르는 모델과, 입력데이타의 크기가 고정되었을 때 목표시스템의 프로세서 수의 변화에 따르는 모델이다. 모델의 정확성을 제고하기 위하여 한 프로그램에 존재하는 공유데이타들에 대하여 종류별 캐시접근실패에 대한 개별적인 모델들을 구한 후 이들을 종합함으로써 최종적인 모델을 구하였다. 또한 최소 제곱 추정법과 로버스트 추정법을 병용하여 이탈점으로 인한 왜곡을 최소화함으로써 모델의 정확도를 향상시켰다. 경험적 모델링은 표본에 대한 분석이 필요 없으면서도 모델의 정확도가 매우 높다. 또한 소규모의 시뮬레이션만 수행하면 되고, 실험을 통하여 일련의 표본을 수집할 수만 있으면 모든 분야의 연구에 적용할 수 있다. 경험적 모델을 이용한 24가지 경우의 예측시도 중 17번의 경우에는 $1\%$ 미만의 예측오차율을 보였으며, 나머지 경우에도 매우 높은 정확도를 보였다. 특히 프로그램의 실행양식이 불규칙하거나, 표본의 수가 충분하기에는 부족한 경우에도 좋은 결과를 보여준다.

듀얼 프로세서 기반 DPI (Deep Packet Inspection) 엔진을 위한 효율적 패킷 프로세싱 방안 구현 및 성능 분석 (Implementation and Performance Analysis of Efficient Packet Processing Method For DPI (Deep Packet Inspection) System using Dual-Processors)

  • 양준호;한승재
    • 정보처리학회논문지C
    • /
    • 제16C권4호
    • /
    • pp.417-422
    • /
    • 2009
  • 특화된 하드웨어의 도움 없이 범용 다중 프로세서 플랫폼에서 DPI(Deep Packet Inspection) 시스템을 구현하는 방법은 비용 측면에서 매력적이다. 문제는 성능인데, 일반적으로 다중 프로세서 시스템에서는 작업들을 여러 프로세서에 적절하게 배분하는 로드밸런싱 방법과 DPI 프로세싱 전용 개별 프로세서를 지정하여 시스템의 성능을 향상 시킨다. 그러나, 우리는 DPI 시스템의 경우 위와 같은 단순한 프로세서 통제 방안이 반드시 최선책이 아니라고 생각한다. 본 논문에서는 작업의 종류에 따라 정해진 프로세서에 할당한 후, 프로세서 상태에 따라 역할을 변경하는 방식을 제안한다. 우리는 제안하는 방식을 리눅스 기반 듀얼 프로세서 시스템에 구현하고 실험을 통해 그 성능을 기존의 로드밸런싱 방식과 비교하였다. 제안된 방식에서는 하나의 프로세서는 인터럽트 처리를 포함한 일반적 패킷 프로세싱 역할만을 담당토록 하고 다른 프로세서는 DPI엔진을 전담하도록 역할로 분리시켜 캐시접근실패 (cache miss) 과 스핀락(spin lock) 발생빈도를 낮추었으며, DPI 전담 프로세서가 처리한계에 이르렀을 경우에는 두 프로세서 모두 DPI를 위해 자원을 사용토록 하여, 기존의 리눅스 로드 밸런싱 방식 DPI 시스템 대비 약 60%의 성능향상을 달성하였다.

작은 크기의 Warp 스케쥴러 기반 SIMT구조 고성능 모바일 GPGPU 설계 (Design of a High-Performance Mobile GPGPU with SIMT Architecture based on a Small-size Warp Scheduler)

  • 이광엽
    • 전기전자학회논문지
    • /
    • 제25권3호
    • /
    • pp.479-484
    • /
    • 2021
  • 본 논문은 SIMT구조의 GPGPU에서 적은 core수로 고성능을 달성하기 위한 구조를 제안하고 설계하였다. 모바일기기에 적용하기 위한 GPGPU는 소모전력대비 성능을 높이기 위한 구조가 필수적이다. 소모전력을 줄이기 위해서 core수가 줄어든 대신 성능을 높이기 위해 thread를 관리하기 위한 warp scheduler의 size를 4로 하여 일반적인 GPGPU의 32 보다 크게 줄였다. Warp size를 적게 되면 pipeline의 idle cycle수를 줄일 수 있고 cache 메모리 접근시 miss penalty를 줄이기 위한 memory latency 적용이 효율적이다. 설계된 GPGPU는 부동소수점 연산을 포함하는 테스트 프로그램으로 연산 성능을 측정하고 28nm CMOS공정으로 소비전력을 측정하여 전력당 성능지수로 104.5GFlops/Watt를 얻었다. 본 논문의 결과는 Nvidia의 Tegra K1과 비교하였을 때 약 4배 우수한 전력당 성능지수를 보였다.

NIO를 이용한 범용 웹 캐시 구현 (General Web Cache Implementation Using NIO)

  • 이철희;신용현
    • 한국항행학회논문지
    • /
    • 제20권1호
    • /
    • pp.79-85
    • /
    • 2016
  • 최근의 웹 환경은 스마트폰과 같은 모바일, 페이스북과 같은 소셜 네트워크의 증가로 인하여 네트워크의 트래픽이 급격히 증가하고 있다. 본 논문에서는 WAS(web application server)의 애플리케이션에서 기존 자바의 단점인 I/O의 블로킹(blocking)과 버퍼에 가비지 컬렉션 (garbage collection)으로 인한 CPU 성능 감소 등의 문제를 NIO (non-blocking IO)의 다이렉트 버퍼와 DMA (direct memory access)를 이용하여 기존 시스템의 웹 응답 속도를 향상시켰다. 우선순위 변동 등으로 상대적으로 데이터 순환이 많은 키값은 조작이 용이한 해시맵에 담아 캐시 우선순위 변경 알고리즘을 적용한다. 용량이 큰 응답 데이터는 속도가 빠른 다이렉트 버퍼에 분리 저장하여 성능을 높인다. 캐시 적중 시와 적중이 안 될 경우의 여러 상황에서의 실험을 통해 본 논문에서 제안한 NIO를 이용한 방법이 많은 성능 향상을 보여줌을 확인할 수 있다.

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

페이지 단위 매핑 기반 대용량 NAND플래시를 위한 주소변환기법 (An Address Translation Technique Large NAND Flash Memory using Page Level Mapping)

  • 서현민;권오훈;박준석;고건
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.371-375
    • /
    • 2010
  • SSD는 NAND 플래시 메모리 기반의 저장장치로 속도가 빠르고, 전력 소모량이 작으며, 충격과 진동에 강하다는 좋은 특성 때문에 PC뿐 아니라 스토리지 서버 등에서도 사용되는 경우가 늘고 있다. NAND 플래시 메모리는 덮어쓰기가 불가능하다는 제약이 있으므로 SSD에서는 일반적으로 FTL이라고 불리는 소프트웨어 계층을 사용한다. 다양한 형태의 FTL 중 페이지 단위 변환에 기반한 FTL은 유연성이 높고 효율적인 쓰레기 수집 작업이 가능하다는 점에서 가장 성능이 좋다고 알려져 있다. 한편 이 방법은 64GB MLC SSD의 경우 64MB 크기의 변환 테이블이 메모리에 올라와 있을 것을 요구하므로 현실적인 사용이 제한되어 있다. 본 논문에서는 효율적인 캐시 구조를 통해 SSD에서도 순수한 페이지 단위 변환을 사용하는 방법을 제안한다. 제안된 방법에서는 매핑 테이블 메타 데이터를 사용해 완전 연관 캐시를 구성하고 캐시크기에 무관하게 O(1)시간에 주소를 변환한다 다양한 환경에서 수집한 트레이스를 이용한 시뮬레이션 결과 32KB의 캐시 공간의 경우 80% 이상, 512KB의 경우 90% 이상의 적중률을 보였다. 이 경우 메모리 사용량은 64MB의 1. 9% 에 불과하며 캐시 미스로 인한 오버헤드는 실행시간 기준으로 2% 미만으로 측정되었다.

임베디드 프로세서의 캐시와 파이프라인 구조개선 및 저전력 설계 (Cache and Pipeline Architecture Improvement and Low Power Design of Embedded Processor)

  • 정홍균;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.289-292
    • /
    • 2008
  • 본 논문에서는 OpenRISC 프로세서의 성능 및 전력 소모 개선을 위해 동적 분기예측 기법, 사원 집합연관 캐시 구조, ODC를 이용한 클럭 게이팅 기법을 제안한다. 동적 분기 예측 기법은 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB를 사용하였다. 사원 집합연관 캐시는 네 개의 메모리 블록을 한 개의 캐시 블록에 사상되는 구조로 되어있어 직접사상 캐시에 비해 접근 실패율이 낮다. ODC를 이용한 클럭게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC조건을 찾아 클럭 게이팅 로직을 삽입함으로써 동적 소비전력을 줄일 수 있다. 테스트 프로그램을 이용하여 제안한 기법들을 적용한 OpenRISC 프로세서의 성능을 측정한 결과, 기존 프로세서 대비실행시간이 8.9% 향상 되었고, 삼성 $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 프로세서 대비 소비전력을 13.9% 이상 감소하였다.

  • PDF

임베디드 RISC 코어의 성능 및 전력 개선 (Performance and Power Consumption Improvement of Embedded RISC Core)

  • 정홍균;류광기
    • 한국정보통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.453-461
    • /
    • 2010
  • 본 논문에서는 임베디드 RISC 코어의 성능 및 전력 소모 개선을 위해 동적 분기예측 구조, 4원 집합연관 캐쉬 구조, ODC 연산을 이용한 클록 게이팅 기법을 제시한다. 동적 분기 예측 구조는 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB (Branch Target Buffer)를 사용한다. 4원 집합연관 캐쉬는 네 개의 메모리 블록을 한 개의 캐쉬 블록에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 낮고 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시킨다. ODC를 이용한 클록게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC 조건을 찾아 클록 게이팅 로직을 삽입함으로써 동적 소비전력을 줄인다. 제시한 구조들을 임베디드 RISC 코어인 OpenRISC 코어에 적용하여 성능을 측정한 결과, 기존 OpenRISC 코어 대비 실행시간이 약 29% 향상 되었고, Chartered $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 OpenRISC 코어 대비 소비전력이 16% 이상 감소하였다.

주기억 데이타베이스 인덱싱을 위한 CCMR-트리 (Making Cache-Conscious CCMR-trees for Main Memory Indexing)

  • 윤석우;김경창
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권6호
    • /
    • pp.651-665
    • /
    • 2003
  • 매년 CPU 속도가 60% 정도 증가되고, 메모리 속도가 10% 증가되는 현실에서, 캐쉬 미스(Cache miss)를 얼마나 줄이느냐 하는 문제가 현재의 주기억 데이타베이스 환경에서 가장 중요한 문제로 대두되었다. 최근 연구들에서는 R-트리의 변형 모델인 CR-트리와 같은 인덱스 구조들이 제시되었으나, 이는 손실 발생 가능한 압축 기법을 사용함으로써 검색 성능이 더 나빠질 수 있다는 문제점이 있다. 본 논문에서는 MR-트리라고 이름 붙여진 캐쉬 동작에 민감한 R-트리의 새로운 변형 모델을 제시한다. MR-트리는 리프가 아닌 중간 노드 엔트리들을 100%에 가깝게 사용하여 결과적으로 트리의 높이와 중간 노드 엔트리의 MBR을 줄여주는 효과를 준다. 이를 위해 노드 분할 발생시 입력 경로 상에 하나 이상의 빈 엔트리를 지니는 중간 노드가 존재할 경우에만, 노드 분할을 상위로 전송하고, 존재하지 않을 경우 새롭게 생성된 노드는 분할된 노드의 자식 노드가 된다. MR-트리는 이와 같은 동작으로 인해 발생 가능한 트리 불균형 문제를 높이 균형화(HeightBalance) 알고리즘을 수행함으로써 해결한다. 한편, 본 논문에서는 MR-트리를 캐쉬 동작에 더욱 민감한 트리형태로 만들기 위해 CCMR-트리를 제안한다. 본 논문의 실험과 분석 결과, 2차원의 MR-트리는 약간의 개선된 수정 속도와 비슷한 메모리 사용량을 기록하며, 기존의 R-트리에 비해 2.4배 이상의 빠른 검색 속도를 나타냈다.