• 제목/요약/키워드: memory bottleneck

검색결과 90건 처리시간 0.022초

System Level Architecture Evaluation and Optimization: an Industrial Case Study with AMBA3 AXI

  • Lee, Jong-Eun;Kwon, Woo-Cheol;Kim, Tae-Hun;Chung, Eui-Young;Choi, Kyu-Myung;Kong, Jeong-Taek;Eo, Soo-Kwan;Gwilt, David
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제5권4호
    • /
    • pp.229-236
    • /
    • 2005
  • This paper presents a system level architecture evaluation technique that leverages transaction level modeling but also significantly extends it to the realm of system level performance evaluation. A major issue lies with the modeling effort. To reduce the modeling effort the proposed technique develops the concept of worst case scenarios. Since the memory controller is often found to be an important component that critically affects the system performance and thus needs optimization, the paper further addresses how to evaluate and optimize the memory controllers, focusing on the test environment and the methodology. The paper also presents an industrial case study using a real state-of-the-art design. In the case study, it is reported that the proposed technique has helped successfully find the performance bottleneck and provide appropriate feedback on time.

파이프라인 CAM 구조를 이용한 고속 IP주소룩업 (A High Speed IP Address Lookup using Pipelined CAM Architecture(PICAM))

  • 안희일;조태원
    • 전기전자학회논문지
    • /
    • 제5권1호
    • /
    • pp.24-34
    • /
    • 2001
  • IP주소룩업(address lookup)은 라우터의 인터넷 패킷 처리에서 가장 많은 시간이 걸리는 부분으로써 인터넷 통신의 성능을 좌우한다. 기존 IP주소룩업에서는 룩업데이블의 느린 갱신속도로 인해 룩업정지(lookup blocking) 또는 시효가 지난 경로(obsolete route)에 의한 부정확한 라우팅이 발생할 수 있다. 따라서 고속의 라우팅에서는 룩업처리율이 높으면서도 갱신시간이 짧은 룩업방법이 절실히 필요하게 되었다. 특히 기존 CAM(content addressable memory, 내용 주소화 메모리)을 이용한 IP주소룩업에서는 룩업처리율이 높으면서 동시에 복잡도도 높지 않은 방식은 룩업테이블의 갱신시간이 O(n)으로 오래 걸렸다. 본 논문에서는 룩업테이블의 갱신시간이 O(1)으로 짧으면서도, 룩업처리율이 높고, 복잡도도 높지 않은 파이프라인 CAM 구조(PICAM)를 이용한 새로운 IP주소룩업 방법을 제안한다.

  • PDF

New Two-Level L1 Data Cache Bypassing Technique for High Performance GPUs

  • Kim, Gwang Bok;Kim, Cheol Hong
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.51-62
    • /
    • 2021
  • On-chip caches of graphics processing units (GPUs) have contributed to improved GPU performance by reducing long memory access latency. However, cache efficiency remains low despite the facts that recent GPUs have considerably mitigated the bottleneck problem of L1 data cache. Although the cache miss rate is a reasonable metric for cache efficiency, it is not necessarily proportional to GPU performance. In this study, we introduce a second key determinant to overcome the problem of predicting the performance gains from L1 data cache based on the assumption that miss rate only is not accurate. The proposed technique estimates the benefits of the cache by measuring the balance between cache efficiency and throughput. The throughput of the cache is predicted based on the warp occupancy information in the warp pool. Then, the warp occupancy is used for a second bypass phase when workloads show an ambiguous miss rate. In our proposed architecture, the L1 data cache is turned off for a long period when the warp occupancy is not high. Our two-level bypassing technique can be applied to recent GPU models and improves the performance by 6% on average compared to the architecture without bypassing. Moreover, it outperforms the conventional bottleneck-based bypassing techniques.

JPEG2000 시스템의 코드블록 메모리 크기 및 대역폭 감소를 위한 Multi-mode Embedded Compression 알고리즘 및 구조 (Multi-mode Embedded Compression Algorithm and Architecture for Code-block Memory Size and Bandwidth Reduction in JPEG2000 System)

  • 손창훈;박성모;김영민
    • 대한전자공학회논문지SD
    • /
    • 제46권8호
    • /
    • pp.41-52
    • /
    • 2009
  • Motion JPEG2000과 같은 동영상 압축 시스템에서는 데이터 메모리에 대한 빈번한 접근이 전체 시스템에 큰 병목 현상이 된다. 이처럼 시스템에서 요구하는 메모리의 대역폭을 감소시키기 위해서, 본 논문은 약간의 화질 손실이 있는 새로운 embedded compression(EC) 알고리즘과 구조를 고안하였다. 또한, 메모리 내의 압축된 데이터에 임의 접근성(Random Accessibility)과 짧은 지연 시간(Latency)을 보장하기 위해서 매우 단순하면서도 효율적인 entropy 부호화 방법을 제안하였다. 본 논문에서는 JPEG2000 표준안 알고리즘에는 어떠한 변경도 하지 않으면서, 제안한 multi-mode 알고리즘을 통해 JPEG2000 시스템에서 요구하는 메모리의 대역폭의 감소(약 52${\sim}$81%) 와 코드블록 메모리의 크기를 약 2 배 이상 감소시킬 수 있었다.

다중 프로세서 시스템에서의 버퍼 및 공유 메모리 최적화 연구 (A Study on Buffer and Shared Memory Optimization for Multi-Processor System)

  • 김종수;문종욱;임강빈;정기현;최경희
    • 정보처리학회논문지A
    • /
    • 제9A권2호
    • /
    • pp.147-162
    • /
    • 2002
  • 고속 입출력 장치를 갖는 다중 프로세서 시스템은 데이터의 처리 성능 향상과 함께 입출력의 집중화에 따른 병목 현상을 줄여줄 수 있다. 이 때 프로세서간의 데이터 전송에 사용되는 공유 메모리는 그 구성과 이용 방법에 따라 시스템 성능에 많은 영향을 미치게 되는데, 본 논문에서는 공유 메모리의 사용방법을 비동기, 메일박스를 통한 인터럽트 전달인지 방식으로 설정한 후 버퍼 및 공유 메모리의 최적 사용량을 예측할 수 있는 모델에 대해 연구하였다. 시스템에 주어지는 입출력 데이터는 이더넷(IEEE 802.3) 망에 흐르는 패킷을 모델로 하며, 이의 대역폭과 burstiness(패킷의 집중화 정도)에 따른 메모리 사용 상황에 대해 살펴보았다. 고속 이더넷(Fast Ethernet) 환경 하에서 시뮬레이션 및 실험에 의해 시스템의 입출력 대역폭뿐만 아니라 패킷의 집중화 정도에 따라서도 버퍼 및 공유 메모리의 사용량이 달라지며, 두 메모리 사이의 사용량에 대한 상관관계가 성립될 수 있음을 알 수 있다.

ATM 교환기용 분산 주기억장치 상주 데이터베이스 시스템에서의 T-tree 색인 구조의 회복 기법 (The T-tree index recovery for distributed main-memory database systems in ATM switching systems)

  • 이승선;조완섭;윤용익
    • 한국통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1867-1879
    • /
    • 1997
  • DREAM-S는 ATM 네트워크용 교환 시스템에서 응용 프로그램들의 교환기 운용 데이터에 대한 실시간 처리 요구를 지원하기 위한 분산 주기억장치 상주 데이터베이스 시스템(Main Memory Database Systems)이다. DREAM-S는 클라이언트-서버 구조를 가지면서 서버 프로세서에만 디스크가 연결되어 있으며, 대량의 데이터로부터 원하는 데이터를 신속히 검색하기 위하여 T- Tree 색인 구조를 제공한다. 본 논문에서논 DREAM-S에서 T- Tree 색인 구조에 대한 회복 기법를 제안한다. 주기억장치 상주 데이터베이스는 디스크 상주 데이터베이스 보다 뛰어난 성능을 제공하지만 시스템 고장 시(정전 등과 같은 오류) 주기억장치에 저장된 모든 데이터(릴레이션과 색인 구조)가 파손될 수 있다. 따라서 고장 후 파손된 주기억장치 데이터베이스를 신속히 정상 데이터베이스 상태로 회복하는 회복 기법이 필수적이다. 제안된 회복 기법에서는 T-Tree 색인 구조를 각 프로세서의 주기억장치에만 유지하도록 함으로서 ATM 교환기 시스템의 성능에서 병복 현상을 일으킬 수 있는 서버 프로세서의 디스크 출입 오버헤드를 줄인다. 또한, 시스템 고장 후 서버와 모든 클라이언트 시스템들이 병렬 처리 방식으로 각자의 T- Tree(들)를 회복하도룩 함으로서 클라이언트 개수가 많은 경우에도 신속한 회복이 가능하도록 하였다.

  • PDF

표적 위치의 불확실성과 표적 가시성이 주의깜박거림 강도에 미치는 영향 (The Influence of Location Uncertainty and Visibility of Targets on the Strength of Attentional Blink)

  • 김기연;현주석
    • 인지과학
    • /
    • 제27권2호
    • /
    • pp.275-301
    • /
    • 2016
  • 주의깜박거림(AB)이란 시야의 고정 위치에 신속순차제시(RSVP)되는 항목들 중에 출현하는 두 표적에 대해 후행 표적(T2)이 선행 표적(T1)의 출현 이후 약 500ms 이내에 출현할 경우 그에 대한 의식적 수준의 보고가 어려워지는 현상을 의미한다. 본 연구는 T1 기억공고화에 요구되는 주의자원량이 T2에 대한 AB 강도를 결정한다는 병목 모형을 토대로 T1에 대한 표적 가시성 처치가 T2에 대한 주의깜박거림의 강도에 미치는 영향을 조사하였다. T1 저가시성 조건의 경우 T1에 배경화면과의 명암대비가 낮은 회색을 그리고 T1 고가시성 조건의 경우 선명한 색상을 부여해 흰색의 나머지 방해자극들과 구분되도록 처치하였다. 또한 표적 위치에 대한 불확실성 부여를 위해 시야의 네 위치에 전개되는 다중 RSVP 배열 내에 T1과 T2를 제시해 표적처리에 관여하는 주의 자원을 평균적으로 소진시켰다. 두 편의 실험에서 T2에 대한 AB의 강도는 고가시성 조건에서 상대적으로 큰 것이 관찰되었으며 T2의 가시성을 증가시켰을 때 T1 가시성 처치의 영향력이 더욱 분명해졌다. 이러한 결과는 T1 병목 해소를 위해 할당되는 가용한 주의 자원의 양이 부족할수록 더욱 T1 가시성 효과의 영향력이 분명해짐을 시사하며, T1의 가시성 수준이 T1 병목의 강도를 결정할 수 있다는 병목 모형의 제안을 지지한다.

요약보고 방법에 의해 병목현상을 개선한 최초경합의 수행중 탐지기법 (On-the-fly Detection of the First Races for Reducing Bottlenecks by Summary Report Method)

  • 김정시;전용기
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권9호
    • /
    • pp.1042-1054
    • /
    • 1999
  • 공유메모리 병렬프로그램의 오류수정에서 경합의 탐지는 중요하다. 왜냐하면 경합은 잘못된 수행 결과를 초래할 뿐만 아니라, 의도하지 않은 프로그램의 비결정적인 수행을 유발하여 오류수정을 어렵게 하기 때문이다. 특히 최초경합의 탐지는 더욱 중요하다. 그 이유는 최초경합을 제거함으로써 나머지 경합들을 방지할 수도 있기 때문이다. 기존의 수행중 경합 탐지기법들은 접근별 보고방식을 기반으로 하는데, 이 기법들은 임의 공유변수에 대한 병행 쓰레드들의 모든 접근사건들을 검사하기 위해서 접근역사라는 유일한 공유정보를 이용하므로 탐지과정에 심각한 병목현상을 유발시킨다. 그러나, 최초경합 탐지를 위한 경우 이러한 병목현상은 크게 개선될 수 있다. 본 논문에서는, 각 접근사건 검사를 위해 각 쓰레드에 공유되지 않는 독립적인 접근역사를 별개로 두고, 경합을 보고하는 시점인 쓰레드 합류시점에서만 공유되는 접근역사를 이용하도록 함으로써 병목현상을 개선하여 최초경합을 탐지할 수 있는 새로운 수행중 탐지기법을 제안한다. 그러므로 본 기법은 최초경합을 보다 효율적으로 탐지할 수 있기 때문에 수행중 경합 탐지를 더욱 효율적이고 실용적으로 할 수 있다. Abstract Detecting races is important for debugging shared-memory parallel programs, because the races lead to unintended nondeterministic executions of the programs as well as erroneous result and then make debugging programs difficult. Especially, detecting the first races is more important. The reason is that the removal of the first races can make other races disappear. Most existing on-the-fly techniques to detect the races are based on per- access reporting method incurring the serious central bottleneck, because the techniques use unique shared information called access history for checking all accesses of concurrent threads to a shared variable. Such bottleneck, however, can be improved considerably in case of detecting first races. This paper presents a new on-the-fly technique which detects the first races with reduced bottleneck through checking each accesses with private access histories and finally reporting races with shared access histories. Therefore, this technique makes on-the-fly race detection more efficient and practical.

GPU 작업 배치의 효율화를 위한 자원 이용률 상세 분석 (Analyzing Fine-Grained Resource Utilization for Efficient GPU Workload Allocation)

  • 박윤주;신동희;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.111-116
    • /
    • 2019
  • 최근 GPU가 그래픽 처리뿐 아니라 다양한 분야의 병렬 처리로 그 영역을 넓혀가고 있다. 그러나, 현재 GPU는 워크로드의 다양성을 반영하기보다 간결한 제어 구조를 통한 개별 워크로드의 병렬성 극대화에 초점을 맞추고 있다. 본 논문은 워크로드 특성을 반영한 GPU 작업 배치를 위해 GPU에서 수행되는 워크로드의 자원 사용 특성을 컴퓨팅 바운드형, 메모리 바운드형, 실행종속 지연형으로 분류한 후, 각 분류에서 병목점이 되는 세부 자원을 규명한다. 예를 들어 컴퓨팅 바운드형의 경우 단정밀도 연산장치, 배정밀도 연산장치, 특수함수 연산장치 등 병목 자원이 무엇인지 분석한다. 본 논문의 분석 결과는 동일한 컴퓨팅 바운드형 워크로드라도 병목이 되는 세부 자원이 다를 경우 함께 배치하는 것이 성능 충돌을 일으키지 않는다는 점을 규명하여 GPU 작업배치의 효율화에 기여할 것으로 기대된다.

병렬화된 에러 보정 코드 모듈 기반 프로세서 속도 및 신뢰도 향상 (High Speed and Robust Processor based on Parallelized Error Correcting Code Module)

  • 강명진;박대진
    • 한국정보통신학회논문지
    • /
    • 제24권9호
    • /
    • pp.1180-1186
    • /
    • 2020
  • 임베디드 시스템 중 하나인 TPU (Tiny Processing Unit)를 사용하는 데에는 많은 제약들이 따른다. 외부 충격에 의해 데이터 통신 중 잡음이 발생하거나, 충분한 전력이 공급되지 않아 문턱전압을 넘지 못해 올바른 값 전달이 이루어지지 않는 경우가 있다. 이러한 문제점들을 해결하기 위해 많은 임베디드 시스템에서는 ECC (Error Correcting Code)를 사용하는데, ECC를 추가하게 되면서 메모리에서 데이터를 읽어오는 시간이 더 오래 걸리게 되는 문제점이 발생한다. 따라서 우리는 ECC 처리된 코드를 읽어오는 과정을 병렬처리하여 병목현상을 완화하고 TPU의 속도 및 데이터 안정성을 높이는 모델을 제안한다. 제안된 구조는 기존 구조에 비해 메모리를 조금 더 사용하여 안정성과 더 빠른 속도를 보여준다. 실험은 행렬의 연산을 사용하여 진행되었으며, 제안된 구조는 이전의 구조보다 7% 빠른 속도를 보여준다.