• 제목/요약/키워드: On-Chip Memory

검색결과 296건 처리시간 0.029초

Adaptive Memory Controller for High-performance Multi-channel Memory

  • Kim, Jin-ku;Lim, Jong-bum;Cho, Woo-cheol;Shin, Kwang-Sik;Kim, Hoshik;Lee, Hyuk-Jun
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권6호
    • /
    • pp.808-816
    • /
    • 2016
  • As the number of CPU/GPU cores and IPs in SOC increases and applications require explosive memory bandwidth, simultaneously achieving good throughput and fairness in the memory system among interfering applications is very challenging. Recent works proposed priority-based thread scheduling and channel partitioning to improve throughput and fairness. However, combining these different approaches leads to performance and fairness degradation. In this paper, we analyze the problems incurred when combining priority-based scheduling and channel partitioning and propose dynamic priority thread scheduling and adaptive channel partitioning method. In addition, we propose dynamic address mapping to further optimize the proposed scheme. Combining proposed methods could enhance weighted speedup and fairness for memory intensive applications by 4.2% and 10.2% over TCM or by 19.7% and 19.9% over FR-FCFS on average whereas the proposed scheme requires space less than TCM by 8%.

Hardware Approach to Fuzzy Inference―ASIC and RISC―

  • Watanabe, Hiroyuki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.975-976
    • /
    • 1993
  • This talk presents the overview of the author's research and development activities on fuzzy inference hardware. We involved it with two distinct approaches. The first approach is to use application specific integrated circuits (ASIC) technology. The fuzzy inference method is directly implemented in silicon. The second approach, which is in its preliminary stage, is to use more conventional microprocessor architecture. Here, we use a quantitative technique used by designer of reduced instruction set computer (RISC) to modify an architecture of a microprocessor. In the ASIC approach, we implemented the most widely used fuzzy inference mechanism directly on silicon. The mechanism is beaded on a max-min compositional rule of inference, and Mandami's method of fuzzy implication. The two VLSI fuzzy inference chips are designed, fabricated, and fully tested. Both used a full-custom CMOS technology. The second and more claborate chip was designed at the University of North Carolina(U C) in cooperation with MCNC. Both VLSI chips had muliple datapaths for rule digital fuzzy inference chips had multiple datapaths for rule evaluation, and they executed multiple fuzzy if-then rules in parallel. The AT & T chip is the first digital fuzzy inference chip in the world. It ran with a 20 MHz clock cycle and achieved an approximately 80.000 Fuzzy Logical inferences Per Second (FLIPS). It stored and executed 16 fuzzy if-then rules. Since it was designed as a proof of concept prototype chip, it had minimal amount of peripheral logic for system integration. UNC/MCNC chip consists of 688,131 transistors of which 476,160 are used for RAM memory. It ran with a 10 MHz clock cycle. The chip has a 3-staged pipeline and initiates a computation of new inference every 64 cycle. This chip achieved an approximately 160,000 FLIPS. The new architecture have the following important improvements from the AT & T chip: Programmable rule set memory (RAM). On-chip fuzzification operation by a table lookup method. On-chip defuzzification operation by a centroid method. Reconfigurable architecture for processing two rule formats. RAM/datapath redundancy for higher yield It can store and execute 51 if-then rule of the following format: IF A and B and C and D Then Do E, and Then Do F. With this format, the chip takes four inputs and produces two outputs. By software reconfiguration, it can store and execute 102 if-then rules of the following simpler format using the same datapath: IF A and B Then Do E. With this format the chip takes two inputs and produces one outputs. We have built two VME-bus board systems based on this chip for Oak Ridge National Laboratory (ORNL). The board is now installed in a robot at ORNL. Researchers uses this board for experiment in autonomous robot navigation. The Fuzzy Logic system board places the Fuzzy chip into a VMEbus environment. High level C language functions hide the operational details of the board from the applications programme . The programmer treats rule memories and fuzzification function memories as local structures passed as parameters to the C functions. ASIC fuzzy inference hardware is extremely fast, but they are limited in generality. Many aspects of the design are limited or fixed. We have proposed to designing a are limited or fixed. We have proposed to designing a fuzzy information processor as an application specific processor using a quantitative approach. The quantitative approach was developed by RISC designers. In effect, we are interested in evaluating the effectiveness of a specialized RISC processor for fuzzy information processing. As the first step, we measured the possible speed-up of a fuzzy inference program based on if-then rules by an introduction of specialized instructions, i.e., min and max instructions. The minimum and maximum operations are heavily used in fuzzy logic applications as fuzzy intersection and union. We performed measurements using a MIPS R3000 as a base micropro essor. The initial result is encouraging. We can achieve as high as a 2.5 increase in inference speed if the R3000 had min and max instructions. Also, they are useful for speeding up other fuzzy operations such as bounded product and bounded sum. The embedded processor's main task is to control some device or process. It usually runs a single or a embedded processer to create an embedded processor for fuzzy control is very effective. Table I shows the measured speed of the inference by a MIPS R3000 microprocessor, a fictitious MIPS R3000 microprocessor with min and max instructions, and a UNC/MCNC ASIC fuzzy inference chip. The software that used on microprocessors is a simulator of the ASIC chip. The first row is the computation time in seconds of 6000 inferences using 51 rules where each fuzzy set is represented by an array of 64 elements. The second row is the time required to perform a single inference. The last row is the fuzzy logical inferences per second (FLIPS) measured for ach device. There is a large gap in run time between the ASIC and software approaches even if we resort to a specialized fuzzy microprocessor. As for design time and cost, these two approaches represent two extremes. An ASIC approach is extremely expensive. It is, therefore, an important research topic to design a specialized computing architecture for fuzzy applications that falls between these two extremes both in run time and design time/cost. TABLEI INFERENCE TIME BY 51 RULES {{{{Time }}{{MIPS R3000 }}{{ASIC }}{{Regular }}{{With min/mix }}{{6000 inference 1 inference FLIPS }}{{125s 20.8ms 48 }}{{49s 8.2ms 122 }}{{0.0038s 6.4㎲ 156,250 }} }}

  • PDF

Multi-Access Memory System(MAMS)의 속도 향상을 위한 아키텍처 설계 (Architecture design for speeding up Multi-Access Memory System(MAMS))

  • 고경식;김재희;이스라엘;박종원
    • 전자공학회논문지
    • /
    • 제54권6호
    • /
    • pp.55-64
    • /
    • 2017
  • 대용량 고화질의 영상 응용분야에서는 많은 양의 데이터를 고속으로 처리하는 기술이 필요하며, 이를 위해 고속화된 병렬처리 시스템이 요구된다. 2004년 park은 병렬처리 메모리의 충돌 없이 여러 처리기에 데이터를 접속할 수 있는 방법을 제안하였다. 제안된 MAMS(Multi-Access Memory System) 는 이후 MAMS-PP16 및 MAMS-PP64 등으로 추가적인 연구가 이루어졌다. MAMS는 병렬처리를 위한 메모리 아키텍처로써 One-chip으로 구성되어야하기 때문에 기존 MAMS와 동일한 기능을 수행하면서 아키텍처의 최소화 하는 방법의 연구가 필요하다. 주소 계산 (ACR : Address Calculation and Routing) circuit과 MMS(Memory Module Selection)circuit의 아키텍처는 메모리에 있는 데이터를 병렬처리기(Prossing Elements)들에게 전달한다. 본 논문에서는 MMS circuit을 사용하지 않고 ACR circuit 내부에 1개의 쉬프트와 메모리 모듈의 개수만큼의 조건문으로 구성하는 방법을 통해 아키텍처를 최소화 하는 방법을 제안한다. 구현한 아키텍처의 검증을 위해 Image correlation 실험을 하였다. 실험을 통하여 제안된 MAMS-PP64의 처리시간을 측정 하였으며, 그 결과 Ratio가 평균 1.05향상 된 결과를 확인 할 수 있었다.

연상메모리 설계 및 제작에 관한 연구 (A Study on the Design and Fabrication of Content Addressable Memory)

  • 박상봉;박노경;차균현
    • 한국통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.145-154
    • /
    • 1991
  • 본 논문에서는 데이터의 저장과 판독은 일반 SRAM과 같고 명령과 탐색을 수행하는 8비트 $\times16$ 워드 연상메모리(CAM: Content Addressable Memory)의 알고리즘과 하드웨어를 제시하였다. 설계된 연상메모리 칩은 5개의 기능별 블록(연상메모리 셀 어레이. 어드레스 디코더, 어드레스 인코터, 데이터 셀럭터, 감지 증폭기)으로 나누어서 설계하고 논리 및 회로 검증을 마친 후 3 um CMOS N Well공정을 이용하여 칩을 제작하였다

  • PDF

Memory Intensive 실시간 영상신호처리용 3 $\times$ 3 Neighborhood VLSI 처리기 (A Memory Intensive Real-time 3x3 Neighborhood processor for Image Processing)

  • 김진홍;남철우;우성일;김용태
    • 대한전자공학회논문지
    • /
    • 제27권6호
    • /
    • pp.963-971
    • /
    • 1990
  • This paper proposes a memory intensive VLSI architecture for the realization of real-time 3x3 neighborhood processor based on the distributed arithmetic. The proposed architecture is characterized by a bit serial and multi-kernel parallel processing which exploits the pixel kernel parallelism and concurrency. The chip implements 8 neighborhood processing elements in parallel with efficirnt input and output modules which operate concurrently. Besides the a4chitectural design of a neighborhood processor, the design methodology using module generator concept has been considered and MOGOT(MOdule Generator Oriented VLSI design Tool) has been constructed based on the workstation. Based on these design environments MOGOT, it has been shown that the main part of the suggested architecture can be designed efficiently using 2\ulcorner double metal CMOS technology. It includes design of input delay and data conversion module, look-up table for inner product operation, carry save accumulator, output data converter and delay module, and control module.

  • PDF

FX3 USB 3 브릿지 칩과 slave FIFO 인터페이스를 사용하는 FPGA 검증 시스템 구현 (Implementation of FPGA Verification System with Slave FIFO Interface and FX3 USB 3 Bridge Chip)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.259-266
    • /
    • 2021
  • USB 버스는 편리하게 사용할 수 있고 빠르게 데이터를 전송하는 장점이 있어서, FPGA 개발보드와 PC 사이의 표준적인 인터페이스이다. 본 논문에서는 Cypress FX3 USB 3 브릿지 칩에 대한 slave FIFO 인터페이스를 사용하여 FPGA 검증 시스템을 구현하였다. slave FIFO 인터페이스 모듈은 FIFO 구조의 호스트 인터페이스 모듈과 마스터 버스 제어기와 명령 해독기로 구성되며, FX3 브릿지 칩에 대한 스트리밍 데이터 통신과 사용자 설계 회로에 대한 메모리 맵 형태의 입출력 인터페이스를 지원한다. 설계 검증 시스템에는 Cypress FX3 칩과 Xilinx Artix FPGA (XC7A35T-1C5G3241) 칩으로 구성된 ZestSC3 보드가 사용되었다. C++ DLL 라이브러리와 비주얼 C# 언어를 사용하여 개발한 GUI 소프트웨어를 사용하여, 사용자 설계 회로에 대한 FPGA 검증 시스템이 다양한 클록 주파수 환경에서 올바로 동작함을 확인하였다. 설계한 FPGA 검증 시스템의 slave FIFO 인터페이스 회로는 모듈화 구조를 갖고 있어서 메모리맵 인터페이스를 갖는 다른 사용자 설계 회로에도 응용이 가능하다.

SoC를 이용한 소형 무선 센서 노드 설계 (Design of Miniaturized Wireless Sensor Node Using System-on-Chip)

  • 김현중;양현호
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 추계학술발표논문집
    • /
    • pp.190-193
    • /
    • 2009
  • 무선 센서 네트워크에서 가장 중요하고 기본적인 요소는 환경 정보를 수집하고 이를 사용자 응용시스템에 전송하는 무선 센서 노드이다. 무선 센서 노드는 센서로 환경 정보를 수집하고 이를 저장, 가공하여 처리된 데이터를 사용자에게 전송하는 무선 송수신 장치로 기술의 발전에 따라 소형화, 지능화되고 있다. 특히 마이크로컨트롤러, RF 모듈, 메모리 등을 하나의 칩 내부에 모두 통합하는 SoC(System-on-Chip)기술은 센서 노드의 소형화와 제조 단가를 낮추는데 중요한 역할을 한다. 본고에서는 상용 SoC를 사용하여 무선 센서 네트워크를 위한 소형 무선 센서 노드를 설계하였으며 이를 이용한 여러 활용 방안 및 추가적인 고려사항에 대하여 논하였다.

  • PDF

A Genetic Algorithm for Directed Graph-based Supply Network Planning in Memory Module Industry

  • Wang, Li-Chih;Cheng, Chen-Yang;Huang, Li-Pin
    • Industrial Engineering and Management Systems
    • /
    • 제9권3호
    • /
    • pp.227-241
    • /
    • 2010
  • A memory module industry's supply chain usually consists of multiple manufacturing sites and multiple distribution centers. In order to fulfill the variety of demands from downstream customers, production planners need not only to decide the order allocation among multiple manufacturing sites but also to consider memory module industrial characteristics and supply chain constraints, such as multiple material substitution relationships, capacity, and transportation lead time, fluctuation of component purchasing prices and available supply quantities of critical materials (e.g., DRAM, chip), based on human experience. In this research, a directed graph-based supply network planning (DGSNP) model is developed for memory module industry. In addition to multi-site order allocation, the DGSNP model explicitly considers production planning for each manufacturing site, and purchasing planning from each supplier. First, the research formulates the supply network's structure and constraints in a directed-graph form. Then, a proposed genetic algorithm (GA) solves the matrix form which is transformed from the directed-graph model. Finally, the final matrix, with a calculated maximum profit, can be transformed back to a directed-graph based supply network plan as a reference for planners. The results of the illustrative experiments show that the DGSNP model, compared to current memory module industry practices, determines a convincing supply network planning solution, as measured by total profit.

MF-VLD에 대한 효율적인 하드웨어 구조 (An Efficient Architecture of The MF-VLD)

  • 서기범
    • 대한전자공학회논문지SD
    • /
    • 제48권11호
    • /
    • pp.57-62
    • /
    • 2011
  • 본 논문에서는 H.264, MPEG-2, MPEG-4, AVS, VC-1 코덱 표준의 가변 길이 복호화와 역 영자화가 가능한 MF-VLD(Multi-Format Variable Length Decoder)의 효율적인 구조에 대한 설계 방법을 제안 한다. 제안하는 MF-VLD는 MPSOC(Multiprocessor System on Chip)에 적합한 구조로 설계되었으며, 역 양자화된 데이터에 대해서 bit-plane알고리즘을 적용하여 AHB 버스의 폭을 줄였고, 내부 메모리의 사용량을 최소화 하기 위해 외부 SDRAM을 사용하였다. 또한, 코덱의 가변길이 복호화 모듈을 분리 가능한 구조로 설계하여 상황에 따라 가변길이 복호화 모듈에 대한 추가 및 제거가 용이 하도록 하였다. 설계된 MF-VLD는 0.18 ${\mu}m$ 공정에서 200 MHz의 속도로 동작하며, 사이즈는 약 657 K 게이트 이고, 사용되는 메모리는 약 27K 바이트 이다.

시각보조기기를 위한 실시간 영상처리 SoC 하드웨어 설계 (The Hardware Design of Real-time Image Processing System-on-chip for Visual Auxiliary Equipment)

  • 조흥선;김지호;신현택;임준성;류광기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1525-1527
    • /
    • 2013
  • 본 논문에서는 저시력자의 개선된 독서 환경을 제공하는 시각보조기기를 위한 실시간 영상처리 SoC(System on Chip) 하드웨어 구조 설계에 대해서 기술한다. 기존의 시각보조기기는 화면 영상이 실제 움직임보다 늦게 출력되는 잔상 현상이 발생하며, 색 변환 기능도 제한적이다. 따라서 본 논문에서 제안하는 실시간 영상처리 SoC 하드웨어 구조는 데이터 연산을 최소화함으로써 잔상 현상이 감소되며, 저시력자를 위한 다양한 색상 모드를 지원한다. 제안하는 영상처리 SoC 하드웨어 구조는 Core-A 모듈, Memory Controller 모듈, AMBA AHB bus 모듈, ISP(Image Signal Processing) 모듈, TFT-LCD Controller 모듈, VGA Controller 모듈, CIS Controller 모듈, UART 모듈, Block Memory 모듈로 구성된다. 시각보조기기를 위한 실시간 영상처리 SoC 하드웨어 구조는 Virtex4 XC4VLX80 FPGA 디바이스를 이용하여 검증하였으며, TSMC 180nm 셀 라이브러리로 합성한 결과 동작주파수는 54MHz, 게이트 수 197k이다.