• 제목/요약/키워드: associative processor

검색결과 15건 처리시간 0.025초

Content-Addressable Memory를 이용한 확장 가능한 범용 병렬 Associative Processor 설계 (Design of a scalable general-purpose parallel associative processor using content-addressable memory)

  • 박태근
    • 대한전자공학회논문지SD
    • /
    • 제43권2호
    • /
    • pp.51-59
    • /
    • 2006
  • 일반 컴퓨터에서 중앙처리장치와 메모리 사이의 병목현상인 "Von Neumann Bottleneck"을 보이는데 본 논문에서는 이러한 문제점을 해소하고 검색위주의 응용분야에서 우수한 성능을 보이는 Content-addressable memory(CAM) 기반의 확장 가능한 범용 Associative Processor(AP) 구조를 제안하였다. 본 연구에서는 Associative computing을 효율적으로 수행할 수 있는 명령어 세트를 제안하였으며 다양하고 대용량 응용분야에도 적용할 수 있도록 구조를 확장 가능하게 설계함으로써 유연한 구조를 갖는다. 12 가지의 명령어가 정의되었으며 프로그램이 효율적으로 수행될 수 있도록 명령어 셋을 구성하고 연속된 명령어를 하나의 명령어로 구현함으로써 처리시간을 단축하였다. 제안된 프로세서는 bit-serial, word-parallel로 동작하며 대용량 병렬 SIMD 구조를 갖는 32 비트 범용 병렬 프로세서로 동작한다. 포괄적인 검증을 위하여 명령어 단위의 검증 뿐 아니라 최대/최소 검색, 이상/이하 검색, 병렬 덧셈 등의 기본적인 병렬 알고리즘을 검증하였으며 알고리즘은 처리 데이터의 개수와는 무관한 상수의 복잡도 O(k)를 갖으며 데이터의 비트 수만큼의 이터레이션을 갖는다.

확장 가능한 범용 Associative Processor 구조 및 응용 (Architecture of a scalable general-purpose associative processor and its applications)

  • 윤재복;김주영;김진욱;박태근
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.1141-1144
    • /
    • 2005
  • 일반 컴퓨터에서 중앙처리장치와 메모리 사이의 병목 현상인 "Von Neumann Bottleneck"을 보이는데 본 논문에서는 이러한 문제점을 해소하고 검색위주의 응용분야에서 우수한 성능을 보이는 확장 가능한 범용 Associative Processor(AP) 구조를 제안하였다. 본 연구에서는 Associative computing을 효율적으로 수행할 수 있는 명령어 세트를 제안하였으며 다양하고 대용량 응용분야에도 적용할 수 있도록 구조를 확장 가능하게 설계함으로써 유연한 구조를 갖는다. 12 가지의 명령어가 정의되었으며 프로그램이 효율적으로 수행될 수 있도록 명령어 셋을 구성하고 연속된 명령어를 하나의 명령어로 구현함으로써 처리시간을 단축하였다. 제안된 프로세서는 bit-serial, word-parallel로 동작하며 대용량 병렬 SIMD 구조를 갖는 32 비트 범용 병렬 프로세서로 동작한다. 포괄적인 검증을 위하여 명령어 단위의 검증 뿐 아니라 최대/최소 검색, 이상/이하 검색, 병렬 덧셈 등의 기본적인 병렬 알고리즘을 검증하였으며 알고리즘은 처리 데이터의 개수와는 무관한 상수의 복잡도 O(k)를 갖으며 데이터의 비트 수만큼의 이터레이션을 갖는다.

  • PDF

Instruction Flow based Early Way Determination Technique for Low-power L1 Instruction Cache

  • Kim, Gwang Bok;Kim, Jong Myon;Kim, Cheol Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권9호
    • /
    • pp.1-9
    • /
    • 2016
  • Recent embedded processors employ set-associative L1 instruction cache to improve the performance. The energy consumption in the set-associative L1 instruction cache accounts for considerable portion in the embedded processor. When an instruction is required from the processor, all ways in the set-associative instruction cache are accessed in parallel. In this paper, we propose the technique to reduce the energy consumption in the set-associative L1 instruction cache effectively by accessing only one way. Gshare branch predictor is employed to predict the instruction flow and determine the way to fetch the instruction. When the branch prediction is untaken, next instruction in a sequential order can be fetched from the instruction cache by accessing only one way. According to our simulations with SPEC2006 benchmarks, the proposed technique requires negligible hardware overhead and shows 20% energy reduction on average in 4-way L1 instruction cache.

연상 메모리를 사용한 3차원 물체(항공기)인식 (Associative Memories for 3-D Object (Aircraft) Identification)

  • 소성일
    • 정보와 통신
    • /
    • 제7권3호
    • /
    • pp.27-34
    • /
    • 1990
  • The $(L,\psi)$ feature description on the binary boundary air craft image is introduced of classifying 3-D object (aircraft) identification. Three types for associative matrix memories are employed and tested for their classification performance. The fast association involved in these memories can be implemented using a parallel optical matrix-vector operation. Two associative memories are based on pseudoinverse solutions and the third one is interoduced as a paralell version of a nearest-neighbor classifier. Detailed simulation results for each associative processor are provided.

  • PDF

연합 처리기를 이용한 직교선형 스타이너 트리의 병렬 알고리즘 (A Parallel Algorithm For Rectilinear Steiner Tree Using Associative Processor)

  • Taegeun Park
    • 전자공학회논문지B
    • /
    • 제32B권8호
    • /
    • pp.1057-1063
    • /
    • 1995
  • This paper describes an approach for constucting a Rectilinear Steiner Tree (RST) derivable from a Minimum Spanning Tree (MST), using Associative Processor (AP). We propose a fast parallel algorithm using AP's basic algorithms which can be realized by the processing capability of rudimentary logic and the selective matching capability of Content- Addressable Memory (CAM). The main idea behind the proposed algorithm is to maximize the overlaps between the consecutive edges in MST, thus minimizing the cost of a RST. An efficient parallel linear algorithm with O(n) complexity to construct a RST is proposed using an algorithm to find a MST, where n is the number of nodes. A node insertion method is introduced to allow the Z-type layout. The routing process which only depends on the neighbor edges and the no-rerouting strategy both help to speed up finding a RST.

  • PDF

임베디드 프로세서의 캐시와 파이프라인 구조개선 및 저전력 설계 (Cache and Pipeline Architecture Improvement and Low Power Design of Embedded Processor)

  • 정홍균;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.289-292
    • /
    • 2008
  • 본 논문에서는 OpenRISC 프로세서의 성능 및 전력 소모 개선을 위해 동적 분기예측 기법, 사원 집합연관 캐시 구조, ODC를 이용한 클럭 게이팅 기법을 제안한다. 동적 분기 예측 기법은 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB를 사용하였다. 사원 집합연관 캐시는 네 개의 메모리 블록을 한 개의 캐시 블록에 사상되는 구조로 되어있어 직접사상 캐시에 비해 접근 실패율이 낮다. ODC를 이용한 클럭게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC조건을 찾아 클럭 게이팅 로직을 삽입함으로써 동적 소비전력을 줄일 수 있다. 테스트 프로그램을 이용하여 제안한 기법들을 적용한 OpenRISC 프로세서의 성능을 측정한 결과, 기존 프로세서 대비실행시간이 8.9% 향상 되었고, 삼성 $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 프로세서 대비 소비전력을 13.9% 이상 감소하였다.

  • PDF

Write Back 모드용 FIFO 버퍼 기능을 갖는 비동기식 데이터 캐시 (Design of an Asynchronous Data Cache with FIFO Buffer for Write Back Mode)

  • 박종민;김석만;오명훈;조경록
    • 한국콘텐츠학회논문지
    • /
    • 제10권6호
    • /
    • pp.72-79
    • /
    • 2010
  • 본 논문에서는 32bit 비동기 임베디드 프로세서용 쓰기 버퍼 기능을 갖는 데이터 캐시 구조를 제안하고 성능을 검증하였다. 데이터 캐시는 비동기 시스템에서 메인 메모리 장치와 프로세서 사이의 데이터 처리속도 향상을 목적으로 한다. 제안된 데이터 캐시의 메모리 크기는 8KB, 매핑 방식으로는 4 words(16byte)의 라인 크기를 가지며, 사상 기법으로는 4 way set associative, 교체 알고리즘으로는 pusedo LRU방식을 사용하였으며, 쓰기 정책을 위한 dirty 레지스터와 쓰기 버퍼를 적용시켰다. 설계한 데이터 캐시는 $0.13-{\mu}m$ CMOS공정으로 합성하였으며, MI벤치마크 검증 결과 평균 히트율은 94%이고 처리 속도가 46% 향상되었다.

법용 연합 처리 시스템에서의 전역배선 병렬화 기법 (Parallel algorithm of global routing for general purpose associative processign system)

  • 박태근
    • 전자공학회논문지A
    • /
    • 제32A권4호
    • /
    • pp.93-102
    • /
    • 1995
  • This paper introduces a general purpose Associative Processor(AP) which is very efficient for search-oriented applications. The proposed architecture consists of three main functional blocks: Content-Addressable Memory(CAM) arry, row logic, and control section. The proposed AP is a Single-Instruction, Multiple-Data(SIMD) device based on a CAM core and an array of high speed processors. As an application for the proposed hardware, we present a parallel algorithm to solve a global routing problem in the layout process utilizing the processing capabilities of a rudimentary logic and the selective matching and writing capability of CAMs, along with basic algorithms such a minimum(maximum) search, less(greater) than search and parallel arithmetic. We have focused on the simultaneous minimization of the desity of the channels and the wire length by sedking a less crowded channel with shorter wire distance. We present an efficient mapping technique of the problem into the CAM structure. Experimental results on difficult examples, on randomly generated data, and on benchmark problems from MCNC are included.

  • PDF

픽셀-병렬 영상처리에 있어서 포맷 컨버터 설계에 관한 연구 (A Study on the Design of Format Converter for Pixel-Parallel Image Processing)

  • 김현기;김현호;하기종;최영규;류기환;이천희
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(2)
    • /
    • pp.269-272
    • /
    • 2001
  • In this paper we proposed the format converter design and implementation for real time image processing. This design method is based on realized the large processor-per-pixel array by integrated circuit technology in which this two types of integrated structure is can be classify associative parallel processor and parallel process with DRAM cell. Layout pitch of one-bit-wide logic is identical memory cell pitch to array high density PEs in integrate structure. This format converter design has control path implementation efficiently, and can be utilized the high technology without complicated controller hardware. Sequence of array instruction are generated by host computer before process start, and instructions are saved on unit controller. Host computer is executed the pixel-parallel operation starting at saved instructions after processing start

  • PDF

캐쉬 용량 효과에 대한 멀티코어 프로세서의 성능 연구 (Performance Analysis of Multicore Processor Architectures Based On Cache Size Effects)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권6호
    • /
    • pp.175-180
    • /
    • 2012
  • 최근에 이르러, 수퍼스칼라 프로세서의 하드웨어 복잡도와 성능 한계의 문제를 극복하기 위하여 멀티코어 프로세서가 각종 컴퓨터 시스템에 상용화되어 널리 이용되고 있다. 이 때, 멀티코어 프로세서의 성능에 큰 영향을 미치는 것은 명령어 캐쉬와 데이터 캐쉬의 구성 방법과 용량이다. 본 논문에서는 캐쉬의 구조와 용량이 멀티코어 프로세서의 성능에 미치는 영향을 분석하기 위하여, 다양한 캐쉬의 구조와 용량으로 구성되는 2 개에서 16 개까지의 멀티코어 프로세서에 대하여 SPEC 2000 벤치마크를 입력으로 하여 모의실험을 수행하였다. 모의실험 결과, 명령어 캐쉬와 데이터 캐쉬의 구조를 2 차 연관도로 구성하고 각 용량을 64 KB로 설정할 때 하드웨어의 비용 대 성능 효과가 가장 높았다.