• 제목/요약/키워드: enhanced processor-architecture

검색결과 23건 처리시간 0.019초

유전 알고리즘 처리속도 향상을 위한 강화 프로세서 구조 (Enhanced Processor-Architecture for the Faster Processing of Genetic Algorithm)

  • 윤한얼;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제15권2호
    • /
    • pp.224-229
    • /
    • 2005
  • 일반적으로 유전 알고리즘은 전형적인 프로세서에서 수행할 경우 매우 큰 시간 공간 복잡도를 가진다. 따라서 유전 알고리즘 처리를 위해서는 고성능$\cdot$고가격의 프로세서를 필요로 하게 된다. 또한 이것은 유전 알고리즘을 소형 이동 로봇과 같이 비교적 간단한 룰을 필요로 하는 실제 하드웨어에 적용하는데 있어 큰 장벽으로 작용한다. 이러한 문제의 해결을 위해, 본 논문에서는 유전 알고리즘의 신속한 처리를 위해 강화된 프로세서 구조를 보인다. 정렬 네트워크와 residue number system (RNS)를 이용하여 일반적인 프로세서의 구조를 유전 알고리즘의 처리에 효율적이도록 강화할 수 있다. 정렬 네트워크는 유전 알고리즘에 필수적인 해들의 품질 비교를 하드웨어적으로 처리할 수 있게 하여 수행에 요구되는 시간을 줄일 수 있다. RNS는 산술 연산의 속도를 좌우하는 bit 사이즈를 줄여 전체적인 로직의 사이즈를 줄이고, 산술 연산의 처리 속도를 빠르게 할 수 있다.

멀티코어 순차 수퍼스칼라 프로세서의 성능 연구 (Performance Study of Multi-core In-Order Superscalar Processor Architecture)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.123-128
    • /
    • 2012
  • 최근에 이르러 디지털 시스템의 성능을 극대화하기 위하여, 멀티코어 프로세서가 상용화 되어 널리 이용되고 있다. 이러한 멀티코어 프로세서를 구성하는 단위 코어의 성능을 높이면, 적은 개수의 코어를 가지고 시스템의 성능을 크게 향상시킬 수가 있다. 본 논문에서는 순차실행 방식의 수퍼스칼라를 단위 코어로 하는 멀티코어 프로세서 아키텍쳐를 제안하였다. 그리고, 윈도우 크기가 4에서 16이고 2-코어에서 16-코어로 구성되는 멀티코어 수퍼스칼라 프로세서에 대하여, SPEC 2000 벤치마크를 입력으로 하는 광범위한 모의실험을 수행하였다. 모의실험 결과, 윈도우의 크기가 16일 때 16-코어 수퍼스칼라 프로세서는 1-코어 수퍼스칼라 프로세서보다 8.4배의 성능 향상을 가져왔다. 또한, 같은 코어 개수를 가진 멀티 코어 수퍼스칼라 프로세서의 성능이 멀티코어 RISC 프로세서의 성능의 2 배를 기록하였다.

멀티코어 비순차 수퍼스칼라 프로세서의 성능 연구 (A Performance Study of Multi-core Out-of-Order Superscalar Processor Architecture)

  • 이종복
    • 전기학회논문지
    • /
    • 제61권10호
    • /
    • pp.1502-1507
    • /
    • 2012
  • In order to overcome the hardware complexity and power consumption problems, recently the multi-core architecture has been prevalent. For hardware simplicity, usually RISC processor is adopted as the unit core processor. However, if the performance of unit core processor is enhanced, the overall performance of the multi-core processor architecture can be further increased. In this paper, out-of-order superscalar processor is utilized for the multi-core processor architecture. Using SPEC 2000 benchmarks as input, the trace-driven simulation has been performed for the out-of-order superscalar cores between 2 and 16 extensively. As a result, the 16-core out-of-order superscalar processor for the window size of 16 resulted in 17.4 times speed up over the single-core out-of-order superscalar processor, and 50 times speed up over the single core RISC processor. When compared for the same number of cores on the average, the multi-core out-of-order superscalar processor performance achieved 3.2 times speed up over the multi-core RISC processor and 1.6 times speed up over the multi-core in-order superscalar processor.

루프를 효과적으로 처리하는 PASC 프로세서 구조 (PASC Processor Architecture for Enhanced Loop Execution)

  • 지승현;박노광;전중남;김석일
    • 한국정보처리학회논문지
    • /
    • 제6권5호
    • /
    • pp.1225-1240
    • /
    • 1999
  • This paper proposes PASC(PArtitioned SCHeduler) processor architecture that equips with a number of functional unit and an individual scheduler paris. Every scheduler of the PASC processor can determine whether a unit instruction can be issued to the associated functional unit or it is to be waited until next cycle caused by a resource collision or data dependencies. In the PASC processor, only the functional unit with a resource collision or data dependencies waits by executing a NOP(No OPeration) instruction and the other functional units execute their own instructions. Therefore we can expect the code compaction effect on the PASC processor. Thus, the last instruction of a loop at certain iteration and the very first instruction of the loop at the next iteration can be scheduled simultaneously if the two instructions do not incur any resource collision or data dependencies. Therefore, we can expect that such two instructions without any resource collision and data dependencies are packed into the same very long instruction word and thus, the two instructions are executed concurrently at run time. As a result, we can shorten execution cycles of a loop comparing to the execution of the loop on a traditional VLIW or SVLIW processor architecture. Simulation result also promises faster execution of loops on a PASC processor architecture than those on a VLIW and SVLIW processor architecture.

  • PDF

멀티미디어 명령어를 강화한 수퍼스칼라 RISC 마이크로프로세서 구조 (Superscalar RISC Microprocessor Architecture with enhanced Multimedia Instructions)

  • 이용환;문병인;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.931-934
    • /
    • 1999
  • For applications in multimedia to which genuine RISC microprocessors are not suitably applicable, a new generation of fast and flexible microprocessors is required. In this paper, as a technique of integrating DSP functionality in a general RISC processor, a RISC that can execute DSP extension instructions is developed to improve the performance of multimedia application execution. This processor can execute DSP instructions in parallel with the execution of ALU instructions for efficient and fast execution. In addition, the execution ability of integer instructions is improved by enhancing the RISC core itself.

  • PDF

Architectural Design Issues in a Clockless 32-Bit Processor Using an Asynchronous HDL

  • Oh, Myeong-Hoon;Kim, Young Woo;Kwak, Sanghoon;Shin, Chi-Hoon;Kim, Sung-Nam
    • ETRI Journal
    • /
    • 제35권3호
    • /
    • pp.480-490
    • /
    • 2013
  • As technology evolves into the deep submicron level, synchronous circuit designs based on a single global clock have incurred problems in such areas as timing closure and power consumption. An asynchronous circuit design methodology is one of the strong candidates to solve such problems. To verify the feasibility and efficiency of a large-scale asynchronous circuit, we design a fully clockless 32-bit processor. We model the processor using an asynchronous HDL and synthesize it using a tool specialized for asynchronous circuits with a top-down design approach. In this paper, two microarchitectures, basic and enhanced, are explored. The results from a pre-layout simulation utilizing 0.13-${\mu}m$ CMOS technology show that the performance and power consumption of the enhanced microarchitecture are respectively improved by 109% and 30% with respect to the basic architecture. Furthermore, the measured power efficiency is about 238 ${\mu}W$/MHz and is comparable to that of a synchronous counterpart.

팩시밀리 및 디지털 복사기를 위한 고속 영상 처리기의 VLSI구현 (A VLSI implementation of image processor for facsimile and digital copier)

  • 박창대;정영훈;김형수;김진수;권오준;홍기상;장동구;박기용;김윤수
    • 전자공학회논문지S
    • /
    • 제35S권1호
    • /
    • pp.105-113
    • /
    • 1998
  • A new image processor is implemented for high-speed digital copiers and facsimiles. The imgage processor performs CCD and CIS interface, pre-processing, enlargement andreduction of gray level image, and various halftoning algorithms. Implemented halftoning algorithms are simple thresholding, fuzzy based mixed mode thresholding, dithering, and edge enhanced error diffusion. The result of binarization is transferred to a printer with serial or paralel output ports. Line by line pipelined data prodessing architecture is employed with time sharing access of the external memory. In receiving mode, it converts the resolution of received binary image for compatibility with conventional facsimile. In copy mode, a line of A3 paper with 400 dpi is processed with in 2.5 ms. The prototype of image processor was implemented usig Laser Programmable Gate Array (LPGA) with 0.8.mu.m technology.

  • PDF

개인용 정보 단말장치를 위한 내장형 멀티스레딩 프로세서 구조 (Embedded Multithreading Processor Architecture for Personal Information Devices)

  • 정하영;정원영;이용석
    • 대한전자공학회논문지SD
    • /
    • 제47권9호
    • /
    • pp.7-13
    • /
    • 2010
  • 본 논문은 스마트폰, 타블렛 PC와 같은 개인용 정보 단말장치 응용에 적합한 프로세서 구조를 제안한다. 고성능 내장형 프로세서 개발은 아키텍쳐의 변화가 필요하고, 오버헤드가 크기 때문에, 업계에서는 높은 동작 주파수의 고성능 내장형 프로세서의 개발에 전념하고 있다. 고성능 프로세서 구조 중 비순차 슈퍼스칼라(out-of-order superscalar)는 하드웨어 복잡도가 과도하게 증가하며, 그에 비해 성능 향상이 적으므로 내장형 응용에 적합하지 않다. 따라서 하드웨어 복잡도가 낮은 고성능 내장형 프로세서 구조의 개발이 필요하다. 본 논문에서는 스칼라, 슈퍼스칼라, 멀티프로세서 방식에 비하여 복잡도가 낮은 새로운 SMT(Simultaneous Multi-Threading) 구조를 제안한다. 최근의 개인용 정보단말기는 많은 작업을 동시에 수행하기 때문에, SMT나 CMP는 이에 적합한 구조라 할 수 있다. 또한, 시뮬레이션 결과 SMT는 여러 프로세서 구조 중 가장 효율이 높은 프로세서로 보인다.

프로세서 노드 상황을 고려하는 저비용 파이프라인 브로드캐스트 하드웨어 엔진 (Low Cost Hardware Engine of Atomic Pipeline Broadcast Based on Processing Node Status)

  • Park, Jongsu
    • 한국정보통신학회논문지
    • /
    • 제24권8호
    • /
    • pp.1109-1112
    • /
    • 2020
  • This paper presents a low cost hardware message passing engine of enhanced atomic pipelined broadcast based on processing node status. In this algorithm, the previous atomic pipelined broadcast algorithm is modified to reduce the waiting time until next broadcast communication. For this, the processor change the transmission order of processing nodes based on the nodes' communication channel. Also, the hardware message passing engine architecture of the proposed algorithm is modified to be adopted to multi-core processor. The synthesized logic area of the proposed hardware message passing engine was reduced by about 16%, compared by the pre-existing hardware message passing engine.

UWB 초고속 무선통신 시스템을 위한 FFT 프로세서 설계에 관한 연구 (A Study on the Design of FFT Processor for UWB Ultrafast Wireless Communication Systems)

  • 이상일;천영일
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2140-2145
    • /
    • 2008
  • UWB 초고속 무선통신 시스템을 위한 MB-OFDM용 128-포인트 FFT 프로세서를 설계하였다. 128-포인트 FFT 프로세서는 Radix-2 FFT 알고리듬과 R2SDF 파이프라인 구조에 기초하고 있으며, VHDL을 이용하여 구현되었다. 그 결과는 Modelsim을 이용하여 검증되었으며, Xilinx Vertex-II FPGA를 이용하여 합성된 결과 18.7MHz의 동작주파수를 얻을 수 있었다. 제안된 128-포인트 FFT 프로세서는 병렬처리 되는 FFT 프로세서의 한 블록으로 이용될 수 있으며, 이를 이용하여 고속의 병렬처리 FFT 모듈이 구현될 수 있게 된다. 따라서 본 논문은 4개의 128-포인트 FFT 프로세서를 병렬로 연결하여 4배의 동작주파수를 얻을 수 있었으며, 결과적으로 MB-OFDM에서 요구되는 동작주파수 이상의 성능을 얻게 되었다.