• 제목/요약/키워드: Pipelined Processor

검색결과 75건 처리시간 0.025초

모바일 3차원 그래픽을 위한 기하변환 엔진 설계 (Design of Transformation Engine for Mobile 3D Graphics)

  • 김대경;이지명;이찬호
    • 대한전자공학회논문지SD
    • /
    • 제44권10호
    • /
    • pp.49-54
    • /
    • 2007
  • 최근 많은 디지털 콘텐츠들이 3차원 그래픽을 기반으로 제작됨에 따라 모바일 기기에 적용 가능한 저 전력 3차원 그래픽 하드웨어에 대한 관심이 증가하고 있다. 본 논문에서는 이러한 시대 흐름에 맞추어 모바일 기기에 적용 가능한 3차원 그래픽 기하변환 엔진을 설계하였다. 설계된 기하변환 엔진은 매핑 변환 유닛을 투영 변환 유닛에 통합하고 클리핑 유닛을 선별 유닛으로 대체하여 구조를 단순화하고 면적을 줄었다. 설계된 엔진은 IEEE-754 표준을 만족하는 32 bit 부동소수점 형식과 데이터 폭을 줄인 24 bit 부동소수점 형식의 연산을 수행할 수 있으며 이는 파라미터의 변환으로 선택할 수 있도록 하였다. 또한 파이프라인 방식을 설계에 적용하여 초기 지연을 제외하고는 매 사이클 입력되는 정점의 좌표 성분(x, y, z, w)을 연산하여 4 사이클 마다 하나의 변환된 정점 좌표 성분을 출력할 수 있도록 하여 동작의 속도 및 효율을 높였다. 설계된 기하변환 엔진은 FPGA를 이용한 시스템으로 구현되었으며 설계된 엔진을 통해 변환된 3차원 객체가 TFT-LCD에 정상적인 3차원 그래픽 영상을 출력하는 것을 통해 검증하였다.

복귀주소 스택을 활용한 얕은 파이프라인 EISC 아키텍처의 명령어 큐 효율성 향상연구 (Enhancing Instruction Queue Efficiency with Return Address Stack in Shallow-Pipelined EISC Architecture)

  • 김한이;이승은;김관영;서태원
    • 컴퓨터교육학회논문지
    • /
    • 제18권2호
    • /
    • pp.71-81
    • /
    • 2015
  • EISC 프로세서에서 LERI 폴딩과 루프 버퍼링을 지원하는 명령어 큐는 하드웨어적으로 20%를 차지하며, 그 효율성은 성능에 직결된다. 본 연구에서는 EISC 프로세서의 명령어 큐 아키텍처 효율성 향상을 복귀주소 스택(RAS)을 통해 실현하였다. 구현한 아키텍처는 EISC의 얕은 파이프라인 구조의 이점을 활용하여 잘못된 명령어 수행으로 인한 RAS Corruption 문제를 제거하였다. 실험에서, 4개 엔트리의 RAS는 명령어 큐의 플러시를 기존보다 최대 58.90% 줄였고, 8개 엔트리의 RAS는 이를 최대 61.28% 줄였다. 또한 실험 결과 8개 엔트리의 RAS는 3.47%의 성능향상을 보여주었고, 4개 엔트리의 RAS는 3.15%의 성능향상을 보여주었다.

IoT 보안을 위한 AES 기반의 암호화칩 설계 (Design of AES-Based Encryption Chip for IoT Security)

  • 강민섭
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.1-6
    • /
    • 2021
  • 본 논문은 하드웨어 자원이 제한되는 사물인터넷 시스템의 보안을 위하여 AES 기반의 효율적인 암호화칩 설계를 제안한다. ROM 기반의 S-Box는 메모리를 액세스하는데 많은 메모리 공간이 필요함과 동시에 지연문제가 발생하게 된다. 제안한 방법에서는 저면적/고성능의 암호화 칩 설계를 위해 합성체 기반의 고속 S-Box를 설계하여 보다 빠른 연산결과를 얻도록 한다. 또한, 각 라운드 변환과정 및 키 스케쥴링 과정에서 사용되는 S-Box를 공유하도록 설계하여 보다 높은 처리율 및 적은 지연을 갖도록 한다. 설계된 AES 암호프로세서는 Verilog-HDL를 사용하여 회로동작을 기술하였으며, Xilinx ISE 14.7 툴을 이용하여 논리 합성을 수행하였다. 또한, 설계 검증은 Modelsim 10.3 툴을 이용하였으며, Xilinx XC6VLX75T FPGA 소자를 사용하여 하드웨어 동작을 검증하였다.

동적 프로세서 할당 기법을 이용한 파이프라인 해쉬 결합 알고리즘 (A Pipelined Hash Join Algorithm using Dynamic Processor Allocation)

  • 원영선;이동련;이규옥;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권1_2호
    • /
    • pp.1-10
    • /
    • 2001
  • 본 논문에서는 부쉬 트리를 할당 트리로 변환한 후 결합 연산을 수행하면서 실제 실행시간을 동적으로 계산하고 그 결과에 의해 실시간에 프로세서를 할당하는 동적 프로세서 할당 기법을 이용한 파이프라인 해쉬 결합 알고리즘을 제안하였다. 프로세서를 할당하는 과정에서 초기 릴레이션의 기본 정보만을 이용하여 미리 프로세서를 할당하는 기존의 정적 프로세서 할당 기법은 정확한 실행시간을 예측할 수 없었다. 따라서 본 논문에서는 할당 트리 각 노드의 실행결과를 포함한 결합 과정 중의 정보를 다음 노드의 실행시간에 충분히 반영하는 동적 프로세서 할당 기법을 제안하였으며, 이로써 프로세서를 효율적으로 분배하고 전체적인 실행시간을 최소화하였다. 또한 전체적인 질의 실행시간을 줄이기 위하여 결합 가능성이 없는 튜플들을 제거한 후 결합 연산을 수행할 수 있도록 해쉬 필터 기법을 이용하였다. 결합 연산을 수행하기에 앞서 모든 결합 속성 값에 대해 해쉬 필터를 생성하는 정적 필터 기법은 모든 결합 연산의 중간 결과로 발생할 수 있으나 최종 결과 릴레이션의 튜플이 될 수 없는 튜플들까지도 모두 추출이 가능하다. 따라서 각각의 결합 연산 직전에 해쉬 필터를 생성하는 동적 필터 기법에 비해 결합 가능성이 없는 튜플을 최대한 제거할 수 있으며 이로써 결합 연산의 실행비용을 크게 줄일 수 있었다.

  • PDF

초전도 마이크로 프로세서개발을 위한 RSFQ ALU 회로의 타이밍 분석 (Timing analysis of RSFQ ALU circuit for the development of superconductive microprocessor)

  • 김진영;백승헌;김세훈;강준희
    • 한국초전도ㆍ저온공학회논문지
    • /
    • 제7권1호
    • /
    • pp.9-12
    • /
    • 2005
  • We have constructed an RSFQ 4-bit Arithmetic Logic Unit (ALU) in a pipelined structure. An ALU is a core element of a computer processor that performs arithmetic and logic operation on the operands in computer instruction words. We have simulated the circuit by using Josephson circuit simulation tools. We used simulation tools of XIC, $WRspice^{TM}$, and Julia. To make the circuit work faster, we used a forward clocking scheme. This required a careful design of timing between clock and data pulses in ALU. The RSFQ 1-bit block of ALU used in constructing the 4-bit ALU was consisted of three DC current driven SFQ switches and a half-adder. By commutating output ports of the half adder, we could produce AND, OR, XOR, or ADD functions. The circuit size of the 4-bit ALU when fabricated was 3 mm x 1.5 mm, fitting in a 5 mm x 5mm chip. The fabricated 4-bit ALU operated correctly at 5 GHz clock frequency. The chip was tested at the liquid-helium temperature.

AES Rijndael 암호.복호 알고리듬의 설계 및 구현 (The Design and Implementation of AES Rijndael Cipher Algorithm)

  • 신성호;이재흥
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.196-198
    • /
    • 2003
  • 본 논문에서는 미국 국립표준기술연구소(NIST)에서 채택한 차세대 암호 표준인 Rijndael 암호 알고리듬을 하드웨어로 구현한다. 효율적인 연산을 위해 라운드를 2개의 부분 라운드로 나누고 부분라운드 간에 파이프라인을 사용하였으며, 1 라운드 연산 시 평균적으로 5 클럭이 소요된다. AES-128 암호 알고리듬을 ALTERA FPGA를 사용하여 하드웨어로 구현 후 성능을 분석하였다. 구현된 AES-128 암호 알고리듬은 암호화시 최대 166 Mhz의 동작 주파수와 약 424 Mbps의 암호율을 가지고 복호화시 최대 142 Mhz의 동작 주파수와 약 363 Mbps의 복호율을 얻을 수 있었다.

  • PDF

모바일 그래픽스 응용을 위한 부동소수점 승산기의 설계 (Design of Floating-Point Multiplier for Mobile Graphics Application)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.547-554
    • /
    • 2008
  • 본 논문에서는 2단 파이프라인 구조의 부동 소수점 승산기 회로를 설계하였다. 부동 소수점 승산기는 3차원 그래픽 API인 OpenGL과 Direct3D를 위한 단일 정밀도 곱셈 연산을 지원하며, 포화 연산, 면적 효율적인 점착(sticky) 비트 발생기 및 플래그 프리픽스 가산기를 결합하여, 면적 효율적이며 적은 파이프라인 지연 구조를 갖는다. 설계된 회로는 $0.13{\mu}m$ CMOS 표준 셀을 사용하여 합성 한 결과 약 4-ns의 지연시 간을 갖고 있으며, 약 7,500개로 구성된다. 설계된 부동 소수점 승산기의 최대 연산 성능은 약 250 MFLOPS이므로, 3차원 모바일 그래픽 분야에 효율적으로 적용 가능하다.

Energy Efficient and Low-Cost Server Architecture for Hadoop Storage Appliance

  • Choi, Do Young;Oh, Jung Hwan;Kim, Ji Kwang;Lee, Seung Eun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4648-4663
    • /
    • 2020
  • This paper proposes the Lempel-Ziv 4(LZ4) compression accelerator optimized for scale-out servers in data centers. In order to reduce CPU loads caused by compression, we propose an accelerator solution and implement the accelerator on an Field Programmable Gate Array(FPGA) as heterogeneous computing. The LZ4 compression hardware accelerator is a fully pipelined architecture and applies 16 dictionaries to enhance the parallelism for high throughput compressor. Our hardware accelerator is based on the 20-stage pipeline and dictionary architecture, highly customized to LZ4 compression algorithm and parallel hardware implementation. Proposing dictionary architecture allows achieving high throughput by comparing input sequences in multiple dictionaries simultaneously compared to a single dictionary. The experimental results provide the high throughput with intensively optimized in the FPGA. Additionally, we compare our implementation to CPU implementation results of LZ4 to provide insights on FPGA-based data centers. The proposed accelerator achieves the compression throughput of 639MB/s with fine parallelism to be deployed into scale-out servers. This approach enables the low power Intel Atom processor to realize the Hadoop storage along with the compression accelerator.

16개의 처리기를 가진 다중접근기억장치를 위한 영상처리 알고리즘의 구현에 대한 성능평가 (Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements)

  • 이유진;김재희;박종원
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.8-14
    • /
    • 2012
  • 최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.

유전자 알고리즘을 이용한 DNA 서열 생성 시스템의 효율적인 구현에 대한 연구 (Implementation of efficient DNA Sequence Generate System with Genetic Algorithm)

  • 이은경;이승렬;김동순;정덕진
    • 전자공학회논문지SC
    • /
    • 제43권5호
    • /
    • pp.44-59
    • /
    • 2006
  • DNA 컴퓨터의 계산 수준을 분자 수준으로 끌어내려 막대한 병렬성을 확보하고, 보다 효율적인 정보 처리를 가능케 해 차세대 컴퓨팅 기법으로서의 위치를 확고히 하고 있다. 그러나 DNA 컴퓨팅은 실제 실험을 통해 계산 모델 및 알고리즘을 검증하기 때문에 많은 연산 시간을 필요로 한다. 따라서 빠른 계산 모델 및 알고리즘의 검증을 위해 시뮬레이터인 NACST가 개발되었다. 그러나 NACST에 포함된 서열생성 시스템의 반복적인 연산 특징 때문에 이 또한 많은 연산시간을 필요로 하게 되었다. 따라서 시뮬레이션 시간 단축을 위한 서열생성 시스템의 효율적인 하드웨어 구조가 요구된다. 이에 본 논문은 DNA 코드 최적화 부분의 연산시간이 NACST 연산시간의 약 95% 이상을 차지한다는 점을 착안하여 DNA 서열 생성 시스템에 병렬 기법과 Pipeline 기법을 적용하였고 적합도 함수 간 연산을 공유시켜 연산의 양을 대폭 줄이고 분배해 시뮬레이션 시간을 크게 줄일 수 있는 하드웨어 구조를 제안하고 검증하였다. 실험 결과 제안된 하드웨어는 기존 소프트웨어에 비해 약 467배 이상의 연산시간 감소를 보였으며 DNA 서열 생성 성능은 기존과 동일함을 보였다.