• 제목/요약/키워드: High-performance processor

검색결과 618건 처리시간 0.032초

고속 병렬 패킷 여과를 위한 효율적인 단일버퍼 관리 방안 (An Efficient Central Queue Management Algorithm for High-speed Parallel Packet Filtering)

  • 임강빈;박준구;최경희;정기현
    • 대한전자공학회논문지TC
    • /
    • 제41권7호
    • /
    • pp.63-73
    • /
    • 2004
  • 본 논문은 고속의 병렬 패킷 여과를 위한 다중프로세서 시스템이 가지는 단일 버퍼에서 단일 버퍼의 판독을 위한 다중프로세서 간의 경합을 중재하기 위한 효율적인 단일 버퍼 관리 방안을 제안하고 이를 실제의 다중 프로세서 시스템에 적용하여 실험함으로써 제안한 방안이 납득할 만한 성능을 제공함을 증명하였다. 병렬 패킷 여과시스템으로는 처리의 고속화를 위하여 패킷 여과규칙을 다중의 프로세서에 걸쳐 분산 처리하는 경우를 모델로 정하였다. 실제의 실험은 다중 프로세서를 가지는 네트워크 프로세서에서 이루어졌으며 100Mbps 의 통신망을 배경으로 하였다. 제안한 방안의 성능을 고찰하기 위하여 프로세서 수의 변화 및 여과 규칙의 처리 시간의 변화 등에 따르는 실제 패킷 전송률을 측정하였다.

차세대 공개키 암호 고속 연산을 위한 RISC-V 프로세서 상에서의 확장 가능한 최적 곱셈 구현 기법 (Optimized Implementation of Scalable Multi-Precision Multiplication Method on RISC-V Processor for High-Speed Computation of Post-Quantum Cryptography)

  • 서화정;권혁동;장경배;김현준
    • 정보보호학회논문지
    • /
    • 제31권3호
    • /
    • pp.473-480
    • /
    • 2021
  • 차세대 공개키 암호 고속 연산을 위해서는 목표로 하는 컴퓨터 프로세서의 구조를 활용하여 암호화 기본 연산을 최적화 구현하는 것이 중요하다. 본 논문에서는 RISC-V 프로세서 상에서 차세대 공개키 암호 고속 연산을 위해 핵심 곱셈기 연산을 최적화 구현하는 기법을 제안한다. 특히 RISC-V 프로세서의 기본 연산자를 열 기반 곱셈기 연산알고리즘에 맞추어 최적 구현해봄으로서 이전 연구와 비교 시 256-비트 곱셈의 경우 약 19% 그리고 512-비트 곱셈의 경우 약 8%의 성능 향상을 RISC-V 프로세서 상에서 달성하였다. 마지막으로 RISC-V 프로세서에서 추가적으로 제공되면 곱셈 연산 성능 향상에 도움이 될 수 있는 확장 명령어 셋에 대해서도 확인해 보도록 한다.

모바일 초음파 영상신호의 빔포밍 알고리즘을 위한 멀티코어 프로세서 구현 (Implementation of Multi-Core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권2호
    • /
    • pp.45-52
    • /
    • 2011
  • 과거에는 환자가 초음파 영상진단장치가 설치되어 있는 방에 가서 진단을 받았지만, 현재는 의사가 초음파 영상 진단장치를 가지고 이동하면서 환자를 진단(모바일 초음파, handheld ultrasound)할 수 있는 시대가 왔다. 그러나 초음파 영상진단장치로서의 기본적인 기능만을 구현하였으며, 초음파 영상의 질을 결정하는 초음파 빔의 포커싱 알고리즘에서 요구되는 고성능을 만족하지 못하는 실정이다. 또한 모바일 기기의 경우 저전력의 요구조건도 만족하여야 한다. 이를 위해 본 논문에서는 모바일 초음파 영상신호의 포커싱을 위한 방법 중 대표적인 빔포밍 알고리즘(Beamforming Algorithm)을 고성능, 저전력으로 처리 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)기반의 멀티코어 프로세서를 제안한다. 제안한 SIMD기반 멀티코어 프로세서는 16개의 프로세싱 엘리먼트(Processing Element, PE)로 구성되어 있으며, 초음파의 에코 영상데이터에 내재한 무수한 데이터 레벨 병렬성을 활용하여 빔포밍 알고리즘에서 요구되는 고성능을 만족시킨다. 모의실험 결과, 제안한 멀티코어 프로세서는 현재 상용 고성능 프로세서인 TI DSP C6416보다 평균 15.8배의 성능, 6.9배의 에너지 효율 및 10배의 시스템 면적 효율을 보였다.

가변 실행시간의 실시간 태스크들에 대하여 공유대역폭을 활용한 응답시간의 개선 (Enhancement of Response Time of Real-Time Tasks with Variable Execution Times by Using Shared Bandwidth)

  • 김용석
    • 전자공학회논문지CI
    • /
    • 제46권3호
    • /
    • pp.77-85
    • /
    • 2009
  • 태스크의 실행시간은 다양한 입력 데이터에 따라 가변적일 수 있다. 최악의 실행시간을 만족하도록 높은 성능의 프로세서를 사용하면 하드웨어 비용이 증가하고 에너지 소비가 늘어나게 된다. 따라서 적절히 낮은 성능의 프로세서를 적용하기 위해서는, 스케줄링에서는 프로세서의 용량을 최대한 활용하되 가끔씩 일부 태스크가 마감시한을 초과하더라도 다른 태스크에는 영향을 미치지 않도록 제한하는 것이 필요하다. 본 논문에서 제시하는 SBP (Shared Bandwidth Partitioning)는 프로세서의 공유 대역폭을 확보하여 태스크들이 나누어 사용할 수 있도록 하였다. 실행시간이 길어지는 태스크는 이 공유대역폭의 일부를 분할하여 사용하도록 한다. 시뮬레이션으로 평가한 결과, SBP는 기존의 알고리즘들에 비해서 개선된 결과를 얻을 수 있었다. 스케줄링 결과의 질에 해당하는 마감시한 초과 비율이 낮아지고 시스템의 오버헤드에 해당하는 문맥교환 횟수도 감소하는 것을 확인하였다.

4-way 수퍼 스칼라 디지털 시그널 프로세서 코어 설계 (On Designing 4-way Superscalar Digital Signal Processor Core)

  • 김준석;유선국;박성욱;정남훈;고우석;이근섭;윤대희
    • 한국통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.1409-1418
    • /
    • 1998
  • 최근의 오디오 압축 알고리듬은 다양한 코딩 기법을 조합하여 사용하고 있다. 이들은 DSP 작업(DSP task), 제어 작업(controller task), 그리고 혼합 작업(mixed task)으로 나눌 수 있다. 기존의 DSP 프로세서들은 이들 중 DSP 작업만을 효율적으로 설계되어 있어 제어작업이나 혼합작업에 대해서는 자원을 효율적으로 활용하지 못하는 단점이 있다. 본 논문에서는 기존의 DSP 프로세서가 가지는 DSP 작업에 대하여 고성능을 그대로 유지하면서 제어작업과 혼합작업에서도 좋은 성능을 가지는 새로운 구조를 제안하고 구현하였다. 제안된 프로세서 YSP-3는 4개의 실행 유닛 (곱셈기, 2개의 ALU, 메모리 접근 유닛)을 병렬로 배치한 후 4-way 수퍼스칼라명령어 구조를 사용하여 각 우ㅠ닛을 독립적으로 사용할 수 있도록 하였다. 제안된 구조는 일반적인 DSP 알고리듬과 AC-3 디코딩 알고리듬을 실행하여 성능을 평가하였다. 마지막으로 VHDL을 통해 $0.6\$\mu$textrm{m}$-3ML 표준셀 기술로 합성한 후 Compass상에서 모의실험으로 통해 33MHz의 시스템 클럭에 대해 최대 지연시간 상황에서 실시간 동작을 확인하였다.

  • PDF

멀티코어 프로세서의 전력 소비에 대한 연구 (A Study on Power Dissipation of The Multicore Processor)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.251-256
    • /
    • 2017
  • 최근에 이르러, 범용 컴퓨터 뿐만이 아니라 임베디드 시스템 및 모바일 장치에서도 광범위하게 멀티코어 프로세서가 이용되어 그 성능이 증대되고 있다. 이러한 멀티코어 프로세서 시스템의 전력 소비량이 매우 중요하므로, 설계의 초기 단계에서 그 값을 정확하게 예측할 수 있어야 한다. 본 논문에서는 멀티코어 프로세서에 대하여 빠른 속도를 갖는 명령어 자취형 (trace-driven) 모의실험기 기반의 전력 분석기를 개발하였다. 이 때, 각 코어를 구성하는 하드웨어 유닛별 소비전력을 계산하여 합산하였다. 또한, SPEC 2000 벤치마크를 입력으로 모의실험을 수행하여 명령어 당평균 전력 소비량을 측정하였다.

An I/O Bus-Based Dual Active Fault Tolerant Architecture fort Good System Performance

  • Kwak, Seung-Uk;Kim, Jeong-Il;Jeong, Keun-Won;Park, Kyong-Bae;Kang, Kyong-In;Kim, Hyen-Uk;Lee, Kwang-Bae
    • 한국전기전자재료학회:학술대회논문집
    • /
    • 한국전기전자재료학회 1998년도 춘계학술대회 논문집
    • /
    • pp.515-520
    • /
    • 1998
  • In this paper, we propose a new fault tolerant architecture for high availability systems, where for module internal operations both processor modules perform the same tasks at the same time independently of each other while for module external operations both processor modules act actively. That is, operations of synchronization between dual processor modules except clock synchronization are requested only when module external operations are executed. The architecture can not only improve system availability by reducing system reintegration time but also reduce performance degradation problem due to frequent synchronization between dual processor modules. The clock unit consists of a clock generator and a clock synchronization circuit. This supplies a stable clock signal under clock unit disorder of any processor module or rapid clock signal variation. And this architecture achieves system availability and data credibility by designing as symmetrical form.

  • PDF

실시간 전력품질분석시스템을 위한 FFT 프로세서의 설계 (The Design of FFT Processor for Real-time Power Quality Analysis System)

  • 이정복;박해원;강민수;전희종
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 하계학술대회 논문집 B
    • /
    • pp.1071-1074
    • /
    • 2002
  • In this paper, power quality analysis system is proposed where voltage or current waveforms are nonsinusoidal. The proposed system relies on the FFT algorithm to compute real and reactive power. The advantage of system is that harmonic analysis is carried out on a period of the input signal. The proposed system is based on FFT processor which is designed using VHDL(Very high-speed integrated circuit Hardware Description Language). In the design of FFT processor, radix- $2^2$ is adopted to reduce several complex multipliers for twiddle factor. Complex multiplier is implemented as only shifters and adders. Therefore, the system is able to have both high hardware efficiency and high performance.

  • PDF

계산속도와 하드웨어 양이 조절 용이한 FFT Array Processor 시스템 (FFT Array Processor System with Easily Adjustable Computation speed and Hardware Complexity)

  • Jae Hee Yoo
    • 전자공학회논문지A
    • /
    • 제30A권3호
    • /
    • pp.114-129
    • /
    • 1993
  • A FFT array processor algorithm and architecture which anc use a minumum required number of simple, duplicate multiplier-adder processing elements according to various computation speed, will be presented. It is based on the p fold symmetry in the radix p constant geometry FFT butterfly stage with shuffled inputs and normally ordered outputs. Also, a methodology to implement a high performance high radix FFT with VLSI by constructing a high radix processing element with the duplications of a simple lower radix processing element will be discussed. Various performances and the trade-off between computation speed and hardware complexity will be evaluated and compared. Bases on the presented architecture, a radix 2, 8 point FFT processing element chip has been designed and it structure and the results will be discusses.

  • PDF

오류정정 부호 기반 명령어 연관성 기법을 적용한 임베디드 보안 프로세서의 성능평가 (Performance Evaluation of Secure Embedded Processor using FEC-Based Instruction-Level Correlation Technique)

  • 이승욱;권순규;김종태
    • 한국통신학회논문지
    • /
    • 제34권5B호
    • /
    • pp.526-531
    • /
    • 2009
  • 본 논문에서는 명령어 실행 전에 소프트웨어 또는 하드웨어의 공격에 의한 변조된 명령어의 실행을 방지할 수 있는 새로운 명령어 연관성 기법을 제안한다. 암호화 과정의 복잡성과 암호 모듈의 낮은 처리 속도로 인하여 암호화 기반 보안 프로세서는 오버헤드에 의한 심각한 성능 저하가 발생한다. 반면에, 오류정정부호를 이용한 명령어 기법을 적용한 보안 프로세서는 적은 오버헤드로 인해 일반 프로세서와 비교하여 성능 저하가 거의 없다. 실험 결과 일반 프로세서에 비해 보안 프로그램의 코드와 패리티를 포함하여 필요한 총 메모리양은 평균 26.62% 늘었고, 보안 프로그램의 CPI 상승률은 평균 $1.20%{\sim}1.97%$ 증가하였다.