• 제목/요약/키워드: pipelining

검색결과 141건 처리시간 0.022초

파이프라인 기반 워크플로우의 우선 데이터 처리 방안 (Priority Data Handling in Pipeline-based Workflow)

  • 전원표;허대영;황선태
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권12호
    • /
    • pp.691-697
    • /
    • 2017
  • 백두산 및 한반도 주변의 화산재해에 의한 피해는 화산재에 의한 것으로 예상된다. 따라서 기 상장 상황에 따른 화산재 확산 상황을 컴퓨터 시뮬레이션을 통해서 예측하는데 정해진 시간 안에 계산을 끝내야 하므로 계산에 사용되는 소프트웨어들을 파이프라인 방식으로 병렬화하는 워크플로우가 제안되었다. 또한 화산재해의 특성 상 화산 폭발이 발생한 순간에도 시뮬레이션을 위한 정확한 파라미터 값이 정해지지 않으므로 여러 가지 가능한 조건의 시뮬레이션을 모두 수행해야 한다. 만일 이 중에 가장 가능성이 높은 조건의 계산을 먼저 수행할 수 있으면 화산재해에 대해 이를 토대로 일단 대응하고 후속 계산 결과에 의해 추후 보완하는 것이 가능해질 것이다. 그런데 이런 계산 들은 화산재해 피해예측 시스템의 제한된 성능의 계산 서버에서 수행되므로 계산 자원을 적절히 분배하는 일이 필요하다. 이를 위해서 기존에 제안되었던 파이프라인 기반의 워크플로우에 특정 데이터를 먼저 생성하는 기능을 추가하는 방안을 제안한다.

버스기반의 VLIW형 프로세서를 위한 최적화 컴파일러 구현 (Implementation of Optimizing Compiler for Bus-based VLIW Processors)

  • 홍승표;문수묵
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권4호
    • /
    • pp.401-407
    • /
    • 2000
  • 최근의 고성능 프로세서들은 명령어 수준의 병렬처리(Instruction Level Parallel Processing) 를 이용하여 성능향상을 꾀하고 있다. 특히 컴파일러의 도움을 받는 VLIW(Very Long Instruction Word) 방식의 프로세서는 고성능 DSP 및 그래픽 프로세싱 등 특수한 분야에서 사용이 증가하고 있다. 이러한 특수 목적의 프로세서 구조로서 버스 기반의 VLIW 구조가 제안되었으며[2], 이는 포워딩 하드웨어의 부담과 명령어 폭을 줄여주는 장점을 갖는다. 본 논문에서는 제안된 버스 기반의 VLIW 프로세서를 위해 개발된 최적화 스케쥴링 컴파일러를 소개한다. 우선 버스간 연결 및 자원사용을 모델링 하는 기법을 설명하고 이를 바탕으로 레지스터-버스 승진, 복사자 융합, 오퍼랜드 대체 등의 기계 의존적인 최적화 기법과 선택 스케쥴링, EPS(Enhanced Pipelining Scheduling) 기법 등 VLIW 스케쥴링 기법을 어떻게 구현했는지 설명한다. 이러한 최적화 기법들을 멀티미디어 응용 프로그램에 대하여 적용하여 보았고 약 20%의 성능향상을 보임을 확인하였다.

  • PDF

목적 코드 레벨에서의 벡터화 기법 (A Vectorization Technique at Object Code Level)

  • 이동호;김기창
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1172-1184
    • /
    • 1998
  • 명령어 재배치는 ILP(Instruction Level Parallelism) 프로세서의 병렬성을 활용하는 주요한 코드 최적화 기법이다. 명령어 재배치 알고리즘을 루프(loop)에 적용하면서 서로 다른 반복(iteration) 사이의 동시 수행 가능한 명령어들이 인접한 위치로 모여지는 소프트웨어 파이프라인(software pipeline)된 루프가 얻어진다. 그러나 루프로부터 병렬성을 추출하는 소프트웨어 파이프라인 방법은 주로 명령어사이의 자료 종속성에 근거하여 스케줄링을 수행하므로 그 자체에 무한한 병렬성을 가지고 있는 벡터 루프의 경우 그 병렬성을 충분히 드러내지 못한다는 문제점을 안고 있다. 본 논문에서는 이러한 벡터루프에 대해 프로그램의 목적 코드 레벨에서 행해질 수 있는 새로운 벡터 스케줄링 방법을 제안한다. 벡터 스케줄링 방법은 프로그램의 목적 코드 레벨에서 루프의 구조나 반복 조건, 그리고 자료 종속성 등에 대한 전체적인 정보에 기반하여 스케줄링을 수행함으로써 소프트웨어 파이프라인 방법보다 프로그램의 수행속도를 향상시킬 수 있다. 본 논문에서는 벡터 스케줄링을 수행한 결과를 전통적인 소프트웨어 파이프라인 방법에 대해 생산된 병렬 루프의 결과와 수행속도 측면에서 비교한다.

  • PDF

고속 퓨리어 변환 연산용 VLSI 시스토릭 어레이 아키텍춰 (A VLSI Architecture of Systolic Array for FET Computation)

  • 신경욱;최병윤;이문기
    • 대한전자공학회논문지
    • /
    • 제25권9호
    • /
    • pp.1115-1124
    • /
    • 1988
  • A two-dimensional systolic array for fast Fourier transform, which has a regular and recursive VLSI architecture is presented. The array is constructed with identical processing elements (PE) in mesh type, and due to its modularity, it can be expanded to an arbitrary size. A processing element consists of two data routing units, a butterfly arithmetic unit and a simple control unit. The array computes FFT through three procedures` I/O pipelining, data shuffling and butterfly arithmetic. By utilizing parallelism, pipelining and local communication geometry during data movement, the two-dimensional systolic array eliminates global and irregular commutation problems, which have been a limiting factor in VLSI implementation of FFT processor. The systolic array executes a half butterfly arithmetic based on a distributed arithmetic that can carry out multiplication with only adders. Also, the systolic array provides 100% PE activity, i.e., none of the PEs are idle at any time. A chip for half butterfly arithmetic, which consists of two BLC adders and registers, has been fabricated using a 3-um single metal P-well CMOS technology. With the half butterfly arithmetic execution time of about 500 ns which has been obtained b critical path delay simulation, totla FFT execution time for 1024 points is estimated about 16.6 us at clock frequency of 20MHz. A one-PE chip expnsible to anly size of array is being fabricated using a 2-um, double metal, P-well CMOS process. The chip was layouted using standard cell library and macrocell of BLC adder with the aid of auto-routing software. It consists of around 6000 transistors and 68 I/O pads on 3.4x2.8mm\ulcornerarea. A built-i self-testing circuit, BILBO (Built-In Logic Block Observation), was employed at the expense of 3% hardware overhead.

  • PDF

연구용 CAD툴에 의한 소형 MPU의 설계 및 파이프라인화의 고찰 (Investigation of Small MPU Design and its Pipelining by Research CAD Tools)

  • 이수정;박도순;송낙윤
    • 한국정보처리학회논문지
    • /
    • 제1권4호
    • /
    • pp.517-530
    • /
    • 1994
  • 본 논문에서는 연구용 VHDL 및 CAD 툴을 사용하여 톱다운 설계방식에 의하여 소 형 마이크로프로세서(MPU;microprocessor unit)의 설계를 수행한다. 이를 위하여 기본 MPU와 이의 파이프라인화 구조를 제안한다. 설계목표와 명령어, 아키텍쳐가 결정되면, 이를 우선 C 언어로 모의실험하여 동작을 확인하며, 다음 VHDL 모의실험의 경우, 주어 진 입력에 대하여 내부 레지스터의 내용을 점검하여 동작을 확인한다. 다음에, 이를 연구용 CAD 툴에 의해 완전주문형(full-custom)/반주문형(semi-custom) 설계방식에 의해 레이아웃을 수행하며 관련 모의 실험을 수행한다. 이어 성능개선을 위하여 제안 한 파이프라인 구조를 모의실험을 통하여 타당성을 확인하며 아울러 관련 문제점 및 향후 연구방향에 관해 논한다. 결론적으로, 본 논문을 통하여 MPU의 설계방법을 정립 하였으며, 아울러 성능개선을 위한 아키텍쳐의 설계변화가 가능하였다.

  • PDF

임베디드 데이터베이스 시스템을 위한 블록 단위 스키핑 기법 (Block-wise Skipping for Embedded Database System)

  • 정재혁;박형민;홍석진;심규석
    • 정보처리학회논문지D
    • /
    • 제16D권6호
    • /
    • pp.835-844
    • /
    • 2009
  • 일반적으로 데이터베이스 시스템에서의 질의 수행은 대부분의 경우 빠른 응답시간과 더 적은 메모리 사용량을 장점으로 가지는 파이프라이닝 기법으로 이루어진다. 이 때, 질의 수행 계획(QEP)의 각각의 연산 노드들은 Open(), Next(), Close() 함수들을 지원하는 iterator의 인터페이스를 가진다. 그런데, 플래시 메모리 기반의 휴대용 기기들을 위한 임베디드 데이터베이스 시스템에서는 iterator의 Next() 함수뿐만 아니라, 현재 레코드의 이전 레코드를 리턴해주는 Previous()와 같은 함수를 필요로 하는 경우가 많다. 이는 임베디드 환경의 경우 각각의 프로그램이 사용할 수 있는 메모리의 양이 제한적이므로, 사용자가 이전 레코드를 요청하는 경우, 결과 레코드 커서가 현재 레코드를 기준으로 이전 레코드를 다시 가져와야 하기 때문이다. 본 논문에서는 이러한 임베디드 데이터베이스 시스템의 질의 수행 시 각각의 연산 노드들이 Next() 함수뿐만 아니라 Previous() 함수를 블록 단위로 지원할 수 있도록 새롭게 설계 구현하는 과정에서 발생하는 방향 전환 문제를 소개하고 이를 해결하기 위한 블록 단위 스키핑 기법을 제안한다.

Client/Server구조를 이용한 PDA기반의 문자 추출 시스템 (PDA-based Text Extraction System using Client/Server Architecture)

  • 박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.85-98
    • /
    • 2005
  • 최근, PDA를 이용한 모바일 비젼 시스템에 관한 많은 연구가 진행되고 있다. 대부분의 PDA에서 사용하는 CPU는 실수 연산 구성요소(floating-computation component)가 없는 정수(integer)형 CPU를 사용하므로, 실수 연산이 많은 영상 처리 및 비젼 시스템에서는 많은 시간이 소요되는 단점이 있다 본 논문에서는 이를 해결하기 위해 무선 랜(LAN)으로 연결된 Client(PDA)/server(PC)구조론 이용한 시스템을 제안하며, 연속 영상에서 Client(PDA)와 Server(PC) 각각의 CPU를 이용하여 파이프라이닝 형식으로 시스템을 구축함으로써 수행 시간을 단축한다. Client(PDA)는 에지 밀도(edge density)론 이용하여 대략적인 문자 영역을 추출하며, Server(PC)는 Client(PDA)에서 대략적으로 검출된 견과를 바탕으로 정밀한 문자 영역을 추출하기 위해, MLP(multi-layer perceptron) 기반의 텍스춰 분류 방법과 연결 성분(connected component: CC) 기반의 필터링 방법을 이용한다. 본 실험에서 제안한 방법은 MLP와 CC를 이용함으로써 효과적인 문자 추출 결과를 보였으며, 파이프라이닝 형식의 Client(PDA)/server(PC)구조를 이용함으로써 빠른 수행 시간을 보였다.

Full-pipelined CTR-AES를 이용한 Giga-bit 보안모듈 설계 (A Design of Giga-bit security module Using Fully pipelined CTR-AES)

  • ;박주현;김영철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.225-228
    • /
    • 2008
  • In this paper, we presented our implementation of a counter mode AES based on Virtex4 FPGA. Our design exploits three advanced features: composite field arithmetic SubByte, efficient MixColumn transformation, and On-the-Fly Key-Scheduling for fully pipelined architecture. By pipelining the composite field implementation of the S-box, the area cost is reduced to average 17 percent. By designing the On-the-Fly key scheduling, we implemented an efficient key-expander module which is specialized for a pipelined architecture.

  • PDF

IA-64를 위한 향상된 소프트웨어 파이프라인 명령어 스케줄링 (Enhanced Pipeline Scheduling for IA-64)

  • 이재목;문수묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.826-828
    • /
    • 2005
  • 인텔의 IA-64 프로세서는 명령어 수준의 병렬수행을 지원하는 EPIC (Explicitly Parallel Instruction Computing) 구조를 채택하고 있으며 컴파일러가 순차적 코드에서 병렬 수행이 가능한 독립적인 명령어들을 스케줄링 하도록 되어있다. 본 논문에서는 IA-64 스케줄링을 위해 향상된 파이프라인 스케줄링 (Enhanced Pipeline Scheduling, EPS) 기법[1]을 적용한 결과를 소개한다. EPS는 루프수준의 병렬화를 위한 소프트웨어 파이프라이닝 (software pipelining)기법으로 전역 스케줄링 (global Scheduling) 기법을 기반으로 하고 있다. 우리는 IA-64 프로세서를 위한 공개소스 컴파일러인 ORC (Open Research Compiler)에 EPS를 구현하고 실제 프로세서인 Itanium에서 실험을 수행하였다. 상용 프로세서와 컴파일러에 구현과 튜닝을 하는 과정에서 얻은 경험을 소개하고 기존의 ORC 컴파일러와 비교하여 얻은 성능 향상을 보고하고 분석한다.

  • PDF

Comparative Performance Analysis of High Speed Low Power Area Efficient FIR Adaptive Filter

  • Jaiswal, Manish
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권5호
    • /
    • pp.267-270
    • /
    • 2014
  • This paper presents the comparative performance of an adaptive FIR filter for a Delayed LMS algorithm. The delayed error signal was used to obtain a Delayed LMS algorithm to allow efficient pipelining for achieving a small critical path and area efficient implementation. This paper presents hardware efficient results (device utilization parameters) and power consumed. The FPGA families (Artix-7, Virtex-7, and Kintex-7) for a low voltage perspective are shown. The synthesis results showed that the artix-7 CMOS family achieves the lowest power consumption of 1.118 mW with 83.18 % device utilization. Different Precision strategies, such as the speed optimization and power optimization, were imposed to achieve these results. The algorithm was implemented using MATLAB (2013b) and synthesized on the Leonardo spectrum.