• 제목/요약/키워드: 파이프라인 구조

검색결과 473건 처리시간 0.036초

FPGA 를 이용한 신경망의 파이프라인 설계 (Pipelined Design of a Neural Network Using FPGA)

  • 경동욱;정기철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.481-484
    • /
    • 2005
  • 본 논문에서는 부동소수점 연산을 사용하면서도 빠른 처리속도를 가지는 신경망의 파이프라인 설계를 제안한다. 부동소수점 연산은 고정소수점 연산보다 느린 처리속도와 많은 면적으로 일반적인 하드웨어 구현에서 잘 사용되지 않지만, 제안된 구조에서는 고정소수점 연산보다 더 정확한 값을 계산할 수 있는 부동소수점 연산을 사용하며 부동소수점의 느린 처리 속도를 보완할 수 있도록 파이프라인 구조를 사용한다. 파이프라인 구조의 성능을 검증하기 위해 2 가지의 서로 다른 구조의 신경망을 사용한다. 실험 환경으로는 Xilinx XC2V8000 칩과 Xilinx ISE 6.2 의 합성 도구를 사용한다. 실험 결과는 파이프라인 구조일 때의 신경망은 각각 7 클럭, 8 클럭이 소요되고, 파이프라인 구조가 아닐 때 각각의 신경망은 77 클럭, 84 클럭으로써 파이프라인 구조일 때 약 10 배의 빠른 처리를 가진다.

  • PDF

PICAM에서의 최적 파이프라인 구조 (The Optimal pipelining architecture for PICAM)

  • 안희일;조태원
    • 한국통신학회논문지
    • /
    • 제26권6A호
    • /
    • pp.1107-1116
    • /
    • 2001
  • 고속 IP 주소 룩업(lookup)은 고속 인터넷 라우터의 성능을 좌우하는 주요 요소이다. LPM(longest prefix matching) 탐색은 IP 주소 룩업에서 가장 시간이 많이 걸리는 부분이다. PICAM은 고속 LPM 탐색을 위한 파이프라인 CAM 구조로서, 기존 CAM(content addressable memory, 내용 주수화 메모리)을 이용한 방법보다 룩업 테이블의 갱신속도가 빠르면서도 LPM 탐색율이 높은 CAM 구조이다. PICAM은 3단계의 파이프라인으로 구성된다. 단계 1 및 단계 2의 키필드분할수 및 매칭점의 분포에 따라 파이프라인의 성능이 좌우되며, LPM 탐색율이 달라질 수 있다. 본 논문에서는 PICAM의 파이프라인 성능모델을 제시하고, 이산사건 시뮬레이션(discrete event simulation)을 수행하여, 최적의 PICAM 구조를 도출하였다. IP version 4인 경우 키필드분할수를 8로 하고, 부하가 많이 걸리는 키필드블록을 중복 설치하는 것이 최적구조이며, IP version 6인 경우 키필드블록의 개수를 16으로 하는 것이 최적구조다.

  • PDF

파이프라인 구조 연산회로를 위한 AMBA AXI Slave 설계 (Design of AMBA AX I Slave Unit for Pipelined Arithmetic Unit)

  • 최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.712-713
    • /
    • 2011
  • 본 논문에서는 파이프라인 구조의 연산회로를 효율적으로 검증하기 위한 AMBA AXI Slave 하드웨어 구조를 제안하고, 설계 예로 파이프라인 곱셈기를 내장한 구조를 제시하였다. 제안한 AXI Slave 회로는 입출력 버퍼 블록 메모리, 제어용 레지스터, 파이프라인 구조 연산 회로, 파이프라인 제어회로, AXI 버스 슬레이브 인터페이스로 구성된다. 주요 동작 과정은 입력 버퍼 메모리와 외부 마스터 사이의 버스트 데이터 전송, 제어 레지스터에 동작 모드 설정, 입력 버퍼 메모리에 담긴 데이터에 대한 반복적인 파이프라인 연산회로 동작, 출력 버퍼 메모리에 담긴 출력 데이터와 외부 마스터 사이의 버스트 데이터 전송으로 나누어진다. 제안한 AXI slave 구조는 범용 인터페이스 구조를 갖고 있으므로 파이프라인 구조 구조의 연산회로를 내장한 AMBA AHB와 AXI slave에 응용이 가능하다.

  • PDF

최대 임계 지연 크기에 따른 SHA-1 파이프라인 구성 (SHA-1 Pipeline Configuration According to the Maximum Critical Path Delay)

  • 이제훈;최규만
    • 융합보안논문지
    • /
    • 제16권7호
    • /
    • pp.113-120
    • /
    • 2016
  • 본 논문은 SHA-1 암호 알고리즘의 최대 임계 지연과 유사한 연산 지연을 갖는 새로운 고속 SHA-1 파이프라인 구조를 제안한다. 기존 SHA-1 파이프라인 구조들은 하나의 단계연산 혹은 언폴딩된 단계연산에 기반한 파이프라인 구조를 갖는다. 파이프라인 실행에 따른 병렬 처리로 성능은 크게 향상되나, 라운드의 모든 단계연산을 언폴딩하였을 때와 비교하여 최대 임계 지연의 크기가 증가한다. 제안한 파이프라인 스테이지 회로는 라운드의 최대 임계 지연을 반복 연산 수로 나눈 만큼의 지연 시간을 갖도록 구성함으로써, 불필요한 레이턴시 증가를 방지하였다. 실험 결과, 회로크기에 따른 동작속도 비율에서 제안된 SHA-1 파이프라인 구조는 0.99 및 1.62로 기존 구조에 비해 우월함을 증명하였다. 제안된 파이프라인 구조는 반복 연산을 갖는 다양한 암호 및 신호 처리 회로에 적용 가능할 것으로 기대된다.

Global Positioning System 응용을 위한 파이프라인 형 CORDIC회로 설계

  • 이은균;유영갑
    • 전자공학회지
    • /
    • 제23권11호
    • /
    • pp.89-100
    • /
    • 1996
  • 이 논문에서는 GPS의 고속 측지 알고리즘에 활용될 고속 삼각함수 계산회로를 제안하였으며, 그 시제작을 위하여 FPGA를 활용한 예를 제시하였다. 기존의 삼각함수 계산에 사용되는 CORDIC알고리즘을 파이프라인 구조로 구현하여 다량의 계산을 전체적으로 신속하게 수행할 수 있는 구조를 설계하였다. 이 파이프라인 구조는 계산결과의 정밀도의 요구에 따라 칩의 회로의 규모를 가변시킬 수 있도록 단계 슬라이스형 구조를 도입하였다. 제어회로와 연산회로를 모두 파이프라인 구조를 모두 단계 슬라이스 형으로 설계하였으며, 파이프라인 슬라이스의 개수에 따라 정밀도가 달라지게 하였다. 또한 FPGA칩을 여러개 사용하여 전체 파이프라인이 구성되는 관계로 칩간 통신에는 더미사이클을 도입하여 칩의 입출력에 필요한 시간을 확보하는 기법을 구사하였다.

  • PDF

명령어 캐시미스중에서도 파이프라인의 고착을 피할 수 있는 VLIW 구조의 성능향상 (Performance Improvement of a VLIW ARchitecture without Pipeline-Stall during Instruction Cache Miss)

  • 지승현;박노광;김석일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권3호
    • /
    • pp.301-312
    • /
    • 1999
  • 본 논문에서는 명령어 수준의 병렬성을 다루는 세 가지 프로세서 모델을 정의하고 각 모델별로 명령어 파이프라인을 운용하는 방법에 다른 실행사이클의 변화를 연구하였다. 본 논문에서 고려한 세가지 모델은1) 긴 명령어 인출시 캐시미스가 발생하면 명령어 파이프라인이 정지되는 전통적인 VLIW 구조, 2) 전통적인 VLIW 구조와 같이 긴 명령어 인출시 캐시미스가 발생하면 명령어 파이프라인이 정지되나 실시간에 긴 명령어를 실행 유니트로 스케줄링할 수있으므로 목적 코드에서 LNOP를 제거할 수 있는 구조 및 3)2)의 구조에서 긴 명령어를 인출하는 과정에서 캐시미스가 발생하더라도 LNOP을 분석 유니트로 제공하여 명령어 파이프라인을 계속 진행시키는 구조의 세 가지이다. 연구결과, 세 번째 구조에서 발생되는 LNOP 의 수는 첫 번째 구조와 두 번째 구조에 비하여 적어서 동일한 응용 프로그램을 처리하는데 필요한 실행사이클의 수가 가장 짧았다. 여러 가지 벤치 마크들에 대한 모의 실험에서도 세 번째 구조가 다른 구조의 프로세서에 비하여 실행사이클의 수가 가장 짧음을 확인할 수 있었다.

고속 네트워크 스위치에서의 QoS보장을 위한 아웃풋 큐 구조 (Advanced Pipelined Heap Architecture for Output Queueing Switches)

  • 김성원;김종권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.254-256
    • /
    • 2000
  • 본 논문에서는 여러 단계의 QoS(Quality of Service)를 지원하면서 빠르고 확장이 용이하며 각종 패킷 폐기(packet drop) 방식을 지원하는 평형 파이프라인 우선순위 아웃풋 큐 구조(balanced pipelined priority output queue architecture)를 제시하고 있다. 본 방안은 기존에 연구된 파이프라인 우선순위 힙(pipelined heap, P-heap)[1]을 기반으로 하고 있다. 파이프라인 우선순휘 힙은 우선순위에 따라 패킷을 전송하는 작업을 파이프라인 방식으로 처리하여 처리 성능을 향상시킨 아웃풋 큐 구조이다. 그러나 P-heap은 평형성(balance) 문제를 전혀 고려하고 있지 않으며, 다양한 패킷 폐기 방안을 제공하고 있지 못하다. 본 논문에서는 이런 측면에서 P-heap을 개선한 Advanced P-heap을 제안하고 있다. Advanced P-heap은 평균적인 상황에서 힙에 평형성을 부여하고, 각종 패킷 폐기 정책을 지원할 수 있는 일반적인 우선순위별 차별 패킷 구조를 제시하고 있다.

  • PDF

타일 기반 그래픽 파이프라인 구조를 사용한 SIMT 구조 GP-GPU 설계 (Design of a SIMT architecture GP-GPU Using Tile based on Graphic Pipeline Structure)

  • 김도현;김치용
    • 전기전자학회논문지
    • /
    • 제20권1호
    • /
    • pp.75-81
    • /
    • 2016
  • 본 논문은 SIMT(Single Instruction Multi Thread)구조 GP-GPU(General Purpose Graphic Processing Unit)에서 그래픽 어플리케이션 성능을 향상시키기 위해 타일 기반 그래픽 파이프라인 구조를 제안한다. 타일 기반 그래픽 파이프라인 구조는 병렬적으로 Rasterization 단계를 처리하고, 불필요한 그래픽 처리 연산은 수행하지 않는다. SIMT구조를 통해 대용량 데이터를 병렬로 처리하여 연산 성능을 향상시켰고, 이는 3D 그래픽 파이프라인 처리의 성능을 향상하였다. 제안하는 구조를 통해 3D 그래픽 어플리케이션을 처리할 때 3D 모델을 구성하는 정점 데이터가 많아 질수록 높은 효율을 보인다. 제안하는 구조는 'RAMP'와 기존의 선행 연구를 비교하여 약 1.18배에서 최대 3배까지의 처리 성능 향상을 확인하였다.

Modified Booth 곱셈기를 위한 고성능 파이프라인 구조 (High-performance Pipeline Architecture for Modified Booth Multipliers)

  • 김수진;조경순
    • 대한전자공학회논문지SD
    • /
    • 제46권12호
    • /
    • pp.36-42
    • /
    • 2009
  • 본 논문은 modified Booth 곱셈기를 위한 고성능 파이프라인 구조를 제안하고 있다. 제안하는 곱셈기 회로는 곱셈 속도를 향상시키기 위해 가장 널리 사용되는 기술인 modified Booth 알고리즘과 파이프라인 구조에 기반을 두고 있다. 최적의 파이프라인 곱셈기를 구현하기 위해 많은 실험이 수행되었다. 파이프라인의 단 수가 증가할수록 회로 속도 향상율이 회로 크기 증가율보다 더 크며, 파이프라인 레지스터를 적절한 위치에 삽입하는 것이 중요하다는 사실이 실험 결과를 통해 확인되었다. 제안하는 modified Booth 곱셈기 회로를 Verilog HDL로 설계하였으며 0.13um 표준 셀 라이브러리를 이용하여 게이트 수준 회로로 합성하였다. 합성된 회로는 다른 곱셈기들에 비해 좋은 성능을 나타내었으며, GHz 범위에서 동작할 수 있으므로 광통신 시스템과 같은 극히 높은 성능을 필요로 하는 응용 시스템에서 사용될 수 있다.

고성능 3차원 그래픽 가속기를 위한 타일 트래버설 방식의 파이프라인된 스캔 컨버젼 유닛 설계 (Design of the Pipelined Scan Conversion Unit based on Tile Traversal Method for High Performance 3D Graphics Accelerator)

  • 전원호;최문희;박우찬;한탁돈;김신덕
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (3)
    • /
    • pp.16-18
    • /
    • 2001
  • 3차원 영상을 처리하는데 있어 래스터라이제이션은 프레임 버퍼에 저장될 픽셀을 구하는 과정이다. 여러 개의 픽셀로 구성되는 폴리곤을 렌더링하기 위해서 스캔라인 방식 또는 반 평면 함수를 이용한 타일 트래버설 방식 등이 사용되고 있다. 본 논문에서 기반으로 하고 있는 타일 트래버설 방식은 스캔라인 방식에 비해 메모리 효율 및 텍스쳐 캐쉬의 지역성에서 이점을 가지고 있으나 복잡한 탐색 과정 때문에 파이프라인 구조로 구현하기는 어렵다. 본 논문에서 제안하는 구조는 분기 예측 기법을 적용하여 트래버설 과정에서의 분기로 인해 발생되는 파이프라인 지연을 기존의 트래버설 구조에 비해 약 30% 정도 줄임으로써 고성능 3차원 그래픽 가속기에 적합한 스캔 컨버젼 유닛을 제안하였다

  • PDF