• 제목/요약/키워드: pipelined memory

검색결과 79건 처리시간 0.028초

Bounding Worst-Case DRAM Performance on Multicore Processors

  • Ding, Yiqiang;Wu, Lan;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제7권1호
    • /
    • pp.53-66
    • /
    • 2013
  • Bounding the worst-case DRAM performance for a real-time application is a challenging problem that is critical for computing worst-case execution time (WCET), especially for multicore processors, where the DRAM memory is usually shared by all of the cores. Typically, DRAM commands from consecutive DRAM accesses can be pipelined on DRAM devices according to the spatial locality of the data fetched by them. By considering the effect of DRAM command pipelining, we propose a basic approach to bounding the worst-case DRAM performance. An enhanced approach is proposed to reduce the overestimation from the invalid DRAM access sequences by checking the timing order of the co-running applications on a dual-core processor. Compared with the conservative approach, which assumes that no DRAM command pipelining exists, our experimental results show that the basic approach can bound the WCET more tightly, by 15.73% on average. The experimental results also indicate that the enhanced approach can further improve the tightness of WCET by 4.23% on average as compared to the basic approach.

블록암호화 알고리듬 KASUMI의 하드웨어 설계 및 응용 (Hardware Design and Application of Block-cipher Algorithm KASUMI)

  • 최현준;서영호;문성식;김동욱
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.63-70
    • /
    • 2011
  • 본 논문에서는 KASUMI 암호화 알고리즘을 하드웨어로 구현하였다. 이는 ASIC이나 코어-기반 설계와 같은 여러 응용분야에 적합하도록 범용적으로 구현하였다. 또한 기밀성 알고리즘과 무결성 알고리즘을 모두 수행할 수 있도록 설계하였으며, 파이프라인 구조를 사용하여 높은 동작 주파수에서도 구동될 수 있도록 하였다. 본 논문에서 설계한 하드웨어를 Altera사의 EPXA10F1020C1을 타겟으로 구현한 결과 최대 동작 주파수 36.35MHz에서 안정적으로 동작함을 확인하였다. 따라서 구현된 하드웨어는 현재 중요한 문제로 대두되고 있는 종단간(end-to-end) 보안에 대한 좋은 해결책으로 유용하게 사용될 수 있을 것으로 생각된다.

다중 블록길이를 지원하는 IEEE 802.11n LDPC 복호기 구조 (An Architecture for IEEE 802.11n LDPC Decoder Supporting Multi Block Lengths)

  • 나영헌;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.798-801
    • /
    • 2010
  • 본 논문에서는 IEEE 802.11n 표준에 제시된 3가지 블록길이(648, 1,296, 1,944)를 지원하는 효율적인 LDPC (Low-Density Parity Check) 복호기 구조를 제안한다. LDPC 복호기의 핵심 블록인 DFU(Decoding Function Unit)의 연산 복잡도와 하드웨어 복잡도를 효율적으로 감소시킬 수 있도록 최소합 알고리듬과 블록직렬 방식의 layered 구조를 적용하였다. 또한 효율적인 다중 블록길이의 구현을 위해 PCM 값을 저장하는 H-ROM의 최적화 방법을 제안하였으며, 이를 통해 ROM의 크기를 약 42% 감소시켰다. 또한, 레이어 간의 효율적인 메모리 읽기/쓰기 방법을 적용하여 복호기 동작을 최적화시켰다.

  • PDF

순서적 역방향 상태천이 제어에 의한 역추적 비터비 디코더 (Trace-Back Viterbi Decoder with Sequential State Transition Control)

  • 정차근
    • 대한전자공학회논문지TC
    • /
    • 제40권11호
    • /
    • pp.51-62
    • /
    • 2003
  • 본 논문에서는 역추적 비터비 디코더의 순서적 역방향 상태천이 제어에 의한 새로운 생존 메모리 제어와 복호기법을 제안한다. 비터비 알고리즘은 채널오류의 검출과 정정을 위한 부호기의 상태를 추정해서 복호하는 최우추정 복호기법이다. 이 알고리즘은 심볼간 간섭의 제거나 채널등화 등 디지털 통신의 광범위한 분야에 응용되고 있다. 반복연산의 과정을 내포하고 있는 비터비 디코더에서 처리속도의 향상과 함께 VLSI 칩 설계시 점유면적의 삭감을 통한 칩 사이즈의 축소 및 소비전력의 저감 등을 달성하기 위해서는 새로운 구조의 ACS 및 생존 메모리 제어에 관한 연구가 요구되고 있다. 이를 해결하기 위한 하나의 방안으로, 본 논문에서는 역추적 기법에 의한 복호과정에서 역방향 상태천이의 연속적인 제어에 의한 자동 복호 알고리즘을 제안한다. 제안방식은 기존의 방법에 비해 전체 메모리 사용량이 적을 뿐만 아니라 구조가 간단하다. 또한, 메모리 억세스 제어를 위한 주변 회로구성이 필요 없고, 메모리 억세스를 위한 대역폭을 줄일 수 있어 칩 설계시 area-efficiency가 높고 소비전력이 적어지는 특성이 있다 시스톨릭 어레이 구조 형태를 갖는 병렬처리 구성과, 채널잡음을 포함한 수신 데이터로부터의 복호와 구체적인 응용 시스템에 적용한 결과를 제시한다.

16개의 처리기를 가진 다중접근기억장치를 위한 영상처리 알고리즘의 구현에 대한 성능평가 (Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements)

  • 이유진;김재희;박종원
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.8-14
    • /
    • 2012
  • 최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.

H.264/AVC를 위한 디블록킹 필터의 최적화된 하드웨어 설계 (Optimized Hardware Design of Deblocking Filter for H.264/AVC)

  • 정윤진;류광기
    • 대한전자공학회논문지SD
    • /
    • 제47권1호
    • /
    • pp.20-27
    • /
    • 2010
  • 본 논문에서는 고성능 H.264/AVC 복호기 설계를 위해 디블록킹 필터의 수행시간 단축과 저전력 설계를 위한 필터링 순서 및 효율적인 메모리 구조를 제안하고 5단 파이프라인으로 구성된 필터의 설계에 대해 기술한다. 디블록킹 필터는 블록 경계에서 발생하는 왜곡을 제거하여 영상의 화질을 개선시키지만 하나의 경계에 여러 번 필터링을 수행하여 많은 메모리 접근과 반복되는 연산과정이 수반된다. 따라서 본 논문에서는 메모리 접근과 필터 수행 사이클을 최소화하는 새로운 필터 순서를 제안 하고 반복되는 연산의 효율적 관리를 위해 파이프라인 구조를 적용하였다. 제안하는 디블록킹 필터는 메모리 읽기, 임계값 계산, 전처리 연산, 필터 연산, 메모리 쓰기로 구성된 5단 파이프라인으로 구현되어 순차적인 필터 연산에 병렬적 처리가 가능하며 각 단계에 클록 게이팅을 적용하여 하드웨어 자원에 불필요한 전력을 감소시켰다. 또한, 적은 내부 트랜스포지션 버퍼를 사용하면서 필터링 순서를 효율적으로 개선하여 필터 수행을 위한 메모리 접근과 수행 사이클을 감소시켰다. 제안하는 디블록킹 필터의 하드웨어는 Verilog HDL로 설계 하였으며 기존의 복호기에 통합하여 Modelsim 6.2g 시뮬레이터를 이용해 검증하였다. 입력으로는 표준 참조 소프트웨어 JM9.4 부호기를 통해 압축한 다양한 QCIF영상 샘플을 사용하였다. 기존 필터들과 수행 사이클을 비교한 결과, 제안하는 구조의 설계가 비교적 적은 트랜스포지션 버퍼를 사용했으며 최소 20%의 수행 사이클이 감소함을 확인하였다.

실사기반 디지털 홀로그래픽 비디오의 실시간 생성을 위한 하드웨어의 설계 (A New Hardware Design for Generating Digital Holographic Video based on Natural Scene)

  • 이윤혁;서영호;김동욱
    • 전자공학회논문지
    • /
    • 제49권11호
    • /
    • pp.86-94
    • /
    • 2012
  • 본 논문에서는 고속으로 홀로그램을 생성할 수 있는 하드웨어의 구조를 제안하고 이를 구현하였다. 제안한 하드웨어는 홀로그램 평면의 행 단위로 병렬 연산을 수행할 수 있는 구조를 가지고 있고, 한 행의 각 홀로그램 화소들이 독립적으로 연산될 수 있는 알고리즘을 이용하였다. 이러한 연산 방법을 통해서 홀로그램 생성 하드웨어서 가장 문제가 되는 메모리 접근량을 대폭 감소시킴으로써 하드웨어 처리능력의 실시간성을 대폭 향상시켰다. 제안한 하드웨어는 입력 인터페이스, 초기 파라미터 연산기, 홀로그램 화소 연산기, 라인 버퍼, 그리고 메모리 제어기로 구성된다. 제안한 하드웨어는 기존의 하드웨어와 동일한 처리 능력을 가지면서도 메모리 접근횟수는 약 20,000배 감소시킬 수 있었다. 구현한 하드웨어는 198MHz에서 안정적으로 동작할 수 있었고, 168,960개의 LUT, 153,944개의 레지스터, 그리고 19,212개의 DSP 블록을 사용하였다.

H.264/AVC 를 위한 높은 처리량의 2-D $8{\times}8$ integer transforms 병렬 구조 설계 (High Throughput Parallel Design of 2-D $8{\times}8$ Integer Transforms for H.264/AVC)

  • 미투라니 사르마;하니 티와리;조용범
    • 대한전자공학회논문지SD
    • /
    • 제49권8호
    • /
    • pp.27-34
    • /
    • 2012
  • 본 논문에서 H.264표준을 위해 2차원 $8{\times}8$ 순방향/역방향 정수 DCT 변환을 빠르고 효율적으로 계산할 수 있는 알고리즘을 제안한다. 순방향/역방향 변환은 간단한 시프트와 덧셈 동작을 사용하여 계산 복잡도를 줄였으며, DCT 연산에 메모리를 사용하지 않으므로 해서 불필요한 자원소모를 줄였다. 제안된 파이프라인 아키텍처의 최대 동작 주파수는 1.184GHz이며, 합성결과는 44864 게이트가 사용되어 25.27Gpixels/sec의 스루풋을 보여준다. 면적 비율에 비해 높은 스루풋으로 인해, 제안된 설계는 H.264/AVC 고해상도 비디오기술의 실시간 처리에 효율적으로 사용할 수 있다.

싱글 페이즈 클락드 래치를 이용한 SoC 리타이밍 (Retiming for SoC Using Single-Phase Clocked Latches)

  • 김문수;임종석
    • 대한전자공학회논문지SD
    • /
    • 제43권9호
    • /
    • pp.1-9
    • /
    • 2006
  • System-On-Chip(SoC) 설계에서 글로벌 와이어는 성능에 큰 영향을 끼친다. 이 때문에 플림플롭이나 래치를 사용한 와이어 파이프라이닝이 필요하게 되었다. 래치는 플립플롭에 비해 타이밍 제약이 유연하므로 래치 파이프라이닝이 플립플롭에 비해 클락 주기를 더 작게 할 수 있다. 리타이밍은 회로의 메모리 요소를 이동시켜 최적화된 클락 주기를 얻는 방법이다. SoC 리타이밍은 기존의 게이트 레벨 리타이밍과 달리 SoC 회로를 대상으로 한다. 본 논문에서는 기존의 플립플롭을 사용한 SoC 리타이밍 방법을 래치를 사용한 경우에도 적용할 수 있게 확장 시켰다. 본 논문에서는 래치를 사용한 SoC 리타이밍 문제를 해결하기 위해 MILP로 식을 세우고, 이를 고정점 계산을 통해 효과적으로 해결 하였다. 실험 결과 본 논문의 방법을 적용할 경우 플립플롭 SoC 리타이밍에 비해 평균적으로 클락 주기를 10% 감소시킬 수 있었다.

12Mbps, r=1/2, k=7 비터비 디코더의 이론적 성능분석 및 실시간 성능검증을 위한 FPGA구현 ((Theoretical Performance analysis of 12Mbps, r=1/2, k=7 Viterbi deocder and its implementation using FPGA for the real time performance evaluation))

  • 전광호;최창호;정해원;임명섭
    • 전자공학회논문지SC
    • /
    • 제39권1호
    • /
    • pp.66-75
    • /
    • 2002
  • IEEE 802.11a에 의해 규정되어진 데이터 전송속도 12Mbps, 부호화 율 1/2, 구속장이 7인 무선 LAN용 비터비 디코더의 이론적인 성능분석을 위해서 Cramer법칙을 이용하여 전달함수를 구하고 가산성 백색 가우시안 잡음 환경하에서 각 구속장 별 첫 번째 사건에서의 에러 확률과 비트 에러 확률을 구하였다. 설계과정에서는 4 비트 연성판정을 위해 입력 심볼을 16단계로 양자화 하였으며, 역 추적을 위한 방식으로 메모리를 사용하는 대신 레지스터 교환방식을 사용함으로써 다수결 결정이 가능한 구조를 제시하였다. 구현과정에서는 12Mbps 고속의 데이터를 처리하기 위해 파이프 라인을 적용한 병렬구조를 갖는 비터비 디코더와 가산성 백색 가우시안 잡음 설계를 FPGA 칩을 사용하여 구현하여 실시간 환경에서 성능검증을 하였다.