• 제목/요약/키워드: 파이프라인 구조

검색결과 474건 처리시간 0.032초

OFDM 통신시스템을 위한 radix-22 MDF IFFT의 메모리 감소 기법 (Memory Reduction Method of Radix-22 MDF IFFT for OFDM Communication Systems)

  • 조경주
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권1호
    • /
    • pp.42-47
    • /
    • 2020
  • OFDM 기반 초고속 통신시스템을 위한 IFFT/FFT 프로세서는 저면적 저전력이면서 데이터 처리량이 높고 프로세싱 지연이 적어야 한다. 따라서, 파이프라인과 병렬처리를 적용한 radix-2k 알고리즘 기반 MDF(multipath delay feedback) 구조가 적합하다. 기존의 MDF 구조에서 입력신호의 워드길이에 비례하여 커지는 피드백 메모리는 면적과 전력소모가 크다. 본 논문에서는 OFDM 응용을 위한 radix-22 MDF IFFT 프로세서의 피드백 메모리 크기 감소 방법을 제안한다. MDF 구조에서 첫 두 스테이지의 피드백 메모리의 크기는 전체 피드백 메모리의 75%를 차지하므로 첫 두 스테이지의 피드백 메모리 크기 감소에 초점을 맞춘다. OFDM 전송에서 IFFT 입력신호는 변조데이터와 파일럿과 널 신호로 구성된다는 특징을 이용하여 변조데이터와 파일럿/널 신호를 각각 부호있는 정수로 매핑하여 입력신호의 워드길이를 감소시키는 방법을 제안한다. 시뮬레이션을 통해 제안한 방법이 기존 방법보다 피드백 메모리의 크기를 약 39%까지 감소시킬 수 있음을 보인다.

질량스프링 시뮬레이션을 위한 병렬 구조 설계 방법 (Parallel Structure Design Method for Mass Spring Simulation)

  • 성낙준;최유주;홍민
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제25권3호
    • /
    • pp.55-63
    • /
    • 2019
  • 최근 물리 시뮬레이션 분야의 성능 개선을 위해 GPU 컴퓨팅 방식이 활용되고 있다. 특히 많은 연산의 양을 요구하는 변형물체 시뮬레이션의 경우 실시간성 보장을 위해 GPU 기반 병렬처리 알고리즘을 필요로 한다. 본 연구진은 변형물체 시뮬레이션을 구현하는 방법 중 하나인 질량스프링 시뮬레이션 기법의 성능을 향상시키기 위한 병렬 구조 설계 방법에 대한 연구를 수행하였다. 이를 위해 GPU에 직접 접근이 가능한 그래픽 라이브러리인 OpenGL의 GLSL을 사용하였으며, 독립적인 파이프라인인 컴퓨트 쉐이더를 활용해 GPGPU 환경을 구현하였다. 병렬 구조 설계 방법의 효과를 검증하기 위해 스프링 기반 질량스프링 시스템을 CPU기반과 GPU기반으로 구현하였으며, 실험의 결과 본 설계 방법을 적용하였을 때 CPU 환경에 비해 연산 속도가 약 6,000% 개선됨을 보였다. 추후 본 연구에서 제안한 설계 방법을 활용한다면 경량화 시뮬레이션 기술이 필요한 증강현실 및 가상현실 분야에 효과적으로 적용이 가능할 것으로 기대한다.

효율적인 메모리 관리 구조를 갖는 H.264용 고성능 디블록킹 필터 설계 (Design of a Pipelined Deblocking Filter with efficient memory management for high performance H.264 decoders)

  • 유용훈;이찬호
    • 대한전자공학회논문지SD
    • /
    • 제45권1호
    • /
    • pp.64-70
    • /
    • 2008
  • 고성능 영상 압축 알고리즘으로서 널리 사용되고 있는 H.264 디코더의 디블록킹(Deblocking) 필터는 복호된 영상의 블록화 현상을 제거함으로써 영상의 질을 높이는 역할을 하는데 연산량이 많은 유닛중 하나이다. 본 논문에서는 효율적인 디블록킹 필터 설계를 위해 파이프라인 구조 및 1-D 필터를 사용하고 효율적인 메모리 관리를 통해 하드웨어 면적과 연산 사이클 수를 줄이고 H.264 디코더의 성능을 향상시킬 수 있는 하드웨어 구조를 제안한다. 제안된 구조에서는 픽셀의 재배치를 통해 동일한 1-D 필터를 이용하여 수직방향의 필터연산과 수평방향의 필터연산을 모두 지원한다. 또한 4 개의 메모리 블록 구조를 이용하여 현재 매크로블록의 픽셀과 인접한 다른 매크로블록의 픽셀의 접근 및 저장을 효율적으로 할 뿐만 아니라 필터 연산중에 움직임 보상기의 출력 픽셀을 저장하여 디블록킹 필터와 움직임 보상기 사이의 병목현상을 제거하였다. 이를 통해 디블록킹 필터에 관련된 메모리의 크기를 최소화하고 H.264 디코더의 성능을 향상시키는 이점을 얻을 수 있다. 제안된 디블록킹 필터는 Verilog-HDL을 이용하여 설계하고 FPGA를 통해 검증하였다. 합성 결과 77 MHz에서 HD 영상 디코딩이 가능함을 확인하였다.

H.264/AVC 를 위한 높은 처리량의 2-D $8{\times}8$ integer transforms 병렬 구조 설계 (High Throughput Parallel Design of 2-D $8{\times}8$ Integer Transforms for H.264/AVC)

  • 미투라니 사르마;하니 티와리;조용범
    • 대한전자공학회논문지SD
    • /
    • 제49권8호
    • /
    • pp.27-34
    • /
    • 2012
  • 본 논문에서 H.264표준을 위해 2차원 $8{\times}8$ 순방향/역방향 정수 DCT 변환을 빠르고 효율적으로 계산할 수 있는 알고리즘을 제안한다. 순방향/역방향 변환은 간단한 시프트와 덧셈 동작을 사용하여 계산 복잡도를 줄였으며, DCT 연산에 메모리를 사용하지 않으므로 해서 불필요한 자원소모를 줄였다. 제안된 파이프라인 아키텍처의 최대 동작 주파수는 1.184GHz이며, 합성결과는 44864 게이트가 사용되어 25.27Gpixels/sec의 스루풋을 보여준다. 면적 비율에 비해 높은 스루풋으로 인해, 제안된 설계는 H.264/AVC 고해상도 비디오기술의 실시간 처리에 효율적으로 사용할 수 있다.

Multirate를 위한 이동국 Rake Finger의 성능 개선에 관한 연구 (A Study on Performance Improvement of Mobile Rake Finger for Multirate)

  • 김종엽;이선근;박형근;김환용
    • 대한전자공학회논문지SD
    • /
    • 제38권12호
    • /
    • pp.66-74
    • /
    • 2001
  • IMT-2000의 무선접속 기술 요소 중 multirate을 위한 Multi-Code(MC) CDMA 시스템의 이동국 Rake 수신기는 다수의 채널로 전송된 신호들을 동시에 복조해야 하므로 Rake Finger에서 트래픽 채널을 복조하는 데이터 상관기의 수가 왈쉬 코드 채널의 수만큼 증가하게 되어 신호처리의 복잡도가 증가되는 단점을 갖게 된다. 본 논문에서는 데이터 상관기들의 증가로 인한 데이터 처리시간 지연을 감소시키기 위해 Walsh Switch, 공유 accumulator, 그리고 파이프라인 FWHT(Fast Walsh Hadamard Transform) 알고리즘을 적용한 새로운 Rake Finger 구조를 제안했다. 컴퓨터 시뮬레이션 결과 왈쉬 코드 채널의 수 에 대한 데이터 상관기의 연산 동작 수는 512 additions에서 160 additions로 약 3.2배 감소하였고, Rake Finger의 데이터 처리시간은 110,696[ns]에서 90,496[ns]로 18.3% 감소하였음을 확인하였다.

  • PDF

SHA-3과 SHAKE256 알고리듬을 지원하는 해쉬 프로세서의 하드웨어 설계 (Efficient Hardware Design of Hash Processor Supporting SHA-3 and SHAKE256 Algorithms)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.1075-1082
    • /
    • 2017
  • 본 논문에서는 새로운 해쉬 알고리듬인 SHA-3과 출력 길이 확장함수인 SHAKE256을 구현하는 해쉬 프로세서를 설계하였다. 해쉬 프로세서는 성능을 극대화하기 위해 Padder 블록, 라운드 코어 블록, 출력 블록이 블록 단계에서 파이프라인 구조로 동작한다. Padder 블록은 가변길이의 입력을 여러 개의 블록으로 만들고, 라운드 코어 블록은 on-the-fly 라운드 상수 생성기를 사용하여 SHA-3와 SHAKE256에 대응하는 해쉬 및 출력 확장 결과를 생성하며, 출력 블록은 결과 값을 호스트로 전달하는 기능을 수행한다. 해쉬 프로세서는 Xilinx Virtex-5 FPGA에서 최대 동작 속도는 220 MHz이며, SHA3-512의 경우 5.28 Gbps의 처리율을 갖는다. 프로세서는 SHA-3 와 SHAKE-256 알고리듬을 지원하므로 무결성, 키 생성, 난수 생성 등의 암호 분야에 응용이 가능하다.

복소수 데이터 처리가 가능한 멀티미디어 프로세서용 고성능 연산회로의 하드웨어 설계 (Hardware Design of High Performance Arithmetic Unit with Processing of Complex Data for Multimedia Processor)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.123-130
    • /
    • 2016
  • 본 논문에서는 멀티미디어용 알고리즘을 고속으로 처리하기 위한 고성능 연산 회로를 설계하였다. 3단 파이프라인 구조로 동작하는 연산회로는 4개의 16-비트${\times}$16-비트 곱셈기의 효율적인 구성, 캐리 보존 형식 데이터에 대한 새로운 부호 확장 기법과 다수 개의 부분 곱셈 결과의 통합과정에 부호 확장을 제거하는 교정 상수 기법을 사용하여 복소수 데이터와 가변 길이 고정 소수점 데이터에 대한 38개의 연산을 처리할 수 있다. 설계한 프로세서는 45nm CMOS 공정에서 최대 동작 속도는 300 MHz이며 약 37,000 게이트로 구성되며 300 MCOPS의 연산 성능을 갖는다. 연산 프로세서는 높은 연산 속도와 응용 분야에 특화된 다양한 연산 지원으로 멀티미디어 프로세서에 효율적으로 응용 가능하다.

SISD 머신에 부착 가능한 SIMD 벡터 머신의 개념적 설계 (On the Conceptual Design of the SIMD Vector Machine Attachable to SISD Machine)

  • 조영일;고영웅
    • 정보처리학회논문지A
    • /
    • 제12A권3호
    • /
    • pp.263-272
    • /
    • 2005
  • 데이터 주소의 계수를 위한 하드웨어 설계가 없는 본 노이만(von Neuman) 개념(SISD)의 컴퓨터에서 데이터의 주소지정은 소프트웨어적으로 수행된다. 그러므로 벡터 데이터 요소들의 주소지정은 인덱싱 기법에 의해 그 요소 수만큼 해당 변수들을 만들어서 사용해야 한다. 이것은 데이터 계수기 없이 명령어 계수기, 즉 PC(program counter)만 하드웨어로 설계되기 때문이다. 본 연구에서는 중앙처리장치 외부에 외형적 구조와 크기를 갖는 단위 벡터의 요소를 액세스하는 하드웨어 유닛의 설계를 제안한다. 벡터 처리는 고속처리가 전제되기 때문에 파이프라인 처리기법(SIMD)으로 설계되어야 한다. 제안한 방법은 시뮬레이션을 통하여 성능 검증을 하였으며, 실험 결과 동일한 프로세싱 유닛을 가지는 벡터 머신 아키텍쳐보다 $12-30\%$ 정도 우수한 성능을 내는 것을 확인하였다.

시각효과 영상제작에서 카메라 추적과 영상합성 기술의 활용 (Using Camera Tracking and Image Composition Technique in Visual Effect Imaginary Production)

  • 김명하;유정재;홍현기
    • 한국콘텐츠학회논문지
    • /
    • 제11권6호
    • /
    • pp.135-143
    • /
    • 2011
  • 영화 등에서 컴퓨터그래픽 기술은 전체 흐름의 중심을 차지하는 핵심적인 요소이며, 미국 등에서 개발된 첨단 영상 기술을 바탕으로 디지털콘텐츠 산업을 견인하면서 비약적인 성장을 이루고 있다. 그러나 국내의 경우, 영상 콘텐츠의 제작 과정에서 연구개발을 병행하기 어려운 열악한 상황이고 해외 상용 툴에 대한 의존도가 높고, 노동 집약적인 제작 파이프라인(pipeline)으로 구성되어 있다. 이러한 문제점을 극복하기 위하여 개발된 하드웨어 및 소프트웨어 연구 결과물을 기술하였으며, 개발된 시각효과 기술을 바탕으로 시범 콘텐츠("The Sixty-miles-an-hour man")의 제작 과정을 정리하였다. 특히 정확한 카메라 모션추적 및 자연스러운 영상합성이 이루어지도록 실제의 동적 환경에서의 다양한 촬영 및 기술적 요소를 고려하였다. 또한 시나리오를 작성하는 과정에서 기술 개발자와 콘텐츠 제작자간의 상호이해와 협력이 중요하며, 이를 통해 제작현장에서 핵심 기술 요소의 도출 등의 중요성을 확인하였다. 그리고 제작효율성을 높이기 위해 필요한 요소기술을 도출해 제작환경의 구조개선 및 확장 가능성 등에 대한 고려가 요구된다.

모듈생성 기법을 이용한 DCT/IDCT 코어 프로세서의 설계 (Design of DCT/IDCT Core Processor using Module Generator Technique)

  • 황준하;한택돈
    • 한국통신학회논문지
    • /
    • 제18권10호
    • /
    • pp.1433-1443
    • /
    • 1993
  • DCT(Discrete Cosine Transform)/ IDCT(Inverse DCT)는 여러 DSP 분야와 영 강압축 시스템에서 널리 사용되는 부호화 방식으로서 압축 및 복원 시스템에서 가장 많은 처리시간을 요하는 부분이다. 그러므로 이 부분의 성능을 향상시킴으로써 전체 영상 압축시스템의 성능을 향상시킬수 있다. 본 논문에서는 이러한 DCT/IDCT연산을 효율적으로 수행하기 위하여 모듈생성기법을 이용하여 하드웨어로 구성하였다. 설계한 DCT/IDCT코어 프로세서는 부분합과 분산연산을 이용하여 비교적 적은 면적을 차지하며, 약간의 면적을 증가시킴으로써 DCT와 IDCT연산을 모두 수행한다. 또한 파이프라인 구조를 사용하여 고속으로 DCT/IDCT연산을 수행할 수 있으며, 적은 수의 반올림(rounding)단계를 거치므로 높은 정밀도로 연산을 수행한다. 그리고 모듈생성기법을 사용하여, 설계공정에 독립적이고 입력비트나 정밀도 둥을 간단한 매개변수의 조정으로 변환시킬 수 있도록 설계하였다. 또한 구현한 코어프로세서는 CCITT 권장안 H.261에 부합하는 정밀도로 연산을 수행한다.

  • PDF