• 제목/요약/키워드: 파이프라인 구조

검색결과 474건 처리시간 0.041초

최적화된 탐색기법을 이용한 고성능 H.264/AVC CAVLC 부호화기 구조 설계 기법 (Architecture Design of High Performance H.264 CAVLC Encoder Using Optimized Searching Technique)

  • 이양복;정홍균;김창호;명제진;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.431-435
    • /
    • 2011
  • 본 논문에서는 H.264/AVC CAVLC 부호기의 성능 향상을 위해 변환계수의 재정렬 과정이 필요 없는 탐색기법을 제안한다. 기존의 CAVLC 부호기는 변환계수의 재정렬 과정이 포함되어 변환계수를 저장해야 할 버퍼와 버퍼제어를 위한 추가적인 사이클이 필요하므로 하드웨어 면적이 증가하고 불필요한 사이클이 수행된다. 제안한 탐색기법은 CAVLC의 파라미터 중에 Level을 역방향 탐색기법으로 계산하고 그 외 파라미터들은 순방향 탐색기법으로 계산하여 변환계수의 재정렬 과정을 수행하지 않는다. 또한, 제안한 CAVLC 부호기에 조기 종료 모드를 적용하고 3단 파이프라인 구조를 사용하여 CAVLC의 수행 사이클 수를 감소시켰다. 제안한 CAVLC의 하드웨어 구조를 매그나칩 공정 $0.18{\mu}m$ 셀라이브러리로 합성한 결과, 최대동작 주파수는 125MHz이며 게이트 수는 15.6k이다. 제안한 CAVLC의 하드웨어 구조를 H.264/AVC 표준 참조 소프트웨어 JM13.2에서 추출한 데이터를 이용하여 테스트한 결과, $16{\times}16$ 매크로블록을 처리하는데 평균적으로 66.6사이클이 소요되어 기존의 CAVLC 부호기보다 성능이 13.8% 향상됨을 확인하였다.

  • PDF

UHD 영상의 실시간 처리를 위한 고성능 HEVC SAO 부호화기 하드웨어 설계 (Hardware Design of High-Performance SAO in HEVC Encoder for Ultra HD Video Processing in Real Time)

  • 조현표;박승용;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.271-274
    • /
    • 2014
  • 본 논문에서는 UHD급 영상의 실시간 처리를 위한 고성능 HEVC(High Efficiency Video Coding) SAO(Sample Adaptive Offset) 부호화기의 효율적인 하드웨어 구조를 제안한다. SAO는 HEVC에서 새롭게 채택된 루프 내 필터 기술 중 하나이다. 본 논문에서 제안하는 SAO 부호화기 하드웨어 구조는 메모리 접근 최소화 및 화소들의 처리를 간소화하기 위해 three-layered buffer를 사용한다. 또한 연산시간 및 연산량을 줄이기 위해서 4개의 화소들을 병렬적으로 에지 오프셋과 밴드 오프셋으로 분류하며, 화소들의 분류와 SAO 파라메터 적용을 2단계 파이프라인 구조로 구현하고, 하드웨어 면적을 줄이기 위해서 덧셈과 뺄셈, 쉬프트 연산, 그리고 재귀 비교기만을 사용한다. 본 논문에서 제안하는 SAO 부호화기 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.18{\mu}m$ CMOS 표준 셀 라이브러리를 사용하여 합성한 결과 약 180k개의 게이트로 구현되었다. 또한, 110MHz의 동작주파수에서 4K UHD급 해상도인 $4096{\times}2160@30fps$의 실시간 처리가 가능하다.

  • PDF

나눗셈 체인을 이용한 RSA 모듈로 멱승기의 구현 (Implementation of RSA modular exponentiator using Division Chain)

  • 김성두;정용진
    • 정보보호학회논문지
    • /
    • 제12권2호
    • /
    • pp.21-34
    • /
    • 2002
  • 본 논문에서는 최근 발표된 멱승방법인 나눗셈 체인을 적용한 새로운 모듈로 멱승기의 하드웨어 구조를 제안하였다. 나눗셈 체인은 제수(divisor) d=2 또는 $d=2^I +1$ 과 그에 따른 나머지(remainder) r을 이용하여 지수 I를 새롭게 변형하는 방법으로 전체 멱승 연산이 평균 약 1.4$log_2$E 번의 곱셈으로 가능한 알고리즘이다. 이것은 Binary Method가 하드웨어 구현 시 항상 worst case인 $2log_2$E의 계산량이 필요한 것과 비교할 때 상당한 성능개선을 의미한다. 전체 구조는 파이프라인 동작이 가능한 선형 시스톨릭 어레이 구조로 설계하였으며, DG(Dependence Graph)를 수평으로 매핑하여 k비트의 키 사이즈에 대해 두 개의 k 비트 프레임이 k/2+3 개의 PE(Processing Element)로 구성된 두 개의 곱셈기 모듈을 통해 병렬로 동시에 처리되어 100% 처리율을 이루게 하였다. 또한, 규칙적인 데이터 패스를 가질 수 있도록 나눗셈체인을 새롭게 코딩하는 방법을 제안하였다. ASIC 구현을 위해 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 이용해 합성한 결과 최장 지연 패스는 4.24ns로 200MHz의 클럭이 가능하며, 1024비트 데이터 프레임에 대해 약 140kbps의 처리속도를 나타낸다. 복호화 시에는 CRT(Chinese Remainder Theorem)를 적용하여 처리속도를 560kbps로 향상시켰다. 전자서명의 검증과정으로 사용되기도 하는 암호화 과정을 수행할 때 공개키 E는 3,17 혹은 $2^{16} +1$의 사용이 권장된다는 점을 이용하여 E를 17 비트로 제한할 경우 7.3Mbps의 빠른 처리속도를 가질 수 있다.

고속 연산이 가능한 파이프라인 구조의 SATA HDD 암호화용 FPGA 설계 및 구현 (High-Speed FPGA Implementation of SATA HDD Encryption Device based on Pipelined Architecture)

  • 구본석;임정석;김춘수;윤이중;이상진
    • 정보보호학회논문지
    • /
    • 제22권2호
    • /
    • pp.201-211
    • /
    • 2012
  • 본 논문에서는 단일 FPGA를 이용한 SATA 하드디스크용 Full Disk Encryption 연산기를 제안하고, 해당 연산기를 FPGA기반 테스트용 보드에 구현하여 실험한 결과를 제시한다. 제안하는 연산기는 크게 디스크 암호화 표준알고리즘인 IEEE P1619 (XTS-AES) 연산블록과, SATA Host (PC)와 Device (HDD)간의 정합 기능을 담당하는 SATA 인터페이스 블록으로 구성된다. 고속 암복호 연산기능을 담당하는 XTS-AES 암호 연산블록은 암복호 기능추가로 인한 속도저하를 최소화하기 위해 매 4 클록 사이클마다 1 블록 암호화를 처리하도록 4단 파이프라이닝구조로 설계하여 최대 4.8Gbps의 암복호 성능을 가진다. 또한 전체 연산기를 Xilinx사의 ML507 FPGA 개발보드에 구현하여, Windows XP 32비트 환경에서 SATA II 하드디스크(7200rpm)에 대해 암호화 장치없이 직접 연결했을 때와 동등한 속도인 최대 140MB/sec 읽기/쓰기 성능을 나타내었다. 따라서, 제안하는 연산기는 단일 FPGA를 이용하여 속도저하 없는 Full Disk Encryption 기능 구현이 가능함을 확인하였다.

선형이동 Knapsack 공개키 암호시스템을 위한 프로세서 구현 (The Implementation of Processor for Linearly shift Knapsack Public Key Crypto System In Cheon Paik)

  • 백인천;차균현
    • 한국통신학회논문지
    • /
    • 제19권11호
    • /
    • pp.2291-2302
    • /
    • 1994
  • 선형이동 knapsack 공개키 암호를 위한 특수 프로세서의 설계를 보였다. 기존의 knapsack 보다 밀도를 높이고 벡터를 선형 이동시켜 비도가 증가된 선형이동 kanpsack 시스템을 위한 구조를 구현하였다. 이 시스템의 성격상 각 경로에 따라 병렬 처리하는 것이 요구되어 이를 위한 파이프 라인식 병력 구조를 제시하여 시스템을 VLSI로 구현 하였다. 또한 전체의 시스템의 성능을 평가하고 다른 시스템과 비교하였다. 시스템 성능은 디멘젼이 100인 경우 550kb/s의 속도로 데이터를 처리할 수 있다. 시스템 성능은 디멘젼이 100인 경우 550kb/s 의 속도로 데이터를 처리할 수 있다. 본 논문에서 제안한 암호와 시스템 구조를 확장하면 고속의 보안이 요구되는 곳에 이 시스템을 연결하여 사용할 수 있다.

  • PDF

UWB 시스템을 위한 RS(23,17) 복호기 최적 설계 (An Optimized Design of RS(23,17) Decoder for UWB)

  • 강성진;김한종
    • 한국통신학회논문지
    • /
    • 제33권8A호
    • /
    • pp.821-828
    • /
    • 2008
  • 본 논문에서는 UWB 시스템에서 사용되는 RS(23,17)부호의 복호기를 최적화하여 설계하였다. 제안된 복호기는 파이프 라인 구조를 갖는 수정된 유클리드(pipeline structured - modified Euclidean) 알고리즘을 사용한다. 먼저, 기존의 PE 블록 구조를 수정하여 효율적인 PE 블록 구조를 제안하고, 차수(degree) 계산이 필요 없는 복호 알고리즘을 제안한다. 또한, Chien 탐색 알고리즘, Forney 알고리즘, FIFO 크기를 UWB 규격에 최적화 시켜, 작은 복호 지연(latency) 및 하드웨어 복잡도를 가지도록 하였다. 제안된 복호기는 Verilog HDL을 사용하여 구현되었고, 삼성 65nm library를 이용하여 합성한 결과, 실제 ASIC을 제작했을 경우에 250MHz정도까지는 동작이 보장된다고 볼 수 있으며, gate count는 17,628이다.

PRML Read Channel용 고효율, 저전력 FIR 필터 칩 (Highly Efficient and Low Power FIR Filter Chip for PRML Read Channel)

  • Jin Yong, Kang;Byung Gak, Jo;Myung Hoon, Sunwoo
    • 대한전자공학회논문지SD
    • /
    • 제41권9호
    • /
    • pp.115-124
    • /
    • 2004
  • 본 논문은 고효율, 저전력을 갖는 PRML 디스크 드라이브 읽기 채널용 6비트, 8탭의 FIR 필터 칩을 제안한다. 제안된 필터는 병렬처리 구조를 채택하고 있으며 4단의 파이프라인으로 구성되어 있다. 곱셈 연산을 위하여 수정 부스 알고리즘을 사용하였으며 덧셈 연산을 위하여 압축회로 로직을 사용하였다. 전력 소모를 줄이기 위하여 CMOS 패스-트랜지스터 로직을 사용하였으며 싱글-레일 로직을 이용하여 칩의 면적을 감소시켰다. 제안된 필터는 실제 칩으로 구현되었으며 3.3V 전원을 공급하여 100MHz에서 120mV의 전력을 소비하고 1.88×1.38 ㎟의 면적을 차지한다. 구현된 필터는 유사 선폭의 공정을 사용한 기존구조에 비해 약 11.7%의 전력이 감소하였다.

작업 처리 단위 변화에 따른 GPU 성능과 메모리 접근 시간의 관계 분석 (Analysis of GPU Performance and Memory Efficiency according to Task Processing Units)

  • 손동오;심규연;김철홍
    • 스마트미디어저널
    • /
    • 제4권4호
    • /
    • pp.56-63
    • /
    • 2015
  • 최신 GPU는 프로세서 내부에 포함된 다수의 코어를 활용하여 높은 병렬처리가 가능하다. GPU의 높은 병렬성을 활용하는 기법 중 하나인 GPGPU 구조는 GPU에서 대부분의 CPU의 작업을 처리가 가능하게 해주며, GPU의 높은 병렬성과 하드웨어자원을 효과적으로 활용할 수 있다. 본 논문에서는 다양한 벤치마크 프로그램을 활용하여 CTA(Cooperative Thread Array) 할당 개수 변화에 따른 메모리 효율성과 성능을 분석하고자 한다. 실험결과, CTA 할당 개수 증가에 따라 다수의 벤치마크 프로그램에서 성능이 향상되었지만, 일부 벤치마크 프로그램에서는 CTA 할당 개수 증가에 따른 성능 향상이 발생하지 않았다. 이러한 이유로는 벤치마크 프로그램에서 생성된 CTA 개수가 적거나 동시에 수행할 수 있는 CTA 개수가 정해져 있기 때문으로 판단된다. 또한, 각 벤치마크 프로그램별로 메모리 채널 정체에 따른 메모리 스톨, 내부연결망 정체에 따른 메모리 스톨, 파이프라인의 메모리 단계에서 발생하는 스톨을 분석하여 성능과의 연관성을 파악하였다. 본 연구의 분석결과는 GPGPU 구조의 병렬성 및 메모리 효율성 향상을 위한 연구에 대한 정보로 활용될 것으로 기대된다.

3D 볼류메트릭 모델의 동적 복원 알고리즘 (Dynamic Reconstruction Algorithm of 3D Volumetric Models)

  • 박병서;김동욱;서영호
    • 방송공학회논문지
    • /
    • 제27권2호
    • /
    • pp.207-215
    • /
    • 2022
  • 최신 볼류메트릭 기술이 제공하는 높은 기하학적 정확도와 사실성은 실제 객체와 캡춰된 3D 모델 간 높은 일치도를 보장한다. 그럼에도 불구하고 이렇게 획득된 3D 모델은 프레임 간 완전히 독립적인 3D모델로 시퀀스를 구성하고 있다는 측면에서, 매 프레임 모델 표면 구조(Geometry)의 일관성이 보장 되지 않으며, 정점(Vertex)의 밀도가 매우 높고 정점 간 연결 노드(Edge)가 매우 복잡해지는 특징을 확인 할 수 있다. 이 기술을 통해 생성된 3D 모델은 영화나 비디오 게임 제작 파이프라인에서 제작된 모델과는 본질적으로 다르며, 실시간 렌더링, 애니메이션 및 시뮬레이션, 압축과 같은 응용 분야에서 직접 사용하기에 적합하지 않다. 이와는 대조적으로 우리의 방법은 프레임 간 3D 모델 표면 구조의 높은 일관성을 확보하는 리메싱(Remeshing)과 비강체 표면(Non-rigid Shape)의 대응(Correspondences) 및 매칭(Matching)을 통한 점진적 변형(Deformation) 과정 및 텍스쳐 전달(Texture Transfer) 과정을 연결함으로서 볼류메트릭 3D 모델 시퀀스 품질의 일관성을 유지하며, 후 처리 과정의 자동화를 제공한다.

FPGA를 이용한 32-Bit RISC-V 프로세서 설계 및 평가 (Design and Evaluation of 32-Bit RISC-V Processor Using FPGA)

  • 장선경;박상우;권구윤;서태원
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권1호
    • /
    • pp.1-8
    • /
    • 2022
  • RISC-V는 오픈 소스 명령어 집합 구조로, 간단한 기본 구조를 가지며 목적에 따라 명령어 집합을 유연하게 확장할 수 있다. 본 논문에서는 소형, 저전력 32-bit RISC-V 프로세서를 설계하여 RISC-V 임베디드 시스템 연구를 위한 기반을 마련하고자 하였다. 설계한 프로세서는 2단계 파이프라인으로 구성하였고, RISC-V ISA 중 FENCE, EBREAK 명령어를 제외한 32-bit 정수형 ISA 및 인터럽트 처리를 위한 특권 ISA를 지원한다. Vivado Design Suite를 이용하여 합성한 결과 Xilinx Zynq-7000 FPGA에서 1895개의 LUT 및 1195개의 플립플롭을 사용하였고, 0.001W의 전력을 소모하였다. 이를 GPIO, UART, 타이머와 함께 시스템을 구성하여 합성하였고, FPGA 상에서 FreeRTOS를 포팅하여 16MHz에서의 동작을 검증하였다. Dhrystone, Coremark 벤치마크를 통해 성능을 측정하여 목적에 따라 확장 가능한 저전력 고효율 프로세서임을 보였다.