• 제목/요약/키워드: 8-bit parallel processing

검색결과 45건 처리시간 0.023초

심자도 신호획득을 위한 실시간 256-채널 12-bit 1ks/s 하드웨어 (Real-time 256-channel 12-bit 1ks/s Hardware for MCG Signal Acquisition)

  • 유재택
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제54권11호
    • /
    • pp.643-649
    • /
    • 2005
  • A heart diagnosis system adopts Superconducting Quantum Interface Device(SQUD) sensors for precise MCG(MagnetoCardioGram) signal acquisitions. Such system needs to deal with hundreds of sensors, requiring fast signal sampling md precise analog-to-digital conversions(ADC). Our development of hardware board, processing 64-channel 12-bit in 1 ks/s speed, is built by using 8-channel ADC chips, 8-bit microprocessors, SPI interfaces, and specially designed parallel data transfers between microprocessors to meet the 1ks/s, i.e. 1 mili-second sampling interval. We extend the design into 256-channel hardware and analyze the speed .using the measured data from the 64-channel hardware. Since our design exploits full parallel processing, Assembly level coding, and NOP(No Operation) instruction for timing control, the design provides expandability and lowest system timing margin. Our result concludes that the data collection with 256-channel analog input signals can be done in 201.5us time-interval which is much shorter than the required 1 mili-second period.

임베디드 병렬 프로세서를 위한 픽셀 서브워드 병렬처리 명령어 구현 (Implementation of Pixel Subword Parallel Processing Instructions for Embedded Parallel Processors)

  • 정용범;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권3호
    • /
    • pp.99-108
    • /
    • 2011
  • 프로세서 기술은 공정비용의 증가와 전력 소모 때문에 단순 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 병렬 프로세싱 기술 발전이 이루어지고 있다. 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효과적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개하고, 또한 이러한 SIMD 기반 병렬 프로세서 아키텍처에서 이미지/비디오 픽셀을 효율적으로 처리 가능한 픽셀 서브워드 병렬처리 명령어를 제안한다. 제안하는 픽셀 서브워드 병렬처리 명령어는 48비트 데이터패스 아키텍처에서 4개의 12비트로 분할된 레지스터에 4개의 8비트 픽셀을 저장하고 동시에 처리함으로써 기존의 멀티미디어 전용 명령어에서 발생하는 오버플로우 및 이를 해결하기 위해 사용되는 패킹/언팽킹 수행의 상당한 오버헤드를 줄일 수 있다. 동일한 SIMD 기반 병렬 프로세서 아키텍처에서 모의 실험한 결과, 제안한 픽셀 서브워드 병렬처리 명령어는 baseline 프로그램보다 2.3배의 성능 향상을 보인 반면, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX 타입 명령어는 baseline 프로그램보다 단지 1.4배의 성능 향상을 보였다. 또한, 제안한 명령어는 baseline 프로그램보다 2.5배의 에너지 효율 향상을 보인 반면, MMX 타입 명령어는 baseline 프로그램보다 단지 1.8배의 에너지 효율 향상을 보였다.

고속 검사합 모듈의 덧셈구조에 관한 비교 연구 (A comparative study on the addition architecture of high-speed checksum module)

  • 김대현;한상원공진흥
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1029-1032
    • /
    • 1998
  • In this paper, a comparative study is presented to evaluate the addition architecture of the high-speed checksum module in TCP/IP processing. In order to speed up TCP/IP processing, H/W implementation offers concurrent and parallel processing to yield high speed computation, with respect to S/W implementation. This research aims at comparing two addition architectures of checksum module, which is the major botteleneck in TCP/IP processing. The 16-bit and 8-bit byte-by-byte addition architecture are implemented by the full custom design, and compared, in analytical and experimental manner, from standpoint of space and performance. For LG $0.6\mu\textrm{m}$ TLM process, the 8-bit addition implementation requires the area, 1.3 times larger than the 16-bit one, and it operates at 80MHz while the 16-bit one runs by 66MHz.

  • PDF

$32{\times}32 $ 비트 고속 병렬 곱셈기 구조 (An Architecture for $32{\times}32$ bit high speed parallel multiplier)

  • 김영민;조진호
    • 전자공학회논문지B
    • /
    • 제31B권10호
    • /
    • pp.67-72
    • /
    • 1994
  • In this paper we suggest a 32 bit high speed parallel multiplier which plays an important role in digital signal processing. We employ a bit-pair recoding Booth algoritham that gurantees n/2 partial product terms, which uniformly handles the signed-operand case. While partial product terms are generated, a special method is suggested to reduce time delay by employing 1's complement instead of 2's complement. Later when partial products are added, the additional 1 bit's are packed in a single partial product term and added to in the parallel counter. Then 16 partial product terms are reduced to two summands by using successive parallel counters. Final multiplication value is obtained by a BLC adder. When this multiplier is simulated under 0.8$\mu$CMOS standard cell we obtain 30ns multiplier speed.

  • PDF

Design and Implementation of a Latency Efficient Encoder for LTE Systems

  • Hwang, Soo-Yun;Kim, Dae-Ho;Jhang, Kyoung-Son
    • ETRI Journal
    • /
    • 제32권4호
    • /
    • pp.493-502
    • /
    • 2010
  • The operation time of an encoder is one of the critical implementation issues for satisfying the timing requirements of Long Term Evolution (LTE) systems because the encoder is based on binary operations. In this paper, we propose a design and implementation of a latency efficient encoder for LTE systems. By virtue of 8-bit parallel processing of the cyclic redundancy checking attachment, code block (CB) segmentation, and a parallel processor, we are able to construct engines for turbo codings and rate matchings of each CB in a parallel fashion. Experimental results illustrate that although the total area and clock period of the proposed scheme are 19% and 6% larger than those of a conventional method based on a serial scheme, respectively, our parallel structure decreases the latency by about 32% to 65% compared with a serial structure. In particular, our approach is more latency efficient when the encoder processes a number of CBs. In addition, we apply the proposed scheme to a real system based on LTE, so that the timing requirement for ACK/NACK transmission is met by employing the encoder based on the parallel structure.

Verilog HDL을 이용한 SDTV용 8bit 색상 보정기의 설계 (Design of an 8-bit Color Adjustor for SDTV Using Verilog HDL)

  • 전병웅;송인채
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.801-804
    • /
    • 2005
  • In this paper, we designed an 8-bit color adjustor for SDTV using Verilog HDL. The conversion block requires a lot of multiplication. So we adopted Booth algorithm to reduce amount of operation and processing time. To improve speed, we designed the system output as parallel structure. We synthesized the designed system using Xilinx ISE and verified the operation through simulation using Modelsim.

  • PDF

심자도 신호 획득을 위한 실시간 64-Ch 12-bit 1ks/s 하드웨어 개발 (Development of 64-Channel 12-bit 1ks/s Hardware for MCG Signal Acquisition)

  • 이동하;유재택
    • 한국전기전자재료학회:학술대회논문집
    • /
    • 한국전기전자재료학회 2004년도 하계학술대회 논문집 Vol.5 No.2
    • /
    • pp.902-905
    • /
    • 2004
  • A heart diagnosis system adopts Superconducting Quantum Interface Device(SQUID) sensors for precision MCG signal acquisitions. Such system is composed of hundreds of sensors, requiring fast signal sampling and precise analog-digital conversions(ADC). Our development of hardware board, processing 64-channel 12-bit 1ks/s, is built by using 8-channel ADC chips, 8-bit microprocessors, SPI interfaces, and parallel data transfers between microprocessors to meet the 1ks/s, i.e. 1 ms speed. The test result shows that the signal acquisition is done in 168 usuc which is much shorter than the required 1 ms period. This hardware will be extended to 256 channel data acquisition to be used for the diagnosis system.

  • PDF

WAVE 시스템에서 행렬 테이블로 연산하기 위한 알고리즘 설계 및 구현 (The Algorithm Design and Implemention for Operation using a Matrix Table in the WAVE system)

  • 이대식;유영모;이상윤;장청룡
    • 한국통신학회논문지
    • /
    • 제37권4A호
    • /
    • pp.189-196
    • /
    • 2012
  • WAVE(Wireless Access for Vehicular Environment) 시스템은 차량용 통신 기술로서, 차량 운전 중 발생 가능한 사고들을 미연에 방지하기 위한 서비스와 차량기능 관리, 시스템 장애를 모니터링하는 각종 서비스를 제공하기 위해 사용된다. 그러나 WAVE 시스템의 스크램블러 비트 연산은 병렬 처리가 불가능하므로 소프트웨어나 하드웨어 설계의 효율성이 떨어지게 된다. 본 논문에서는 스크램블러의 비트 연산 과정으로 행렬 테이블을 구성하는 알고리즘과 입력 데이터와 행렬 테이블을 병렬 연산하는 알고리즘을 제안한다. 본 논문에서 제안한 스크램블러 알고리즘은 입력 데이터의 입력 단위가 8비트, 16비트, 32비트, 64비트냐에 따라 처리 속도가 다르지만 입력 단위에 따라 병렬 처리가 가능하므로 WAVE 시스템의 처리 속도를 더욱 향상시킨다.

WAVE 시스템에서 스크램블러의 속도 향상을 위한 연구 (Research for Improving the Speed of Scrambler in the WAVE System)

  • 이대식;유영모;이상윤;오세갑
    • 한국통신학회논문지
    • /
    • 제37A권9호
    • /
    • pp.799-808
    • /
    • 2012
  • WAVE(Wireless Access for Vehicular Environment) 시스템에서 스크램블러의 비트 연산은 하드웨어나 소프트웨어 측면에서 병렬 처리가 불가능하여 효율성이 떨어지게 된다. 본 논문에서는 행렬 테이블에서 시작 위치를 찾는 알고리즘을 제안한다. 또한 스크램블러의 비트 연산 알고리즘과 행렬 테이블 구성 알고리즘, 행렬 테이블에서 시작 위치를 찾는 알고리즘을 8비트, 16비트, 32비트 단위로 처리하여 성능을 비교 분석한 결과 초당 처리 횟수는 8비트는 2917.8회, 16비트는 5432.1회, 32비트는 10277.8회 더 수행할 수 있었다. 따라서 행렬 테이블에서 시작 위치를 찾는 알고리즘이 WAVE 시스템에서 스크램블러의 속도를 향상시키고, 지능형 교통 체계(ITS)에서 노변장치와 차량(V2I) 또는 차량 사이의 통신(V2V)으로 다양한 정보 수집의 수신 속도와 정밀도를 향상시킬 수 있다.

32-bit RISC-V상에서의 PIPO 경량 블록암호 최적화 구현 (Optimized Implementation of PIPO Lightweight Block Cipher on 32-bit RISC-V Processor)

  • 엄시우;장경배;송경주;이민우;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권6호
    • /
    • pp.167-174
    • /
    • 2022
  • PIPO 경량 블록암호는 ICISC'20에서 발표된 암호이다. 본 논문에서는 32-bit RISC-V 프로세서 상에서 PIPO 경량 블록암호 ECB, CBC, CTR 운용 모드의 단일 블록 최적화 구현과 병렬 최적화 구현을 진행한다. 단일 블록 구현에서는 32-bit 레지스터 상에서 효율적인 8-bit 단위의 Rlayer 함수 구현을 제안한다. 병렬 구현에서는 병렬 구현을 위한 레지스터 내부 정렬을 진행하며, 서로 다른 4개의 블록이 하나의 레지스터 상에서 Rlayer 함수 연산을 진행하기 위한 방법에 대해 설명한다. 또한 CBC 운용모드의 병렬 구현에서는 암호화 과정에 병렬 구현 기법 적용이 어렵기 때문에 복호화 과정에서의 병렬 구현 기법 적용을 제안하며, CTR 운용모드의 병렬 구현에서는 확장된 초기화 벡터를 사용하여 레지스터 내부 정렬 생략 기법을 제안한다. 본 논문에서는 병렬 구현 기법이 여러 블록암호 운용모드에 적용 가능함을 보여준다. 결과적으로 ECB 운용모드에서 키 스케줄 과정을 포함하고 있는 기존 연구 구현의 성능 대비 단일 블록 구현에서는 1.7배, 병렬 구현에서는 1.89배의 성능 향상을 확인하였다.