• 제목/요약/키워드: fully parallel architecture

검색결과 32건 처리시간 0.028초

병렬 처리 구조를 이용한 최적 정합 방식 CAM 설계에 관한 연구 (A Study on the CAM Designed by Adopting Best-Match Method using Parallel Processing Architecture)

  • 김상복;박노경;차균현
    • 한국통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.1056-1063
    • /
    • 1994
  • 본 논문에서는 연상 메모리 소자에 대한 데이터와의 병렬 처리 최적 정합 방식을 적용하여 계산 효율과 처리율을 높인 단일 PE 아키텍쳐를 이용하여 CAM을 설계하였다. 설계한 CAM은 크게 3개의 기능 블록(입력 MUX, 최적 정합 CAM, 제어부)으로 구성되어 있다. 데이터 처리는 병렬 입력 및 병렬 비교를 하여 고속으로 데이터를 처리하는 전.병렬 방식을 채택하였다. 이러한 특성을 갖는 CAM은 회로 및 논리 시뮬레이션을 통하여 ETRI 3 m-well 공정 설계 규칙을 사용하여 설계하였다. 본 논문에서 설계된 CAM의 최대 동작 주파수는 20MHz이다.

  • PDF

Fully parallel low-density parity-check code-based polar decoder architecture for 5G wireless communications

  • Dinesh Kumar Devadoss;Shantha Selvakumari Ramapackiam
    • ETRI Journal
    • /
    • 제46권3호
    • /
    • pp.485-500
    • /
    • 2024
  • A hardware architecture is presented to decode (N, K) polar codes based on a low-density parity-check code-like decoding method. By applying suitable pruning techniques to the dense graph of the polar code, the decoder architectures are optimized using fewer check nodes (CN) and variable nodes (VN). Pipelining is introduced in the CN and VN architectures, reducing the critical path delay. Latency is reduced further by a fully parallelized, single-stage architecture compared with the log N stages in the conventional belief propagation (BP) decoder. The designed decoder for short-to-intermediate code lengths was implemented using the Virtex-7 field-programmable gate array (FPGA). It achieved a throughput of 2.44 Gbps, which is four times and 1.4 times higher than those of the fast-simplified successive cancellation and combinational decoders, respectively. The proposed decoder for the (1024, 512) polar code yielded a negligible bit error rate of 10-4 at 2.7 Eb/No (dB). It converged faster than the BP decoding scheme on a dense parity-check matrix. Moreover, the proposed decoder is also implemented using the Xilinx ultra-scale FPGA and verified with the fifth generation new radio physical downlink control channel specification. The superior error-correcting performance and better hardware efficiency makes our decoder a suitable alternative to the successive cancellation list decoders used in 5G wireless communication.

오디세우스 대용량 검색 엔진을 위한 병렬 웹 크롤러의 구현 (Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine)

  • 신은정;김이른;허준석;황규영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.567-581
    • /
    • 2008
  • 웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 정보를 검색 결과로서 제공하기 위해 웹 페이지를 주기적으로 수집하고 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용하는 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져 있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는 데에 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 조정자(coordinator) 대리자(agent) 구조의 2-티어(tier) 모델을 사용한다. 조정자/대리자 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 대리자들과 이 대리자들을 관리하기 위한 하나의 조정자로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 크롤링(crawling) 모듈, 수집한 웹 페이지를 데이타베이스 로딩 포맷으로 변환하기 위한 컨버팅(converting) 모듈, 수집된 웹 페이지의 중요도를 계산하기 위한 랭킹(ranking) 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬, 웹 크롤러가 수집해야할 웹 페이지 개수와 머신 개수에 따라 확장 가능함을 보였다.

실시간 디지털 신호 처리용 고속 MULTIPLIER 단일칩화에 관한 연구 (A Study on the IC, Implementation of High Speed Multiplier for Real Time Digital Signal Processing)

  • 문대철;차균현
    • 한국통신학회논문지
    • /
    • 제15권7호
    • /
    • pp.628-637
    • /
    • 1990
  • 본 연구에서는 고속의 병렬 알고리즘을 이용하여 실시간 디지털 신호를 처리할 수 있는 16x16 고속의 CMOS 승산기를 설계하였다. 설계된 병렬 승산기는 modified Booth's 알고리즘과 Ling's approach를 이용하여 4열의 가산기와 8개의 Booth 디코더로 구성하였으며, 2's complement의 데이터와 계수를 처리할 수 있도록 설계하였다. 또한 VLSI 구현에 적합하도록 modulrity하고 regularity하게 모든 회로를 설계하고 규칙적으로 내부 배열을하여 testavility가 용이하도록 설계하였다.

  • PDF

멀티코어와 매니코어 환경에서의 2 차원 DCT 가속 (Accelerating 2D DCT in Multi-core and Many-core Environments)

  • 홍진건;정성욱;김정길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.250-253
    • /
    • 2011
  • Chip manufacture nowadays turned their attention from accelerating uniprocessors to integrating multiple cores on a chip. Moreover desktop graphic hardware is now starting to support general purpose computation. Desktop users are able to use multi-core CPU and GPU as a high performance computing resources these days. However exploiting parallel computing resources are still challenging because of lack of higher programming abstraction for parallel programming. The 2-dimensional discrete cosine transform (2D-DCT) algorithms are most computational intensive part of JPEG encoding. There are many fast 2D-DCT algorithms already studied. We implemented several algorithms and estimated its runtime on multi-core CPU and GPU environments. Experiments show that data parallelism can be fully exploited on CPU and GPU architecture. We expect parallelized DCT bring performance benefit towards its applications such as JPEG and MPEG.

다중 프로세서를 갖는 SoC 를 위한 CDMA 기술에 기반한 통신망 설계 (A CDMA-Based Communication Network for a Multiprocessor SoC)

  • 천익재;김보관
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.707-710
    • /
    • 2005
  • In this paper, we propose a new communication network for on-chip communication. The network is based on a direct sequence code division multiple access (DS-CDMA) technique. The new communication network is suitable for a parallel processing system and also drastically reduces the I/O pin count. Our network architecture is mainly divided into a CDMA-based network interface (CNI), a communication channel, a synchronizer. The network includes a reverse communication channel for reducing latency. The network decouples computation task from communication task by the CNI. An extreme truncation is considered to simplify the communication link. For the scalability of the network, we use a PN-code reuse method and a hierarchical structure. The network elements have a modular architecture. The communication network is done using fully synthesizable Verilog HDL to enhance the portability between process technologies.

  • PDF

Energy Efficient and Low-Cost Server Architecture for Hadoop Storage Appliance

  • Choi, Do Young;Oh, Jung Hwan;Kim, Ji Kwang;Lee, Seung Eun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4648-4663
    • /
    • 2020
  • This paper proposes the Lempel-Ziv 4(LZ4) compression accelerator optimized for scale-out servers in data centers. In order to reduce CPU loads caused by compression, we propose an accelerator solution and implement the accelerator on an Field Programmable Gate Array(FPGA) as heterogeneous computing. The LZ4 compression hardware accelerator is a fully pipelined architecture and applies 16 dictionaries to enhance the parallelism for high throughput compressor. Our hardware accelerator is based on the 20-stage pipeline and dictionary architecture, highly customized to LZ4 compression algorithm and parallel hardware implementation. Proposing dictionary architecture allows achieving high throughput by comparing input sequences in multiple dictionaries simultaneously compared to a single dictionary. The experimental results provide the high throughput with intensively optimized in the FPGA. Additionally, we compare our implementation to CPU implementation results of LZ4 to provide insights on FPGA-based data centers. The proposed accelerator achieves the compression throughput of 639MB/s with fine parallelism to be deployed into scale-out servers. This approach enables the low power Intel Atom processor to realize the Hadoop storage along with the compression accelerator.

A Multi-Scale Parallel Convolutional Neural Network Based Intelligent Human Identification Using Face Information

  • Li, Chen;Liang, Mengti;Song, Wei;Xiao, Ke
    • Journal of Information Processing Systems
    • /
    • 제14권6호
    • /
    • pp.1494-1507
    • /
    • 2018
  • Intelligent human identification using face information has been the research hotspot ranging from Internet of Things (IoT) application, intelligent self-service bank, intelligent surveillance to public safety and intelligent access control. Since 2D face images are usually captured from a long distance in an unconstrained environment, to fully exploit this advantage and make human recognition appropriate for wider intelligent applications with higher security and convenience, the key difficulties here include gray scale change caused by illumination variance, occlusion caused by glasses, hair or scarf, self-occlusion and deformation caused by pose or expression variation. To conquer these, many solutions have been proposed. However, most of them only improve recognition performance under one influence factor, which still cannot meet the real face recognition scenario. In this paper we propose a multi-scale parallel convolutional neural network architecture to extract deep robust facial features with high discriminative ability. Abundant experiments are conducted on CMU-PIE, extended FERET and AR database. And the experiment results show that the proposed algorithm exhibits excellent discriminative ability compared with other existing algorithms.

프레임간의 영상 변화 검출을 위한 CNN-UM의 아날로그 병렬연산처리 알고리즘 (Analog Parallel Processing Algorithm of CNN-UM for Interframe Change Detection)

  • 김형석;김선철;손홍락;박영수;한승조
    • 전자공학회논문지CI
    • /
    • 제40권1호
    • /
    • pp.1-9
    • /
    • 2003
  • CNN-UM의 아날로그 연산기능을 활용할 수 있는 영상 변화 검출 알고리즘을 개발하였으며 이를 이동물체 검출에 활용하였다. CNN-UM은 영상의 아날로그 병렬처리가 가능한 구조이므로 고속의 실시간 처리가 필요한 분야에는 매우 높은 응용성을 가진 새로운 구조의 아날로그 및 로직처리(아나로직) 프로세서이다. 이 CNN-UM은 동일 영상 프레임 내에서의 처리에는 능률적인 구조이지만 영상 프레임 간의 계산에는 아날로그 병렬처리 기능을 활용하기 어려운 연산구조라는 단점이 있었다. 본 연구에서는 셀의 상태 저장 커패시터에 인접 프레임의 영상들을 상호 역 부호를 통하여 중첩함으로써 영상 프레임 간의 변화 검출을 병렬로 수행할 수 있는 알고리즘을 개발하였으며 이 원리를 전기적 등가회로를 통해 해석하였다. 또한, 개발한 알고리즘을 이동물체 검출을 위한 프레임간의 영상 변화 검출에 적용하여 타당성을 확인하였다.

Highly Scalable NAND Flash Memory Cell Design Embracing Backside Charge Storage

  • Kwon, Wookhyun;Park, In Jun;Shin, Changhwan
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제15권2호
    • /
    • pp.286-291
    • /
    • 2015
  • For highly scalable NAND flash memory applications, a compact ($4F^2/cell$) nonvolatile memory architecture is proposed and investigated via three-dimensional device simulations. The back-channel program/erase is conducted independently from the front-channel read operation as information is stored in the form of charge at the backside of the channel, and hence, read disturbance is avoided. The memory cell structure is essentially equivalent to that of the fully-depleted transistor, which allows a high cell read current and a steep subthreshold slope, to enable lower voltage operation in comparison with conventional NAND flash devices. To minimize memory cell disturbance during programming, a charge depletion method using appropriate biasing of a buried back-gate line that runs parallel to the bit line is introduced. This design is a new candidate for scaling NAND flash memory to sub-20 nm lateral dimensions.