• 제목/요약/키워드: Parallel processor

검색결과 482건 처리시간 0.028초

JPEG 인코더를 위한 고성능 병렬 프로세서 하드웨어 설계 및 검증 (Design and Verification of High-Performance Parallel Processor Hardware for JPEG Encoder)

  • 김용민;김종면
    • 대한임베디드공학회논문지
    • /
    • 제6권2호
    • /
    • pp.100-107
    • /
    • 2011
  • As the use of mobile multimedia devices is increasing in the recent year, the needs for high-performance multimedia processors are increasing. In this regard, we propose a SIMD (Single Instruction Multiple Data) based parallel processor that supports high-performance multimedia applications with low energy consumption. The proposed parallel processor consists of 16 processing elements(PEs) and operates on a 3-stage pipelining. Experimental results for the JPEG encoding algorithm indicate that the proposed parallel processor outperforms conventional parallel processors in terms of performance and energy efficiency. In addition, the proposed parallel processor architecture was developed and verified with verilog HDL and a FPGA prototype system.

문화재 검색을 위한 병렬처리기 구조 (A Parallel Processor System for Cultural Assets Image Retrieval)

  • 윤희준;이형;한기선;박종원
    • 한국멀티미디어학회논문지
    • /
    • 제1권2호
    • /
    • pp.154-161
    • /
    • 1998
  • 본 연구에서는 영상 데이터를 실시간으로 처리하기 위해 병렬처리기 및 병렬 기억장치 구조를 제안하였으며, 많은 영상 데이터 중에서 문화재 영상을 대상으로 하였다. 기존의 영상 인식 및 검색 알고리즘은 병렬화하기에 적합하지 않아서 병렬화 가능한 알고리즘을 제안하였고, 제안된 알고리즘을 부분적으로 병렬화하고, 적합한 병렬 기억장치 및 병렬처리기 구조를 제안한 다음 CADENCE사의 모의실험 패키지인 Verilog-XL을 이용해서 모의실험 하였다. 그 결과 81배의 속도향상을 볼 수 있었다.

  • PDF

고성능 멀티미디어 처리용 병렬프로세서 하드웨어 설계 및 구현 (Hardware Design and Implementation of a Parallel Processor for High-Performance Multimedia Processing)

  • 김용민;황철희;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권5호
    • /
    • pp.1-11
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가 하면서 고성능 멀티미디어 프로세서에 대한 필요성이 증가하고 있다. 본 논문에서는 낮은 소비전력으로 고성능 멀티미디어 애플리케이션을 구현할 수 있는 SIMD기반 병렬프로세서를 제안한다. 제안하는 병렬프로세서는 16개의 프로세싱 엘리먼트로 구성되어 있으며, 3단계 파이프라인 구조로 설계되었다. 모의실험 결과, 제안한 SIMD기반 병렬프로세서는 기존의 병렬프로세서보다 프로세싱 엘리먼트 당 상대 연산 처리량에서 높은 성능을 보였으며, 또한 동일한 130nm 테크놀리지와 720 클록주파수에서 상용 고성능 프로세서인 TI C6416보다 1.4~31.4배의 성능 향상 및 5.9~8.1배의 에너지 효율 향상을 보였다. 제안한 병렬프로세서를 하드웨어 설계언어인 verilog HDL을 이용하여 설계하였고, FPGA를 이용해 검증하였다.

영상 처리 기법을 위한 병렬화 네트워크 시스템의 구성 (Realization of a Parallel Network System for Image Processing Techniques)

  • 서원찬;조강현;김우열
    • 제어로봇시스템학회논문지
    • /
    • 제6권6호
    • /
    • pp.492-499
    • /
    • 2000
  • In this paper, realization techniques of the parallel processing and the parallel network system for image processing are described. The parallel image processing system is constructed by the characterization of image processing and processor. Several problems are solved to achieve effective parallel processing and processor networking with the particular properties of image processing, which are reduction of communication quantity, equalization of load and delay depreciation on communication. A parallel image input device is developed for the flexible networking of parallel image processing. An abnormal region detection algorithm which is the basic function in machine vision is applied to evaluate the constructed parallel image processing system. The performance and effectiveness of the system are confirmed by experiments.

  • PDF

그래픽 프로세서를 이용한 병렬연산 기반 해무 제거 고속화 (Acceleration for Removing Sea-fog using Graphic Processors and Parallel Processing)

  • 김영두;곽재민;서영호;최현준
    • 한국항행학회논문지
    • /
    • 제21권5호
    • /
    • pp.485-490
    • /
    • 2017
  • 본 논문에서는 그래픽 프로세서를 이용하여 고속으로 해무를 제거하는 기술을 제안한다. 이 기술은 호스트 프로세서(CPU)와 병렬처리가 가능한 여러 개의 그래픽 프로세서를 이용하여 입력영상에서 해무를 제거하는 것이다. 해무를 제거하는 과정 중에서 다크 채널 추출, 최대 밝기 채널 추출, 전달량 계산은 호스트 프로세서에서 수행하고, 양방향 필터를 적용하여 전달량을 정제하는 과정을 그래픽 프로세서를 기반으로 병렬처리하여 연산속도를 높였다. 제안한 병렬처리 기법의 검증을 위해 NVIDIA사의 GTX 1070 GPU를 3개를 사용하여 검증환경을 구성하였다. 구현결과 하나의 그래픽 프로세서로 구현하였을 때는 평균 140ms가 소요되고, OpenMP와 다중 GPGPU를 이용하여 구현하였을 때 26ms 소요되었다. 본 논문에서 제안하는 그래픽 프로세서 기반의 병렬연산 해무제거 기술은 선박의 안전항해, 항만 관제 분야에 사용될 수 있을 것이다.

대규모 신경망 시뮬레이션을 위한 칩상 학습가능한 단일칩 다중 프로세서의 구현 (Design of a Dingle-chip Multiprocessor with On-chip Learning for Large Scale Neural Network Simulation)

  • 김종문;송윤선;김명원
    • 전자공학회논문지B
    • /
    • 제33B권2호
    • /
    • pp.149-158
    • /
    • 1996
  • In this paper we describe designing and implementing a digital neural chip and a parallel neural machine for simulating large scale neural netsorks. The chip is a single-chip multiprocessor which has four digiral neural processors (DNP-II) of the same architecture. Each DNP-II has program memory and data memory, and the chip operates in MIMD (multi-instruction, multi-data) parallel processor. The DNP-II has the instruction set tailored to neural computation. Which can be sed to effectively simulate various neural network models including on-chip learning. The DNP-II facilitates four-way data-driven communication supporting the extensibility of parallel systems. The parallel neural machine consists of a host computer, processor boards, a buffer board and an interface board. Each processor board consists of 8*8 array of DNP-II(equivalently 2*2 neural chips). Each processor board acn be built including linear array, 2-D mesh and 2-D torus. This flexibility supports efficiency of mapping from neural network models into parallel strucgure. The neural system accomplishes the performance of maximum 40 GCPS(giga connection per second) with 16 processor boards.

  • PDF

연산복잡도 감소를 위한 새로운 8-병렬 MDC FFT 프로세서 (New Parallel MDC FFT Processor for Low Computation Complexity)

  • 김문기;선우명훈
    • 전자공학회논문지
    • /
    • 제52권3호
    • /
    • pp.75-81
    • /
    • 2015
  • 본 논문에서는 고속 데이터 전송을 위한 OFDM 시스템에 적용 가능한 고속 FFT 프로세서를 제안하였다. 8개의 병렬 경로를 가지는 MDC 파이프라인 고속 FFT 프로세서를 제안한다. 제안하는 구조는 연산과 하드웨어의 최적화를 위해 radix-$2^6$ 알고리즘에 기반하고 있다. 하드웨어 복잡도를 감소시키기 위해서 상수 곱셈기와 교환기 구조를 제안하고 새로운 스케즐링 기법을 적용하였다. 제안하는 FFT 프로세서는 새로운 구조를 적용해 지연 소자와 연산 사이클의 증가 없이 복소 곱셈기 및 연산복잡도를 감소시킬 수 있다. 또한 최적화한 twiddle factor $W_{64}$ 상수 곱셈기는 기존 복소 booth 곱셈기에 비해 65%만의 하드웨어 복잡도를 보였다. 설계한 FFT 프로세서는 Verilog HDL로 모델링하여 IBM 90nm 공정으로 합성하였으며 $0.27mm^2$의 면적과 388MHz의 주파수에서 2.7 GSample/s를 보이고 있다.

Homogeneous Transformation Matrix의 곱셈을 위한 병렬구조 프로세서의 설계 (A Parallel-Architecture Processor Design for the Fast Multiplication of Homogeneous Transformation Matrices)

  • 권두올;정태상
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제54권12호
    • /
    • pp.723-731
    • /
    • 2005
  • The $4{\times}4$ homogeneous transformation matrix is a compact representation of orientation and position of an object in robotics and computer graphics. A coordinate transformation is accomplished through the successive multiplications of homogeneous matrices, each of which represents the orientation and position of each corresponding link. Thus, for real time control applications in robotics or animation in computer graphics, the fast multiplication of homogeneous matrices is quite demanding. In this paper, a parallel-architecture vector processor is designed for this purpose. The processor has several key features. For the accuracy of computation for real application, the operands of the processors are floating point numbers based on the IEEE Standard 754. For the parallelism and reduction of hardware redundancy, the processor takes column vectors of homogeneous matrices as multiplication unit. To further improve the throughput, the processor structure and its control is based on a pipe-lined structure. Since the designed processor can be used as a special purpose coprocessor in robotics and computer graphics, additionally to special matrix/matrix or matrix/vector multiplication, several other useful instructions for various transformation algorithms are included for wide application of the new design. The suggested instruction set will serve as standard in future processor design for Robotics and Computer Graphics. The design is verified using FPGA implementation. Also a comparative performance improvement of the proposed design is studied compared to a uni-processor approach for possibilities of its real time application.

직병렬 주사방식 일정장비의 신호처리기 설계 연구 (Electronic Processor Design for Thermal Imager with Serial/Parallel Scan type)

  • 송인섭;유위경;윤은석;홍영철;홍석민
    • 전자공학회논문지B
    • /
    • 제31B권1호
    • /
    • pp.49-56
    • /
    • 1994
  • This paper describes the design principles and methods of electronic processor for thermal imager with the SPRITE detector, operating in the 8-12 micron band. The thermal imager consists of a optical scanner containing the detector and an electrical signal processor. The optical scanner utilizing rotating polygon and oscillating mirror, is 2-dimensional serial/parallel scan type using 5 elements of the detector. And the electronic processor has pre-processing of 5 chnanel's thermal signal from the detector, and performs digital scan conversion to reform the parallel data stream into serial analog data compatible with conventional RS-170 video. Through the designed electronic processor, we have acquired a satisfactory thermal image. And the MRTD (Minimum Resolvable Temperature Difference) is 0.5$^{\circ}$K at 7.5 cycles/mm.

  • PDF

MB-OFDM UWB 통신 시스템을 위한 고속 2-Parallel Radix-$2^4$ FFT 프로세서의 설계 (A High-Speed 2-Parallel Radix-$2^4$ FFT Processor for MB-OFDM UWB Systems)

  • 이지성;이한호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.533-534
    • /
    • 2006
  • This paper presents the architecture design of a high-speed, low-complexity 128-point radix-$2^4$ FFT processor for ultra-wideband (UWB) systems. The proposed high-speed, low-complexity FFT architecture can provide a higher throughput rate and low hardware complexity by using 2-parallel data-path scheme and single-path delay-feedback (SDF) structure. This paper presents the key ideas applied to the design of high-speed, low-complexity FFT processor, especially that for achieving high throughput rate and reducing hardware complexity. The proposed FFT processor has been designed and implemented with the 0.18-m CMOS technology in a supply voltage of 1.8 V. The throughput rate of proposed FFT processor is up to 1 Gsample/s while it requires much smaller hardware complexity.

  • PDF