• 제목/요약/키워드: Stream processor

검색결과 76건 처리시간 0.024초

Memory Latency Penalty를 개선한 SIMT 기반 Stream Processor의 Memory Operation System Architecture 설계 (An Implementation of a Memory Operation System Architecture for Memory Latency Penalty Reduction in SIMT Based Stream Processor)

  • 이광엽
    • 전기전자학회논문지
    • /
    • 제18권3호
    • /
    • pp.392-397
    • /
    • 2014
  • 본 논문은 Memory Latency Penalty를 개선한 SIMT Architecture 기반 Stream Processor의 Memory Operation System Architecture를 제안한다. 제안하는 구조는 Non-Blocking Cache Architecture를 적용하여 기존의 Blocking Cache Architecture에서 발생하는 Cache Miss Penalty를 개선하였고 다양한 알고리즘의 처리속도를 비교하여 제안하는 Memory Operation System Architecture를 적용한 Stream Processor의 성능 향상을 검증하였다. 실험은 각 알고리즘의 Memory 명령어의 비율에 따라 향상된 성능을 측정하여 Stream Processor의 성능이 최소 8.2%에서 최대 46.5%까지 향상됨을 확인하였다.

슈퍼스칼라 구조를 갖지 않는 고성능 Stream Processor 설계 (A Design of a High Performance Stream Processor without Superscalar Architecture)

  • 이관호;김치용
    • 전기전자학회논문지
    • /
    • 제21권1호
    • /
    • pp.77-80
    • /
    • 2017
  • 본 논문에서는 기존의 superscalar GP-GPU 구조와 달리 superscalar issue를 제거하여 GP-GPU성능을 향상하는 방법을 제안한다. superscalar issue를 제거하기 위해 stream processor의 구조를 단순화했다. stream processor의 구조가 단순화 됨에 따라 하드웨어의 크기를 크게 늘리지 않고 thread 개 수가 늘려 성능을 개선하였다. thread 개수가 늘어남에 따라 thread의 묶음인 warp을 관리하는 warp scheduler 구조를 새롭게 제안하였다. 제안하는 warp scheduler는 superscalar issue가 제거 되어 있기 때문에 warp 활성화 정보를 통해 라운드 로빈 스케쥴링을 통해 활성화 된 warp에게 명령어를 전달한다. 성능 비교는 가우시안 필터링 연산을 사용하였으며 기존의 GP-GPU의 비해 7.89배의 성능향상을 보였다.

A Fast SIFT Implementation Based on Integer Gaussian and Reconfigurable Processor

  • Su, Le Tran;Lee, Jong Soo
    • 한국정보전자통신기술학회논문지
    • /
    • 제2권3호
    • /
    • pp.39-52
    • /
    • 2009
  • Scale Invariant Feature Transform (SIFT) is an effective algorithm in object recognition, panorama stitching, and image matching, however, due to its complexity, real time processing is difficult to achieve with software approaches. This paper proposes using a reconfigurable hardware processor with integer half kernel. The integer half kernel Gaussian reduces the Gaussian pyramid complexity in about half [] and the reconfigurable processor carries out a parallel implementation of a full search Fast SIFT algorithm. We use a low memory, fine grain single instruction stream multiple data stream (SIMD) pixel processor that is currently being developed. This implementation fully exposes the available parallelism of the SIFT algorithm process and exploits the processing and I/O capabilities of the processor which results in a system that can perform real time image and video compression. We apply this novel implementation to images and measure the effectiveness. Experimental simulation results indicate that the proposed implementation is capable of real time applications.

  • PDF

The Design of a Multiplexer for Multiview Image Processing

  • Kim, Do-Kyun;Lee, Yong-Joo;Koo, Gun-Seo;Lee, Yong-Surk
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.682-685
    • /
    • 2002
  • In this paper, we defined necessary operations and functional blocks of a multiplexer for 3-D video systems and present our multiplexer design. We adopted the ITU-T's recommendation(H.222.0) to define the operations and functions of the multiplexer and explained the data structures and details of the design for multiview image processing. The data structure of TS(Transport Stream) and PES (Packetized Elementary Stream) in ITU-T Recommendation H.222.0 does not fit our multiview image processing system, because this recommendation is fur wide scope of transmission of non-telephone signals. Therefore, we modified these TS and PES stream structures. The TS is modified to DSS(3D System Stream) and PES is modified to SPDU(DSS Program Data Unit). We constructed the multiplexer through these modified DSS and SPDU. The number of multiview image channels is nine, and the image class employed is MPEG-2 SD(Standard Definition) level which requires a bandwidth of 2∼6 Mbps. The required clock speed should be faster than 54(= 6 ${\times}$ 9)㎒ which is the outer interface clock speed. The inside part of the multiplexer requires a clock speed of only 1/8 of 54㎒, since the inside part of the multiplexer operates by the unit of byte. we used ALTERA Quartus II and the FPGA verification for the simulation.

  • PDF

ALi M3330 MPEG-2 디코더 프로세서를 이용한 DVB-T PSI(Program Specific Information) 해석기 설계 (DVB-T PSI(Program Specific Information) Parser using Design of Ali M3330 MPEG-2 decoder processor)

  • 전도영;김민성;김수현;유홍연;홍성훈
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.278-280
    • /
    • 2007
  • In this paper, wd design the Program Specific Information (PSI) parser and its On-Screen Display (OSD) on the middleware of ALi M3330 MPEG-2 decoder processor to analyze DVB-T Transport Stream(TS) information. To test the functional operation of the designed parser, we implement the DVB-T test board including the RF-tuner using ALi M3330 MPEP-2 decoder processor and confirm the correct operation using the input TS stream generated by DVB-T stream generator. The developed PSI parser could be used for the test environment, various channel extension, and the development of DVB-T reception module.

  • PDF

ALi M3330 MPEG-2 디코더 프로세서 기반의 DVB-T 수신 모듈 개발 (Development of DVB-T reception module based on Ali M3330 MPEG-2 decoder processor)

  • 김민성;전도영;양소정;유홍연;홍성훈
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.169-171
    • /
    • 2007
  • This paper presents the development of DVB-T reception module including the RF-tuner. For the development of the reception module, we design the board using the ALi M3330 MPEG-2 decoder processor and implement its device driver. Simple On-Screen Display (OSD) applications are also designed on the middleware of ALi M3330 MPEG-2 decoder processor. To evaluate the performance of reception module, we test the decoding operations using the input TS stream generated by DVB-T stream generator and confirm the correctness of its functional operations.

  • PDF

이동멀티미디어 방송을 위한 미디어 처리기 설계 및 구현 (Design and implementation of a media processor for mobile multimedia broadcasting)

  • 안상우;이용주;최진수;김진웅
    • 방송공학회논문지
    • /
    • 제8권3호
    • /
    • pp.259-267
    • /
    • 2003
  • 본 논문에서는 이동 멀티미디어 방송 환경에서 대화형 서비스를 제공하기 위한 이동 멀티미디어 방송 미디어 처리기를 제안한다. 제안한 미디어 처리기는 오디오/비디오 부호화기로 MPEG-4 AVC(Advanced Video Coding) 및 MPEG-4 BSAC(Bit Sliced Arithmetic Coding) 부호화기를 사용하여, MPEG-4 IOD(Initial Object Descriptor)/OD(Object Descriptor)/BIFS(Binary Format for Scene) 데이터를 생성하는 기능, MPEG-4 AVC/BSAC 및 생성된 MPEG-4 OD/BIFS 데이터를 SL(Sync Layer) 패킷으로 캡슐화하는 기능, SL 패킷을 MPEG-2 TS(Transport Stream)로 패킷화하는 기능 및 다중화하는 기능을 지원할 수 있도록 설계하였다. 본 논문에서 제안한 이동 멀티미디어 방송 미디어 처리기는 사용자에게 MPEG-4 시스템 규격을 기반으로 대화형 서비스를 지원할 수 있다.

병렬 알고리즘의 가속화를 위한 GP-GPU의 Thread할당 기법 (Thread Distribution Method of GP-GPU for Accelerating Parallel Algorithms)

  • 이관호;김치용
    • 전기전자학회논문지
    • /
    • 제21권1호
    • /
    • pp.92-95
    • /
    • 2017
  • 본 논문에서는 적은 면적의 GP-GPU에서 성능을 향상시키기 위한 방법을 제안한다. 본 논문에서는 superscalar와 같이 과도하게 스케줄링 복잡성을 증가시키지 않는 대신 단순한 코어의 수를 늘려 성능을 극대화 시키는 방법을 제안한다. GP-GPU를 구성하는 Stream Processor의 구조를 단순화한다. 또한, Warp Schedule에서 thread 할당을 어플리케이션에 적합한 방법을 개발하여 성능을 개선한다. 성능을 검증하는 방안으로 neural network의 한 분야인 딥러닝에 대한 스레드 할당방식을 제안한다. Neural Network 알고리즘의 경우 Intel CPU 대비 90%에서 ARM Cortex-A15 4 core 대비 98% 성능 향상을 확인할 수 있었다.

지리정보시스템을 이용한 장기유출모형의 개발(II) -전.후처리 시스템 개발- (Development of a Cell-based Long-term Hydrologic Model Using Geographic Information System(II) - Pre and Post Processor Development -)

  • 최진용;정하우;김대식
    • 한국농공학회지
    • /
    • 제39권2호
    • /
    • pp.103-112
    • /
    • 1997
  • A CELTHYM(CEll-based Long-term HYdrologic Model), a pre-processor and a post-processor that can he integrated with geographic information system(GIS) were developed to predict the stream flow of a small agricultural watershed. Three kinds of routines, that are watershed boundary extraction routine(WBER), curve number calculation routine(CNR) and maximum available soil moisture calculation routine(MASR) composed pre-processor that was nicely interfaced with CELTRYM and GIS. Two kinds of routines, grapher and map composer composed post-processor that was well adapted CELTHYM output to chart making and GIS map making. The developed pre-post processor was useful for the GIS integration and spatial comprehension of the CELTHYM output.

  • PDF

직병렬 주사방식 일정장비의 신호처리기 설계 연구 (Electronic Processor Design for Thermal Imager with Serial/Parallel Scan type)

  • 송인섭;유위경;윤은석;홍영철;홍석민
    • 전자공학회논문지B
    • /
    • 제31B권1호
    • /
    • pp.49-56
    • /
    • 1994
  • This paper describes the design principles and methods of electronic processor for thermal imager with the SPRITE detector, operating in the 8-12 micron band. The thermal imager consists of a optical scanner containing the detector and an electrical signal processor. The optical scanner utilizing rotating polygon and oscillating mirror, is 2-dimensional serial/parallel scan type using 5 elements of the detector. And the electronic processor has pre-processing of 5 chnanel's thermal signal from the detector, and performs digital scan conversion to reform the parallel data stream into serial analog data compatible with conventional RS-170 video. Through the designed electronic processor, we have acquired a satisfactory thermal image. And the MRTD (Minimum Resolvable Temperature Difference) is 0.5$^{\circ}$K at 7.5 cycles/mm.

  • PDF