• 제목/요약/키워드: Application-specific processor

검색결과 75건 처리시간 0.026초

H.264 on-chip encoder를 위한 programmable processor 성능 향상 (Performance Improvement of the programmable processor designed for H.264 on-chip encoder)

  • 이진용;김경원;허인구;박상현;김용주;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.19-20
    • /
    • 2009
  • H.264 부호기의 on-chip 상의 구현방법으로는 성능에 중점을 둔 ASIC (application specific integrated circuit) 기반의 접근 방식과 ASIC 보다 성능은 떨어지나 일반성과 유연성에 중점을 둔 ASIP (application specific instruction set architecture) 기반의 설계 방식이 연구되어 왔다. 우리는 영상 압축 응용 범위 내에서는 일반성 및 유연성을 잃지 않으면서도 기존에 문제시 되던 ASIP의 성능은 대폭 개선할 수 있는 ISA와 micro architecture를 제안하고 구현한 바 있다. 본 논문의 핵심적인 기여는 이 ASIP의 추가적인 성능 개선이다.

Application에 최적의 ASIP 설계를 위한 효율적인 Architecture Exploration 방법 (An Efficient Architecture Exploration Method for Optimal ASIP Design)

  • 이성래;황선영
    • 한국통신학회논문지
    • /
    • 제32권9C호
    • /
    • pp.913-921
    • /
    • 2007
  • 프로세서에 따라 수행 가능한 코드를 생성하는 retargetable 컴파일러와 성능 프로파일러는 어플리케이션에 최적화된 프로세서 디자인에 있어 필수적이다. 본 논문은 ADL (Architecture Description Language)에 기반한 architecture exploration 방법을 제시한다. 어플리케이션 프로그램에서 얻어낸 정보로부터 인스트럭션 합성과 프로세서 구조를 최적화 하였다. 어플리케이션에서 많이 사용되는 연산과 레지스터 사용에 대한 정보는 프로세서 최적화를 위해 사용되었다. 시스템의 효용성을 보이기 위해 JPEG 인코더에 대한 architecture exploration을 수행하였다. 제안된 방법을 사용해 설계된 ASIP은 초기 프로세서에 비해 약 1.97배의 성능을 가지는 것으로 측정되었다.

DSP영 ASIP을 위한 특수 명령어 생성 기법 (Techniques for special instruction generation for DSP ASIP)

  • 김홍철;황승호
    • 전자공학회논문지C
    • /
    • 제35C권7호
    • /
    • pp.1-10
    • /
    • 1998
  • The first thing in designing application-specific instruction set processor is having instruction set closely matching hardware characteristics. This instruction set design problem can be more complicated when cobined with implementation method selection problem of each instruction. Our processor model supports two kinds of instructions-primitive or special instructions. Primitive instructions are implemented using common multifunctional hardware such as ALU. Special instructions require a set of dedicated hardware, which actually functions as a coprocessor to the main processor. In this case, special instructions and primitive instructions can be executed independently. In this paper, we present novel algorithm for genrating special instructions for given application. Parallelism between special instructions and primitive instructions is also considered during the performance estimation stage of generated special instructions.

  • PDF

움직임 추정 전용 프로세서를 위한 효율적인 루프 가속기 (Efficient Loop Accelerator for Motion Estimation Specific Instruction-set Processor)

  • 하재명;정호선;선우명훈
    • 전자공학회논문지
    • /
    • 제50권7호
    • /
    • pp.159-166
    • /
    • 2013
  • 본 논문은 움직임 추정 전용 프로세서를 위한 효율적인 루프 가속기를 제안한다. 실제로 움직임 추정 알고리즘은 복잡하고 다양한 순환 명령어들을 포함하고 있다. 본 논문에서는 효율적인 하드웨어 루프 명령어들을 지원하기 위해서, 네 개의 루프 명령어와 그에 따른 하드웨어 구조를 소개한다. 검증 결과 제안된 루프 가속기가 early-termination을 이용한 움직임 추정 시 비교명령어와 조건부 점프명령어를 갖고 있는 전형적인 구현 방법과 비교했을 때 평균 명령어 사이클 수를 약 29% 줄일 수 있다는 것을 보여준다. 제안된 움직임 추정 전용 프로세서 루프 가속기는 프로그램 메모리의 접근 빈도를 상당히 줄일 수 있고, 전력 소모를 많이 절약할 수 있다. 따라서, 제안된 루프 가속기는 전력 소모가 적고, 유연한 움직임 추정에 적합하다.

Multi Parallel GAP(Genetic Algorithm Processor)를 이용한 회전 불변 패턴 인식에의 응용 (Application of Multi Parallel GAP to Rotation-Invariant Pattern Recognition)

  • 조민석;허인수;이주환;정덕진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.29-32
    • /
    • 2001
  • In this paper, we applied the high-performance PGAP(Parallel Genetic Algorithm Processor) to recognizing rotated pattern. In order to perform this research efficiently, we used Multi-PGAP system consisted of four PGAP. In addition, we used mental rotation based on the rotated pattern recognition mechanism of human to reduce the number of operation. Also, we experimented with distinguishing specific pattern from similar coin patterns and determine rotated angle between patterns. The result showed that the development of future artificial recognition system is feasible by employing high performance PGAPS.

  • PDF

Code Generation and Optimization for the Flow-based Network Processor based on LLVM

  • Lee, SangHee;Lee, Hokyoon;Kim, Seon Wook;Heo, Hwanjo;Park, Jongdae
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.42-45
    • /
    • 2012
  • A network processor (NP) is an application-specific instruction-set processor for fast and efficient packet processing. There are many issues in compiler's code generation and optimization due to NP's hardware constraints and special hardware support. In this paper, we describe in detail how to resolve the issues. Our compiler was developed on LLVM 3.0 and the NP target was our in-house network processor which consists of 32 64-bit RISC processors and supports multi-context with special hardware structures. Our compiler incurs only 9.36% code size overhead over hand-written code while satisfying QoS, and the generated code was tested on a real packet processing hardware, called S20 for code verification and performance evaluation.

ASIP를 이용한 다중 비디오 복호화기 설계 및 최적화 (Design and Optimization of Mu1ti-codec Video Decoder using ASIP)

  • 안용조;강대범;조현호;지봉일;심동규;엄낙웅
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.116-126
    • /
    • 2011
  • 본 논문은 다양한 비디오 표준의 복호화가 가능한 프로세서를 설계하고, MPEG-2, MPEG-4 및 AVS(Audio video standard)를 이용하여 프로세서의 성능을 검증하였다. 일반적으로 하드웨어 비디오 복호화기는 고속의 복호가 가능하나 설계 및 수정이 어렵다. 반면, 소프트웨어기반의 경우에는 구현이 상대적으로 수월하고 수정이 용이하나, 동작 성능이 낮아 기대하는 속도를 얻기 어렵다. 본 연구에서는 두 가지 연구 설계방법의 장점을 동시에 충족시키는 방법으로 ASIP(Application specific instruction-set processor) 프로세서를 설계하였다. 또한, 비디오 복호화기의 공통 모듈을 연구하여 8개의 모듈로 나누었고, 각 모듈에 공통적으로 적용할 수 있는 다수의 멀티미디어 전용 명령어를 프로세서에 추가하였다. 비디오 복호화기를 위해 개발된 프로세서는 Synopsys 플랫폼 시뮬레이터와 FPGA 보드에서 성능을 평가하였다. 결과적으로 MPEG-2, MPEG-4 및 AVS에 적용하여 평균 37%의 복호 속도를 향상시켰다.

DEVS 형식론을 이용한 다중프로세서 운영체제의 모델링 및 성능평가

  • 홍준성
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 1994년도 추계학술발표회 및 정기총회
    • /
    • pp.32-32
    • /
    • 1994
  • In this example, a message passing based multicomputer system with general interdonnedtion network is considered. After multicomputer systems are developed with morm-hole routing network, topologies of interconecting network are not major considertion for process management and resource sharing. Tehre is an independeent operating system kernel oneach node. It communicates with other kernels using message passingmechanism. Based on this architecture, the problem is how mech does performance degradation will occur in the case of processor sharing on multicomputer systems. Processor sharing between application programs is veryimprotant decision on system performance. In almost cases, application programs running on massively parallel computer systems are not so much user-interactive. Thus, the main performance index is system throughput. Each application program has various communication patterns. and the sharing of processors causes serious performance degradation in hte worst case such that one processor is shared by two processes and another processes are waiting the messages from those processes. As a result, considering this problem is improtant since it gives the reason whether the system allows processor sharingor not. Input data has many parameters in this simulation . It contains the number of threads per task , communication patterns between threads, data generation and also defects in random inupt data. Many parallel aplication programs has its specific communication patterns, and there are computation and communication phases. Therefore, this phase informatin cannot be obtained random input data. If we get trace data from some real applications. we can simulate the problem more realistic . On the other hand, simualtion results will be waseteful unless sufficient trace data with varisous communication patterns is gathered. In this project , random input data are used for simulation . Only controllable data are the number of threads of each task and mapping strategy. First, each task runs independently. After that , each task shres one and more processors with other tasks. As more processors are shared , there will be performance degradation . Form this degradation rate , we can know the overhead of processor sharing . Process scheduling policy can affects the results of simulation . For process scheduling, priority queue and FIFO queue are implemented to support round-robin scheduling and priority scheduling.

  • PDF

가야금의 실시간 음 합성을 위한 멀티코어 프로세서 구현 (Multi-Core Processor for Real-Time Sound Synthesis of Gayageum)

  • 최지원;조상진;김철홍;김종면;정의필
    • 정보처리학회논문지A
    • /
    • 제18A권1호
    • /
    • pp.1-10
    • /
    • 2011
  • 물리적 모델링은 실제 악기음과 유사한 고음질의 음을 합성하는 방법으로 많은 연구가 진행되어 왔다. 그러나 물리적 모델링은 악기의 소리를 합성할 때 필요한 수많은 파라미터들을 동시에 계산해야 하기 때문에 동시 발음수가 높은 악기의 경우 실시간 처리에 문제가 발생할 수 있다. 이러한 문제를 해결하기 위해 본 논문에서는 전통 현악기인 가야금의 음 합성 알고리즘을 실시간으로 처리 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD) 방식의 멀티코어 프로세서를 제안한다. 제안하는 SIMD기반 멀티코어 프로세서는 가야금의 12개현을 제어하기 위해 12개의 프로세싱 엘리먼트(Processing Element, PE)로 구성되어 있다. 각각의 프로세싱 엘리먼트는 해당되는 가야금 현을 모델링하며, 각 현의 여기신호와 파라미터를 음 합성 병렬 알고리즘의 입력으로 받아 동시에 12개 현의 합성된 음을 실시간으로 생성할 수 있다. 표본화 비율을 44.1kHz로 설정하고 16비트 양자화 데이터의 음을 합성한 모의실험 결과, 제안한 SIMD기반 멀티코어 프로세서를 이용한 합성음은 원음과 매우 유사하였으며, 상용 프로세서(TI TMS320C6416, ARM926EJ-S, ARM1020E)보다 실행 시간에서 5.6~11.4배, 에너지 효율에서 553~1,424배의 향상을 보였다.

SAD 연산의 가속을 위한 멀티미디어 코프로세서 구현 (Implemenation of an ASIP for acceleration SAD operation)

  • 조정현;정하영
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.809-810
    • /
    • 2006
  • An H.264 algorithm is commonly used for video compression applications. This algorithm requires a large number of data computations, for example, the sum of absolute difference (SAD) operation. We analyzed H.264 reference encoding workloads. The H.264 encoding program has 8.78% SAD operation. The SAD operation is to sum up 16 difference-values in H.264 $4{\times}4$ sub-blocks. In order to accelerate SAD operations, we implemented an application specific instruction-set processor (ASIP) that can execute SAD and data transfer instructions. The proposed coprocessor has an absolute value generator and a carry save adder (CSA) unit to sum up 8 difference-values per one clock cycle. We completed SAD operation in 2 clock cycles. Experimental results show that the performance is improved by 34% of total execution time.

  • PDF