• Title/Summary/Keyword: Application-specific processor

Search Result 74, Processing Time 0.028 seconds

임베디드 병렬 프로세서 상에서 MMX타입 명령어의 성능평가 및 검증 (Performance Evaluation and Verification of MMX-type Instructions on an Embedded Parallel Processor)

  • 정용범;김용민;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권10호
    • /
    • pp.11-21
    • /
    • 2011
  • 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효율적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개한다. 또한, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX (MultiMedia eXtension)타입 명령어를 병렬 프로세서에 구현하여 성능을 평가하고 결과를 분석한다. 16개의 32-비트 프로세서로 구성된 병렬프로세서를 이용하여 1280x1024픽셀 이미지의 JPEG 압축 애플리케이션을 구현하고 모의 실험한 결과, 동일한 병렬프로세서 기반에서 MMX타입 명령어는 베이스라인 명령어보다 약 50%의 성능 향상을 보였다. 또한, MMX타입 명령어는 베이스라인 명령어보다 에너지 효율에서 100%, 시스템 면적 효율에서 51%의 향상을 보였다. 이러한 결과는 MMX를 포함한 멀티미디어 전용 명령어들이 현재 널리 사용되고 있는 매니코어 GPU(Graphics Processing Unit) 및 다양한 형태의 병렬프로세서에서도 잠재 가능성이 있음을 보여준다.

병렬 알고리즘의 가속화를 위한 GP-GPU의 Thread할당 기법 (Thread Distribution Method of GP-GPU for Accelerating Parallel Algorithms)

  • 이관호;김치용
    • 전기전자학회논문지
    • /
    • 제21권1호
    • /
    • pp.92-95
    • /
    • 2017
  • 본 논문에서는 적은 면적의 GP-GPU에서 성능을 향상시키기 위한 방법을 제안한다. 본 논문에서는 superscalar와 같이 과도하게 스케줄링 복잡성을 증가시키지 않는 대신 단순한 코어의 수를 늘려 성능을 극대화 시키는 방법을 제안한다. GP-GPU를 구성하는 Stream Processor의 구조를 단순화한다. 또한, Warp Schedule에서 thread 할당을 어플리케이션에 적합한 방법을 개발하여 성능을 개선한다. 성능을 검증하는 방안으로 neural network의 한 분야인 딥러닝에 대한 스레드 할당방식을 제안한다. Neural Network 알고리즘의 경우 Intel CPU 대비 90%에서 ARM Cortex-A15 4 core 대비 98% 성능 향상을 확인할 수 있었다.

ASIP을 위한 움직임 추정 전용 연산기 구조 및 명령어 설계 (Motion Estimation Specific Instructions and Their Hardware Architecture for ASIP)

  • 황성조;선우명훈
    • 대한전자공학회논문지SP
    • /
    • 제48권3호
    • /
    • pp.106-111
    • /
    • 2011
  • 본 논문은 H.264나 MPEG4등, 다양한 영상압축 코덱을 지원할 수 있는 ME ASIP의 전용 IME 명령어와 재구성 가능한 하드웨어 구조를 제안한다. 제안하는 전용의 명령어와 하드웨어 가속기는 HD급의 고화질 영상을 지원할 수 있는 성능을 가지고 있다. 제안하는 IME명령어는 다수의 병렬 연산과 패턴 정보를 이용한 연산기 제어를 통하여 전역탐색을 비롯한 각종 고속 탐색 알고리즘을 지원한다. 제안한 하드웨어 구조는 256개의 Processor Elements로 구성되어 있는 Processor Element Group (PEG) 하나당 77,860 게이트를 가진다. 16개의 PEG로 구성된 ASIP은 160MHz의 동작 주파수를 가지고 있으며, HD급 1080p의 해상도를 가지는 영상을 실시간으로 동작 시킬 수 있다.

효율적인 영상데이터 처리를 위한 SIMD기반 매니코어 프로세서 구현 (Implementation of SIMD-based Many-Core Processor for Efficient Image Data Processing)

  • 최병국;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-9
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가하면서 고성능, 저전력 멀티미디어 프로세서에 대한 필요성이 높아지고 있는 추세이다. 주문형반도체 (ASIC)는 모바일 멀티미디어에서 요구되는 고성능을 만족시키지만 다양한 형태의 멀티미디어 애플리케이션에서 요구되는 범용성을 만족시키지 못한다. 반면 DSP기반의 시스템은 범용성에 기인하여 다양한 형태의 애플리케이션에서 사용될 수 있으나, 주문형반도체 보다 높은 가격, 전력소모 및 낮은 성능을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 범용성을 유지하면서 고성능, 저전력으로 영상데이터 처리가 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)처리 방식의 매니코어 프로세서를 제안한다. 제안한 SIMD기반 매니코어 프로세서는 16개의 프로세싱 엘리먼트(processing element, PE)로 구성되어 영상데이터 처리에 내재한 무수한 데이터 레벨 병렬성을 높인다. 모의 실험한 결과, 제안한 SIMD기반 매니코어 프로세서는 현재 상용 고성능 프로세서보다 평균 22배의 성능, 7배의 에너지 효율 및 3배의 시스템 면적 효율을 보였다.

임베디드 시스템에 적합한 듀얼 모드 의사 난수 생성 확장 모듈의 설계 (Dual-mode Pseudorandom Number Generator Extension for Embedded System)

  • 이석한;허원;이용석
    • 대한전자공학회논문지SD
    • /
    • 제46권8호
    • /
    • pp.95-101
    • /
    • 2009
  • 난수 생성 함수는 소프트웨어를 사용한 시뮬레이션 테스트나 통신 프로토콜 검증 등 수많은 어플리케이션에 사용되어진다. 이런 상황에서 난수의 randomness는 사용 어플리케이션에 따라서 다르게 필요할 수 있다. 반드시 randomness가 보장된 랜덤 함수를 통한 고품질의 난수를 생성해야 할 때가 있고, 단지 난수와 비슷한 형태를 가진, randomness가 보장되지 않은 난수가 필요할 때도 있다. 본 논문에서는 고속으로 동작하는 임베디드 시스템을 위한 듀얼 모드로 동작하는 하드웨어 난수 생성기를 제안하였다. 모드 1 에서는 높은 randomness를 가지는 난수를 6사이클마다 한 번씩 생성하게 되며, 모드 2 에서는 낮은 randomness를 가지는 난수를 매 사이클마다 생성할 수 있다. 테스트를 위해, ASIP(Application Specific Instruction set Processor)를 설계하였으며, 각 모드에 맞는 명령어 세트를 설계하였다. ASIP은 LISA언어를 사용하여, 5 stage MIPS architecture를 기반으로 설계되었고, CoWare 사의 Processor Generator를 통해서 HDL코드를 생성하였으며, HDL 모델은 동부 0.18um 공정으로 Synopsys사의 Design Compiler를 통해서 합성되었다. 설계되어진 ASIP으로 난수를 생성한 결과, 하드웨어 모듈을 추가하기 전에 비해 2.0%의 면적 증가 및 239%의 성능 향상을 보였다.

다빈치 기반 스마트 카메라 S/W 설계 및 구현 (Design and Inplementation of S/W for a Davinci-based Smart Camera)

  • 유희재;정선태;정수환
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2008년도 춘계 종합학술대회 논문집
    • /
    • pp.116-120
    • /
    • 2008
  • 스마트 카메라는 종래의 획득한 영상을 압축하여 전송하는 네트워크 카메라 기능에 더하여, 획득한 영상을 해석하여 상황을 인지하고 이에 따른 실시간 조치가 가능한 지능 비젼 기능을 추가적으로 갖춘 카메라이다. 지능 비젼 알고리즘들은 연산량이 많다. 따라서 싱글 CPU로 영상을 압축하고 전송하는 일 뿐만 아니라 지능 비젼 처리까지 모두 실시간으로 처리하기에는 무리가 있다. Texas Instruments 사가 제공하는 다빈치 프로세서는 ARM 코어와 DSP 코어의 듀얼 코어이며 네트워킹 인터페이스 및 비디오 획득 인터페이스를 비롯하여 디지털 비디오 응용 임베디드 제품 개발에 필요한 다양한 I/O을 지원하는 인기 있는 ASSP(Application Specific Standard Product)이다. 본 논문에서는 다빈치 프로세서 기반 스마트 카메라의 S/W 를 설계하고 구현한 결과를 기술한다. 얼굴 검출 응용을 예로 구현하였고 동작이 잘 수행됨을 확인하였다. 향후 보다 광범위하고 실시간으로 동작되는 비젼 기능이 지원되는 스마트 카메라 개발을 위해 보다 효율적인 비젼 응용 S/W 구조와 알고리즘의 최적화에 대한 연구가 필요하다.

  • PDF

Converting Interfaces on Application-specific Network-on-chip

  • Han, Kyuseung;Lee, Jae-Jin;Lee, Woojoo
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제17권4호
    • /
    • pp.505-513
    • /
    • 2017
  • As mobile systems are performing various functionality in the IoT (Internet of Things) era, network-on-chip (NoC) plays a pivotal role to support communication between the tens and in the future potentially hundreds of interacting modules in system-on-chips (SoCs). Owing to intensive research efforts more than a decade, NoCs are now widely adopted in various SoC designs. Especially, studies on application-specific NoCs (ASNoCs) that consider the heterogeneous nature of modern SoCs contribute a significant share to use of NoCs in actual SoCs, i.e., ASNoC connects non-uniform processing units, memory, and other intellectual properties (IPs) using flexible router positions and communication paths. Although it is not difficult to find the prior works on ASNoC synthesis and optimization, little research has addressed the issues how to convert different protocols and data widths to make a NoC compatible with various IPs. Thus, in this paper, we address important issues on ASNoC implementation to support and convert multiple interfaces. Based on the in-depth discussions, we finally introduce our FPGA-proven full-custom ASNoC.

패킷 프로세싱을 위한 새로운 명령어 셋에 관한 연구 (A Novel Instruction Set for Packet Processing of Network ASIP)

  • 정원영;이정희;이용석
    • 한국통신학회논문지
    • /
    • 제34권9B호
    • /
    • pp.939-946
    • /
    • 2009
  • 본 논문에선 기계 기술 언어(machine descriptions language)인 LISA(Language for Instruction Set Architecture)를 통하여 시뮬레이션 모델로 설계한 새로운 네트워크 ASIP(Application Specific Instruction-set Processor)을 제안한다. 제안한 네트워크 ASIP은 라우터(router)에서 패킷 프로세싱을 담당하는 전용엔진을 목적으로 설계되었다. 이를 위해 MIPS(Microprocessor without Interlock Pipeline Stages) 아키텍처를 기반으로 한 일반적인 ASIP에 패킷을 빠른 속도로 처리하기 위해 필요한 새로운 명령어 셋을 추가하였다. 새로 추가된 명령어 셋은 "classification" 명령어 그룹과 "modification" 명령어 그룹으로 나눌 수 있으며, 각 그룹은 실행 단계(execution stage)에 위치한 각각의 기능 유닛(function unit)에 의해서 처리된다. 그리고 각각의 기능 유닛은 Verilog HDL을 통해 면적과 속도 측면에서 최적화하였으며, 이를 합성하여 면적과 동작 지연시간을 비교하였다. 또한 CKF(Compiler Known Function)을 이용하여 C 언어 레벨의 매크로 함수에 할당하였으며, 어플리케이션 프로그램에 대한 실행 싸이클을 비교 분석하여 성능 향상을 확인하였다.

한국형 방송 프로그램 시스템 디코더 ASSP의 개발 (Assistant Professor, Department of Computer Engineering Pukyong Universisty)

  • 조경연
    • 한국정보처리학회논문지
    • /
    • 제3권5호
    • /
    • pp.1229-1239
    • /
    • 1996
  • TV 방송의 부가적인 정보 제공이 활발해지면서 그래픽 중첩 프로세서에 대한 요구가 증대되고 있다. 본 논문에서는 한국형 방송 프로그램 시스템 (Korea Broadcast Programming System: KBPS) 표준안을 만족시키는 KBPS 디코더 ASSP(Application Specific Standard Product)를 설계하고 제작하여 기능을 검증 한다. KBPS 디코더 ASSP는 8 비트 마이크 로프로세서 Z80을 내장하며 그래픽 중첩 제어기, KBPS 스케쥴 디코더, 메모리 제어기, 우선 순위 인터럽트 제어기, 미디 제어기, 적외선 리모콘 수신기, 비동기직렬 통신 제어기, 타이머, 버스 제어기, 범용 병렬 입출력 포트 및 직병렬 인터페이스로 구성한다. 설계한 칩은 0.8 미크론 CMOS 게이트 어레이로 제작하였으며, 약 31,500 게이트가 소요되었고, 14.318MHz 에서 정상 동작하였다.

  • PDF

최적화된 에너지 소비를 위한 코드 생성 기술 (Code Generation Techniques for the Optimized Energy Consumption)

  • 고광만;소경영
    • 한국콘텐츠학회논문지
    • /
    • 제8권12호
    • /
    • pp.63-71
    • /
    • 2008
  • 최근 임베디드 시스템의 폭넓은 보급은 응용 소프트웨어 개발과 더불어 임베디드 소프트웨어 개발 도구의 필요성 및 중요성이 강조되고 있으며 임베디드 소프트웨어를 위한 컴파일러의 개발을 동시에 요구하고 있다. 특히, 임베디드 프로세서를 탑재한 모바일 장치에서는 제한된 전력/에너지의 하드웨어적인 관리 못지않게 소프트웨어적인 관리 기술의 중요성이 강조되고 있다. 본 논문에서는 검증된 재목적 컴파일러 후단부 도구인 EXPRESSION을 통해 최적화된 에너지 소비를 고려한 MIPS 코드 생성 기술을 제안하였다. 이를 위해, 효율적인 MIPS 코드 생성을 위한 코드 생성 규칙을 기술하였으며 생성된 코드에 대한 다양한 성능분석 결과를 제시한다.