• 제목/요약/키워드: SIMD instruction

검색결과 81건 처리시간 0.029초

멀티미디어 데이타 처리를 위한 그래픽 프로세서 설계 (Design of a Graphic Processor for Multimedia Data Processing)

  • 고익상;한우종;선우명동
    • 전자공학회논문지C
    • /
    • 제36C권10호
    • /
    • pp.56-65
    • /
    • 1999
  • 본 논문은 그래픽 프로세서(Graphic Coprocessor: GCP)의 설계 및 구현에 대해 기술한다. 설계된 그래픽 프로세서는 멀티미디어 서버용 프로세서의 그래픽 전용 프로세서로 사용 가능하다. GCP 명령어 집합은 멀티미디어 데이타의 병렬성을 이용하기 쉬운 SIMD 및 Superscalar 등의 병렬 아키텍쳐 개념을 적용하여 설계하였다. 설계된 GCP는 4개의 주 프로세서에 의해 공유되는 형태이며 공유에 따른 명령어의 병목현상을 해결하기 위한 스케줄러와 연산을 위한 4개의 기능 유니트를 내장하고 있다. 최대 4개 명령어의 동시 수행이 가능한 GCP는 Verilog HDL로 모델링하고 논리 합성하였다 약 56,000개의 게이트로 구성되는 GCP는 SOG 라이브러리의 제약으로 인하여 30 ㎒로 동작하며 CIF 영상 규격에 대해 초당 63 프레임의 DCT 연산 및 초당 21 프레임의 FBMA 연산을 수행 할 수 있다.

  • PDF

휴대 멀티미디어 응용을 위한 DSP 칩 설계 및 구현 (Design and Implementation of a DSP Chip for Portable Multimedia Applications)

  • 윤성현;선우명훈
    • 전자공학회논문지C
    • /
    • 제35C권12호
    • /
    • pp.31-39
    • /
    • 1998
  • 본 논문은 휴대 멀티미디어 응용을 위한 고정 소수점 DSP(Multimedia Fixed-point DSP : MDSP) 칩 설계 및 구현에 관해 기술한다. MDSP는 멀티미디어 처리에 효율적인 명령어 집합을 가지며 SIMD, 벡터프로세싱의 병렬처리 기술과 DSP 기술의 장점을 접목하여 설계되었다. MDSP는 한 개의 데이터 경로가 목적에 따라 여러 개로 분할될 때 8, 16, 32, 40 비트 등의 다양한 데이터 형태의 처리가 가능하며, 멀티미디어 응용영역에서 핵심적인 역할을 하는 MAC 연산을 한 사이클에 2개를 수행하여 성능을 향상시킨다. 새롭게 제안된 스위칭 네트워크와 Packing 네트워크는 MPEG 디코딩, 인코딩, 콘볼루션 등의 알고리즘 처리시 연산과 데이터 변환을 중첩시켜 성능을 향상시킨다. Verilog HDL 모델을 구현하였고 0.6 ㎛ SOG 라이브러리(KG75000)를 이용하여 논리합성 및 시뮬레이션 하였다. 전체 게이트 수는 68,831개이며 MDSP는 30MHz에 동작한다.

  • PDF

멀티쓰레드와 SIMD 명령어를 이용한 실시간 H.264/AVC High 4:4:4 Predictive 디코더의 구현 (Real-time H.264/AVC High 4:4:4 Predictive Decoder Using Multi-Thread and SIMD Instructions)

  • 김용환;김재우;최병호;이석필;백준기
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2007년도 학술대회
    • /
    • pp.350-353
    • /
    • 2007
  • This paper presents an real-time implementation of H.264/AVC High 4:4:4 Predictive profile decoder using general-purpose processors by exploiting multi-threading technique and Single Instruction Multiple Data (SIMD) instructions without any quality degradation. We analyze differences between the existing High profile and High 4:4:4 Predictive profile decoder, and show various optimization techniques to decode high fidelity and high definition (HD) video in real-time. Simulation results show that the proposed decoder can play high fidelity HD video at average 40 frames per seconds (fps) for the IBBrBP bistream and about 50 fps for the Intra-only bitstream.

  • PDF

SIMD를 이용한 영상의 고속 이진화에 관한 연구 (A Study on High-speed Image Binarization Using SIMD)

  • 김두식;이상호;김병근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.775-778
    • /
    • 2002
  • 영상 이진화란 명도 영상(gray-scaled image)을 이진 영상(bi-leveled image)으로 변환하는 것을 말한다. 영상 이진화는 문서 인식, 비디오 영상 분석 등과 같이 영상처리 분야에서 많이 사용되는 기본적인 영상 처리 과정에 해당한다. 본 논문은 Intel 사의 Pentium 계열 프로세서에서 지원하는 SIMD(Single-Instruction Multiple-Data) 기술을 이용하여 영상 이진화를 고속으로 수행하는 방법을 소개한다. 우편영상에 대하여 실험한 결과, SSE2 명령어로 구현된 프로그램은 기존의 C 언어로 구현된 프로그램에 비하여 4배 이상의 속도 향상을 보였다.

  • PDF

High Performance Implementation of SGCM on High-End IoT Devices

  • Seo, Hwajeong
    • Journal of information and communication convergence engineering
    • /
    • 제15권4호
    • /
    • pp.212-216
    • /
    • 2017
  • In this paper, we introduce novel techniques to improve the high performance of AE functions on modern high-end IoT platforms (ARM-NEON), which support SIMD and cryptography instruction sets. For the Sophie Germain Counter Mode of operation (SGCM), counter modes of encryption and prime field multiplication are required. We chose the Montgomery multiplication for modular multiplication. We perform Montgomery multiplication in a parallel way by exploiting both the ARM and NEON instruction sets. Specifically, the NEON instruction performed 128-bit integer multiplication and the ARM instruction performed Montgomery reduction, simultaneously. This approach hides the latency for ARM in the NEON instruction set. For a high-speed counter mode of encryptions for both AE functions, we introduced two-level computations. When the tasks were large volume, we switched to the NEON instruction to execute the encryption operations. Otherwise, we performed the encryptions on the ARM module.

모바일 멀티미디어의 효율적 처리를 위한 재구성형 병렬 프로세서의 구조 (A Reconfigurable Parallel Processor for Efficient Processing of Mobile Multimedia)

  • 유세훈;김기철;양일석;노태문
    • 대한전자공학회논문지SD
    • /
    • 제44권10호
    • /
    • pp.23-32
    • /
    • 2007
  • 본 논문에서는 3D 그래픽스(graphics), H.264/H.263/MPEG-4 같은 동영상 코덱, JPEG 혹은 JPEG2000 같은 정지영상 코덱, MP3 같은 오디오 코덱 등 다양한 멀티미디어 관련 기술을 효율적으로 구현하기 위한 재구성형 병렬 프로세서 구조가 제안된다. 제안된 구조는 메모리와 프로세서를 직접 연결하여 메모리 접근 시간과 소비전력를 감소시키고, 3D 그래픽스 처리 과정중 기하 단계의 부동소수점 연산을 지원한다. 또한 분할 SIMD(partitioned SIMD) 방식을 사용하여 하드웨어 비용을 줄이고, 명령어(instruction)의 조건부 실행(conditional execution)을 지원하여 알고리듬 개발이 용이하다.

모바일 초음파 영상신호의 빔포밍 알고리즘을 위한 멀티코어 프로세서 구현 (Implementation of Multi-Core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권2호
    • /
    • pp.45-52
    • /
    • 2011
  • 과거에는 환자가 초음파 영상진단장치가 설치되어 있는 방에 가서 진단을 받았지만, 현재는 의사가 초음파 영상 진단장치를 가지고 이동하면서 환자를 진단(모바일 초음파, handheld ultrasound)할 수 있는 시대가 왔다. 그러나 초음파 영상진단장치로서의 기본적인 기능만을 구현하였으며, 초음파 영상의 질을 결정하는 초음파 빔의 포커싱 알고리즘에서 요구되는 고성능을 만족하지 못하는 실정이다. 또한 모바일 기기의 경우 저전력의 요구조건도 만족하여야 한다. 이를 위해 본 논문에서는 모바일 초음파 영상신호의 포커싱을 위한 방법 중 대표적인 빔포밍 알고리즘(Beamforming Algorithm)을 고성능, 저전력으로 처리 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)기반의 멀티코어 프로세서를 제안한다. 제안한 SIMD기반 멀티코어 프로세서는 16개의 프로세싱 엘리먼트(Processing Element, PE)로 구성되어 있으며, 초음파의 에코 영상데이터에 내재한 무수한 데이터 레벨 병렬성을 활용하여 빔포밍 알고리즘에서 요구되는 고성능을 만족시킨다. 모의실험 결과, 제안한 멀티코어 프로세서는 현재 상용 고성능 프로세서인 TI DSP C6416보다 평균 15.8배의 성능, 6.9배의 에너지 효율 및 10배의 시스템 면적 효율을 보였다.

MMX를 이용한 H.264 인코더 성능 개선 (Improvement of H.264 Encoder Using MMX)

  • 김상호;이준환;이상범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.729-730
    • /
    • 2006
  • multimedia applications has been targeted for exploiting single instruction multiple data extensions to instruction architectures for the most of the modern microprocessor. In this paper, the newest video coding standard, H.264/AVC baseline profile decoder has been implemented and optimized exploiting INTEL MMX technology to show the overall system speedup by the SIMD style coding

  • PDF

임베디드 병렬 프로세서를 위한 칼라미디어 명령어 구현 (Color Media Instructions for Embedded Parallel Processors)

  • 김철홍;김종면
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권7호
    • /
    • pp.305-317
    • /
    • 2008
  • 최근 모바일 컴퓨팅 환경의 변화로 멀티미디어 데이타의 고성능, 저전력 처리에 대한 수요가 증가하고, 프로세서에 있어서 멀티미디어 전용 가속기 기능의 중요성이 크게 부각되고 있다. 이에 본 논문은 고성능, 저전력 멀티미디어 처리를 위한 SIMD 병렬 프로세서용 칼라미디어 명령어를 제안한다. 기존의 범용 마이크로프로세서 전용 멀티미디어 명령어 (e.g., MMX, VIS, AltiVec)는 4개의 8 비트 픽셀을 32 비트 레지스터에 저장하고 처리하는 반면에, 제안하는 칼라미디어 명령어는 인간의 시각이 칼라에 덜 민감한 점을 고려하여 32비트 데이타패스 아키텍처에서 두 쌍 (6개의 픽셀)의 압축된 16비트 YCbCr (6비트 Y, 5비트 Cb와 Cr) 데이타를 32비트 레지스터에 저장하고 동시에 처리함으로써 YCbCr 데이타 처리에서 높은 병렬성과 효율성을 보여준다. 또한 칼라미디어 명령어는 데이타 포맷 사이즈를 줄임으로써 전체시스템의 비용을 절감할 뿐만 아니라 데이타 대역폭의 감소로 시스템 디자인을 간소화한다. SIMD 병렬 프로세서 아키텍처에서 모의 실험한 결과, 칼라미디어 명령어 기반 프로그램은 baseline 명령어 프로그램보다 평균 6.3배 성능향상을 보여준다. 반면, Intel의 대표적인 멀티미디어 명령어인 MMX 기반 프로그램은 동일한 SIMD 병렬 프로세서에서 baseline 명령어 프로그램보다 단지 3.7배 성능향상을 나타낸다. 또한, 칼라미디어 명령어는 MMX보다 시스템 면적 효율 (52% 증가 대비 13% 증가)과 시스템 전력 효율 (50% 증가 대비 11% 증가)에서 우수성을 보여준다. 칼라미디어 명령어는 이러한 성능과 효율을 단지 3%의 시스템 면적과 5%의 시스템 전력의 증가로 얻는 반면, MMX는 14%의 시스템 면적과 16%의 시스템 전력증가가 요구된다.

Content-Addressable Memory를 이용한 확장 가능한 범용 병렬 Associative Processor 설계 (Design of a scalable general-purpose parallel associative processor using content-addressable memory)

  • 박태근
    • 대한전자공학회논문지SD
    • /
    • 제43권2호
    • /
    • pp.51-59
    • /
    • 2006
  • 일반 컴퓨터에서 중앙처리장치와 메모리 사이의 병목현상인 "Von Neumann Bottleneck"을 보이는데 본 논문에서는 이러한 문제점을 해소하고 검색위주의 응용분야에서 우수한 성능을 보이는 Content-addressable memory(CAM) 기반의 확장 가능한 범용 Associative Processor(AP) 구조를 제안하였다. 본 연구에서는 Associative computing을 효율적으로 수행할 수 있는 명령어 세트를 제안하였으며 다양하고 대용량 응용분야에도 적용할 수 있도록 구조를 확장 가능하게 설계함으로써 유연한 구조를 갖는다. 12 가지의 명령어가 정의되었으며 프로그램이 효율적으로 수행될 수 있도록 명령어 셋을 구성하고 연속된 명령어를 하나의 명령어로 구현함으로써 처리시간을 단축하였다. 제안된 프로세서는 bit-serial, word-parallel로 동작하며 대용량 병렬 SIMD 구조를 갖는 32 비트 범용 병렬 프로세서로 동작한다. 포괄적인 검증을 위하여 명령어 단위의 검증 뿐 아니라 최대/최소 검색, 이상/이하 검색, 병렬 덧셈 등의 기본적인 병렬 알고리즘을 검증하였으며 알고리즘은 처리 데이터의 개수와는 무관한 상수의 복잡도 O(k)를 갖으며 데이터의 비트 수만큼의 이터레이션을 갖는다.