• Title/Summary/Keyword: 명령어 집합 구조

Search Result 25, Processing Time 0.024 seconds

Parallel Branch Instruction Extension for Thumb-2 Instruction Set Architecture (Thumb-2 명령어 집합 구조의 병렬 분기 명령어 확장)

  • Kim, Dae-Hwan
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.7
    • /
    • pp.1-10
    • /
    • 2013
  • In this paper, the parallel branch instruction is proposed which executes a branch instruction and the frequently used instruction simultaneously to improve the performance of Thumb-2 instruction set architecture. In the proposed approach, new 32-bit parallel branch instructions are introduced which combine 16-bit branch instruction with each of the frequently used 16-bit LOAD, ADD, MOV, STORE, and SUB instructions, respectively. To provide the encoding space of the new instructions, the register field in less frequently executed instructions is reduced, and the new instructions are encoded by using the saved bits. Experiments show that the proposed approach improves performance by an average of 8.0% when compared to the conventional approach.

Implementation of Fast HEVC Inverse Transform using AVX2 Instruction Set (AVX2 명령어 집합을 이용한 고속 HEVC 역-변환 구현)

  • Mok, Jung-Soo;Ma, Jonghyun;Ahn, Yong-Jo;Sim, Donggyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.552-554
    • /
    • 2015
  • 본 논문은 AVX2 (Advanced Vector eXtension 2) 명령어 집합을 이용하여 HEVC (High Efficiency Video Coding) 복호화기의 역-변환 모듈을 고속화하는 방법을 제안한다. AVX2 명령어 집합은 256 비트 레지스터를 사용하여 다수의 데이터를 한번의 명령을 통해 병렬적으로 연산할 수 있으며 반복적인 산술 연산 혹은 논리 연산 구조에서 효율적이다. 제안하는 방법은 AVX2 명령어 집합을 이용하여 $8{\times}8{\sim}32{\times}32$ 크기의 TU (Transform Unit) 단위로 수행되는 역-변환 연산을 행렬의 곱 형태로 연산하여 고속화하였다. 실험 결과 AVX2 명령어 집합을 이용한 역-변환 연산은 Chen 알고리즘에 비해 평균 51% 속도 향상을 보였으며 SSE (Streaming SIMD Extension) 명령어 집합을 이용한 연산에 비해 평균 20%의 속도 향상 결과를 얻을 수 있었다.

  • PDF

AMEX: Extending Addressing Mode of 16-bit Thumb Instruction Set Architecture (AMEX: 16비트 Thumb 명령어 집합 구조의 주소 지정 방식 확장)

  • Kim, Dae-Hwan
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.11
    • /
    • pp.1-10
    • /
    • 2012
  • In this paper, the extension of the addressing mode in the 16-bit Thumb instruction set architecture is proposed to improve the performance of 16-bit Thumb code. The key idea of the proposed approach is the introduction of new addressing modes for more frequent instructions by using the saved bits from the reduction of the register fields in less frequently used instructions. The proposed approach adopts efficient addressing modes from the 32-bit ARM architecture, which is the superset of the 16-bit Thumb architecture. To speed up access to a data list, scaled register offset addressing mode and post-indexed addressing mode are introduced for load and store instructions. Experiments show that the proposed approach improves performance by an average of 8.5% when compared to the conventional approach.

ARM Instruction Set Architecture Analysis for Binary Analysis (바이너리 분석을 위한 ARM 명령어 구조 분석)

  • Jung, Seungil;Ryu, Chanho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.167-170
    • /
    • 2018
  • 본 논문에서는 바이너리 분석을 위한 ARM의 구조를 분석한다. 바이너리 분석이란 0과 1로 이루어진 이진 값의 의미를 분석하는 것을 말한다. 바이너리 코드를 역어셈블(Disassemble)하여 값으로만 존재하는 데이터가 어떤 명령어(Instruction)이며 어떤 피연산자(Operand)를 의미하는지 알 수 있다. 소스코드를 컴파일하여 실행파일이 생성이 되면 바이너리 값으로 구성되며 이 실행파일을 바이너리 파일이라고도 한다. 바이너리 파일을 분석하기 위해서 CPU의 명령어 집합 구조(Instruction Set Architecture)를 알아야 한다. PC와 서버, 모바일 등에서 많이 사용되고 있는 ARM 중에서 64비트를 지원하는 AArch64(ARMv8)의 명령어 구조를 분석하여 효율적인 바이너리 분석의 기반을 마련하고자 한다.

  • PDF

The Compressed Instruction Set Architecture for the OpenRISC Processor (OpenRISC 프로세서를 위한 압축 명령어 집합 구조)

  • Kim, Dae-Hwan
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.10
    • /
    • pp.11-23
    • /
    • 2012
  • To achieve efficient code size reduction, this paper proposes a new compressed instruction set architecture for the OpenRISC architecture. The new instructions and their corresponding formats are designed by the profiling information of the existing instruction usage. New 16-bit instructions and 32-bit instructions are proposed to compressed the existing 32-bit instructions and instruction sequences, respectively. The proposed instructions can be classified into three types. The first is the new 16-bit instructions for the frequent normal 32-bit instructions such as add, load, store, branch, and jump instructions. The second type is the new 32-bit instructions for the consecutive two load instructions, two store instructions, and 32-bit data mov instructions. Finally, two new 32-bit instructions are proposed to compress function prolog and epilog code, respectively. OpenRISC hardware decoder is extended to support the new instructions. Experiments show that the efficiency of code size reduction improves by an average of 30.4% when compared to the OR1200 instruction set architecture without loss of execution performance.

A study on the Development of General-Purpose Multimedia Processor Architecture (범용 멀티미디어 프로세서 구조 개발에 관한 연구)

  • 오명훈;박성모
    • Proceedings of the IEEK Conference
    • /
    • 1998.10a
    • /
    • pp.1149-1152
    • /
    • 1998
  • 멀티미디어 데이터를 아날로그 방식보다는 디지털 방식으로 처리하게 되면 여러 면에서 이득을 볼 수 있다. 멀티미디어 데이터를 디지털 방식으로 처리하는 방법 중 범용프로세서에서 멀티미디어 명령어에 의해 처리하게 되면 flexibility를 증가시키며 효율적으로 프로그램할 수 있다. 본 논문에서는 범용 프로세서 안에서 멀티미디어 데이터를 효율적으로 처리할 수 있는 명령어 집합 구조와 이를 수행할 수 있는 프로세서의 구조를 제안하고 이를 HDL(Hardware Description Language)로 동작레벨에서 기술하고 시뮬레이션 하였다. 제안된 멀티미디어 명령어는 특성에 따라 8개의 그룹에 총 55개의 명령어로 구성되며 64비트 데이터 안에서 각각 8비트의 8바이트, 16비트의 4하프워드, 32비트의 2워드의 부워드(subword) 데이터들을 병렬 처리한다. 모델링된 프로세서는 오픈아키텍쳐(Open Architecture)인 SPARC V.9 의 정수연산장치(Integer Unit)에 기반을 두었으며 하바드 구조를 지닌 5단 파이프라인 RISC 형태이다.

  • PDF

Design of Instruction Set for accelerating symmetric and asymmetric ciphers (대칭 및 비대칭 암호화 알고리즘 가속을 위한 명령어 집합 구조의 설계)

  • Kim, Il-Kwan;Choi, Lynn
    • Proceedings of the IEEK Conference
    • /
    • 2003.07d
    • /
    • pp.1343-1346
    • /
    • 2003
  • 상거래와 통신을 위한 주된 매개체로써 등장한 인터넷 뿐 아니라 새로이 대두되는 다양한 유무선 네트워크 환경, 그리고 정보 저장에 있어서 암호화 알고리즘은 보안의 중요한 요소로 자리잡고 있다. 본 논문에서는 대칭 및 비대칭 암호화 알고리즘을 가속시키기 위한 암호화 프로세서의 명령어와 해당 Functional Unit 을 제안하였다. 현재 암호화 알고리즘을 가속시키기 위한 방법으로 사용되는 주문형 반도체(ASIC)는 알고리즘 가속 속도는 빠르지만, 새로운 암호화 알고리즘을 지원할 수가 없고, 지원하는 알고리즘을 사용하지 않는 경우 비효율성을 야기한다. 또한 범용프로세서는 다양하고 새로운 암호화 알고리즘을 지원할 수 있지만 암/복호화 가속속도가 느리다. 이는 암호화 알고리즘이 범용 프로세서에서는 지원하지 연산을 주로 사용하기 때문이다. 따라서 이 논문에서는 대칭 및 비대칭 암호화 알고리즘의 주된 연산을 분석하고, 각각의 연산을 가속시키기 위한 명령어 집합, 그리고 해당하는 Functional Unit을 제안하여 Programmable 한 암호화 프로세서를 설계하기 위한 토대를 마련한다.

  • PDF

SIMD Instruction-based Fast HEVC RExt Decoder (SIMD 명령어 기반 HEVC RExt 복호화기 고속화)

  • Mok, Jung-Soo;Ahn, Yong-Jo;Ryu, Hochan;Sim, Donggyu
    • Journal of Broadcast Engineering
    • /
    • v.20 no.2
    • /
    • pp.224-237
    • /
    • 2015
  • In this paper, we introduce the fast decoding method with the SIMD (Single Instruction Multiple Data) instructions for HEVC RExt (High Efficiency Video Coding Range Extensions). Several tools of HEVC RExt such as intra prediction, interpolation, inverse-quantization, inverse-transform, and clipping modules can be classified as the proper modules for applying the SIMD instructions. In consideration of bit-depth increasement of RExt, intra prediction, interpolation, inverse-quantization, inverse-transform, and clipping modules are accelerated by SSE (Streaming SIMD Extension) instructions. In addition, we propose effective implementations for interpolation filter, inverse-quantization, and clipping modules by utilizing a set of AVX2 (Advanced Vector eXtension 2) instructions that can use 256 bits register. The evaluation of the proposed methods were performed on the private HEVC RExt decoder developed based on HM 16.0. The experimental results show that the developed RExt decoder reduces 12% average decoding time, compared with the conventional sequential method.

New DSP Instructions and their Hardware Architecture for the Viterbi Decoding Algorithm (비터비 복호 알고리즘 처리를 위한 DSP 명령어 및 하드웨어 회로)

  • Lee, Jae-Sung;Sunwoo, Myung-Hoon
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.39 no.11
    • /
    • pp.53-61
    • /
    • 2002
  • This paper proposes new DSP instructions and their architecture which efficiently implements the Viterbi decoding algorithm. The proposed architecture, supporting typical signal processing functions as in existing DSP chips, consists of an array of operational units and data path structures adequate to the Viterbi algorithm. While existing DSP chips perform Viterbi decoding at the rate of about several dozen kbps, the proposed architecutre can give the rate of 6.25 Mbps on 100 MHz DSP chips, which is nearly the same performance as that of custom-designed Viterbi processors. Therefore, the architecture can meet the standard of IMT-2000 having the 2Mbps data rate.

Design and Performance Evaluation of Expansion Buffer Cache (확장 버퍼 캐쉬의 설계 및 성능 평가)

  • Hong Won-Kee
    • The KIPS Transactions:PartA
    • /
    • v.11A no.7 s.91
    • /
    • pp.489-498
    • /
    • 2004
  • VLIW processor is considered to be an appropriate processor for the embedded system, provided with high performance and low power con-sumption due to its simple hardware structure. Unfortunately, the VLIW processor often suffers from high memory access latency due to the variable length of I-packets, which consist of independent instructions to be issued in parallel. It is because of the variable I-packet length that some I-packets must be placed over two cache blocks, which are called straddle I-packets, so that two cache accesses are required to fetch such I-packets. In this paper, an expansion buffer cache is proposed to improve not only the instruction fetch bandwidth, but also the power consumption of the I-cache with moderate hardware cost. The expansion buffer cache has a small expansion buffer containing a fraction of a straddle packet along with the main cache to reduce the additional cache accesses due to the straddle I-packets. With a great reduction in the cache accesses due to the straddle packets, the expansion buffer cache can achieve $5{\~}9{\%}$improvement over the conventional I-caches in the $Delay{\cdot}Power{\cdot}Area$ metric.