• 제목/요약/키워드: Multi-Access Memory System

검색결과 53건 처리시간 0.025초

Multi-Access Memory System을 이용한 3D 그래픽 프로세서 제안 (Proposal of 3D Graphic Processor Using Multi-Access Memory System)

  • 이스라엘;김재희;고경식;박종원
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.119-128
    • /
    • 2019
  • 3D 그래픽 프로세서의 시스템의 특성상 많은 수학적 계산이 요구되면서 고속처리를 위하여 GPU(Graphics Processing Unit)를 이용한 병렬처리 연구가 많이 진행되고 있다. 본 논문에서는 GPU에서 발생하는 문제점 중 캐시메모리 미스에 의하여 발생하는 대역폭 증가와 3D 셰이더 처리 속도가 일정하지 않은 문제점을 해결하기 위하여 캐시메모리를 사용하지 않는 병렬처리기인 MAMS를 이용한 3D 그래픽 프로세서를 제안한다. 본 논문에서 제안된 MAMS를 이용한 3D 그래픽 프로세서는 DirectX 명령 분석을 이용해 Vertex shader, Pixel shader와 Tiling 및 Rasterizing 구조를 설계 하였고, MAMS를 위한 FPGA(Xilinx Virtex6@100MHz) 보드를 구성하여, Verilog를 사용하여 설계된 구조를 개발하였다. 개발된 FPGA(100Mhz)와 nVidia GeForce GTX 660(980Mhz)의 처리시간을 확인한 결과 GTX 660를 이용한 처리 시간은 일정하지 않음을 확인하였고, MAMS를 이용한 처리 시간은 일정함을 확인하였다.

다중 접근 메모리 시스템을 이용한 고속 지문인식 특징추출 시스템 (Feature Extraction System for High-Speed Fingerprint Recognition using the Multi-Access Memory System)

  • 박종선;김재희;고경식;박종원
    • 한국멀티미디어학회논문지
    • /
    • 제16권8호
    • /
    • pp.914-926
    • /
    • 2013
  • 최근 보안 시스템 중에서 지문인식을 이용한 보안 시스템은 다른 보안 시스템에 비해 유일성과 편의성 등의 장점을 가짐으로써 많은 사람들이 관심을 갖는 분야이다. 지문인식 시스템에 있어서 가장 중요한 사항은 실제 지문과 영상을 통해 얻어진 지문간의 정합에서의 정확성과 지문 인식을 위해 사용하는 영상처리 알고리즘들을 신속하게 처리하는 데 있다. 기존의 지문인식 시스템은 특징 추출을 위해 사용하는 알고리즘들의 처리 시간을 줄이기 위해 전체 처리과정 중 일부 과정들을 생략함으로써 처리시간을 단축한다. 하지만 이 방식은 처리시간을 단축시킬 수 있는 반면 특징 추출에 대한 정확도가 떨어진다. 따라서 본 논문에서는 특징 추출에 대한 정확도를 높이기 위해 전체 처리 과정을 사용하면서 동시에 처리시간도 단축시킬 수 있는 다중 접근 메모리 시스템을 이용한 지문인식 특징 추출 알고리즘을 구현하였고, 구현된 시스템을 사용하였을때 다중접근 메모리 시스템과 시리얼 프로세서의 결과에 대해 correlation을 이용한 검증을 통해 제안된 방법의 신뢰도를 확인하였으며, 시리얼 프로세서에 비해 MAMS-PP64를 이용한 방법은 수행시간에서 약 1.56배 향상되었음을 확인하였다.

모바일 플래시 파일 시스템 - MJFFS (A Mobile Flash File System - MJFFS)

  • 김영관;박현주
    • Journal of Information Technology Applications and Management
    • /
    • 제11권2호
    • /
    • pp.29-43
    • /
    • 2004
  • As the development of an information technique, gradually, mobile device is going to be miniaturized and operates at high speed. By such the requirements, the devices using a flash memory as a storage media are increasing. The flash memory consumes low power, is a small size, and has a fast access time like the main memory. But the flash memory must erase for recording and the erase cycle is limited. JFFS is a representative filesystem which reflects the characteristics of the flash memory. JFFS to be consisted of LSF structure, writes new data to the flash memory in sequential, which is not related to a file size. Mounting a filesystem or an error recovery is achieved through the sequential approach. Therefore, the mounting delay time is happened according to the file system size. This paper proposes a MJFFS to use a multi-checkpoint information to manage a mass flash file system efficiently. A MJFFS, which improves JFFS, divides a flash memory into the block for suitable to the block device, and stores file information of a checkpoint structure at fixed interval. Therefore mounting and error recovery processing reduce efficiently a number of filesystem access by collecting a smaller checkpoint information than capacity of actual files. A MJFFS will be suitable to a mobile device owing to accomplish fast mounting and error recovery using advantage of log foundation filesystem and overcoming defect of JFFS.

  • PDF

입출력 형태에 따른 다중처리기 시스템의 성능 분석 (An Analysis of Multi-processor System Performance Depending on the Input/Output Types)

  • 문원식
    • 디지털산업정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.71-79
    • /
    • 2016
  • This study proposes a performance model of a shared bus multi-processor system and analyzes the effect of input/output types on system performance and overload of shared resources. This system performance model reflects the memory reference time in relation to the effect of input/output types on shared resources and the input/output processing time in relation to the input/output processor, disk buffer, and device standby places. In addition, it demonstrates the contribution of input/output types to system performance for comprehensive analysis of system performance. As the concept of workload in the probability theory and the presented model are utilized, the result of operating and analyzing the model in various conditions of processor capability, cache miss ratio, page fault ratio, disk buffer hit ratio (input/output processor and controller), memory access time, and input/output block size. A simulation is conducted to verify the analysis result.

JPEG2000 시스템의 코드블록 메모리 크기 및 대역폭 감소를 위한 Multi-mode Embedded Compression 알고리즘 및 구조 (Multi-mode Embedded Compression Algorithm and Architecture for Code-block Memory Size and Bandwidth Reduction in JPEG2000 System)

  • 손창훈;박성모;김영민
    • 대한전자공학회논문지SD
    • /
    • 제46권8호
    • /
    • pp.41-52
    • /
    • 2009
  • Motion JPEG2000과 같은 동영상 압축 시스템에서는 데이터 메모리에 대한 빈번한 접근이 전체 시스템에 큰 병목 현상이 된다. 이처럼 시스템에서 요구하는 메모리의 대역폭을 감소시키기 위해서, 본 논문은 약간의 화질 손실이 있는 새로운 embedded compression(EC) 알고리즘과 구조를 고안하였다. 또한, 메모리 내의 압축된 데이터에 임의 접근성(Random Accessibility)과 짧은 지연 시간(Latency)을 보장하기 위해서 매우 단순하면서도 효율적인 entropy 부호화 방법을 제안하였다. 본 논문에서는 JPEG2000 표준안 알고리즘에는 어떠한 변경도 하지 않으면서, 제안한 multi-mode 알고리즘을 통해 JPEG2000 시스템에서 요구하는 메모리의 대역폭의 감소(약 52${\sim}$81%) 와 코드블록 메모리의 크기를 약 2 배 이상 감소시킬 수 있었다.

16개의 처리기를 가진 다중접근기억장치를 위한 영상처리 알고리즘의 구현에 대한 성능평가 (Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements)

  • 이유진;김재희;박종원
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.8-14
    • /
    • 2012
  • 최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.

가상화 환경에서 NVMe SSD 성능 분석 및 직접 접근 엔진 개발 (Performance Analysis of NVMe SSDs and Design of Direct Access Engine on Virtualized Environment)

  • 김세욱;최종무
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.129-137
    • /
    • 2018
  • 낸드 플래시 메모리 기반의 NVMe(Non-Volatile Memory express) SSD(Solid State Drive)는 멀티 I/O 큐 환경을 제공하는 PCIe 인터페이스 기반에 NVMe 프로토콜을 사용하는 저장장치이다. NVMe SSD는 Multi-core 시스템에서 병렬 I/O 처리가 가능하고 SATA SSD에 비해 대역폭이 크며 대용량의 저장 공간을 제공하기 때문에 데이터 센터, 클라우드 컴퓨팅 등에 사용될 차세대 저장장치로 주목받고 있다. 하지만 가상화 시스템에서는 소프트웨어 I/O 스택의 병목으로 인하여 NVMe SSD의 성능을 충분히 활용하지 못하고 있다. 특히, Xen과 KVM과 같이 호스트 시스템의 I/O 스택을 사용하는 경우에는, 호스트 시스템과 가상머신의 중복된 I/O 스택을 통해서 입출력이 처리되기 때문에 성능 저하가 크게 발생한다. 본 논문에서는 NVMe SSD에 직접 접근하는 기술을 KVM 가상화 시스템에 적용함으로써 가상 머신 I/O의 성능을 향상시키는 Direct-AIO (Direct-Asynchronous I/O)엔진을 제안한다. 그리고 QEMU 에뮬레이터에 제안한 엔진을 개발하고 기존의 I/O 엔진과의 성능 차이를 비교 및 분석한다.

Adaptive Writeback-aware Cache Management Policy for Lifetime Extension of Non-volatile Memory

  • Hwang, Sang-Ho;Choi, Ju Hee;Kwak, Jong Wook
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제17권4호
    • /
    • pp.514-523
    • /
    • 2017
  • In this paper, we propose Adaptive Writeback-aware Cache management (AWC) to prolong the lifetime of non-volatile main memory systems by reducing the number of writebacks. The last-level cache in AWC is partitioned into Least Recently Used (LRU) segment and LRU using Dirty block Precedence (DP-LRU) segment. The DP-LRU segment evicts clean blocks first for giving reuse opportunity to dirty blocks. AWC can also determine the efficient size of DP-LRU segment for reducing the number of writebacks according to memory access patterns of programs. In the performance evaluation, we showed that AWC reduced the number of writebacks up to 29% and 46%, and saved the energy of a main memory system up to 23% and 49% in a single-core and multi-core, respectively. AWC also reduced the runtime by 1.5% and 3.2% on average compared to previous cache managements for non-volatile main memory systems, in a single-core and a multi-core, respectively.

메모리 지연을 감추는 기법들 (Memory Latency Hiding Techniques)

  • 기안도
    • 전자통신동향분석
    • /
    • 제13권3호통권51호
    • /
    • pp.61-70
    • /
    • 1998
  • The obvious way to make a computer system more powerful is to make the processor as fast as possible. Furthermore, adopting a large number of such fast processors would be the next step. This multiprocessor system could be useful only if it distributes workload uniformly and if its processors are fully utilized. To achieve a higher processor utilization, memory access latency must be reduced as much as possible and even more the remaining latency must be hidden. The actual latency can be reduced by using fast logic and the effective latency can be reduced by using cache. This article discusses what the memory latency problem is, how serious it is by presenting analytical and simulation results, and existing techniques for coping with it; such as write-buffer, relaxed consistency model, multi-threading, data locality optimization, data forwarding, and data prefetching.

정진폭 다중 부호 이진 직교 변복조기의 FPGA 설계 및 SoC 구현 (FPGA Design and SoC Implementation of Constant-Amplitude Multicode Bi-Orthogonal Modulation)

  • 홍대기;김용성;김선희;조진웅;강성진
    • 한국통신학회논문지
    • /
    • 제32권11C호
    • /
    • pp.1102-1110
    • /
    • 2007
  • 본 논문에서는 기존의 정진폭 다중 부호 이진 직교 (CAMB: Constant-Amplitude Multi-code Biorthogonal) 변조 이론을 적용한 변복조기를 프로그래밍 가능한 게이트 배열 (FPGA: Field-Programmable Gate Array)을 사용하여 설계하고 시스템 온 칩 (SoC: System on Chip)으로 구현하였다. 이 변복조기는 FPGA을 이용하여 타겟팅 한 후 보드실험을 통해 설계에 대한 충분한 검증을 거쳐 주문형 반도체 (ASIC: Application Specific Integrated Circuit) 칩으로 제작되었다. 이러한 12Mbps급 모뎀의 SoC를 위하여 ARM (Advanced RISC Machine)7TDMI를 사용하였으며 64K바이트 정적 램 (SRAM: Static Random Access Memory)을 내장하였다. 16-비트 PCMCIA (Personal Computer Memory Card International Association), USB (Universal Serial Bus) 1.1, 16C550 Compatible UART (Universal Asynchronous Receiver/Transmitter) 등 다양한 통신 인터페이스를 지원할 뿐 아니라 ADC (Analog to Digital Converter)/DAC (Digital to Analog Converter)를 포함하고 있어 실제 현장에서 쉽게 활용될 수 있을 것으로 기대된다.