• 제목/요약/키워드: unified memory

검색결과 52건 처리시간 0.037초

CPU-GPU간 긴밀성을 위한 효율적인 공유메모리 접근 방법과 검증 시스템 구현 (Implementation of Integrated CPU-GPU for Efficient Uniform Memory Access Method and Verification System)

  • 박현문;권진산;황태호;김동순
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.57-65
    • /
    • 2016
  • In this paper, we propose a system for efficient use of shared memory between CPU and GPU. The system, called Fusion Architecture, assures consistency of the shared memory and minimizes cache misses that frequently occurs on Heterogeneous System Architecture or Unified Virtual Memory based systems. It also maximizes the performance for memory intensive jobs by efficient allocation of GPU cores. To test between architectures on various scenarios, we introduce the Fusion Architecture Analyzer, which compares OpenMP, OpenCL, CUDA, and the proposed architecture in terms of memory overhead and process time. As a result, Proposed fusion architectures show that the Fusion Architecture runs benchmarks 55% faster and reduces memory overheads by 220% in average.

유한요소해석을 이용한 형상기억합금의 열적/기계적 거동 연구 (Thermomechanical Behaviors of Shape Memory Alloy Using Finite Element Analysis)

  • 윤성호
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2001년도 춘계학술대회 논문집
    • /
    • pp.833-836
    • /
    • 2001
  • The thermomechanical behaviors of the shape memory alloy were conducted through the finite element analysis of ABAQUS with UMAT user subroutine. The unified thermomechanical constitutive equation suggested by Lagoudas was adapted into the UMAT user subroutine to investigate the characteristics of the shape memory alloy. The three cases were solved to investigate the thermomechanical characteristics of the shape memory alloy. The material properties for the analysis were obtained by DSC and DMA techniques. According to the results, the thermomechanical characteristics, such as a shape memory effect and a pseudoelastic effect, could be obtained through the finite element analysis and the analysis results were revealed to agree well with the experimental results. Therefore, the finite element analysis using UMAT user subroutine is one of prominent analysis techniques to investigate the thermomechnical behaviors of the shape memory alloy quantitatively.

  • PDF

Phase Change Memory와 Capacitor-Less DRAM을 사용한 Unified Dual-Gate Phase Change RAM (Unified Dual-Gate Phase Change RAM (PCRAM) with Phase Change Memory and Capacitor-Less DRAM)

  • 김주연
    • 한국전기전자재료학회논문지
    • /
    • 제27권2호
    • /
    • pp.76-80
    • /
    • 2014
  • Dual-gate PCRAM which unify capacitor-less DRAM and NVM using a PCM instead of a typical SONOS flash memory is proposed as 1 transistor. $VO_2$ changes its phase between insulator and metal states by temperature and field. The front-gate and back-gate control NVM and DRAM, respectively. The feasibility of URAM is investigated through simulation using c-interpreter and finite element analysis. Threshold voltage of NVM is 0.5 V that is based on measured results from previous fabricated 1TPCM with $VO_2$. Current sensing margin of DRAM is 3 ${\mu}A$. PCM does not interfere with DRAM in the memory characteristics unlike SONOS NVM. This novel unified dual-gate PCRAM reported in this work has 1 transistor, a low RESET/SET voltage, a fast write/erase time and a small cell so that it could be suitable for future production of URAM.

Estimation of long memory parameter in nonparametric regression

  • Cho, Yeoyoung;Baek, Changryong
    • Communications for Statistical Applications and Methods
    • /
    • 제26권6호
    • /
    • pp.611-622
    • /
    • 2019
  • This paper considers the estimation of the long memory parameter in nonparametric regression with strongly correlated errors. The key idea is to minimize a unified mean squared error of long memory parameter to select both kernel bandwidth and the number of frequencies used in exact local Whittle estimation. A unified mean squared error framework is more natural because it provides both goodness of fit and measure of strong dependence. The block bootstrap is applied to evaluate the mean squared error. Finite sample performance using Monte Carlo simulations shows the closest performance to the oracle. The proposed method outperforms existing methods especially when dependency and sample size increase. The proposed method is also illustreated to the volatility of exchange rate between Korean Won for US dollar.

통합메모리 장치에서 CPU-GPU 데이터 전송성능 연구 (A Performance Study on CPU-GPU Data Transfers of Unified Memory Device)

  • 권오경;구기범
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권5호
    • /
    • pp.133-138
    • /
    • 2022
  • 최근 고성능컴퓨팅, 인공지능 분야에서 GPU 장치 사용이 일반화되고 있지만, GPU 프로그래밍은 여전히 어렵게 여겨진다. 특히 호스트(host) 메모리와 GPU 메모리를 별도로 관리하기 때문에 성능과 편의성 방면에서 연구가 활발히 진행되고 있다. 이에 따라 여려가지 CPU-GPU 메모리 전송 방법들이 연구되고 있다. 한편 CPU와 GPU 및 통합메모리(Unified memory) 등 하나의 실리콘 패키지로 묶는 SoC(System on a Chip) 제품들이 최근에 많이 출시되고 있다. 본 연구는 이러한 통합메모리 장치에서 CPU, GPU 장치간 데이터를 사용하고 전송시 성능관련 비교를 하고자 한다. 기존 CPU내 호스트 메모리와 GPU 메모리가 분리된 환경과는 다른 특징을 보여준다. 여기서는 통합메모리 장치인 NVIDIA SoC칩들과 NVIDIA SMX 기반 V100 GPU 카드에서 CPU-GPU 간 데이터 전송 프로그래밍 기법별로 성능비교를 한다. 성능비교를 위해 워크로드는 HPC 분야의 수치계산에서 자주 사용하는 2차원 행렬 전치 커널이다. 실험을 통해 CPU-GPU 메모리 전송 프로그래밍 방법별 GPU 커널 성능차이, 페이지 잠긴 메모리와 페이지 가능 메모리를 사용했을 경우 전송 성능차이, 전체(Overall) 성능비교, 마지막으로 워크로드 크기별 성능비교를 하였다. 이를 통해 통합메모리칩인 NVIDIA Xavier에서 I/O 캐시일관성 지원을 통해 SoC 칩내 통합메모리에 대한 이점을 극대화 할 수 있음을 확인할 수 있었다.

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석 (Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory)

  • 신필규;홍성수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.7-10
    • /
    • 2018
  • 통합 메모리는 CPU 메모리와 GPU 메모리 간의 데이터 통신을 개발자에게 투명하게 내재적으로 수행하는 소프트웨어 런타임 환경으로 개발자에게 CPU 메모리와 GPU 메모리가 통합된 하나의 메모리로 보이게 해준다. 통합 메모리는 장점에도 불구하고 아직 널리 사용되지 못하고 있는데 그 이유는 내재적으로 수행되는 데이터 통신의 오버헤드가 큰 것으로 알려져 있기 때문이다. 하지만 이 데이터 통신이 구체적으로 어떻게 이루어지고 오버헤드는 어떻게 발생하는지 분석한 연구는 아직 존재하지 않는다. 우리는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중 하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 데이터 통신이 끼치는 영향을 실험을 통해 분석한다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.

  • PDF

CPU-GPU환경에서 효율적인 메인메모리 접근을 위한 융합 프로세서 구조 개발 (A Development of Fusion Processor Architecture for Efficient Main Memory Access in CPU-GPU Environment)

  • 박현문;권진산;황태호;김동순
    • 한국전자통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.151-158
    • /
    • 2016
  • 이기종시스템 구조(HSA)는 두 유닛의 각각에 메모리 폴(pools)이 가상메모리를 통해 공유할 수 있게 됨에 따라 CPU와 GPU 아키텍처의 오랜 문제를 해결하였다. 그러나 물리적 실제 시스템에서는 가상메모리 처리를 위해 GPU와 GPU 사이의 빈번한 메모리 이동으로 병목현상(Bottleneck)과 일관성 요청(Coherence request)의 오버헤드를 갖게 된다. 본 연구는 CPU와 GPU간의 효율적인 메인 메모리 접근방안으로 퓨전프로세서 알고리즘을 제안하였다. CPU가 요청한 처리할 메모리 영역을 GPU의 코어에 맞게 분배 제어해주는 기능으로 작업관리자(Job Manager)와 Re-mapper, Pre-fetcher를 제안하였다. 이를 통해 CPU와 GPU간의 빈번한 메시지도 감소되고 CPU의 메모리주소에 없는 Page-Table 요청이 낮아져 두 매체간의 효율성이 증대되었다. 제안한 알고리즘의 검증 방안으로 QEMU(:short for Quick EMUlator)기반의 에뮬레이터를 개발하고 CUDA(:Compute Unified Device. Architecture), OpenMP, OpenCL 등의 알고리즘과 비교평가를 하였다. 성능평가 결과, 본 연구에서 제안한 융합 프로세서 구조를 기존과 비교했을 때 최대 198%이상 빠르게 처리되면서 메모리 복사, 캐시미스 등의 오버헤드를 최소화하였다.

이동체 데이타베이스를 위한 통합 색인의 설계 및 구현 (Design and Implementation of Unified Index for Moving Objects Databases)

  • 박재관;안경환;정지원;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권3호
    • /
    • pp.271-281
    • /
    • 2006
  • 최근 PDA, 휴대폰, 노트북, GPS, RFID와 같은 모바일 장치의 발달과 범용적인 사용으로 위치 기반 서비스(LBS: Location Based Service)에 대한 요구가 점점 증대되고 있다. 위치 기반 서비스의 핵심 기술로는 이동체의 위치를 저장 및 관리하기 위한 이동체 데이타베이스를 들 수 있다. 이러한 데이타베이스는 이동체 정보를 빠르게 검색하기 위해 색인을 필요로 하며, 이 색인은 다수의 이동체에 의해 갱신되는 업데이트를 관리하고 실시간으로 위치를 추적할 수 있어야 한다. 따라서 이동체 데이터베이스를 위한 색인은 실시간 처리를 위해서 메인 메모리에서 동작하는 색인의 구조를 가져야 하며, 다수 이동체의 위치 정보를 관리하기 위해 색인의 일부분을 메모리에서 디스크로 이동하거나 디스크에서 메모리로 로딩하는 기법을 지원해야 한다. 이 논문에서는 이러한 색인의 요구 조건을 충족시키기 위해서 메인 메모리와 디스크를 연동하는 통합색인 기법과 메모리 공간 부족 시에 색인의 일부를 디스크로 이동시키는 이주 정책들을 제시하였다 이주 정책은 디스크 I/O를 줄이기 위해 노드 단위가 아닌 서브트리 단위로 이동하도록 함으로써, 벌크 연산 및 동적 클러스터링의 효과를 얻게 된다. 통합 색인은 이주 정책에 따라 다른 형태로 구성될 수 있으며, 본 논문에서는 Oldest Node 정책과 LRU Buffer 정책을 적용하였다. 또한 통합 색인을 구현하고, 각 이주 정책 별로 실험 평가를 수행하여 성능을 측정하였다

의탄성 형상기억합금에 대한 현상학적 구성모델 (A Phenomenological Constitutive Model for Pseudoelastic Shape Memory Alloy)

  • 호광수
    • 소성∙가공
    • /
    • 제19권8호
    • /
    • pp.468-473
    • /
    • 2010
  • Shape memory alloys (SMAs) have the ability to recover their original shape upon thermo-mechanical loading even after large inelastic deformation. The unique feature is known as pseudoelasticity and shape memory effect caused by the crystalline structural transformation between two solid-state phases called austenite and martensite. To support the engineering application, a number of constitutive models, which can be formally classified into either micromechanics-based or phenomenological model, have been developed. Most of the constitutive models include a kinetic law governing the crystallographic transformation. The present work presents a one-dimensional, phenomenological constitutive model for SMAs in the context of the unified viscoplasticity theory. The proposed model does not incorporate the complex mechanisms of phase transformation. Instead, the effects induced by the transformation are depicted through the growth law for the back stress that is an internal state variable of the model.

The Construction and Viterbi Decoding of New (2k, k, l) Convolutional Codes

  • Peng, Wanquan;Zhang, Chengchang
    • Journal of Information Processing Systems
    • /
    • 제10권1호
    • /
    • pp.69-80
    • /
    • 2014
  • The free distance of (n, k, l) convolutional codes has some connection with the memory length, which depends on not only l but also on k. To efficiently obtain a large memory length, we have constructed a new class of (2k, k, l) convolutional codes by (2k, k) block codes and (2, 1, l) convolutional codes, and its encoder and generation function are also given in this paper. With the help of some matrix modules, we designed a single structure Viterbi decoder with a parallel capability, obtained a unified and efficient decoding model for (2k, k, l) convolutional codes, and then give a description of the decoding process in detail. By observing the survivor path memory in a matrix viewer, and testing the role of the max module, we implemented a simulation with (2k, k, l) convolutional codes. The results show that many of them are better than conventional (2, 1, l) convolutional codes.