• Title/Summary/Keyword: 메모리 확장

Search Result 365, Processing Time 0.029 seconds

Implementation of Monte Carlo estimation of Pi based on UPMEM PIM (UPMEM PIM 기반 원주율의 몬테카를로 추정 구현)

  • Jae-Hyuck Kwak;Kwang Jin Oh
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.27-29
    • /
    • 2023
  • 폰노이만 구조를 따르는 기존의 컴퓨터 시스템은 프로세서와 메모리의 역할이 구분되어 있으며 프로세서는 메모리에 저장된 명령어와 데이터를 불러와 실행한다. 이 과정에서 메모리와 프로세서 간에 발생하는 데이터 이동은 메모리 집약적인 응용을 처리하는데 있어서 심각한 오버헤드를 야기할수 있다. PIM(Processing-In-Memory)은 데이터 이동 병목을 해결하기 위해서 메모리에 프로세서의 능력을 통합하는 기술로서 최근의 메모리 기술의 발전으로 주목받고 있다. 본 논문에서는 UPMEM사의 상용 PIM 제품을 기반으로 몬테카를로 방법을 이용한 원주율 추정을 구현하고 성능 확장성을 분석하였다.

PR-Tree: An Extended R-Tree Indexing Method using Prefetching in Main Memory (PR-Tree: 메인 메모리에서 선반입을 적용한 확장된 R-tree 색인 기법)

  • Kang, Hong-Koo;Kim, Dong-O;Hong, Dong-Sook;Han, Ki-Joon
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2003.11a
    • /
    • pp.123-128
    • /
    • 2003
  • 최근 프로세서와 메인 메모리간의 속도 차이가 커지면서 캐시 실패가 메인 메모리에서 동작하는 R-Tree의 성능 저하에 미치는 영향이 커짐에 따라 캐시 실패를 줄여 캐시 성능을 개선하려는 연구가 많이 진행되고 있다. 일반적인 캐시 성능 개선 방법은 엔트리 정보를 줄설 노드에 더 않은 엔트리를 저장함으로써 펜-아웃(fanout)을 증가시키고 캐시 실패를 최소화한다. 그러나 이러한 방법은 엔트리 정보를 줄이는 추가 연산으로 인해 갱신 성능이 떨어지고, 노드간 이동시 발생하는 캐시 실패는 여전히 해결하지 못하고 있다. 본 논문은 이를 해결하기 위해 선반입(prefetching)을 적용한 확장된 R-Tree인 PR-tree(Prefetching R-Tree)를 제안하고 평가하였다 PR-Tree는 펜-아웃을 증가시키고 트리의 높이를 낮추기 위해 실제 캐시 라인의 정수 배인 노드를 생성하고, 선반입을 적용하여 노드 캐시로 인한 메모리 지연을 최소화하였다. 또한 접근할 노드를 선반입하여 노드간 이동시 발생하는 캐시 실패도 최소화하였다. PR-Tree는 실험에서 R-Tree보다 검색 연산에서 최대 38%의 성능 향상을 보였으며, 갱신 연산에서도 최대 30%의 성능 향상을 보였다.

  • PDF

High Speed Kernel Data Collection method for Analysis of Memory Workload (메모리 워크로드 분석을 위한 고속 커널 데이터 수집 기법)

  • Yoon, Jun Young;Jung, Seung Wan;Park, Jong Woo;Kim, Jung-Joon;Seo, Dae-Wha
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.2 no.11
    • /
    • pp.461-470
    • /
    • 2013
  • This paper proposes high speed kernel data collection method for analysis of memory workload, using technique of direct access to process's memory management structure. The conventional analysis tools have a slower data collection speed and they are lack of scalability due to collection only formalized memory information. The proposed method collects kernel data much faster than the conventional methods using technique of direct collect to process's memory information, page table, page structure in the memory management structure, and it can collect data which user wanted. We collect memory management data of the running process, and analyze its memory workload.

Analyzing the performance of training tasks based on GPU memory use manner of TensorFlow in Container environments (컨테이너 환경에서 텐서플로의 GPU 메모리 사용방식에 따른 학습 작업의 성능 분석)

  • Jihun Kang;Joon-Min Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.60-62
    • /
    • 2023
  • 인공지능의 학습 작업은 연산량이 많아 고성능 연산 장치인 GPU(Graphics Processing Unit)를 필요로 하며, GPU 장치의 성능은 학습 작업의 실행 성능에 직접적으로 영향을 미치는 요소 중 하나로 작용한다. 인공지능 작업을 처리하기 위해 많이 사용되는 텐서플로의 경우 GPU를 사용해 연산을 수행할 때 기본적으로 거의 모든 GPU 메모리 영역을 단일 학습 작업이 점유하도록 GPU 메모리를 관리한다. 이 방법은 컴퓨팅 자원 중 확장성이 가장 낮은 GPU 메모리의 단편화를 방지하기 위해 사용되는 방법이지만, 하나의 학습 작업이 GPU를 점유하게 되면, 실제 GPU 메모리 사용량과 상관없이 다른 프로세스는 GPU를 사용할 수 없는 문제를 유발한다. 특히, 전이학습, 소규모 학습과 같이 상대적으로 작업 규모가 작은 경우에는 전체 GPU 메모리 용량 중 대부분의 영역이 낭비된다. 본 논문에서는 컨테이너 환경에서 텐서플로의 기본 GPU 메모리 사용 방식으로 인해 다수의 학습 작업을 동시 실행하는 것이 불가능한 문제를 확인하고 GPU 메모리 사용량을 제한한 경우와 하지 않은 경우에 실제 GPU 메모리 사용량과 학습 작업의 실행 시간에 대한 성능 비교를 통해 GPU 메모리의 단편화 방지가 성능에 유의미한 요소인지 검증한다.

An Effective Memory Compression Scheme for Embedded System (임베디드 시스템을 위한 효율적인 메모리 압축 기법)

  • Woo JangBok;Choi ByeongChang;Suh Hyo-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.871-873
    • /
    • 2005
  • 최근 임베디스 시스템의 성능이 향상됨에 따라, 임베디드 시스템을 구성하는 CPU와 주변 장치들의 성능 격차를 해소하는 문제가 점차 중요해지고 있다. 그 중에서 시스템의 성능에 가장 큰 영향을 미치는 것이 CPU와 메모리간의 통신이다. 고성능 컴퓨터 시스템에서는 그동안 CPU와 메모리간의 성능 격차를 줄이기 위한 여러 가지 연구들이 활발하게 진행되었는데, 여러 가지 연구들 중에서 메모리를 압축하여 메모리의 기억공간을 효율적으로 확장하는 방법이 효과적으로 사용되고 있다. 임베디드 시스템에서도 이러한 기법을 적절하게 적용하면 메모리를 압축함으로써 동일 공간에 보다 많은 데이터를 저장할 수 있고, 버스를 이용하여 데이터를 전송할 때, 보다 많은 정보를 전송할 수 있게 된다. 또한, CPU와 메모리 간의 전송되는 정보의 크기를 줄일 수 있으므로 임베디드 시스템에서 전력소모의 대부분을 차지하고 있는 CPU와 메모리 간의 전력소모를 크게 줄일 수 있는 장점이 있다. 본 논문에서는 빈발 패턴 압축 기법을 적절하게 변형하여 임베디드 시스템을 위한 효율적인 메모리 압축 기법을 제시하고자 한다.

  • PDF

K Partition-Based Even Wear-Leveling Policy for Flash Memory (K 분할 기반 플래시 메모리 균등소거 방법론)

  • Park Je-Ho
    • The KIPS Transactions:PartD
    • /
    • v.13D no.3 s.106
    • /
    • pp.377-382
    • /
    • 2006
  • Advantageous features of flash memory are stimulating its exploitation in mobile and ubiquitous related devices. The hardware characteristics of flash memory however place restrictions upon this current trend. In this paper, a cleaning policy for flash memory is proposed in order to decrease the necessary penally for recycling of memory minimizing the degradation of performance at the same time. The proposed cleaning algorithm is based on partitioning of candidate memory regions, to be reclaimed as free, into a number of groups. In addition, in order to improve the balanced utilization of the entire flash memory space in terms of 'wearing-out', a free segment selection algorithm is discussed. The impact of the proposed algorithms is evaluated through a number of experiments. Moreover, the composition of the optimal configuration featuring the proposed methods is tested through experiments.

Question Answering Optimization via Temporal Representation and Data Augmentation of Dynamic Memory Networks (동적 메모리 네트워크의 시간 표현과 데이터 확장을 통한 질의응답 최적화)

  • Han, Dong-Sig;Lee, Chung-Yeon;Zhang, Byoung-Tak
    • Journal of KIISE
    • /
    • v.44 no.1
    • /
    • pp.51-56
    • /
    • 2017
  • The research area for solving question answering (QA) problems using artificial intelligence models is in a methodological transition period, and one such architecture, the dynamic memory network (DMN), is drawing attention for two key attributes: its attention mechanism defined by neural network operations and its modular architecture imitating cognition processes during QA of human. In this paper, we increased accuracy of the inferred answers, by adapting an automatic data augmentation method for lacking amount of training data, and by improving the ability of time perception. The experimental results showed that in the 1K-bAbI tasks, the modified DMN achieves 89.21% accuracy and passes twelve tasks which is 13.58% higher with passing four more tasks, as compared with one implementation of DMN. Additionally, DMN's word embedding vectors form strong clusters after training. Moreover, the number of episodic passes and that of supporting facts shows direct correlation, which affects the performance significantly.

이중 입출력 메모리를 이용한 새로운 영상입력 장치의 설계 및 제작에 관한 연구

  • 오영수;서일홍;변증남
    • 전기의세계
    • /
    • v.36 no.3
    • /
    • pp.190-204
    • /
    • 1987
  • 본고에서는 이중입출력 메모리(Dual-Port RAM)를 이용한 영상 입력장치(Image Memory)의 설계 및 그 제어 신호 발생기에 대하여 논하였다. 이중 입출력 메모리 소자인 TMS4161은 기존의 표준 64K x 1DRAM Port와 256bit의 내부적 Shift REgister와 연결된 Serial Port가 있어서, 실시간 영상 처리 및 그래픽 용으로 사용하기에 적합하나, 그 사용에 있어서 가장 어려운 문제로 제안된 주소 신호 발생기 및 요구중재기에 대한 해결 방안을 제시하였다. 또한 서로 독립적인 두개의 입출력 장치가 있다는 장점을 이용하여 하드웨어에 의한 실시간 처리도 가능한 구조로 쉽게 확장할 수 있어서 소프트웨어에 의한 실시간 처리로 가능하리라 사료된다. 앞으로는 512x512x8의 영상 메모리 구조 뿐만 아니라 1024x1024x8의 영상메모리 구조에 대하여 더욱 연구할 필요가 있다고 본다.

  • PDF

Parallel Programming for Exploiting Hybrid Parallel Model of CLUMP system and its Performance Evaluation (다중 메모리 모델의 CLUMP 시스템을 이용하기 위한 병렬 프로그래밍 기법과 성능 평가)

  • 이용욱;라마크리쉬나
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.621-623
    • /
    • 2000
  • 클러스터를 구성하는 단위 노드로 SMP가 새로운 대안으로 시장에 등장하였다. 이러한 멀티프로세서 클러스터(CLUMP)는 하나의 시스템에 다중 메모리 구조를 가지는데, CLUMP가 가지는 다중 메모리 구조를 효과적으로 사용하기 위해서 본 논문에서는 중첩된 병렬화 프로그램 모델을 제안하였다. 중첩된 병렬화 모델은 중첩된 루프 레벨의 병렬화, 중첩된 태스크 레벨의 병렬화, 그리고 다중 중첩된 병렬화로 나뉜다. 본 논문에서는 중첩된 루프 레벨의 병렬화를 실험대상으로 하여 그 성능을 평가하고 단일 메모리 구조의 병렬화 프로그램과 성능을 비교하였다. 실험 결과 시험한 중첩된 병렬화 모델이 단일 메모리 구조의 병렬화 프로그램에 비하여 좋은 성능을 나타내었지만, 실험대상이 된 루프 레벨 병렬화의 잠재적인 특징으로 인해 실행에 참여하는 노드 수가 많아질수록 성능 향상 폭이 감소하는 결과를 보였다. 프로그램의 성능 향상 폭과 확장성은 문제 크기가 클수록 좋은 특성을 보였다.

  • PDF

UICC File System Design and Implementation for Java Card (자바 카드에서의 UICC 파일 시스템 설계 및 구현)

  • Kim, Hak-Du;Jeon, Seong-Ik
    • Proceedings of the KIEE Conference
    • /
    • 2003.11c
    • /
    • pp.584-587
    • /
    • 2003
  • UICC는 애플리케이션, 파일 시스템, 보안 메커니즘, 암호 알고리즘 등을 포함하고 있는 일종의 스마트 카드이다. UICC의 파일은 ISO7816-4 표준에서 정의한 파일들과 애플리케이션의 최상 위 파일인 Application Dedicated file등이 있다. UICC가 자바 카드 기반에서 구현되 었을 때 모든 파일은 객체로서 구체화될 수 있다. 이 때 각 파일 객체는 파일에 대한 정보들과 정보 조작과 관련된 메소드를 제공하게 된다. 자바 카드는 일반 컴퓨터와 유사하지만 제한적인 메모리와 처리속도 등으로 인하여 구현 상 많은 제약사항이 따른다. 자바카드는 저장 공간을 ROM, RAM, EEPROM로 구분할 수 있으며, 파일이나 애플릿, 데이터 등은 EEPROM 영역에 저장된다. 하지만 자바 카드가 지원하는 EEPROM영역이 2.2.1 버전에서 확장되었다 할지라도 여전히 많은 데이터를 저장하기에는 부족한 메모리 공간을 갖는다. 이것은 메모리 사용에 있어 신중을 기해야 한다는 것을 의미하며 효율적인 메모리 사용은 카드 사용자에게 보다 많은 가용 메모리를 제공할 수 있다는 점에서 중요하다. 본 논문에서 는 이러한 점을 고려하여 자바 카드에서 UICC의 파일 시스템을 Linked List 방식을 이용하여 구현하는 방법과 배열을 이용하여 구현하는 방법을 제시하고 파일 시스뎀의 전체적인 구조를 효율적으로 구성하는 방법을 제시한다.

  • PDF