• 제목/요약/키워드: 메모리 확장

검색결과 365건 처리시간 0.031초

UPMEM PIM 기반 원주율의 몬테카를로 추정 구현 (Implementation of Monte Carlo estimation of Pi based on UPMEM PIM)

  • 곽재혁;오광진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.27-29
    • /
    • 2023
  • 폰노이만 구조를 따르는 기존의 컴퓨터 시스템은 프로세서와 메모리의 역할이 구분되어 있으며 프로세서는 메모리에 저장된 명령어와 데이터를 불러와 실행한다. 이 과정에서 메모리와 프로세서 간에 발생하는 데이터 이동은 메모리 집약적인 응용을 처리하는데 있어서 심각한 오버헤드를 야기할수 있다. PIM(Processing-In-Memory)은 데이터 이동 병목을 해결하기 위해서 메모리에 프로세서의 능력을 통합하는 기술로서 최근의 메모리 기술의 발전으로 주목받고 있다. 본 논문에서는 UPMEM사의 상용 PIM 제품을 기반으로 몬테카를로 방법을 이용한 원주율 추정을 구현하고 성능 확장성을 분석하였다.

PR-Tree: 메인 메모리에서 선반입을 적용한 확장된 R-tree 색인 기법 (PR-Tree: An Extended R-Tree Indexing Method using Prefetching in Main Memory)

  • 강홍구;김동오;홍동숙;한기준
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2003년도 추계학술대회
    • /
    • pp.123-128
    • /
    • 2003
  • 최근 프로세서와 메인 메모리간의 속도 차이가 커지면서 캐시 실패가 메인 메모리에서 동작하는 R-Tree의 성능 저하에 미치는 영향이 커짐에 따라 캐시 실패를 줄여 캐시 성능을 개선하려는 연구가 많이 진행되고 있다. 일반적인 캐시 성능 개선 방법은 엔트리 정보를 줄설 노드에 더 않은 엔트리를 저장함으로써 펜-아웃(fanout)을 증가시키고 캐시 실패를 최소화한다. 그러나 이러한 방법은 엔트리 정보를 줄이는 추가 연산으로 인해 갱신 성능이 떨어지고, 노드간 이동시 발생하는 캐시 실패는 여전히 해결하지 못하고 있다. 본 논문은 이를 해결하기 위해 선반입(prefetching)을 적용한 확장된 R-Tree인 PR-tree(Prefetching R-Tree)를 제안하고 평가하였다 PR-Tree는 펜-아웃을 증가시키고 트리의 높이를 낮추기 위해 실제 캐시 라인의 정수 배인 노드를 생성하고, 선반입을 적용하여 노드 캐시로 인한 메모리 지연을 최소화하였다. 또한 접근할 노드를 선반입하여 노드간 이동시 발생하는 캐시 실패도 최소화하였다. PR-Tree는 실험에서 R-Tree보다 검색 연산에서 최대 38%의 성능 향상을 보였으며, 갱신 연산에서도 최대 30%의 성능 향상을 보였다.

  • PDF

메모리 워크로드 분석을 위한 고속 커널 데이터 수집 기법 (High Speed Kernel Data Collection method for Analysis of Memory Workload)

  • 윤준영;정승완;박종우;김정준;서대화
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권11호
    • /
    • pp.461-470
    • /
    • 2013
  • 본 논문은 정밀한 메모리 워크로드 분석을 위해 리눅스 기반의 커널 수준에서 프로세스의 메모리 관리 구조체에 직접 접근하는 방법을 이용하여 고속으로 커널 데이터를 수집하는 기법을 제안한다. 기존의 분석기들은 데이터 수집 속도가 느리고 제공되는 데이터의 제한으로 인하여 확장성이 부족하다. 제안 기법은 메모리 관리 구조체 내의 프로세스 메모리정보, 페이지 테이블, 페이지 구조체를 직접 수집하는 방법을 이용하여 기존의 기법 보다 빠르게 커널 데이터를 수집하며, 사용자가 원하는 데이터를 선택하여 수집할 수 있다. 제안 기법을 통해 실제 실행 중인 프로세스의 메모리 관리 데이터를 수집하고 메모리 워크로드에 대한 분석을 수행하였다.

컨테이너 환경에서 텐서플로의 GPU 메모리 사용방식에 따른 학습 작업의 성능 분석 (Analyzing the performance of training tasks based on GPU memory use manner of TensorFlow in Container environments)

  • 강지훈;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.60-62
    • /
    • 2023
  • 인공지능의 학습 작업은 연산량이 많아 고성능 연산 장치인 GPU(Graphics Processing Unit)를 필요로 하며, GPU 장치의 성능은 학습 작업의 실행 성능에 직접적으로 영향을 미치는 요소 중 하나로 작용한다. 인공지능 작업을 처리하기 위해 많이 사용되는 텐서플로의 경우 GPU를 사용해 연산을 수행할 때 기본적으로 거의 모든 GPU 메모리 영역을 단일 학습 작업이 점유하도록 GPU 메모리를 관리한다. 이 방법은 컴퓨팅 자원 중 확장성이 가장 낮은 GPU 메모리의 단편화를 방지하기 위해 사용되는 방법이지만, 하나의 학습 작업이 GPU를 점유하게 되면, 실제 GPU 메모리 사용량과 상관없이 다른 프로세스는 GPU를 사용할 수 없는 문제를 유발한다. 특히, 전이학습, 소규모 학습과 같이 상대적으로 작업 규모가 작은 경우에는 전체 GPU 메모리 용량 중 대부분의 영역이 낭비된다. 본 논문에서는 컨테이너 환경에서 텐서플로의 기본 GPU 메모리 사용 방식으로 인해 다수의 학습 작업을 동시 실행하는 것이 불가능한 문제를 확인하고 GPU 메모리 사용량을 제한한 경우와 하지 않은 경우에 실제 GPU 메모리 사용량과 학습 작업의 실행 시간에 대한 성능 비교를 통해 GPU 메모리의 단편화 방지가 성능에 유의미한 요소인지 검증한다.

임베디드 시스템을 위한 효율적인 메모리 압축 기법 (An Effective Memory Compression Scheme for Embedded System)

  • 우장복;최병창;서효중
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.871-873
    • /
    • 2005
  • 최근 임베디스 시스템의 성능이 향상됨에 따라, 임베디드 시스템을 구성하는 CPU와 주변 장치들의 성능 격차를 해소하는 문제가 점차 중요해지고 있다. 그 중에서 시스템의 성능에 가장 큰 영향을 미치는 것이 CPU와 메모리간의 통신이다. 고성능 컴퓨터 시스템에서는 그동안 CPU와 메모리간의 성능 격차를 줄이기 위한 여러 가지 연구들이 활발하게 진행되었는데, 여러 가지 연구들 중에서 메모리를 압축하여 메모리의 기억공간을 효율적으로 확장하는 방법이 효과적으로 사용되고 있다. 임베디드 시스템에서도 이러한 기법을 적절하게 적용하면 메모리를 압축함으로써 동일 공간에 보다 많은 데이터를 저장할 수 있고, 버스를 이용하여 데이터를 전송할 때, 보다 많은 정보를 전송할 수 있게 된다. 또한, CPU와 메모리 간의 전송되는 정보의 크기를 줄일 수 있으므로 임베디드 시스템에서 전력소모의 대부분을 차지하고 있는 CPU와 메모리 간의 전력소모를 크게 줄일 수 있는 장점이 있다. 본 논문에서는 빈발 패턴 압축 기법을 적절하게 변형하여 임베디드 시스템을 위한 효율적인 메모리 압축 기법을 제시하고자 한다.

  • PDF

K 분할 기반 플래시 메모리 균등소거 방법론 (K Partition-Based Even Wear-Leveling Policy for Flash Memory)

  • 박제호
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.377-382
    • /
    • 2006
  • 플래시 메모리의 활용성이 높은 특성으로 인해 모바일 기기와 유비쿼터스 관련 기기에 대한 적용이 확장되고 있다. 하지만, 이러한 경향은 플래시 메모리의 물리적 특성으로 인해 제한 받을 수 있다. 이 논문에서는 플래시 메모리 공간의 재활용을 위한 방법론을 제안하다. 이 방법론은 메모리 재활용에 필요한 비용과 재활용 성능을 동시에 최적화하는 것을 목표로 한다. 제안하는 방법론은 특정시간에 재사용되는 메모리 세그먼트를 선택할 때 대상이 되는 메모리 공간을 다수의 하부 공간으로 분할하여 탐색 비용을 최적화한다. 아울러, 자유 세그먼트의 선택이라는 측면에서 전체 메모리 공간의 균등한 소거를 위한 방법론 또한 논의한다. 제안된 방법론들은 기존의 방법론과 함께 실험을 통해 검증하였으며, 방법론의 수행을 위한 최적화된 시스템 구성을 실험을 통하여 밝혔다.

동적 메모리 네트워크의 시간 표현과 데이터 확장을 통한 질의응답 최적화 (Question Answering Optimization via Temporal Representation and Data Augmentation of Dynamic Memory Networks)

  • 한동식;이충연;장병탁
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.51-56
    • /
    • 2017
  • 질의응답 문제를 인공지능 모델을 통해 해결하는 연구는 메모리 네트워크의 등장으로 인해 방법론의 변화를 맞이하고 있으며, 그 중 동적 메모리 네트워크(DMN)는 인간 기억 체계에 착안하여 신경망 기반의 주의 기제를 적용하면서, 질의응답에서 일어나는 각 인지 과정들을 모듈화 했다는 특징들을 갖는다. 본 연구에서는 부족한 학습 데이터를 확장 시키고, DMN이 내포하고 있는 시간 인식의 한계를 개선해 정답률을 높이고자 한다. 실험 결과, 개선된 DMN은 1K-bAbI 문제의 테스트 데이터에서 89.21%의 정답률과, 95%를 질의응답 통과의 기준의 정답률으로 가정할 때 12개의 과제를 통과하는 성능을 보여 정확도 면에서 기존의 DMN에 비해 13.5%p 만큼 더 높고, 4개의 과제를 추가로 통과하는 성능 향상을 보여주었다. 또한 뒤이은 실험을 통해, 데이터 내에서 비슷한 의미 구조를 가지는 단어들은 벡터 공간상에서 강한 군집을 이룬다는 점과, 일화 기억 모듈 통과 횟수와 근거 사실 수의 성능에 큰 영향을 미치는 직접적인 연관성을 발견하였다.

이중 입출력 메모리를 이용한 새로운 영상입력 장치의 설계 및 제작에 관한 연구

  • 오영수;서일홍;변증남
    • 전기의세계
    • /
    • 제36권3호
    • /
    • pp.190-204
    • /
    • 1987
  • 본고에서는 이중입출력 메모리(Dual-Port RAM)를 이용한 영상 입력장치(Image Memory)의 설계 및 그 제어 신호 발생기에 대하여 논하였다. 이중 입출력 메모리 소자인 TMS4161은 기존의 표준 64K x 1DRAM Port와 256bit의 내부적 Shift REgister와 연결된 Serial Port가 있어서, 실시간 영상 처리 및 그래픽 용으로 사용하기에 적합하나, 그 사용에 있어서 가장 어려운 문제로 제안된 주소 신호 발생기 및 요구중재기에 대한 해결 방안을 제시하였다. 또한 서로 독립적인 두개의 입출력 장치가 있다는 장점을 이용하여 하드웨어에 의한 실시간 처리도 가능한 구조로 쉽게 확장할 수 있어서 소프트웨어에 의한 실시간 처리로 가능하리라 사료된다. 앞으로는 512x512x8의 영상 메모리 구조 뿐만 아니라 1024x1024x8의 영상메모리 구조에 대하여 더욱 연구할 필요가 있다고 본다.

  • PDF

다중 메모리 모델의 CLUMP 시스템을 이용하기 위한 병렬 프로그래밍 기법과 성능 평가 (Parallel Programming for Exploiting Hybrid Parallel Model of CLUMP system and its Performance Evaluation)

  • 이용욱;라마크리쉬나
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.621-623
    • /
    • 2000
  • 클러스터를 구성하는 단위 노드로 SMP가 새로운 대안으로 시장에 등장하였다. 이러한 멀티프로세서 클러스터(CLUMP)는 하나의 시스템에 다중 메모리 구조를 가지는데, CLUMP가 가지는 다중 메모리 구조를 효과적으로 사용하기 위해서 본 논문에서는 중첩된 병렬화 프로그램 모델을 제안하였다. 중첩된 병렬화 모델은 중첩된 루프 레벨의 병렬화, 중첩된 태스크 레벨의 병렬화, 그리고 다중 중첩된 병렬화로 나뉜다. 본 논문에서는 중첩된 루프 레벨의 병렬화를 실험대상으로 하여 그 성능을 평가하고 단일 메모리 구조의 병렬화 프로그램과 성능을 비교하였다. 실험 결과 시험한 중첩된 병렬화 모델이 단일 메모리 구조의 병렬화 프로그램에 비하여 좋은 성능을 나타내었지만, 실험대상이 된 루프 레벨 병렬화의 잠재적인 특징으로 인해 실행에 참여하는 노드 수가 많아질수록 성능 향상 폭이 감소하는 결과를 보였다. 프로그램의 성능 향상 폭과 확장성은 문제 크기가 클수록 좋은 특성을 보였다.

  • PDF

자바 카드에서의 UICC 파일 시스템 설계 및 구현 (UICC File System Design and Implementation for Java Card)

  • 김학두;전성익
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 학술회의 논문집 정보 및 제어부문 B
    • /
    • pp.584-587
    • /
    • 2003
  • UICC는 애플리케이션, 파일 시스템, 보안 메커니즘, 암호 알고리즘 등을 포함하고 있는 일종의 스마트 카드이다. UICC의 파일은 ISO7816-4 표준에서 정의한 파일들과 애플리케이션의 최상 위 파일인 Application Dedicated file등이 있다. UICC가 자바 카드 기반에서 구현되 었을 때 모든 파일은 객체로서 구체화될 수 있다. 이 때 각 파일 객체는 파일에 대한 정보들과 정보 조작과 관련된 메소드를 제공하게 된다. 자바 카드는 일반 컴퓨터와 유사하지만 제한적인 메모리와 처리속도 등으로 인하여 구현 상 많은 제약사항이 따른다. 자바카드는 저장 공간을 ROM, RAM, EEPROM로 구분할 수 있으며, 파일이나 애플릿, 데이터 등은 EEPROM 영역에 저장된다. 하지만 자바 카드가 지원하는 EEPROM영역이 2.2.1 버전에서 확장되었다 할지라도 여전히 많은 데이터를 저장하기에는 부족한 메모리 공간을 갖는다. 이것은 메모리 사용에 있어 신중을 기해야 한다는 것을 의미하며 효율적인 메모리 사용은 카드 사용자에게 보다 많은 가용 메모리를 제공할 수 있다는 점에서 중요하다. 본 논문에서 는 이러한 점을 고려하여 자바 카드에서 UICC의 파일 시스템을 Linked List 방식을 이용하여 구현하는 방법과 배열을 이용하여 구현하는 방법을 제시하고 파일 시스뎀의 전체적인 구조를 효율적으로 구성하는 방법을 제시한다.

  • PDF