• 제목/요약/키워드: memory bottleneck

검색결과 90건 처리시간 0.022초

다중스레드 모델의 성능 향상을 위한 가용 레지스터 기반 캐슁 기법 (A Register-Based Caching Technique for the Advanced Performance of Multithreaded Models)

  • 고훈준;권영필;유원희
    • 정보처리학회논문지A
    • /
    • 제8A권2호
    • /
    • pp.107-116
    • /
    • 2001
  • A multithreaded model is a hybrid one which combines locality of execution of the von Neumann model with asynchronous data availability and implicit parallelism of the dataflow model. Much researches that have been made toward the advanced performance of multithreaded models are about the cache memory which have been proved to be efficient in the von Neumann model. To use an instruction cache or operand cache, the multithreaded models must have cache memories. If cache memories are added to the multithreaded model, they may have the disadvantage of high implementation cost in the mode. To solve these problems, we did not add cache memory but applied the method of executing the caching by using available registers of the multithreaded models. The available register-based caching method is one that use the registers which are not used on the execution of threads. It may accomplish the same effect as the cache memory. The multithreaded models can compute the number of available registers to be used during the process of the register optimization, and therefore this method can be easily applied on the models. By applying this method, we can also remove the access conflict and the bottleneck of frame memories. When we applied the proposed available register-based caching method, we found that there was an improved performance of the multithreaded model. Also, when the available-register-based caching method is compared with the cache based caching method, we found that there was the almost same execution overhead.

  • PDF

고속의 인터넷 라우터를 위한 IP 룩업구조 설계 (A Design of the IP Lookup Architecture for High-Speed Internet Router)

  • 서해준;안희일;조태원
    • 한국통신학회논문지
    • /
    • 제28권7B호
    • /
    • pp.647-659
    • /
    • 2003
  • 고속 라우터의 인터넷 패킷 처리에서 가장 많은 시간이 걸리는 부분이 IP 패킷 주소 룩업 중 LPM 탐색이다. 기존의 CAM을 이용한 LPM 탐색에서 LPM 탐색율이 높으면서 동시에 복잡도도 높지 않은 방식은 룩업 테이블의 갱신시간이 0(n)으로 오래 걸렸다. 본 논문에서 설계한 파이프라인 룩업 테이블은 고속 LPM 탐색을 위한 구조로서 갱신시간이 0(1)으로 짧으면서도, LPM 탐색율이 높고, 복잡도도 높지 않은 새로운 방식의 파이프라인 구조로, 1bit RAM 셀을 이용한 CAM 배열 구조로 설계하였다. 룩업 테이블은 3단계의 파이프라인으로 구성된다. 단계1 및 단계2의 키 필드 분할 수 및 매칭점의 분포에 따라 파이프라인의 성능이 좌우되며, LPM 탐색율이 달라질 수 있다 설계방식은 RTL에서 하드웨어 기술 언어를 이용해서 수행되었고, 0.35$\mu\textrm{m}$ CMOS 표준 셀 라이브러리를 이용해서 게이트 수준에서 기능을 검증하였다.

SoC의 성능 향상을 위한 크로스바 스위치 온칩 버스 설계 (Design of Crossbar Switch On-chip Bus for Performance Improvement of SoC)

  • 허정범;류광기
    • 한국정보통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.684-690
    • /
    • 2010
  • 기존에 사용되는 대부분의 SoC는 공유버스 구조를 가지고 있어, 병목현상이 발생하는 문제점을 가지고 있다. 이러한 문제점은 SoC의 내부의 IP 수가 많을수록, 전체적인 SoC의 성능을 저하시키게 되어, CPU 자체의 속도보다는 전체적인 통신 분배에 의해 SoC의 성능이 좌우 된다. 본 논문에서는 공유버스의 단점인 병목현상을 줄이고 SoC의 성능을 향상시키기 위해 크로스바 스위치버스 구조를 제안한다. 크로스바 스위치 버스는 마스터 모률 8개, 슬레이브 모듈 16개까지 연결이 가능하며, 다중 버스 채널구조로 되어 있어 병렬통신이 가능하다. 또한 각 16개의 슬레이브 인터페이스마다 우선순위 정보가 저장된 아비터가 내장되어 하나의 마스터가 슬레이브를 독점하는 것을 방지하는 것과 동시에 효율적인 통신을 지원한다. OpenRISC 프로세서, VGA/LCD 제어기, AC97 제어기, 디버그 인터페이스, 메모리 인터페이스로 구성되는 SoC 플랫폼의 WISHBONE 온칩 공유버스 구조와 크로스바 스위치 버스구조의 성능을 비교한 결과, 기존의 공유버스보다 26.58%의 성능이 향상되었다.

병렬프로그램의 경합조건을 수행 중에 효율적으로 탐지하기 위한 레이블링 기법 (A Labeling Scheme for Efficient On-the-fly Detection of Race Conditions in Parallel Programs)

  • 박소희;우종정;배종민;전용기
    • 정보처리학회논문지A
    • /
    • 제9A권4호
    • /
    • pp.525-534
    • /
    • 2002
  • 병렬프로그램에서 경합 조건은 비결정적인 수행 결과를 초래하므로 디버깅을 위해 반드시 탐지되어야 한다. 이러한 경합을 수행 중에 탐지하는 기존의 기법들은 병행성 정보 생성 시에 공유 자료구조를 사용하여 심각한 병목현상을 발생시키거나, 병행성 정보 비교 시에 내포병렬성의 정도에 의존하는 비효율적인 시간 복잡도를 가진다. 본 논문에서는 개별 자료구조를 사용함으로써 병목현상을 제거하여 병행성 정보를 확장적으로 생성하며, 생성된 병행성 정보의 비교 시간을 상수적인 복잡도로 개선한 새로운 레이블링 기법을 제안한다. 그러므로 제안된 레이블링 기법의 확장성 및 효율성은 공유메모리와 메시지전달 프로그램뿐만 아니라 이를 혼합하여 사용하는 병렬프로그램에서도 효율적인 수행중 경합탐지를 가능하게 한다.

PPFP(Push and Pop Frequent Pattern Mining): 빅데이터 패턴 분석을 위한 새로운 빈발 패턴 마이닝 방법 (PPFP(Push and Pop Frequent Pattern Mining): A Novel Frequent Pattern Mining Method for Bigdata Frequent Pattern Mining)

  • 이정훈;민연아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권12호
    • /
    • pp.623-634
    • /
    • 2016
  • 현존하는 빈발 패턴 마이닝 방법은 대부분 시간 효율성을 목표로 하고, 물리적 메모리 사용에 매우 의존적이다. 하지만 빅데이터 시대가 도래함에 따라 실제 세상의 데이터베이스는 급속도로 증가하고 있으며, 그에 따라 기존의 방법으로 현실적인 거대한 양의 데이터를 마이닝하기에 물리적 메모리 공간이 부족한 실정이다. 이러한 문제를 해결하기 위해, 빈발 패턴 마이닝의 메모리 의존성을 줄이기 위한 보조저장장치 기반의 연구들이 진행되었으나, 메모리 기반의 방법들에 비해 처리 시간이 너무 많이 소비된다는 한계가 있었다. 따라서 확장성을 가지며, 기존의 디스크 기반의 방법들에 비해 시간효율성을 높인 새로운 빈발 패턴 마이닝이 필요하게 되었다. 본 논문에서는 빅데이터로부터 빈도 아이템 집합들을 마이닝하기 위해 메모리와 디스크를 함께 사용하는 스택 기반의 새로운 접근법인 PPFP 알고리즘을 제안하였다. PPFP는 빈발 패턴 마이닝 접근법 중 가장 인기 있고 효율적인 접근법 중 하나인 FP-growth를 기반으로 하고 있다. PPFP 마이닝 방법은 다음과 같이 두 단계로 진행된다. (1) IFP-tree 구축: FP-tree를 생성한 후, 새로운 인덱스 번호 부여 방법으로 FP-tree의 각 노드에 인덱스 번호를 부여하고, 이 인덱스 번호가 부여된 FP-tree(IFP-tree)를 테이블로 변환하여(IFP-table) 디스크에 저장한다. (2) PPFP 알고리즘을 이용한 빈발 패턴 마이닝: 스택 기반의 PUSH-POP 방식으로 패턴을 확장시켜 나가며 빈발 패턴을 마이닝한다. 이러한 방식을 통해 메모리 기반의 방법에 비해 반복적으로 많은 시간이 소모되는 연산에 매우 적은 양의 메모리를 활용하여 확장성과 함께 시간효율성 또한 향상시킬 수 있었다. 그리고 기존의 연구 방법들과 비교 실험을 통해 새로운 알고리즘의 성능을 증명하였다.

범위 검색을 위한 $CST^+$ 트리 인덱스 구조 (A $CST^+$ Tree Index Structure for Range Search)

  • 이재원;강대희;이상구
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권1호
    • /
    • pp.17-28
    • /
    • 2008
  • 최신 컴퓨터 시스템의 새로운 병목 현상이 메모리 접근에서 발생하고 있다. 메모리의 접근 속도를 줄이기 위해 캐시 메모리가 도입되었지만, 캐시 메모리는 원하는 데이타가 캐시에 옮겨져 있어야 메모리 접근 속도를 줄일 수 있다. 이를 해결하기 위해 기존의 T 트리를 개선한 CST 트리가 제안되었다. 하지만, CST 트리는 범위 검색 시, 불필요한 노드를 검색해야 한다는 단점이 있다. 본 논문은 캐시 효율적인 CST 트리의 장점을 가지며, 범위 검색이 가능하도록 하기 위해 연결 리스트로 각 노드를 연결한 $CST^+$ 트리를 제안하였으며, CST 및 $CSB^+$에 비해 $4{\sim}10$배의 성능 향상을 보였다. 또한, 메인 메모리 데이타베이스 시스템 장애 시, 빠른 데이타베이스 복구를 위해 인덱스의 빠른 재 구축은 전체 데이타 복구 성능에 있어 매우 중요한 부분이다. 이를 위해 본 논문은 병렬 삽입 기법을 제안하였다. 병렬 삽입은 노드 분할 오버헤드가 없으며, 데이타 복구 단계와 인덱스 구축 단계를 병렬로 수행할 수 있는 장점이 있다. 병렬 삽입은 순차 삽입 및 일괄 삽입에 비해 $2{\sim}11$배의 성능 향상을 보였다.

주기억 장치 데이타베이스 시스템을 위한 디스크 그룹 완료 프로토콜 (A Disk Group Commit Protocol for Main-Memory Database Systems)

  • 이인선;염헌영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.516-526
    • /
    • 2004
  • 주기억장치 데이타베이스(Main-Memory DataBase : MMDB) 시스템은 데이타의 모든 부분이 주기억장치에 상주하는 데이타베이스 시스템으로 트랜잭션의 연산 작업중 데이타로 인한 디스크 입출력이 발생하지 않아 기존의 디스크 기반 데이타베이스 시스템에 비해 월등히 향상된 시스템 성능을 가진다. 이러한 MMDB시스템에서 트랜잭션 완료를 위한 디스크 로깅은 필수 불가결한 요소인 한편 트랜잭션수행 과정중 유일한 디스크 작업이 되어 트랜잭션 전체 수행 시간의 많은 부분을 차지하게 되므로 시스템전체 성능을 위해서는 완료 과정의 개선이 아주 중요한 연구 과제가 된다. 로깅 과정의 개선책으로는 여러 방안이 제안되고 있으며, 어떠한 하드웨어를 가정하지 않는 완료과정 개선책중 대표적인 것으로 선-완료(pre-commit)프로토콜과 그룹 완료(group commit) 프로토콜을 들 수 있다. 그러나, MMDB시스템에이 프로토콜들을 적용하여 성능 변화를 분석한 연구는 아직까지 미미한 실정이다. 본 연구에서는 그룹 완료 프로토콜을 자료 경쟁 수준을 고려하지 않고 MMDB 시스템에 적용할 때 교착 상태가 발생 가능함을 밝히고, 실시간으로 다양하게 변하는 자료 경쟁 수준을 가지는 MMDB 시스템에 적합한 그룹 완료 프로토콜인 디스크 그룹 프로토콜 방식을 제안하였다. 그리고, 실질적이고 구체적인 모의실험을 실시하여 그룹완료 프로토콜은 MMDB 시스템의 성능을 위해 효과적인 개선 방식이며, 본 논문에서 제안한 디스크 그룹완료 프로토콜은 시스템의 자료 경쟁 수준을 반영할 필요 없이 항상 우수한 성능을 가짐을 보였다. 또한 선-완료 프로토콜은 단독으로 쓰일 때는 시스템 성능이 개선되지 않으며, 그룹 완료 프로토콜의 보조 수단으로 적용될 때에만 시스템 성능 개선에 효과적임을 밝혔다.

An Evaluation of Multimedia Data Downstream with PDA in an Infrastructure Network

  • Hong, Youn-Sik;Hur, Hye-Sun
    • Journal of Information Processing Systems
    • /
    • 제2권2호
    • /
    • pp.76-81
    • /
    • 2006
  • A PDA is used mainly for downloading data from a stationary server such as a desktop PC in an infrastructure network based on wireless LAN. Thus, the overall performance depends heavily on the performance of such downloading with PDA. Unfortunately, for a PDA the time taken to receive data from a PC is longer than the time taken to send it by 53%. Thus, we measured and analyzed all possible factors that could cause the receiving time of a PDA to be delayed with a test bed system. There are crucial factors: the TCP window size, file access time of a PDA, and the inter-packet delay that affects the receiving time of a PDA. The window size of a PDA during the downstream is reduced dramatically to 686 bytes from 32,581 bytes. In addition, because flash memory is embedded into a PDA, writing data into the flash memory takes twice as long as reading the data from it. To alleviate these, we propose three distinct remedies: First, in order to keep the window size at a sender constant, both the size of a socket send buffer for a desktop PC and the size of a socket receive buffer for a PDA should be increased. Second, to shorten its internal file access time, the size of an application buffer implemented in an application should be doubled. Finally, the inter-packet delay of a PDA and a desktop PC at the application layer should be adjusted asymmetrically to lower the traffic bottleneck between these heterogeneous terminals.

256GB 용량 DRAM기반 SSD의 설계 (A Design of 256GB volume DRAM-based SSD(Solid State Drive))

  • 고대식;정승국
    • 한국항행학회논문지
    • /
    • 제13권4호
    • /
    • pp.509-514
    • /
    • 2009
  • 본 논문에서는 DDR-1 메모리와 PCI-e 인터페이스를 이용하는 256 GB DRAM 기반의 SSD 스토리지를 설계 분석하였다. SSD는 주 저장매체로써 DRAM 이나 NAND Flash 를 사용하는 스토리지로써 메모리칩으로부터 직접 데이터를 처리할 수 있기 때문에 종래의 HDD의 기계적인 처리속도보다 매우 고속인 장점이 있다. 설계된 DRAM 기반 SSD 시스템은 복수 개의 RAM 디스크를 데이터 저장매체로 사용하며, PCI-e 인터페이스 버스를 각 메모리디스크의 통신 경로로 사용하여 고속의 데이터 처리가 가능한 구조이다. 실험을 위하여 UNIX 및 Windows/Linux 서버, SAN Switch, Ethernet Switch를 이용한 실험시스템을 구성하고 IOmeter 를 이용하여 IOPS(Input output Per Second)와 대역폭 성능을 측정하였으며 측정결과에서 DDR-1 SSD는 470,000의 IOPS와 800MB/sec로 HDD 나 Flash-based SSD 에 비하여 높은 대역폭이 나타남을 확인하였다.

  • PDF

효율적인 브로드캐스트 통신을 지원하는 MPI 하드웨어 유닛 설계 (The Design of MPI Hardware Unit for Enhanced Broadcast Communication)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제36권11B호
    • /
    • pp.1329-1338
    • /
    • 2011
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템에서 집합통신은 프로세싱 노드의 통신포트 상태가 busy 혹은 free 인지를 고려하지 않고 MPI libray cell 에 의해서 점대점 통신으로 변환되어 진다. 만약 브로드캐스트 통신을 하는 동안에 간섭하는 점대점 통신이 있다면, 브로드캐스트 통신의 전송 속도는 저하된다. 따라서 본 논문에서는 각각의 프로세싱 노드의 상태를 고려하여 통신 순서를 결정하는 브로드캐스트 통신 알고리즘을 제안하였다. 제안하는 구조의 알고리즘은 각 프로세싱 노드의 상태에 따라, free 상태의 통신 포트를 가진 프로세싱 노드의 통신 포트에게 우선적으로 메시지를 송신하여 전체적인 집합통신 시간을 단축하였다. 본 연구에서 제안하는 브로드캐스트 통신을 위한 MPI 유닛은 SystemC로 모델링하여 평가하였다. 또한 본 구조는 16노드에서 브로드캐스트 통신의 성능을 최대 78% 향상시켰고, 이는 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.