• 제목/요약/키워드: Memory Buffer

검색결과 369건 처리시간 0.025초

영상 디코더의 제한된 버퍼를 고려한 전력 최소화 DVFS 방식 (Power-Minimizing DVFS Algorithm for a Video Decoder with Buffer Constraints)

  • 정승호;안희준
    • 한국통신학회논문지
    • /
    • 제36권9B호
    • /
    • pp.1082-1091
    • /
    • 2011
  • DVFS (Dynamic Voltage and Frequency Scaling) 에 기초한 저전력 기법은 배터리를 사용하는 모바일 장치에서 동작시간 향상을 위하여 매우 중요하다. 본 연구에서는 DVFS기법에 기반을 둔 영상디코더의 에너지 소비를 최소화핸 스케줄링 알고리즘을 제안 한다 특히, 기존연구에서 간과된 디코더와 디스플레이 사이에 위치한 버퍼의 크기 제약을 모델에 포함하여 버퍼 넘침을 방지 하도록하며, 이 모델에서 수학적으로 에너지를 최소화하는 알고리즘을 제안하고 증명하였다. 실제 영상을 통한 시뮬레이션 결과 버퍼의 크기가 10 프레임정도에서 이득이 포화상태가 되며, 제안된 알고리즘이 기존의 직관적인 알고리즘들에 비하여 평균 10% 정도의 전력소모 절약을 얻을 수 있음을 확인하였다.

Resolving Cycle Extension Overhead Multimedia Data Retrieval

  • Won, Youjip;Cho, Kyungsun
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제4권2호
    • /
    • pp.164-168
    • /
    • 2002
  • In this article, we present the novel approach of avoiding temporal insufficiency of data blocks, jitter, which occurs due to the commencement of new session. We propose to make the sufficient amount of data blocks available on memory such that the ongoing session can survive the cycle extension. This technique is called ″pre-buffering″. We examine two different approaches in pre-buffering: (i) loads all required data blocks prior to starting playback and (ii) incrementally accumulates the data blocks in each cycle. We develop an elaborate model to determine the appropriate amount of data blocks necessary to survive the cycle extension and to compute startup latency involved in loading these data blocks. The simulation result shows that limiting the disk bandwidth utilization to 60% can greatly improve the startup latency as well as the buffer requirement for individual streams.

Dual Cache Architecture for Low Cost and High Performance

  • Lee, Jung-Hoon;Park, Gi-Ho;Kim, Shin-Dug
    • ETRI Journal
    • /
    • 제25권5호
    • /
    • pp.275-287
    • /
    • 2003
  • We present a high performance cache structure with a hardware prefetching mechanism that enhances exploitation of spatial and temporal locality. Temporal locality is exploited by selectively moving small blocks into the direct-mapped cache after monitoring their activity in the spatial buffer. Spatial locality is enhanced by intelligently prefetching a neighboring block when a spatial buffer hit occurs. We show that the prefetch operation is highly accurate: over 90% of all prefetches generated are for blocks that are subsequently accessed. Our results show that the system enables the cache size to be reduced by a factor of four to eight relative to a conventional direct-mapped cache while maintaining similar performance.

  • PDF

A diffusion approximation for time-dependent queue size distribution for M/G/m/N system

  • Park, Bong-Dae;Shin, Yang-Woo
    • 대한수학회지
    • /
    • 제32권2호
    • /
    • pp.211-236
    • /
    • 1995
  • The purpose of this paper is to provide a transient diffusion approximation of queue size distribution for M/G/m/N system. The M/G/m/N system can be expressed as follows. The interarrival times of customers are exponential and the service times of customers have general distribution. The system can hold at most a total of N customers (including the customers in service) and any further arriving customers will be refused entry to the system and will depart immediately without service. The queueing system with finite capacity is more practical model than queueing system with infinite capacity. For example, in the design of a computer system one of the important problems is how much capacity is required for a buffer memory. It its capacity is too little, then overflow of customers (jobs) occurs frequently in heavy traffic and the performance of system deteriorates rapidly. On the other hand, if its capacity is too large, then most buffer memories remain unused.

  • PDF

대전 상관기의 상관 결과에 나타난 유사 DC 성분과 위상 집중 현상에 대한 원인 분석과 해결 방법 (Analysis and solution to the phase concentration and DC-like component of correlation result in Daejeon correlator)

  • 노덕규;오세진;염재환;오충식;정진승;정동규;윤영주;오야마 토모아키;오제키 켄스케;오누키 히로푸미
    • 융합신호처리학회논문지
    • /
    • 제14권3호
    • /
    • pp.191-204
    • /
    • 2013
  • 본 논문에서는 대전상관기의 상관결과에 나타난 유사 DC 성분과 위상의 0도 집중현상을 해결하기 위해 정교한 지연추적을 담당하는 메모리설정과 FFT 계산모듈의 under/overflow 문제를 살펴보는 실험결과를 고찰하였다. 상관기의 정교한 지연추적에는 링버퍼 메모리가 사용되고 있는데, 이 메모리의 데이터 읽기/쓰기 주소의 부적절한 설정으로 인해 상관출력에서 강한 유사 DC 성분이 생성되는 것을 확인하였으며, 포트/스트림이 변경될 때의 1 세그먼트 데이터를 상관처리에 사용하지 않도록 메모리 설정을 수정하였다. 그리고 상관결과에서 대역폭 시작채널의 위상이 0도에 집중되는 현상은 FFT 모듈의 스케일링 값이 적절하지 않았을 때 발생하는 under/overflow의 효과임을 시험을 통해 확인하였으며, 이 문제의 개선방법에 대해 논하였다. 정교한 지연추적의 메모리 설정을 수정하고 적절한 값의 FFT 스케일링 값을 사용하여, 실제 전파천문 관측데이터에 대하여 상관처리 시험을 수행한 결과, 이전보다 개선된 신호대잡음비(SNR)와 향상된 전파세기를 얻을 수 있었다.

GPU를 이용한 R-tree에서의 범위 질의의 병렬 처리 (Parallel Range Query processing on R-tree with Graphics Processing Units)

  • 유보선;김현덕;최원익;권동섭
    • 한국멀티미디어학회논문지
    • /
    • 제14권5호
    • /
    • pp.669-680
    • /
    • 2011
  • R-tree는 데이터베이스 시스템에서 가장 많이 사용되는 색인 구조로 다차원의 데이터를 관리하는데 매우 효율적이다. 하지만 데이터베이스 시스템이 처리해야 하는 데이터의 용량이 증가함에 따라, 기존의 R-tree에서의 범위 질의의 처리는 디스크의 접근 지연 등의 이유로 인하여 수행 시간이 증가하게 되었다. 이러한 문제들을 해결하기 위하여 버퍼를 사용하거나 혹은 다수의 디스크와 프로세서를 사용하여 병렬로 질의를 수행하고자 하는 많은 연구들이 진행되었다. 이러한 연구들의 일환으로 최근 Graphics Processing Unit(GPU)을 이용한 병렬화 기법들에 대한 연구들이 진행되고 있다. 이러한 GPU의 적용을 통한 병렬화는 계산 속도의 증가와 디스크 접근 횟수의 감소를 통하여 수행 속도의 개선을 가능하게 하지만 GPU와 CPU사이의 메모리 교환 및 GPU 메모리의 접근 지연 등에 의한 오버헤드를 발생시킨다. 본 논문에서는 이러한 오버헤드를 해결하고 효과적으로 GPU를 적용하기 위하여 GPU를 버퍼로 사용하여 범위 질의를 병렬화하는 기법을 제안하였다. 버퍼 알고리즘을 통하여 메모리 교환 횟수를 줄이고, 동시 접근 가능한 메모리의 용량을 증가시켜 메모리의 접근 지연을 최소화 할 수 있었다. 제안 기법과 기존의 인덱스의 비교 실험에서 최대의 경우 5배 정도의 성능이 개선되는 것을 확인 할 수 있었다.

무차별 공격에 효과적인 다중 Address Space Randomization 방어 기법 (Multiple ASR for efficient defense against brute force attacks)

  • 박수현;김선일
    • 정보처리학회논문지C
    • /
    • 제18C권2호
    • /
    • pp.89-96
    • /
    • 2011
  • Address Space Randomization(ASR)은 성능 부하가 없고 광범위한 데이터 메모리 영역의 보호가 가능한 우수한 방어 기법이다. ASR은 사용 가능한 데이터 메모리 영역 내에서 변수를 재배치 함으로써 공격자에게 변수의 주소를 숨기는데, 데이터 메모리 영역의 크기가 한정되어서 무차별 공격에 취약한 단점이 있다. 본 논문은 기존 ASR의 단점을 제거하기 위한 다중 ASR 기법을 제시한다. 다중 ASR 기법은 데이터 메모리 영역을 원본 및 복사 영역으로 나누고 각 메모리 영역의 변수 값을 비교함으로써 공격을 탐지하고 방어한다. 다중 ASR에서 각 데이터 메모리 영역의 변수는 서로 다른 순서로 배치되므로 한 번의 공격을 통해 동시에 동일한 변수 값을 조작하는 것은 불가능하다. 다중 ASR이 적용된 프로그램은 중복 수행으로 인해 비교적 높은 성능 부하를 보이나, 실제 공격 대상이 되는 웹서버 등 I/O 처리가 많이 요구되는 프로그램의 경우 40%~50% 정도의 성능 부하를 보인다. 아울러 본 논문에서는 프로그램에 다중 ASR을 적용하기 위한 변환프로그램을 개발하였다.

A Materials Approach to Resistive Switching Memory Oxides

  • Hasan, M.;Dong, R.;Lee, D.S.;Seong, D.J.;Choi, H.J.;Pyun, M.B.;Hwang, H.
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제8권1호
    • /
    • pp.66-79
    • /
    • 2008
  • Several oxides have recently been reported to have resistance-switching characteristics for nonvolatile memory (NVM) applications. Both binary and ternary oxides demonstrated great potential as resistive-switching memory elements. However, the switching mechanisms have not yet been clearly understood, and the uniformity and reproducibility of devices have not been sufficient for gigabit-NVM applications. The primary requirements for oxides in memory applications are scalability, fast switching speed, good memory retention, a reasonable resistive window, and constant working voltage. In this paper, we discuss several materials that are resistive-switching elements and also focus on their switching mechanisms. We evaluated non-stoichiometric polycrystalline oxides ($Nb_2O_5$, and $ZrO_x$) and subsequently the resistive switching of $Cu_xO$ and heavily Cu-doped $MoO_x$ film for their compatibility with modem transistor-process cycles. Single-crystalline Nb-doped $SrTiO_3$ (NbSTO) was also investigated, and we found a Pt/single-crystal NbSTO Schottky junction had excellent memory characteristics. Epitaxial NbSTO film was grown on an Si substrate using conducting TiN as a buffer layer to introduce single-crystal NbSTO into the CMOS process and preserve its excellent electrical characteristics.

CNN 가속기의 효율적인 데이터 전송을 위한 메모리 데이터 레이아웃 및 DMA 전송기법 연구 (Memory data layout and DMA transfer technique research For efficient data transfer of CNN accelerator)

  • 조석재;박성경;박성정
    • 전기전자학회논문지
    • /
    • 제24권2호
    • /
    • pp.559-569
    • /
    • 2020
  • 딥 러닝 알고리즘 중 하나인 CNN 인공지능 어플리케이션은 하드웨어 측면에서 컨벌루션 레이어의 많은 데이터들을 저장하기 위해 오프 칩 메모리를 사용 하고, DMA를 사용하여 매 데이터 전송 시 프로세서의 부하를 줄여 성능을 향상 시킬 수 있다. 또한 컨벌루션 레이어의 데이터를 가속기의 글로벌 버퍼에 전송되는 순서를 다르게 하여 어플리케이션의 성능의 저하를 줄일 수 있다. 불 연속된 메모리 주소를 가지고 있는 베이직 레이아웃의 경우 SG-DMA를 사용 할 때 ordinary DMA를 사용할 때보다 DMA를 사전 설정하는 부분에서 약 3.4배의 성능향상을 보였고 연속적인 메모리 주소를 가지고 있는 아이디얼 레이아웃의 경우 ordinary DMA 와 SG-DMA를 사용하는 두가지 경우 모두 1396 사이클 정도의 오버헤드를 가졌다. 가장 효율적인 메모리 데이터 레이아웃과 DMA의 조합은 프로세서의 DMA 사전 설정 부하를 약 86 퍼센트까지 감소할 수 있음을 실험을 통해 확인했다.

TMS320C80시스템에서 Radon 변환의 병렬 구현 (Parallel Implementation of Radon Transform on TMS320C80-based System)

  • 송정호;성효경최흥문
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.727-730
    • /
    • 1998
  • In this paper, we propose an implementation of an efficient parallel Radon transform on TMS320C80-based system. For an N$\times$N SAR image, we can obtain O(NM/p) of the conventional parallel Radon transform, by representing the projection patterns in Radon space variables instead of the image space variables, and pipelining the algorithm, where p is the number of processors and M is the number of projection angles. Also, we can reduce the time for the dynamic load distribution among the nodes and the communication overheads of accessing the global memories, by pipelining the memory and processing operations by using tripple buffer structure. Experimental results show an efficient parallel Radon transform of speedup Sp=3.9 and efficiency E=97.5% for 256$\times$256 image, when implemented on TMS320C80 composed of four parallel slave processors with three memory blocks.

  • PDF