• 제목/요약/키워드: Memory Architecture

검색결과 934건 처리시간 0.027초

Low-latency SAO Architecture and its SIMD Optimization for HEVC Decoder

  • Kim, Yong-Hwan;Kim, Dong-Hyeok;Yi, Joo-Young;Kim, Je-Woo
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권1호
    • /
    • pp.1-9
    • /
    • 2014
  • This paper proposes a low-latency Sample Adaptive Offset filter (SAO) architecture and its Single Instruction Multiple Data (SIMD) optimization scheme to achieve fast High Efficiency Video Coding (HEVC) decoding in a multi-core environment. According to the HEVC standard and its Test Model (HM), SAO operation is performed only at the picture level. Most realtime decoders, however, execute their sub-modules on a Coding Tree Unit (CTU) basis to reduce the latency and memory bandwidth. The proposed low-latency SAO architecture has the following advantages over picture-based SAO: 1) significantly less memory requirements, and 2) low-latency property enabling efficient pipelined multi-core decoding. In addition, SIMD optimization of SAO filtering can reduce the SAO filtering time significantly. The simulation results showed that the proposed low-latency SAO architecture with significantly less memory usage, produces a similar decoding time as a picture-based SAO in single-core decoding. Furthermore, the SIMD optimization scheme reduces the SAO filtering time by approximately 509% and increases the total decoding speed by approximately 7% compared to the existing look-up table approach of HM.

CReMeS: A CORBA COmpliant Reflective Memory based Real-time Communication Service

  • Chung, Sun-Tae
    • 한국통신학회논문지
    • /
    • 제25권10B호
    • /
    • pp.1675-1689
    • /
    • 2000
  • We present CReMeS a CORBA-compliant design and implementation of a new real-time communication service. It provides for efficient predictable and scalable communication between information producers and consumers. The CReMeS architecture is based on MidART's Real-Time Channel-based Reflective Memory (RT-CRM) abstraction. This architecture supports the separation of QoS specification between producer and consumer of data and employs a user-level scheduling scheme for communicating real-time tasks. These help us achieve end-to-end predictability and allows our service to scale. The CReMeS architecture provides a CORBA interface to applications and demands no changes to the ORB layer and the language mapping layer. Thus it can run on non real-time Off-The-Shelf ORBs enables applications on these ORBs to have scalable and end-to-end predictable asynchronous communication facility. In addition an application designer can select whether to use an out-of-band channel or the ORB GIOP/IIOP for data communication. This permits a trade-off between performance predictability and reliability. Experimental results demonstrate that our architecture can achieve better performance and predictability than a real-time implementation of the CORBA Even Service when the out-of-band channel is employed for data communication it delivers better predictability with comparable performance when the ORB GIOP/IIOP is used.

  • PDF

OFDM 시스템을 위한 고속 FFT 프로세서 (A High Speed FFT Processor for OFDM Systems)

  • 조병각;손병수;선우명훈
    • 대한전자공학회논문지TC
    • /
    • 제39권12호
    • /
    • pp.513-519
    • /
    • 2002
  • 본 논문에서는 고속 데이터 전송을 위한 OFDM(Orthogonal Frequency Division Multiplex) 시스템용 고속 FFT 프로세서를 제안한다 제안된 구조는 단일 메모리 구조를 채택하였으며 고속 연산을 위해 Radix-4 알고리즘과 메모리 뱅크 구조를 사용하였다. 또한, 버터플라이 출력이 입력 데이터의 위치에 저장되는 In-place 메모리 구조를 사용하여 메모리의 크기를 줄였다. 설계한 프로세서는 내부 데이터와 회전인자는 각 각 20 비트로 설계되었으며, 약 80dB의 SQNR 성능을 갖는다. 그리고 VHDL로 모델링한 후 삼성 0.5㎛ SOG 공정으로 합성하여 메모리를 제외한 전체 게이트 수가 98,325개를 보였으며 제안된 구조는 1,024-포인트부터는 기존의 파이프라인 구조보다 하드웨어 측면에서 이득을 가진다. 동작속도는 42MHz로 256-포인트 연산이 6㎲에 처리 가능한 구조로 HomePlug 표준안의 8.4㎲의 처리속도를 만족시킨다.

복수 메모리 타일을 가진 NoC 매니코어 플랫폼에서의 태스크-타일 바인딩 기술 (Task-to-Tile Binding Technique for NoC-based Manycore Platform with Multiple Memory Tiles)

  • 강진택;김태영;김성찬;하순회
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.163-176
    • /
    • 2016
  • NoC 아키텍쳐에서는 데이터의 통신이 한 채널에 집중되는 경우 경합이 일어나서 통신이 지연될 수 있다. 이러한 지연을 최소화시키는 것을 목표로 본 논문에서는 NoC 기반 매니코어 플랫폼에서 태스크 매핑이 완료된 이후, 매핑된 태스크들을 NoC 타일로 바인딩하기 위한 기법을 제안한다. 큰 규모의 플랫폼은 복수의 메모리 타일을 가질 수 있으므로 응용별로 사용하는 메모리를 다르게 하여 메모리별 부하를 분산시키기 위한 메모리 클러스터링 기법을 사용한다. 수행된 응용은 데이터플로우 기반으로 작성되어 있으므로 응용들의 통신 요구량에 대한 정보를 미리 알 수 있다고 가정한다. 이 정보를 바탕으로 본 논문에서는 여러 태스크를 동시에 바인딩하는 두개의 휴리스틱을 제안하였으며 각 휴리스틱은 적절한 메모리 클러스터링 기법을 활용한다. NoC 시뮬레이터를 이용한 실험을 통해 제안된 휴리스틱이 기존의 바인딩 휴리스틱에 비해 최대 25% 이상의 성능을 보이는 것을 확인하였다.

재구성 가능한 FAT 호환 통합 플래시 메모리 소프트웨어 구조 (Reconfigurable Integrated Flash Memory Software Architecture with FAT Compatibility)

  • 김유미;최용석;백승재;최종무
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.17-22
    • /
    • 2010
  • 소형 USB 저장장치에서부터 대용량 데이터베이스 서버에 이르기까지 플래시 메모리의 활용범위가 더욱 확장되어 감에 따라 저장된 데이터의 호환성은 플래시 메모리 관리 소프트웨어의 중요한 고려사항이다. 이를 위해 FTL(Flash Translation Layer)과 FAT 파일시스템이 플래시 메모리 관리를 위한 사실상 표준 소프트웨어로써 사용되고 있다. 그러나 동일한 FTL과 FAT 파일시스템을 다양한 하드웨어로 구성된 시스템에서 구동하는 경우 각각의 요구조건을 만족할 수 없는 문제가 발생한다. 따라서 본 논문에서는 재구성 가능하며 FAT 표준 데이터의 호환성 및 향상된 기능을 제공하는 통합 플래시 메모리 관리 소프트웨어인 INFLAWARE(INtegrated FLAsh softWARE)를 제안한다. 제안된 기법은 실제 플래시 메모리가 장착된 시스템에 구현되었으며, 실험을 통해 본 논문에서 제안한 기법이 기존 기법 대비 최대 27%, 평균 19%의 메모리 사용량 감소 효과를 가져 올 수 있으며 또한 map_destroy 기법의 적용을 통해 최대 21%, 평균 10%의 성능 향상이 있음을 보인다.

무선 센서 노드상의 저가형 플래시 메모리를 위한 하드웨어 추상화 구조 (Hardware Abstraction Architecture for Low Cost Flash Memories in Wireless Sensor Nodes)

  • 김창훈;권영직
    • 한국산업정보학회논문지
    • /
    • 제14권2호
    • /
    • pp.72-80
    • /
    • 2009
  • 본 논문에서는 무선 센서 노드에 사용 가능한 저가형 플래시 메모리를 위한 하드웨어 추상화 구조(Hardware Abstraction Architecture: HAA)를 제안한다. 제안된 HAA는 3개 의 계층으로 이루어져 있으며, 세 개의 계층은 HIL(Hardware Interlace Layer), HAL(Hardware Adaption Layer), HPL(Hardware Presentation Layer)로 구성된다. 여기서 HIL은 상위 계층의 어플리케이션에 대해 플랫폼 독립적인 인터페이스를 제공하고, HAL은 하드웨어 추상계층에서 가장 핵심적인 부분으로서 하드웨어 자원 제어, 상태관리,논리적 명령어를 생성하며, HPL은 하드웨어 초기화 및 플래시 메모리와의 통신 부분을 담당한다. 제안된 HAA는 무선 센서노드에 가장 많이 사용되고 있는 Atmel사의 AT45DB 계열의 플래시 메모리에 적용되었으며, 4,384 바이트의 프로그램 메모리와 195 바이트의 데이터 메모리를 사용한다. 따라서 본 논문에서 제안된 HAA 구조는 3계층으로 설계되었기 때문에 소프트왜어 개발 측면에서 높은 유연성, 확장성, 재사용성을 제공하며, 낮은 메모리를 시용하기 때문에 무선 센서 노드용으로 적합하다 할 수 있다.

분산공유 메모리 시스템 상에서의 효율적인 자료분산 방법 (An Efficient Data Distribution Method on a Distributed Shared Memory Machine)

  • 민옥기
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1433-1442
    • /
    • 1996
  • 자료 분산은 SPMD(Single Program Multiple Data)형태의 병렬성을 제공하는 HPF (High Performance Fortran)의 주기능으로 구현 방법에 따라 컴파일러 성능을 좌우한 다. 본 논문에서는 SPAX(Scalable Parallel Architecture computer based on X-bar network)상에 자료 분산 기능을 제공하기 위한 설계 주안점과 효율적인 모델에 관하 여 기술하였다. SPAX는 분산공유 메모리 (DSM:distributed shared memory)를 사용한 계층적 클러스터링 구조를 가진다. 이러한 메모리 구조에서는 분산 메모리 자료 분산 (DMDD:Distributed Memory Data Distribution)이나 공유 메모리 자료 분산(SMDD: Shared Memory Data Distribution)방법으로는 시스템 가용성을 만족할 수 없다. 그래 서 계층적 마스터-슬래브 형태의 분산공유 메모리 자료분산(DSMDD:Distributed Shared Memory Data Distribution)모델을 설계하였다. 이 모델은 각 노드에 원격 마 스터와 슬래브들을 할당하고 노드내에서는 공유 메모리를 그리고 노드간에는 메세지 전달 인터페이스를 사용한다. 시뮬레이션을 수행한 결과, 시스템 성능 저하를 최소화 하는 노드 크기로 DSMDD를 수행하였을 때 SMDD나 DMDD보다 훨씬 더 효율적이였다. 특 히, 논리적 프로세서 갯수가 많을수록, 분산된 자료들 간의 자료 종속성이 적을수록 성능이 우수하였다.

  • PDF

A Flexible Programmable Memory BIST for Embedded Single-Port Memory and Dual-Port Memory

  • Park, Youngkyu;Kim, Hong-Sik;Choi, Inhyuk;Kang, Sungho
    • ETRI Journal
    • /
    • 제35권5호
    • /
    • pp.808-818
    • /
    • 2013
  • Programmable memory built-in self-test (PMBIST) is an attractive approach for testing embedded memory. However, the main difficulties of the previous works are the large area overhead and low flexibility. To overcome these problems, a new flexible PMBIST (FPMBIST) architecture that can test both single-port memory and dual-port memory using various test algorithms is proposed. In the FPMBIST, a new instruction set is developed to minimize the FPMBIST area overhead and to maximize the flexibility. In addition, FPMBIST includes a diagnostic scheme that can improve the yield by supporting three types of diagnostic methods for repair and diagnosis. The experiment results show that the proposed FPMBIST has small area overhead despite the fact that it supports various test algorithms, thus having high flexibility.

이미지 압축을 위한 Lifting Scheme을 이용한 병렬 2D-DWT 하드웨어 구조 (Parallel 2D-DWT Hardware Architecture for Image Compression Using the Lifting Scheme)

  • 김종욱;정정화
    • 전기전자학회논문지
    • /
    • 제6권1호
    • /
    • pp.80-86
    • /
    • 2002
  • 본 논문에서는 2차원 분할을 이용한 병렬 처리가 가능한 리프팅 스킴(lifting scheme) DWT(Discrete Wavelet Transform)를 구현하는 하드웨어 구조를 제안한다. 기존의 DWT 하드웨어 구조는 웨이블릿(Wavelet) 변환이 갖는 특성 때문에 병렬 처리 구조를 구현하는 데 있어서 메모리와 하드웨어 자원이 많이 필요하였다. 제안된 구조는 기존의 구조와 달리 데이터 흐름을 분석하여, 분할 과정을 2차원으로 수행하는 방법을 제안하였다. 이러한 2차원 분할 방법을 파이프라인 구조를 사용하여 병렬 처리의 효율을 증가 시켜 50% 정도의 출력 지연의 감소된 결과를 얻을 수 있었다. 또한 데이터 흐름의 분석과 출력 지연의 감소는 내부 메모리의 사용을 감소 시했으며, 리프팅 스킴의 특성을 이용하여 외부 메모리의 사용을 감소시키는 결과를 얻을 수 있다.

  • PDF

3차원 그래픽 가속기의 효율적인 파이프라인 설계 (An efficient pipelined architecture for 3D graphics accelerator)

  • 우현재;정종철;이문기
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(2)
    • /
    • pp.357-360
    • /
    • 2002
  • This paper is proposed about an efficient pipelined architecture for 3D graphics accelerator to reduce Cache miss ratio. Because cache miss takes a considerable time, about 20∼30 cycle, we reduce cache miss ratio to use pre-fetch. As a result of simulation, we figure out that the miss ratio of cache depends on the size of tile, cache memory and auxiliary cache memory. We can save 6.6% cache miss ratio maximumly.

  • PDF