• 제목/요약/키워드: On-Chip Memory

검색결과 296건 처리시간 0.021초

객체 추적을 위한 SURF 기반 특이점 추출 및 서술자 생성의 하드웨어 설계 (Hardware Design of SURF-based Feature extraction and description for Object Tracking)

  • 도용식;정용진
    • 전자공학회논문지
    • /
    • 제50권5호
    • /
    • pp.83-93
    • /
    • 2013
  • 최근 영상처리 응용의 일환으로 객체 추적 시스템에 많이 활용되는 SURF 알고리즘의 경우 영상의 회전 및 크기 변화에 강인한 특이점을 추출한다는 특징이 있지만 연산이 복잡하고 연산량이 많아 임베디드 환경에서 IP로 사용되기 위해서는 하드웨어 가속기 개발이 필수적이다. 하지만 이 때 요구되는 내부 메모리 사이즈가 매우 크기 때문에 ASIC이나 SoC 시스템으로 개발 할 때 칩 회로 사이즈가 커서 IP의 가치를 떨어뜨리게 된다. 본 논문에서는 하드웨어 가속기 개발 시 회로면적에 효율적인 설계를 위해 내부 블록메모리 사용량을 줄이고 외부 메모리와 DMA를 사용하여 세분화된 Sub-IP 구조로 설계하는 것에 대해 연구하고 간단한 객체 추적 알고리즘을 개발하여 그 결과를 적용하였다. ARM Cortex-M0, AHB-lite, APB, DMA, SDRAM Controller로 구성된 시스템 환경에서 실험 결과 VGA(640x480)영상에서 SURF 알고리즘의 처리속도는 약 31frame/sec, 블록 메모리의 크기는 81Kbytes, 30nm 공정에서 회로의 크기는 약 74만 게이트 크기로 SoC 칩의 하드웨어 IP로 활용이 가능하였다. SURF와 비슷한 영상처리 알고리즘에서도 본 논문에서 제안하는 설계방법을 적용하면 타겟 어플리케이션에 효율적인 하드웨어 설계를 할 수 있을 것으로 기대된다.

파일시스템을 내장한 저장장치의 설계, 구현 및 성능분석 (Design, Implementation, and Performance Evaluation of File System on a Chip)

  • 안성준;최종무;이동희;노삼혁;민상렬;조유근
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권6호
    • /
    • pp.448-459
    • /
    • 2004
  • 이동식 저장장치는 다양한 호스트에서 데이타 전달 및 공유를 위해 사용될 수 있기 때문에 상호운영성의 지원이 필수적이다 그러나 파일시스템의 기능이 호스트에서 수행되는 경우, 서로 다른 파일시스템을 사용하는 호스트들에 대해서는 상호운영성을 지원하지 못하는 문제가 발생한다. 본 논문에서는 이동식 저장장치의 상호운영성을 향상시키기 위한 방법으로 파일시스템을 내장한 저장장치인 FSOC(File System On a Chip)를 제안하며, 이의 설계 및 구현의 예를 보인다. 또한 기존 저장장치와 FSOC의 성능 모델을 제시하고, 계시한 모델을 기반으로 기존 저장장치와 rsoc의 성능 차이를 분석하며, 구현된 FSOC를 이용한 실험을 통해 제시한 성능모델을 검증한다.

SoC의 성능 향상을 위한 크로스바 스위치 온칩 버스 설계 (Design of Crossbar Switch On-chip Bus for Performance Improvement of SoC)

  • 허정범;류광기
    • 한국정보통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.684-690
    • /
    • 2010
  • 기존에 사용되는 대부분의 SoC는 공유버스 구조를 가지고 있어, 병목현상이 발생하는 문제점을 가지고 있다. 이러한 문제점은 SoC의 내부의 IP 수가 많을수록, 전체적인 SoC의 성능을 저하시키게 되어, CPU 자체의 속도보다는 전체적인 통신 분배에 의해 SoC의 성능이 좌우 된다. 본 논문에서는 공유버스의 단점인 병목현상을 줄이고 SoC의 성능을 향상시키기 위해 크로스바 스위치버스 구조를 제안한다. 크로스바 스위치 버스는 마스터 모률 8개, 슬레이브 모듈 16개까지 연결이 가능하며, 다중 버스 채널구조로 되어 있어 병렬통신이 가능하다. 또한 각 16개의 슬레이브 인터페이스마다 우선순위 정보가 저장된 아비터가 내장되어 하나의 마스터가 슬레이브를 독점하는 것을 방지하는 것과 동시에 효율적인 통신을 지원한다. OpenRISC 프로세서, VGA/LCD 제어기, AC97 제어기, 디버그 인터페이스, 메모리 인터페이스로 구성되는 SoC 플랫폼의 WISHBONE 온칩 공유버스 구조와 크로스바 스위치 버스구조의 성능을 비교한 결과, 기존의 공유버스보다 26.58%의 성능이 향상되었다.

LZSS 알고리즘과 엔트로피 부호를 이용한 사전탐색처리장치를 갖는 부호기/복호기 단일-칩의 VLSI 설계 및 구현 (A VLSI Design and Implementation of a Single-Chip Encoder/Decoder with Dictionary Search Processor(DISP) using LZSS Algorithm and Entropy Coding)

  • 김종섭;조상복
    • 대한전자공학회논문지SD
    • /
    • 제38권2호
    • /
    • pp.103-113
    • /
    • 2001
  • 본 논문은 0.6㎛ CMOS 기술로 LZSS 알고리즘과 엔트로피 부호를 이용한 부호기/복호기 단일-칩의 본 논문은 0.6uul CMOS 기술로 LZSS 알고리즘과 엔트로피 부호를 이용한 부호기/복호기 단일-칩의 VLSI 설계 및 구현에 관하여 기술하였다. 처리 속도 50MHz를 갖는 사전탐색처리장치(DISP)의 메모리는 2K×Bbit 크기를 사용하였다. 이것은 매번 33개 클럭 중 한 개의 클럭은 사전의 WINDOW 배열을 갱신으로 사용하고 나머지 클럭은 주기마다 한 개의 데이터 기호를 바이트 단위로 압축을 실행한다. 결과적으로, LZSS 부호어 출력에 엔트로피 부호를 적용하여 46%의 평균 압축률을 보였다. 이것은 LZSS에 보다 7% 정도의 압축 성능이 향상된 것이다.

  • PDF

고성능 프로세서-메모리 혼합 구조의 설계 및 성능 분석 (Design and Performance Analysis of High Performance Processor-Memory Integrated Architectures)

  • 김영식;김신덕;한탁돈
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2686-2703
    • /
    • 1998
  • 프로세서 메모리 혼합 구조는 해마다 증가하는 프로세서와 메모리간의 성능 격차를 해결하는 대안으로 연구가 활발히 진행되고 있다. 본 논문에서는 프로세서 메모리 혼합 구조의 여러 가지 설계 대안들을 고찰하였다. 이를 위해서 DRAM 접근 시간의 분석적 모델을 제안하고 성능 향상점 및 성능 병목점을 찾았다. 제안한 분석적 모델에 의하여 DRAM 페이지 적중률을 증대하여 성능을 향상시키는 구조로써 새로운 온칩 DRAM 구조인 프리차지 연기 뱅크 아키텍쳐를 제안하였다. 또한 제안한 뱅크 아키텍쳐에 효율적으로 적용할 수 있는 뱅크 인터리빙 방법을 제시하였다. 제안한 구조는 기존의 일반적 DRAM 구조 및 계층적 다중-뱅크 구조보다 우수함을 시뮬레이션을 통하여 증명하였다. 시뮬레이션은 SimpleScalar 툴을 개조하여 사용하였고, SPEC95 벤치마크에 대해서, 캐쉬 메모리의 크기, 뱅크 개수, 프리차지 연기 시간 등의 변화에 대한 성능을 분석하였다.

  • PDF

RTP 어닐과 추가 이온주입에 의한 저-저항 텅스텐 비트-선 구현 (Low-resistance W Bit-line Implementation with RTP Anneal & Additional ion Implantation)

  • 이용희;이천희
    • 대한전자공학회논문지SD
    • /
    • 제38권5호
    • /
    • pp.375-381
    • /
    • 2001
  • 디바이스의 크기가 0.25㎛이하로 축소됨에 따라 DRAM(Dynamic Random Access Memory) 제조업체들은 칩 크기를 줄이고 지역적인 배선으로 사용하기 위해서 기존의 텅스텐-폴리사이드 비트-선에서 텅스텐 비트-선으로 대체하고 있다. 본 논문에서는 다양한 RTP 온도와 추가 이온주입을 사용하여 낮은 저항을 갖는 텅스텐 비트-선 제조 공정에 대해 다루었다. 그 결과 텅스텐 비트선 저항에 중요한 메계변수는 RTP Anneal 온도와 BF₂ 이온 주입 도펀트임을 알 수 있었다. 이러한 텅스텐 비트-선 공정은 고밀도 칩 구현에 중요한 기술이 된다.

  • PDF

TI DAVINCI를 이용한 영상 개선 알고리즘 구현 (Implementation of Image Enhancement Using DSP Chip)

  • 박종화;안태기;조병목;박구만
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.311-317
    • /
    • 2011
  • 본 논문에서는 입력된 영상에서 나타나는 세 가지 대표적인 잡음 영상인 안개 낀 영상, 저조도 영상, 역광 영상에 대한 개선 방안을 제시하였다. 기존의 안개영상 개선 알고리즘은 성능이 뛰어나지만 메모리 사용량과 계산량이 많아지는 문제점을 가지고 있다. 본 논문에서는 성능이 뛰어난 안개 제거 알고리즘의 메모리 사용량과 계산 량을 줄이는 개선된 방법을 제안하고, 이를 DM6446 DSP칩으로 구현하였으며, 제안한 방법을 이용하여 저조도 영상 개선 및 WDR에 적용시킬 수 있는 방법을 제안하였다. 실험결과 DSP 칩에 적용했을 때 초당 15화면을 처리하였다. 또한 구현한 결과 영상은 속도를 개선하기 전의 알고리즘과 거의 동일한 화질을 보였다.

Exploiting Thread-Level Parallelism in Lockstep Execution by Partially Duplicating a Single Pipeline

  • Oh, Jaeg-Eun;Hwang, Seok-Joong;Nguyen, Huong Giang;Kim, A-Reum;Kim, Seon-Wook;Kim, Chul-Woo;Kim, Jong-Kook
    • ETRI Journal
    • /
    • 제30권4호
    • /
    • pp.576-586
    • /
    • 2008
  • In most parallel loops of embedded applications, every iteration executes the exact same sequence of instructions while manipulating different data. This fact motivates a new compiler-hardware orchestrated execution framework in which all parallel threads share one fetch unit and one decode unit but have their own execution, memory, and write-back units. This resource sharing enables parallel threads to execute in lockstep with minimal hardware extension and compiler support. Our proposed architecture, called multithreaded lockstep execution processor (MLEP), is a compromise between the single-instruction multiple-data (SIMD) and symmetric multithreading/chip multiprocessor (SMT/CMP) solutions. The proposed approach is more favorable than a typical SIMD execution in terms of degree of parallelism, range of applicability, and code generation, and can save more power and chip area than the SMT/CMP approach without significant performance degradation. For the architecture verification, we extend a commercial 32-bit embedded core AE32000C and synthesize it on Xilinx FPGA. Compared to the original architecture, our approach is 13.5% faster with a 2-way MLEP and 33.7% faster with a 4-way MLEP in EEMBC benchmarks which are automatically parallelized by the Intel compiler.

  • PDF

Static FMM을 이용한 FC-PGA 패키지 핀에서의 기생 임피던스 추출 (Paratic Impedance Extraction of FC-PGA Package Pin using the Static Fast Multipole Method)

  • 천정남;이정태;어수지;김형동
    • 한국전자파학회논문지
    • /
    • 제12권7호
    • /
    • pp.1076-1085
    • /
    • 2001
  • 본 논문에서는 균일한 유전체 내의 복잡한 3차원 구조체에 대한 효율적인 기생(Parasitic) 임피던스 성분 추출을 위하여 반복법의 일종인 GMRES(Generalized Minimal RESidual Method)와 결합된 고속 멀티폴(FMM : Fast Multipole Method) 알고리즘을 구현하였다. 이 알고리즘은 준정적 기반 고속 멀티폴 방법으로 다중 도체들 간의 임피던스를 계산하는데 있어 기존의 모멘트법(MoM: Method of Moment)이 가지고 있는 계산량과 시간의 문제를 극복하기 위한 고속화 기술이다. 본 논문에서는 기존 MoM과의 비교를 통해 FMM의 정확성과 효율성을 입증하였다. 또한 멀티폴 알고리즘을 이용하여 기존 MoM으로는 해석이 불가능한 FC-PGA (Flip Chip Pin Grid Array) 패키지 핀에서의 기생 임피던스 성분들을 추출함으로써 신호간의 간섭에 의한 EMI/EMC 문제의 발생 가능성을 확인하였다.

  • PDF

AB9: A neural processor for inference acceleration

  • Cho, Yong Cheol Peter;Chung, Jaehoon;Yang, Jeongmin;Lyuh, Chun-Gi;Kim, HyunMi;Kim, Chan;Ham, Je-seok;Choi, Minseok;Shin, Kyoungseon;Han, Jinho;Kwon, Youngsu
    • ETRI Journal
    • /
    • 제42권4호
    • /
    • pp.491-504
    • /
    • 2020
  • We present AB9, a neural processor for inference acceleration. AB9 consists of a systolic tensor core (STC) neural network accelerator designed to accelerate artificial intelligence applications by exploiting the data reuse and parallelism characteristics inherent in neural networks while providing fast access to large on-chip memory. Complementing the hardware is an intuitive and user-friendly development environment that includes a simulator and an implementation flow that provides a high degree of programmability with a short development time. Along with a 40-TFLOP STC that includes 32k arithmetic units and over 36 MB of on-chip SRAM, our baseline implementation of AB9 consists of a 1-GHz quad-core setup with other various industry-standard peripheral intellectual properties. The acceleration performance and power efficiency were evaluated using YOLOv2, and the results show that AB9 has superior performance and power efficiency to that of a general-purpose graphics processing unit implementation. AB9 has been taped out in the TSMC 28-nm process with a chip size of 17 × 23 ㎟. Delivery is expected later this year.