• 제목/요약/키워드: quad-core

검색결과 22건 처리시간 0.023초

고속통신 시스템 응용을 위한 3 V 12b 100 MS/s CMOS D/A 변환기 (A 3 V 12b 100 MS/s CMOS DAC for High-Speed Communication System Applications)

  • 배현희;이명진;신은석;이승훈;김영록
    • 대한전자공학회논문지SD
    • /
    • 제40권9호
    • /
    • pp.685-691
    • /
    • 2003
  • 본 논문에서는 고속 통신 시스템 응용을 위한 12b 100 MS/s CMOS D/A 변환기(DAC) 회로를 제안한다. 제안하는 DAC는 전력소모, 면적, 선형성 및 글리치 에너지 등을 고려하여, 상위 8b는 단위 전류셀 매트릭스 (unit current-cell matrix)로 나머지 하위 4b는 이진 전류열 (binary-weighted array)로 구성하였다. 제안하는 DAC는 동적 성능을 향상시키기 위해 새로운 구조의 스위치 구동 회로를 사용하였다. 시제품 DAC회로 레이아웃을 위해서는 캐스코드 전류원을 단위 전류셀 스위치 매트릭스와 분리하였으며, 제안하는 칩은 0.35 um single-poly quad-metal CMOS 공정을 사용하여 제작되었다. 측정된 시제품의 DNL 및 INL은 12b 해상도에서 각각 ±0.75 LSB와 ±1.73 LSB이내의 수준이며, 100 MS/s 동작 주파수와 10 MHz 입력 주파수에서 64 dB의 SFDR을 보여준다. 전력 소모는 3 V의 전원 전압에서 91 mW이며, 칩 전체 크기는 2.2 mm × 2.0 mm 이다.

반자동 지도입력 시스템기술 개발 연구 (The Study on a Semi-automated Mapping System)

  • 윤재경;이기혁;우창헌;이경자;김수용
    • Spatial Information Research
    • /
    • 제3권1호
    • /
    • pp.19-27
    • /
    • 1995
  • 논문에서 다룰 시스템은 영상 처리를 이용한 전처리과정에서 사용자에게 필요한 정보를 얻은 뒤 이 자료를 상호교류적으로 입력하는 반자동 지도입력시스템이다. 영상 처리는 주로 중요한 정보의 하나인 외곽선 추출에 주력하였고 이를 위해 적응성 평활화 필터와 연결보존외곽선추출를 사용하였다. 외곽선 정보는 편집기에서 벡터화 하며 편집의 효율을 높이기 위해 내부 자료구조는 확장된 사진트리 구조를 사용하였다. 이러한 작업들은 그 특성에 따라 개인용 컴퓨터와 워크스테이션에 각각 분담시켰고 네트웍을 통해 저장기기를 공유하여 작업의 일관성및 단순화를 추구하였다.

  • PDF

PREEMPT_RT Linux에서 SOEM을 이용하는 임베디드 EtherCAT 마스터 성능 평가 (Performance Evaluation of an Embedded EtherCAT Master with SOEM on PREEMPT_RT Linux)

  • 강성진;김외철
    • 반도체디스플레이기술학회지
    • /
    • 제21권3호
    • /
    • pp.26-32
    • /
    • 2022
  • EtherCAT is an Ethernet-based fieldbus system standardized in IEC 61158 and SEMI, and widely used in the fields of factory automation, semiconductor equipment and robotics. In this paper, an EtherCAT master is implemented on an embedded board with Arm based 64-bit quad-core processor and its jitter performance is evaluated at the output of the network interface to include all the effects of the entire system in the results. For the EtherCAT master system, an open source EtherCAT master stack, Simple Open EtherCAT Master (SOEM), is installed on PREEMPT_RT patched Linux operating system for real-time operation. The results show that the jitter performance is comparable to that of Xenomai-based master and the EtherCAT master with two master instances has similar jitter performance to the EtherCAT master with one master instance.

멀티코어 시스템에서의 통합된 비디오 디코딩 병렬화 (Integrated Parallelization of Video Decoding on Multi-core Systems)

  • 홍정현;김원진;정기석
    • 대한전자공학회논문지SD
    • /
    • 제49권7호
    • /
    • pp.39-49
    • /
    • 2012
  • 고해상도의 동영상 서비스가 보편화 되면서 동영상을 빠르게 처리하기 위한 연구가 활발히 이루어지고 있다. 특히 멀티 코어 시스템 상에서 멀티스레드를 사용한 데이터 레벨 병렬화 방법을 적용하여 비디오 디코더의 성능을 향상 시킬 수 있었다. 기존에 제안된 병렬화 방법들을 통해 디코딩 과정의 성능을 향상 시킬 수 있었지만, 이 방법들은 엔트로피 디코딩 부분을 제외하거나 엔트로피 디코딩 부분만의 병렬화를 별도로 고려한 부분적인 병렬화 방법이기 때문에 전체 디코딩 과정의 성능 향상에는 부족한 부분이 있다. 따라서 본 논문에서는 기존 병렬화 디코딩 과정뿐만 아니라 엔트로피 병렬화 디코딩 과정까지 함께 고려한 통합적인 비디오 디코딩 병렬화 방법을 제안한다. 우리는 각각의 비디오 디코더 병렬화 방법을 분석하여 최적화 방법을 제시하고 이의 성능평가를 해보았다. 그리고 우리는 비디오 디코딩 과정 내부에 존재하는 코어의 개수에 따른 성능향상의 차이를 고려해 성능을 최적화한 Integrated Parallelization 방법을 제안한다. 우리는 인텔 i7 멀티코어 시스템의 물리적 코어에서 엔트로피 디코딩 부분을 최대로 병렬화 하면서, 내부 자원을 공유하는 하이퍼스레딩 기술을 사용하여 데이터레벨 병렬화 방법에는 물리적 코어 수의 2배까지 스레드를 할당했다. 그리고 디코딩 과정 내부 특성을 고려한 멀티스레드 스케쥴링으로 전체 디코딩 과정의 성능을 멀티코어 시스템에 최적화해서 최대 70%까지 성능을 향상시킬 수 있었다.

선형 어레이 SliM-II 이미지 프로세서 칩 (A linear array SliM-II image processor chip)

  • 장현만;선우명훈
    • 전자공학회논문지C
    • /
    • 제35C권2호
    • /
    • pp.29-35
    • /
    • 1998
  • This paper describes architectures and design of a SIMD type parallel image processing chip called SliM-II. The chiphas a linear array of 64 processing elements (PEs), operates at 30 MHz in the worst case simulation and gives at least 1.92 GIPS. In contrast to existing array processors, such as IMAP, MGAP-2, VIP, etc., each PE has a multiplier that is quite effective for convolution, template matching, etc. The instruction set can execute an ALU operation, data I/O, and inter-PE communication simulataneously in a single instruction cycle. In addition, during the ALU/multiplier operation, SliM-II provides parallel move between the register file and on-chip memory as in DSP chips, SliM-II can greatly reduce the inter-PE communication overhead, due to the idea a sliding, which is a technique of overlapping inter-PE communication with computation. Moreover, the bandwidth of data I/O and inter-PE communication increases due to bit-parallel data paths. We used the COMPASS$^{TM}$ 3.3 V 0.6.$\mu$m standrd cell library (v8r4.10). The total number of transistors is about 1.5 muillions, the core size is 13.2 * 13.0 mm$^{2}$ and the package type is 208 pin PQ2 (Power Quad 2). The performance evaluation shows that, compared to a existing array processors, a proposed architeture gives a significant improvement for algorithms requiring multiplications.s.

  • PDF

A 3 V 12b 100 MS/s CMOS D/A Converter for High-Speed Communication Systems

  • Kim, Min-Jung;Bae, Hyuen-Hee;Yoon, Jin-Sik;Lee, Seung-Hoon
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제3권4호
    • /
    • pp.211-216
    • /
    • 2003
  • This work describes a 3 V 12b 100 MS/s CMOS digital-to-analog converter (DAC) for high-speed communication system applications. The proposed DAC is composed of a unit current-cell matrix for 8 MSBs and a binary-weighted array for 4 LSBs, trading-off linearity, power consumption, chip area, and glitch energy with this process. The low-glitch switch driving circuits are employed to improve linearity and dynamic performance. Current sources of the DAC are laid out separately from the current-cell switch matrix core block to reduce transient noise coupling. The prototype DAC is implemented in a 0.35 um n-well single-poly quad-metal CMOS technology and the measured DNL and INL are within ${\pm}0.75$ LSB and ${\pm}1.73$ LSB at 12b, respectively. The spurious-free dynamic range (SFDR) is 64 dB at 100 MS/s with a 10 MHz input sinewave. The DAC dissipates 91 mW at 3 V and occupies the active die area of $2.2{\;}mm{\;}{\times}{\;}2.0{\;}mm$

Two-Level Tries: A General Acceleration Structure for Parallel Routing Table Accesses

  • Mingche, Lai;Lei, Gao
    • Journal of Communications and Networks
    • /
    • 제13권4호
    • /
    • pp.408-417
    • /
    • 2011
  • The stringent performance requirement for the high efficiency of routing protocols on the Internet can be satisfied by exploiting the threaded border gateway protocol (TBGP) on multi-cores, but the state-of-the-art TBGP performance is restricted by a mass of contentions when racing to access the routing table. To this end, the highly-efficient parallel access approach appears to be a promising solution to achieve ultra-high route processing speed. This study proposes a general routing table structure consisting of two-level tries for fast parallel access, and it presents a heuristic-based divide-and-recombine algorithm to solve a mass of contentions, thereby accelerating the parallel route updates of multi-threading and boosting the TBGP performance. As a projected TBGP, this study also modifies the table operations such as insert and lookup, and validates their correctness according to the behaviors of the traditional routing table. Our evaluations on a dual quad-core Xeon server show that the parallel access contentions decrease sharply by 92.5% versus the traditional routing table, and the maximal update time of a thread is reduced by 56.8 % on average with little overhead. The convergence time of update messages are improved by 49.7%.

AB9: A neural processor for inference acceleration

  • Cho, Yong Cheol Peter;Chung, Jaehoon;Yang, Jeongmin;Lyuh, Chun-Gi;Kim, HyunMi;Kim, Chan;Ham, Je-seok;Choi, Minseok;Shin, Kyoungseon;Han, Jinho;Kwon, Youngsu
    • ETRI Journal
    • /
    • 제42권4호
    • /
    • pp.491-504
    • /
    • 2020
  • We present AB9, a neural processor for inference acceleration. AB9 consists of a systolic tensor core (STC) neural network accelerator designed to accelerate artificial intelligence applications by exploiting the data reuse and parallelism characteristics inherent in neural networks while providing fast access to large on-chip memory. Complementing the hardware is an intuitive and user-friendly development environment that includes a simulator and an implementation flow that provides a high degree of programmability with a short development time. Along with a 40-TFLOP STC that includes 32k arithmetic units and over 36 MB of on-chip SRAM, our baseline implementation of AB9 consists of a 1-GHz quad-core setup with other various industry-standard peripheral intellectual properties. The acceleration performance and power efficiency were evaluated using YOLOv2, and the results show that AB9 has superior performance and power efficiency to that of a general-purpose graphics processing unit implementation. AB9 has been taped out in the TSMC 28-nm process with a chip size of 17 × 23 ㎟. Delivery is expected later this year.

멀티코어 시스템을 위한 멀티스레드 H.264/AVC 병렬 디코더 (Multi-Threaded Parallel H.264/AVC Decoder for Multi-Core Systems)

  • 김원진;조걸;정기석
    • 대한전자공학회논문지SD
    • /
    • 제47권11호
    • /
    • pp.43-53
    • /
    • 2010
  • 고해상도의 동영상 서비스가 보편화 되면서 동영상을 빠르게 처리를 위한 연구가 활발히 이루어지고 있다. 멀티코어 프로세서의 사용이 증가하고 멀티코어 시스템에서 H.264/AVC 디코더를 구현하기 위하여 다양한 병렬화 방법이 제안되고 있다. 하지만 H.264/AVC 디코더를 병렬화 하는 경우, 각 스레드에서 처리하는 데이터의 처리 시간 차이로 인하여 지속적으로 스레드의 동기를 확인해야 하는데, 이는 병렬화를 통한 디코더의 성능 향상의 걸림돌이 된다. 이러한 병렬화 과정에서 발생하는 문제점을 해결하기 위해 우리가 제안하는 Multi -Threaded Parallelization(MTP) 방법은 프레임을 매크로 블록 묶음으로 나누어 병렬화 한다. 그리고 병렬화 과정에서 스레드를 처리하는 방법을 개선하고, 메모리를 재사용함으로써 디코더의 성능을 향상 시켰다. 본 논문에서는 FFmpeg H.264/AVC 디코더를 인텔 쿼드 코어 기반의 멀티코어 시스템에서 멀티 스레드로 구현하여 실험이 진행되었다. 그 결과, MTP 방법을 적용하여 병렬화 방법 적용하지 않은 H.264/AVC 디코더와 비교하여 최대 53%의 성능향상을 보였으며, 2Dwave 병렬화 방법의 메모리 사용량에 비해 HD 영상에서 65%, FHD 영상에서 81%의 메모리 사용량을 줄 일 수 있었다.

멀티코어 기반 모바일 플랫폼을 위한 애플리케이션의 태스크 병렬화 시스템 (Task Parallelism System of Application for Multicore-Based Mobile Platform)

  • 임근식;이세호;엄영익
    • 한국통신학회논문지
    • /
    • 제38C권6호
    • /
    • pp.521-530
    • /
    • 2013
  • 본 논문은 기존의 소프트웨어가 멀티코어기반의 모바일 디바이스를 인지할 수 있도록 태스크 병렬화 시스템(BioMP)을 제안한다. 애플리케이션 개발자가 기존의 소프트웨어에 병렬화 규약의 코드를 추가하였을 때, 제안 시스템은 호환성 뿐만 아니라 병렬 쓰레드의 수행을 지원한다. BioMP는 기존의 대용량 애플리케이션 소스코드를 단시일에 멀티코어를 인지하는 소프트웨어로 개선한다. 실험 결과, 우리의 아이디어는 쿼드 코어기반의 멀티코어 환경에서 기존의 시스템 대비 애플리케이션 실행속도를 약 64%까지 개선하였다. 또한, BioMP는 독립적인 컴포넌트이기 때문에 어떠한 플랫폼의 추가적인 수정도 필요로 하지 않는다. 그 결과, 애플리케이션 개발자는 멀티코어향 소프트웨어를 애플리케이션 스토어에 배포하였을 때, 사용자는 모바일 디바이스의 어떠한 수정도 없이 즉시 실행을 할 수 있다.