• 제목/요약/키워드: Embedded clock

검색결과 103건 처리시간 0.023초

Hardware Approach to Fuzzy Inference―ASIC and RISC―

  • Watanabe, Hiroyuki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.975-976
    • /
    • 1993
  • This talk presents the overview of the author's research and development activities on fuzzy inference hardware. We involved it with two distinct approaches. The first approach is to use application specific integrated circuits (ASIC) technology. The fuzzy inference method is directly implemented in silicon. The second approach, which is in its preliminary stage, is to use more conventional microprocessor architecture. Here, we use a quantitative technique used by designer of reduced instruction set computer (RISC) to modify an architecture of a microprocessor. In the ASIC approach, we implemented the most widely used fuzzy inference mechanism directly on silicon. The mechanism is beaded on a max-min compositional rule of inference, and Mandami's method of fuzzy implication. The two VLSI fuzzy inference chips are designed, fabricated, and fully tested. Both used a full-custom CMOS technology. The second and more claborate chip was designed at the University of North Carolina(U C) in cooperation with MCNC. Both VLSI chips had muliple datapaths for rule digital fuzzy inference chips had multiple datapaths for rule evaluation, and they executed multiple fuzzy if-then rules in parallel. The AT & T chip is the first digital fuzzy inference chip in the world. It ran with a 20 MHz clock cycle and achieved an approximately 80.000 Fuzzy Logical inferences Per Second (FLIPS). It stored and executed 16 fuzzy if-then rules. Since it was designed as a proof of concept prototype chip, it had minimal amount of peripheral logic for system integration. UNC/MCNC chip consists of 688,131 transistors of which 476,160 are used for RAM memory. It ran with a 10 MHz clock cycle. The chip has a 3-staged pipeline and initiates a computation of new inference every 64 cycle. This chip achieved an approximately 160,000 FLIPS. The new architecture have the following important improvements from the AT & T chip: Programmable rule set memory (RAM). On-chip fuzzification operation by a table lookup method. On-chip defuzzification operation by a centroid method. Reconfigurable architecture for processing two rule formats. RAM/datapath redundancy for higher yield It can store and execute 51 if-then rule of the following format: IF A and B and C and D Then Do E, and Then Do F. With this format, the chip takes four inputs and produces two outputs. By software reconfiguration, it can store and execute 102 if-then rules of the following simpler format using the same datapath: IF A and B Then Do E. With this format the chip takes two inputs and produces one outputs. We have built two VME-bus board systems based on this chip for Oak Ridge National Laboratory (ORNL). The board is now installed in a robot at ORNL. Researchers uses this board for experiment in autonomous robot navigation. The Fuzzy Logic system board places the Fuzzy chip into a VMEbus environment. High level C language functions hide the operational details of the board from the applications programme . The programmer treats rule memories and fuzzification function memories as local structures passed as parameters to the C functions. ASIC fuzzy inference hardware is extremely fast, but they are limited in generality. Many aspects of the design are limited or fixed. We have proposed to designing a are limited or fixed. We have proposed to designing a fuzzy information processor as an application specific processor using a quantitative approach. The quantitative approach was developed by RISC designers. In effect, we are interested in evaluating the effectiveness of a specialized RISC processor for fuzzy information processing. As the first step, we measured the possible speed-up of a fuzzy inference program based on if-then rules by an introduction of specialized instructions, i.e., min and max instructions. The minimum and maximum operations are heavily used in fuzzy logic applications as fuzzy intersection and union. We performed measurements using a MIPS R3000 as a base micropro essor. The initial result is encouraging. We can achieve as high as a 2.5 increase in inference speed if the R3000 had min and max instructions. Also, they are useful for speeding up other fuzzy operations such as bounded product and bounded sum. The embedded processor's main task is to control some device or process. It usually runs a single or a embedded processer to create an embedded processor for fuzzy control is very effective. Table I shows the measured speed of the inference by a MIPS R3000 microprocessor, a fictitious MIPS R3000 microprocessor with min and max instructions, and a UNC/MCNC ASIC fuzzy inference chip. The software that used on microprocessors is a simulator of the ASIC chip. The first row is the computation time in seconds of 6000 inferences using 51 rules where each fuzzy set is represented by an array of 64 elements. The second row is the time required to perform a single inference. The last row is the fuzzy logical inferences per second (FLIPS) measured for ach device. There is a large gap in run time between the ASIC and software approaches even if we resort to a specialized fuzzy microprocessor. As for design time and cost, these two approaches represent two extremes. An ASIC approach is extremely expensive. It is, therefore, an important research topic to design a specialized computing architecture for fuzzy applications that falls between these two extremes both in run time and design time/cost. TABLEI INFERENCE TIME BY 51 RULES {{{{Time }}{{MIPS R3000 }}{{ASIC }}{{Regular }}{{With min/mix }}{{6000 inference 1 inference FLIPS }}{{125s 20.8ms 48 }}{{49s 8.2ms 122 }}{{0.0038s 6.4㎲ 156,250 }} }}

  • PDF

멀티미디어 무선 단말기를 위한 재구성 가능한 코프로세서의 설계 (Design of Reconfigurable Coprocessor for Multimedia Mobile Terminal)

  • 김남섭;이상훈;금민하;김진상;조원경
    • 대한전자공학회논문지SD
    • /
    • 제44권4호
    • /
    • pp.63-72
    • /
    • 2007
  • 본 논문에서는 멀티미디어 무선단말기에 적합한 코프로세서를 설계하였다. 멀티미디어 무선단말기는 많은 양의 멀티미디어 데이터를 실시간으로 처리하기 때문에 고속 멀티미디어 연산을 지원하는 코프로세서가 요구된다. 따라서 본 논문에서는 재구성 가능한 구조를 사용하여 고속 연산이 가능한 코프로세서의 구조를 제안하고 이를 설계하였다. 제안된 코프로세서는 재구성이 가능할 뿐만 아니라 PE(Processing Element)들을 그룹 단위로 묶어서 응용분야에 따라 확장이 가능하도록 하였으며 곱셈기를 사용하지 않고 곱셈처리가 가능하도록 하였다. 또한 메인 프로세서의 시스템 I/O 버스에 연결되도록 하였기 때문에 모든 프로세서에 연결이 가능하도록 하였다. 제안된 코프로세서는 VHDL을 이용하여 설계되었으며 설계된 코프로세서를 기존의 재구성 가능한 코프로세서 및 상용 임베디드 프로세서와 구조비교 및 성능비교를 하였다. 비교 결과, 제안된 코프로세서는 기존의 재구성 가능한 코프로세서에 비해 융통성 및 하드웨어 크기 면에서 우수함을 나타내었고, 실제 DCT 응용분야에서 상용 ARM 프로세서에 비해 26배의 속도증가를 보였으며 고속 DCT코어를 탑재한 ARM프로세서와의 비교에서 11배의 속도증가를 나타내었다.

Motion JPEG2000을 위한 실시간 비디오 압축 프로세서의 하드웨어 구조 및 설계 (Hardware Architecture and its Design of Real-Time Video Compression Processor for Motion JPEG2000)

  • 서영호;김동욱
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권1호
    • /
    • pp.1-9
    • /
    • 2004
  • In this paper, we proposed a hardware(H/W) structure which can compress and recontruct the input image in real time operation and implemented it into a FPGA platform using VHDL(VHSIC Hardware Description Language). All the image processing element to process both compression and reconstruction in a FPGA were considered each of them was mapped into a H/W with the efficient structure for FPGA. We used the DWT(discrete wavelet transform) which transforms the data from spatial domain to the frequency domain, because use considered the motion JPEG2000 as the application. The implemented H/W is separated to both the data path part and the control part. The data path part consisted of the image processing blocks and the data processing blocks. The image processing blocks consisted of the DWT Kernel for the filtering by DWT, Quantizer/Huffman Encoder, Inverse Adder/Buffer for adding the low frequency coefficient to the high frequency one in the inverse DWT operation, and Huffman Decoder. Also there existed the interface blocks for communicating with the external application environments and the timing blocks for buffering between the internal blocks. The global operations of the designed H/W are the image compression and the reconstruction, and it is operated by the unit or a field synchronized with the A/D converter. The implemented H/W used the 54%(12943) LAB(Logic Array Block) and 9%(28352) ESB(Embedded System Block) in the APEX20KC EP20K600CB652-7 FPGA chip of ALTERA, and stably operated in the 70MHz clock frequency. So we verified the real time operation. that is. processing 60 fields/sec(30 frames/sec).

IPM기반 곡선 차선 검출기 하드웨어 구조 설계 및 구현 (Hardware Architecture Design and Implementation of IPM-based Curved Lane Detector)

  • 손행선;이선영;민경원;서성진
    • 한국정보전자통신기술학회논문지
    • /
    • 제10권4호
    • /
    • pp.304-310
    • /
    • 2017
  • 본 논문은 자율주행자동차가 곡선 주행 차로를 따라 주행 경로를 인지하고 경로 제어가 가능하도록 하기 위한 IPM 기반의 차선 검출기 구조에 대해 제안하고 RTL (Register Transfer Level) 기반의 회로 구현 결과에 대해 설명한다. 제안한 회로 구조는 곡률이 심한 차선에 대해 높은 정확도를 보장하기 위해 역투영 정합 영상을 Near/Far 영역으로 구분하여 허프 변환과 차선의 후보 영역 검출 연산을 적용한다. 자율주행자동차의 경우 다양한 알고리즘을 탑재해야 하므로 임베디드 시스템에서 차선 인식기의 시스템 자원 사용량을 줄이기 위해 차선 인식에 사용하는 영상 데이터 및 각종 파라미터 데이터에 대해 메모리 접근 회수를 최소화하는 방법을 제안하였다. 제안한 회로는 Xilinx Zynq XC7Z020에서 LUT 16%, FF 5.9%, BRAM 29%의 FPGA 자원 점유율을 보였으며 100MHz 클럭에서 Full-HD ($1920{\times}1080$) 영상을 초당 42장 처리 가능한 성능을 갖고 약 96% 차선 인식률을 보인다.

차량 검출용 CNN 분류기의 실시간 처리를 위한 하드웨어 설계 (A Real-Time Hardware Design of CNN for Vehicle Detection)

  • 방지원;정용진
    • 전기전자학회논문지
    • /
    • 제20권4호
    • /
    • pp.351-360
    • /
    • 2016
  • 최근 딥 러닝을 중심으로 빠르게 발전하고 있는 기계학습 분류 알고리즘은 기존의 방법들보다 뛰어난 성능으로 인하여 주목받고 있다. 딥 러닝 중에서도 Convolutional Neural Network(CNN)는 영상처리에 뛰어나 첨단 운전자 보조 시스템(Advanced Driver Assistance System : ADAS)에서 많이 사용되고 있는 추세이다. 하지만 차량용 임베디드 환경에서 CNN을 소프트웨어로 동작시켰을 때는 각 Layer마다 연산이 반복되는 알고리즘의 특성으로 인해 수행시간이 길어져 실시간 처리가 어렵다. 본 논문에서는 임베디드 환경에서 CNN의 실시간 처리를 위하여 Convolution 연산 및 기타 연산들을 병렬로 처리하여 CNN의 속도를 향상시키는 하드웨어 구조를 제안한다. 제안하는 하드웨어의 성능을 검증하기 위하여 Xilinx ZC706 FPGA 보드를 이용하였다. 입력 영상은 $36{\times}36$ 크기이며, 동작주파수 100MHz에서 하드웨어 수행시간은 약 2.812ms로 실시간 처리가 가능함을 확인했다.

효율적인 캐쉬 테스트 알고리듬 및 BIST 구조 (An Effective Cache Test Algorithm and BIST Architecture)

  • 김홍식;윤도현;강성호
    • 전자공학회논문지C
    • /
    • 제36C권12호
    • /
    • pp.47-58
    • /
    • 1999
  • 급속한 프로세서 성능 향상에 따라 메인 메모리와의 속도차이를 극복하기 위해서 캐쉬메모리의 사용이 일반화 되었다. 일반적으로 내장된 캐쉬 블록의 메모리는 그 크기가 작기 때문에 테스트 관점에서 테스트 시간보다는 고장 검출률이 중요하다. 따라서 본 논문에서는 다양한 고장 모델을 테스트할 수 있는 테스트 알고리듬과 상대적으로 적은 오버헤드를 갖는 새로운 BIST(Built-In Self Test) 구조를 제안하였다. 새로운 동시 테스트 BIST 구조에서는 캐쉬제어 블록의 비교기를 태그 메모리 결과분석기로 사용한다. 이를 위한 비교기의 선행 테스트를 위해 변형된 주사사슬을 사용하여 테스트 클록을 감소하였다. 몇 개의 경계주사 명령어를 추가하여 내부 테스트 회로들을 제어할 수 있다. 새로운 메모리 테스트 알고리듬은 12N의 복잡도를 갖고 SAFs, AFs, TFs linked with CFs, CFins, CFids, SCFs, CFdyns 및 DRFs의 고장을 테스트할 수 있으며, 새로운 BIST 구조는 합성결과 기존의 동시 테스트 방법보다 약 11%의 오버헤드 감소가 가능하였다.

  • PDF

SURF 기반 특징점 추출 및 서술자 생성의 FPGA 구현 (FPGA Implementation of SURF-based Feature extraction and Descriptor generation)

  • 나은수;정용진
    • 한국멀티미디어학회논문지
    • /
    • 제16권4호
    • /
    • pp.483-492
    • /
    • 2013
  • SURF는 영상의 특징점을 추출하고 서술자를 생성하는 알고리즘으로 객체인식 및 추적, 파노라마 이미지 생성 등 여러 영상처리 시스템에 응용되고 있다. SURF 알고리즘은 영상의 크기, 회전, 시점 등의 변화에 강인한 특징을 갖지만 복잡하고 반복적인 연산이 많아 실시간 처리가 어렵다. 실제 PC(Pentium, 3.3GHz) 환경에서 1000개 정도의 특징점이 추출되는 VGA($640{\times}480$) 해상도의 영상을 이용하여 실험한 결과 특징점 추출 및 서술자 생성에 총 240ms 이상이 걸려 약 4frame/sec로 실시간 처리가 불가능한 것을 확인하였다. 본 논문에서는 SURF 알고리즘의 메모리 접근 패턴을 분석하여 라인 메모리를 효율적으로 구성해 메모리 사용을 최소화하고 반복적으로 수행되는 연산을 병렬처리 하는 방법으로 하드웨어를 설계하였다. 하드웨어 설계 검증 결과 Xilinx사의 Virtex5LX330 FPGA를 타겟으로 합성 시 101,348LUTs(66%)와 1,367KB의 내부 메모리를 사용하고, 100MHz 동작 클록에서 30 frame/sec로 실시간 처리가 가능함을 볼 수 있었다.

효율적인 슬랙 분석 방법에 기반한 경성 실시간 시스템에서의 동적 전압 조절 방안 (Dynamic Voltage Scaling Algorithms for Hard Real-Time Systems Using Efficient Slack Time Analysis)

  • 김운석;김지홍;민상렬
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권12호
    • /
    • pp.736-748
    • /
    • 2003
  • 동적 전압 조절(DVS: Dynamic Voltage Scaling)은 온라인 상태에서 CMOS 회로의 공급 전압과 클락 속도를 동적으로 조절하는 것으로 내장형 실시간 시스템의 에너지 소모량을 줄이는데 매우 효과적인 기법이다. 일반적으로 DVS 알고리즘의 에너지 효율은 이의 슬랙 측정 방법에 의해 크게 좌우된다. 본 논문에서는, 향상된 슬랙 측정 방법에 기반한 주기적 경성 실시간 태스크들을 위한 새로운 DVS 알고리즘을 제안한다. 기존의 방법들과는 달리, 제안된 온라인 슬랙 측정 방안은 우선순위 기반 스케줄링의 기본적인 특성을 이용하며, 따라서 대부분의 우선순위 기반 스케줄링 정책에 대해 적용이 가능하다. 본 논문에서는, 이른종료시한우선(EDF: Earliest Deadline First) 스케줄링 정책과 주기-단조(RM: Rate Monotonic) 스케줄링 정책으로 대변되는 동적 및 고정 우선순위 스케줄링 정책에 대해 제안된 슬랙 측정 방안을 적용하는 방안을 제시한다. 또한, 모의 실험을 통해, 제안된 알고리즘은 기존의 DVS 알고리즘에 비해 프로세서의 에너지 소모량을 효과적으로(20∼40% 정도) 줄일 수 있음을 보인다.

얼굴 특징 검출 알고리즘의 하드웨어 설계 (Hardware Implementation of Facial Feature Detection Algorithm)

  • 김정호;정용진
    • 전자공학회논문지CI
    • /
    • 제45권1호
    • /
    • pp.1-10
    • /
    • 2008
  • 본 논문에서는 기존에 얼굴 검출에 사용된 ICT(Improved Census Transform) 변환을 이용하여 눈, 코, 입 등의 얼굴 특징을 검출하는 하드웨어를 설계하였다. 파이프라인 구조를 이용하여 동작 속도를 높였고, ICT 변환, 메모리 공유, 동작 과정의 세분화를 통하여 메모리 사용량을 줄였다. 본 논문에서 사용한 알고리즘을 얼굴 검출 및 인식 분야에서 테스트용으로 주로 쓰이는 BioID 데이터베이스(database)를 이용하여 테스트한 결과 100%의 검출률을 보였고, 설계한 하드웨어의 결과도 이와 동일하였다. 또한 Synopsys사의 Design Compiler와 동부아남사의 $0.18{\mu}m$ library를 이용하여 합성한 결과 총 $376,821{\mu}m2$의 결과를 얻었고 78MHz의 동작 클럭 하에서 17.1msec의 검출 속도를 보였다. 본 논문은 소프트웨어 형태의 알고리즘을 임베디드 하드웨어로 구현함으로 인하여 실시간 처리의 가능성을 보였고, 저가격, 높은 이식성에 대한 가능성을 제시하였다.

블록암호와 해시 함수 IP가 내장된 Cortex-M0 기반의 보안 시스템 온 칩 (A Cortex-M0 based Security System-on-Chip Embedded with Block Ciphers and Hash Function IP)

  • 최준영;최준백;신경욱
    • 전기전자학회논문지
    • /
    • 제23권2호
    • /
    • pp.388-394
    • /
    • 2019
  • 블록암호 알고리듬 ARIA와 AES 그리고 해시 함수 Whirlpool을 단일 하드웨어로 통합 구현한 AAW(ARIA- AES-Whirlpool) 크립토 코어를 Cortex-M0 CPU에 슬레이브로 인터페이스한 보안 SoC(System-on-Chip) 설계에 대해 기술한다. AAW 크립토 코어는 ARIA, AES, Whirlpool의 알고리듬 특성을 이용한 하드웨어 공유를 통해 저면적으로 구현되었으며, 128-비트와 256-비트의 키 길이를 지원한다. 설계된 보안 SoC 프로토타입을 FPGA 디바이스에 구현하고, 하드웨어-소프트웨어 통합 검증을 하였다. AAW 크립토 코어는 5,911 슬라이스로 구현이 되었으며, AAW 크립토 코어가 포함된 AHB_Slave는 6,366 슬라이스로 구현되었다. AHB_Slave의 최대 동작 주파수는 36 MHz로 예측되었으며, ARIA-128, AES-128의 데이터 처리율은 각각 83 Mbps, 78 Mbps이고, Whirlpool 해시 함수의 512-비트 블록의 처리율은 156 Mbps로 평가되었다.