• 제목/요약/키워드: VLSI design

검색결과 488건 처리시간 0.028초

VHDL을 이용한 다차원 디지털 필터의 PLD 구현 (PLD implementation of the N-D digital filter with VHDL)

  • 정재길
    • 공학논문집
    • /
    • 제6권1호
    • /
    • pp.111-124
    • /
    • 2004
  • 반도체 기술의 발전과 설계환경의 변화로 비용과 시간이 많이 소요되는 Custom-VLSI 구현 방식보다 Programmable Logic Device (PLD)를 이용한 시스템 구현이 일반화 되어 가는 추세이다. 또한 설계 방식도 Schematic Capture 방식 대신에 보다 효율적이고 표준화된 방식인 Hardware Description Language (HDL)의 활용으로 변화하고 있다. 본 연구에서는 지난 연구 결과를 확장하여 활용영역을 넓혀 가고 있는 다차원 디지털 필터를 PLD를 이용하여 효율적으로 구현할 수 있는 구조를 연구하여 제안하였다. 다차원 디지털 필터링 알고리즘의 효율적인 구현을 위하여 알고리즘 분해방법을 이용하였다. 알고리즘 분해방법은 다차원 디지털 신호처리 알고리즘에 내재된 병렬성을 상태공간식을 이용하여 추출하고, 이로부터 computational primitive(CP)를 얻을 수 있도록 하여준다. 구해진 CP는 VHDL을 이용하여 설계하였으며, 이를 component로 활용하여 효율적인 다차원 디지털 필터를 설계하였다. 설계된 필터를 PLD에 구현함으로써 시스템에 장착된 상태에서 upgrade가 가능하게 되었을 뿐만 아니라, 다차원 디지털 필터를 필요로 하는 모든 시스템의 설계에 component로 사용함으로써 시스템의 Time-to-market 시간을 크게 단축할 수 있다.

  • PDF

새로운 복합모드로직과 사인선택 Booth 인코더를 이용한 고성능 32$\times$32-bit 곱셈기의 설계 (Design of a High Performance 32$\times$32-bit Multiplier Based on Novel Compound Mode Logic and Sign Select Booth Encoder)

  • 김진화;송민규
    • 대한전자공학회논문지SD
    • /
    • 제38권3호
    • /
    • pp.205-210
    • /
    • 2001
  • 본 논문에서는 CMOS 로직과 pass-transistor logic(PTL)의 장점만을 가진 새로운 복합모드로직(Compound Mode Logic)을 제안하였다. 제안된 로직은 VLSI설계에서 중요하게 부각되고 있는 저전력, 고속 동작이 가능하며 실제로 전가산기를 설계하여 측정 한 결과 복합모드 로직의 power-delay 곱은 일반적인 CMOS로직에 비해 약 22% 개선되었다 제안한 복합모드 로직을 이용하여 고성능 32×32-bit 곱셈기를 설계 제작하였다. 본 논문의 곱셈기는 개선된 사인선택(Sign Select) Booth 인코더, 4-2 및 9-2 압축기로 구성된 데이터 압축 블록, 그리고 carry 생성 블록을 분리한 64-bit 조건 합 가산기로 구성되어 있다. 0.6um 1-poly 3-metal CMOS 공정을 이용하여 제작된 32×32-bit 곱셈기는 28,732개의 트랜지스터와 1.59×l.68 ㎜2의 면적을 가졌다. 측정 결과 32×32-bit 곱셈기의 곱셈시간은 9.8㎱ 이었으며, 3.3V 전원 전압에서 186㎽의 전력 소모를 하였다.

  • PDF

실시간 스테레오 정합을 위한 스테레오 영상 정합 프로세서 설계 (Design of Stereo Image Match Processor for Real Time Stereo Matching)

  • 김연재;심덕선
    • 전자공학회논문지SC
    • /
    • 제37권2호
    • /
    • pp.50-59
    • /
    • 2000
  • 스테레오 영상(stereo image)이란 같은 물체나 장면을 담고있는 서로 다른 시점의 두 영상이며 스테레오 영상에서 깊이 정보를 얻어내는 것을 스테레오 비전(stereo vision)이라 한다. 스테레오 비전에서 가장 중요한 과정은 두 영상에서 서로 일치하는 점을 찾아내는 스테레오 정합(stereo matching)이다. 그러나, 스테레오 정합은 매우 많은 계산을 필요로 하기 때문에 실시간으로 정합하기 어렵다. 본 논문에서는 실시간으로 스테레오 정합을 처리할 수 있는 스테레오 영상 정합 프로세서(stereo image match procesor:SIMP)를 설계하고 구현하였다. 이를 위해 슬라이딩 메모리(sliding memory)와 최소 선택 트리(minimum selection tree)를 제안하였고 파이프라인 구조(pipeline architecture)와 병렬 처리 기법을 이용하였다. SIMP의 입력은 64 그레이 레벨인 두 개의 64×64 스테레오 영상이고 출력은 최대 7의 값을 가지는 변이(disparity)와 12비트의 주소로 이들을 이용하여 64×64 변이도(disparity map)를 구성할 수 있다. SIMP는 약 240 프레임/초의 속도로 스테레오 영상을 처리할 수 있다.

  • PDF

VHDL을 이용한 프로그램 가능한 스택 기반 영상 프로세서 구조 설계 (Design of Architecture of Programmable Stack-based Video Processor with VHDL)

  • 박주현;김영민
    • 전자공학회논문지C
    • /
    • 제36C권4호
    • /
    • pp.31-43
    • /
    • 1999
  • 본 논문의 주요 목표는 고성능 SVP(Stack-based Video Processor)를 설계하는 것이다. SVP는 과거에 제안된 스택 머신과 영상 프로세서의 최적의 측면만을 선택함으로써 더 좋은 구조를 갖도록 하는 포괄적인 구조이다. 본 구조는 객체 지향형 프로그램의 소규모의 많은 서브루틴을 가지고 있기 때문에 스택 버퍼를 갖는 준범용 S-RISC(Stack-based Reduced Instruction Set Comuter)를 이용하여 객체 지향형 영상 데이터를 처리한다. 그리고 MPEG-4의 반화소 단위 처리와 고급 모드 움직임 보상, 움직임 예측, SA-DCT(Shape Adaptive-Discrete Cosine Transform)가 가능하며, 절대값기, 반감기를 가지고 있어서 부호화하기로 확장할 수 있도록 하였다. SVP는 0.6㎛ 3-메탈 계층 CMOS 표준 셀 기준을 이용하여 설계되었으며, 110K 로직 게이트와 12Kbit SRAM 내부 버퍼로 이루어지고 50 MHz의 동작 속도를 가진다 . MPEG-4의 VLBL(Very Low Bitrate Video) 최대 전송율인 QCIF 15fps(frame per second)로 영상 재생 알고리즘을 수행한다.

  • PDF

적응적 영역 가중치를 이용한 실시간 스테레오 비전 시스템 설계 (Design of a Realtime Stereo Vision System using Adaptive Support-weight)

  • 류동훈;박태근
    • 전자공학회논문지
    • /
    • 제50권11호
    • /
    • pp.90-98
    • /
    • 2013
  • 지역적 정합방법을 이용한 스테레오 시스템은 알고리즘의 특성상 하드웨어 설계가 용이하여 많이 사용되나 낮은 정합률로 인해 정확한 깊이 영상을 얻기 힘들기 때문에 많은 응용 분야에 사용하기에 제한이 있다. 본 논문에서 제안한 스테레오 시스템은 픽셀의 변화도(gradient)를 기반으로 한 적응적인 가중치 알고리즘을 이용하여 높은 정합 성능을 보이며 하드웨어로 설계하였을 때 실시간처리가 가능하다. 일반적으로 적응적인 가중치 윈도우를 적용할 경우 중간 결과를 재사용하기 불가능하지만 행, 열을 분리하여 처리함으로써 데이터를 재사용할 수 있고 따라서 처리성능이 개선되었다. 알고리즘에 필요한 지수 및 아크탄젠트 함수를 구현하기 위해 선형(PWL, piecewise linear) 및 계단(step) 함수 등으로 근사화한 뒤 에러를 분석하여 최선의 파라미터를 선택하였다. 제안한 구조는 실시간처리를 위하여 9개의 프로세서를 사용하여 병렬처리를 하였으며, 동부하이텍 0.18um 라이브러리로 합성하였을 경우 최대 동작주파수 350MHz(33 fps)와 424K 게이트의 하드웨어 복잡도를 나타내었다.

MPEG-4 영상코덱에서 DCTQ module의 효율적인 구조 (An Efficient Architecture of Transform & Quantization Module in MPEG-4 Video Code)

  • 서기범;윤동원
    • 대한전자공학회논문지SD
    • /
    • 제40권11호
    • /
    • pp.29-36
    • /
    • 2003
  • 이 논문에서는, 2D-DCT, 양자화, AC/DC 예측블록, 스캔 변화, 역 양자화, 2D-IDCT로 이루어진 DCTQ 모듈의 효율적인 구조를 제안한다. 이 모듈은 1064 cycle 안에 매크로블록을 처리할 수 있도록 설계하였으며, MPEG-4 Video codec에서 30frame 의 CIF 영상에 대하여 동시에 encoder와 decoder를 처리할 수 있다. 단지 하나의 1D-DCT와 IDCT core 가 2-D DCT/IDCT 대신에 사용되며, 1 bit serial 분산산술방식을 이용하여 1-D DCT/IDCT를 구현하였다. 또한 파워소모를 줄이기 위해 움직임 예측에서 얻을 수 있는 SAE 값을 이용한 DCT와 양자화 모듈을 동작을 시키지 않는 방식을 제안하였다. 그리고 AC/DC 예측방법을 위한 메모리를 줄일 수 있도록 AC/DC 예측블록을 위한 메모리 구조 및 접근방법을 제안하였다. 그 결과, 하드웨어의 재 사용성이 놀아지고 파워소모가 작아짐을 알 수 있었다. 제안된 설계는 27㎒로 돌아가며, 실험결과 DCT와 IDCT 는 IEEE 기준을 만족함을 알 수 있었다.

실시간 HD급 영상 처리를 위한 H.264/AVC CAVLC 부호화기의 하드웨어 구조 설계 (VLSI Design of H.264/AVC CAVLC encoder for HDTV Application)

  • 우정욱;이원재;김재석
    • 대한전자공학회논문지SD
    • /
    • 제44권7호통권361호
    • /
    • pp.45-53
    • /
    • 2007
  • 본 논문에서는 실시간 HD급 영상($1920{\times}1080@30fps$) 처리를 위한 효율적인 CAVLC (Context-based Adaptive Variable Length Code) 부호화기의 하드웨어 구조를 제안한다. 기존에 제안되었던 CAVLC 하드웨어 구조들은 CAVLC 부호화를 위해 필요한 $4{\times}4$ 블록내의 정보들을 구하기 위해서 16개의 계수들을 모두 탐색하면서 zigzag scanning을 하였다. 그러나 zigzag 방향으로 정렬 된 계수들 중 '0'이 아닌 마지막 계수 이후에 존재하는 '0'의 열은 CAVLC 부호화를 하는데 있어 불필요한 계수들이다. 본 논문에서는 이러한 불필요한 연산을 줄이기 위해서 계수 위치 탐색 기법과 레벨 순차 정렬 기법을 제안한다. 제안된 구조를 적용하여 실험한 결과, 하나의 매크로블록을 처리하는 평균 클럭 수(Cycles/MB)는 기존 방식보다 약 23%가 줄었다. 제안된 CAVLC 하드웨어 구조는 Verilog HDL을 사용하여 하드웨어로 설계 및 검증되었다. 0.18um 표준 셀 라이브러리로 합성한 결과 16.3k 게이트를 가졌고, HD급($1920{\times}1080@30fps$) 영상을 기준으로 했을 경우 81MHz에서 동작할 수 있음을 확인하였다.

실시간 디지털 홀로그래피를 위한 고성능 CGH프로세서 (FImplementation of RF Controller based on Digital System for TRS Repeater)

  • 서영호;최현준;김동욱
    • 한국정보통신학회논문지
    • /
    • 제11권8호
    • /
    • pp.1424-1433
    • /
    • 2007
  • 본 논문에서 는 하드웨어의 구현을 위해 수정된 CGH(Computer Generated Hologram) 알고리즘을 바탕으로 디지털 홀로그램을 생성할 수 있는 하드웨어 구조를 제안하고 FPGA(Field Programmable Gate Array)를 기반으로 구현하고자 한다. 먼저 CGH 알고리즘을 분석 한 후에 디지털 홀로그램을 효율적으로 연산할 수 있는 CGH 셀 (cell)의 구조를 제안하고 CGH 셀의 확장을 통해서 CGH 커널 (kernel)을 구현한다. 그리고 최종적으로 CGH 커널과 SDRAM Controller, DMA 등의 블록들을 결합하여 CGH 프로세서를 구현한다. 제안한 구조는 CGH 커널 내 CGH 셀의 단순한 추가를 통해서 성능을 비례적으로 증가시킬 수 있다. 이는 CGH 셀들이 독립적으로 동작하기 때문이다. 제안한 하드웨어는 Xilinx의 XC2VP70 FPGA를 이 용하여 구현하였고 200 MHz의 동작속도에서 40,000개의 광원으로 구성된 3차원 객체를 0.205초에 $1,280{\times}1,024$크기 의 홀로그램으로 생성 할 수 있다.

교육용 임베디드 네트워크 실습 장비의 설계 및 구현 (Design and Implementation of Educational Embedded Network System)

  • 김대희;정중수;박희정;정광욱
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.23-29
    • /
    • 2009
  • 본 논문에서는 임베디드 네트워크 기술 교육용 시스템 설계를 제시하였다. 본 논문에서 제시한 교육용 임베디드 네트워크 실습장비는 사용자가 인터넷 환경에서 네트워크 구성과 임베디드 네트워크 프로그래밍 실습 교육을 할 수 있도록 설계 및 구현되었다. 네트워크 기술 교육용 시스템 설계를 임베디드 환경에서 이더넷 인터페이스를 바탕으로 제시하였다. 개발 환경으로는 PXA255를 CPU로, 디버깅 환경은 ADSv1.2를, RTOS는 uC/OS276를, 개발 언어는 C언어를 사용하였다. 교육 환경으로는 Ping 프로그램을 제공하여 실습생으로 하여금 컴파일 및 로딩이후 데모 동작을 우선 실행하도록 하였다. 이후 이의 데모 기능의 프로그래밍 기술을 교육하기 위해 단계별로 교육시키도록 하였다. 즉, ARP 프로그래밍 기법을 다룬 후 IP 기반위에서 ICMP 프로그래밍 기법의 프로그래밍을 완성하도록 하였다.

Hardware Approach to Fuzzy Inference―ASIC and RISC―

  • Watanabe, Hiroyuki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.975-976
    • /
    • 1993
  • This talk presents the overview of the author's research and development activities on fuzzy inference hardware. We involved it with two distinct approaches. The first approach is to use application specific integrated circuits (ASIC) technology. The fuzzy inference method is directly implemented in silicon. The second approach, which is in its preliminary stage, is to use more conventional microprocessor architecture. Here, we use a quantitative technique used by designer of reduced instruction set computer (RISC) to modify an architecture of a microprocessor. In the ASIC approach, we implemented the most widely used fuzzy inference mechanism directly on silicon. The mechanism is beaded on a max-min compositional rule of inference, and Mandami's method of fuzzy implication. The two VLSI fuzzy inference chips are designed, fabricated, and fully tested. Both used a full-custom CMOS technology. The second and more claborate chip was designed at the University of North Carolina(U C) in cooperation with MCNC. Both VLSI chips had muliple datapaths for rule digital fuzzy inference chips had multiple datapaths for rule evaluation, and they executed multiple fuzzy if-then rules in parallel. The AT & T chip is the first digital fuzzy inference chip in the world. It ran with a 20 MHz clock cycle and achieved an approximately 80.000 Fuzzy Logical inferences Per Second (FLIPS). It stored and executed 16 fuzzy if-then rules. Since it was designed as a proof of concept prototype chip, it had minimal amount of peripheral logic for system integration. UNC/MCNC chip consists of 688,131 transistors of which 476,160 are used for RAM memory. It ran with a 10 MHz clock cycle. The chip has a 3-staged pipeline and initiates a computation of new inference every 64 cycle. This chip achieved an approximately 160,000 FLIPS. The new architecture have the following important improvements from the AT & T chip: Programmable rule set memory (RAM). On-chip fuzzification operation by a table lookup method. On-chip defuzzification operation by a centroid method. Reconfigurable architecture for processing two rule formats. RAM/datapath redundancy for higher yield It can store and execute 51 if-then rule of the following format: IF A and B and C and D Then Do E, and Then Do F. With this format, the chip takes four inputs and produces two outputs. By software reconfiguration, it can store and execute 102 if-then rules of the following simpler format using the same datapath: IF A and B Then Do E. With this format the chip takes two inputs and produces one outputs. We have built two VME-bus board systems based on this chip for Oak Ridge National Laboratory (ORNL). The board is now installed in a robot at ORNL. Researchers uses this board for experiment in autonomous robot navigation. The Fuzzy Logic system board places the Fuzzy chip into a VMEbus environment. High level C language functions hide the operational details of the board from the applications programme . The programmer treats rule memories and fuzzification function memories as local structures passed as parameters to the C functions. ASIC fuzzy inference hardware is extremely fast, but they are limited in generality. Many aspects of the design are limited or fixed. We have proposed to designing a are limited or fixed. We have proposed to designing a fuzzy information processor as an application specific processor using a quantitative approach. The quantitative approach was developed by RISC designers. In effect, we are interested in evaluating the effectiveness of a specialized RISC processor for fuzzy information processing. As the first step, we measured the possible speed-up of a fuzzy inference program based on if-then rules by an introduction of specialized instructions, i.e., min and max instructions. The minimum and maximum operations are heavily used in fuzzy logic applications as fuzzy intersection and union. We performed measurements using a MIPS R3000 as a base micropro essor. The initial result is encouraging. We can achieve as high as a 2.5 increase in inference speed if the R3000 had min and max instructions. Also, they are useful for speeding up other fuzzy operations such as bounded product and bounded sum. The embedded processor's main task is to control some device or process. It usually runs a single or a embedded processer to create an embedded processor for fuzzy control is very effective. Table I shows the measured speed of the inference by a MIPS R3000 microprocessor, a fictitious MIPS R3000 microprocessor with min and max instructions, and a UNC/MCNC ASIC fuzzy inference chip. The software that used on microprocessors is a simulator of the ASIC chip. The first row is the computation time in seconds of 6000 inferences using 51 rules where each fuzzy set is represented by an array of 64 elements. The second row is the time required to perform a single inference. The last row is the fuzzy logical inferences per second (FLIPS) measured for ach device. There is a large gap in run time between the ASIC and software approaches even if we resort to a specialized fuzzy microprocessor. As for design time and cost, these two approaches represent two extremes. An ASIC approach is extremely expensive. It is, therefore, an important research topic to design a specialized computing architecture for fuzzy applications that falls between these two extremes both in run time and design time/cost. TABLEI INFERENCE TIME BY 51 RULES {{{{Time }}{{MIPS R3000 }}{{ASIC }}{{Regular }}{{With min/mix }}{{6000 inference 1 inference FLIPS }}{{125s 20.8ms 48 }}{{49s 8.2ms 122 }}{{0.0038s 6.4㎲ 156,250 }} }}

  • PDF