• Title/Summary/Keyword: 하드웨어구조

Search Result 1,786, Processing Time 0.026 seconds

Hardware Implementation for MLP Based Text Detection (MLP 기반의 문자 추출을 위한 하드웨어 구현)

  • Kyoung, Dong-Wuk;Jung, Kee-Chul
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.766-771
    • /
    • 2006
  • 현재 많은 신경망의 하드웨어 구현은 부동 소수점 연산에 비해서 적은 면적과 빠른 수행시간을 가지는 고정소수점 연산을 많이 사용하지만, 소프트웨어에서는 일반적으로 높은 정확도를 가지는 부동소수점 연산을 사용한다. 신경망의 하드웨어 구현에서 많이 사용하는 고정소수점 연산은 부동소수점 연산에 비해서 빠른 처리속도와 적은 면적으로써 쉽게 하드웨어 구현에 용이하지만, 부동소수점 연산에 비해서 낮은 정확도와 기존의 부동소수점 연산을 사용하는 소프트웨어 신경망을 쉽게 적용할 수 없는 단점을 가진다. 본 논문에서는 부동소수점 연산을 사용하여 문자 추출 MLP의 데이터 변환 없이 적용할 수 있는 전체 파이프라이닝 설계 구조를 제안한다. 제안된 설계방법은 신경망의 전체 구조를 입력층과 은닉층을 링크 병렬화 방법과 은닉층과 출력층을 뉴런 병렬화 방법을 개선하여 쉽게 파이프라이닝 구조로 설계함으로써 신경망 처리는 은닉층 뉴런수와 동일한 주기로 처리되며, 기존의 문자추출 소프트웨어 신경망을 제안된 하드웨어 설계방법으로 구현하였을 때 11배의 빠른 성능을 나타낸다.

  • PDF

Implementation of Digital Hologram Generator based on Repetition Calculation of a Object Pixel (객체 화소 반복 연산 방식의 디지털 홀로그램 생성기의 구현)

  • Lee, Yoon-Huyk;Kim, Dong-Yun;Bea, Yoon-Jin;Lee, Jae-Won;Choi, Hyun-Jun;Seo, Young-Ho;Kim, Dong-Wook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2011.07a
    • /
    • pp.359-360
    • /
    • 2011
  • 본 논문에서는 고속으로 디지털 홀로그램을 생성할 수 있는 하드웨어구조를 제안하였다. 수정된 컴퓨터 생성 홀로그램(computer-generated hologram, CGH) 알고리즘을 이용하고, 전체 화소에서 홀로그램의 한 화소씩 연산하는 방법을 선택하여 홀로그램 한 화소씩 계산하고 바로 출력 하여 메모리 병목현상을 제거하기 위한 파이프라인 기반의 하드웨어 구조를 제안하였다. CGH 알고리즘을 바탕으로 입력부, 연산부, 및 정규화부로 구성된 디지털 홀로그램 생성기의 구조를 제안하였고, 객체의 화소만 저장하여 반복 사용하기 때문에 메모리의 사용량을 줄일 수 있었다. 제안한 하드웨어는 세로 방향으로 확장을 하여 동작을 병렬화시킬 수 있다. 제안한 하드웨어는 1K의 광원에 대해 HD급 홀로그램을 초당 약 87장을 생성할 수 있었다.

  • PDF

A Method and Hardware Architecture of Drivable Area Detection Based on Filtering in Road Environment Including Vegetation (초목을 포함한 도로 환경에서의 필터링 기반 주행 가능 영역 검출 방법 및 하드웨어 구조)

  • Kim, Younghyeon;Ha, Jiseok;Choi, Cheol-Ho;Moon, Byungin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.536-539
    • /
    • 2021
  • 초목을 포함한 도로 환경에서, 초목 영역은 도로의 특성과 매우 유사하므로 주행 가능 영역으로 판단될 수 있다. 또한, 도로 검출을 위한 대부분의 U-V 시차 기반 하드웨어 시스템에서는 한 프레임의 시차가 모두 입력되기 전까지 다음 단계의 연산을 수행할 수 없는 문제가 있다. 이에 본 논문에서는 간단한 필터링 기법를 적용하여 초목을 포함한 도로 환경에서 즉각적으로 주행 가능 영역을 검출하는 방법 및 그 하드웨어 구조를 제안한다. 제안하는 방법은 93.08%의 정확도를 보인다. 또한, 제안하는 하드웨어 구조는 기존 방법보다 Slice LUTs 기준 60.26% 및 Slice Registers 기준 53.62% 적은 하드웨어 자원을 사용한다.

Design of an Effective Bump Mapping Hardware Architecture Using Angular Operation (각 연산을 이용한 효과적인 범프 매핑 하드웨어 구조 설계)

  • 이승기;박우찬;김상덕;한탁돈
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.30 no.11
    • /
    • pp.663-674
    • /
    • 2003
  • Bump mapping is a technique that represents the detailed parts of the object surface, such as a perturberance of the skin of a peanut, using the geometry mapping without complex modeling. However, the hardware implementation for bump mapping is considerable, because a large amount of per pixel computation, including the normal vector shading, is required. In this paper, we propose a new bump mapping algorithm using the polar coordinate system and its hardware architecture. Compared with other existing architectures, our approach performs bump mapping effectively by using a new vector rotation method for transformation into the reference space and minimizing illumination calculation. Consequently, our proposed architecture reduces a large amount of computation and hardware requirements.

Design of DSP Instructions and their Hardware Architecture for Reed-Solomon Codecs (Reed-Solomon 부호화/복호화를 위한 DSP 명령어 및 하드웨어 설계)

  • 이재성;선우명훈
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.28 no.6A
    • /
    • pp.405-413
    • /
    • 2003
  • This paper presents new DSP (Digital Signal Processor) instructions and their hardware architecture to efficiently implement RS (Reed-Solomon) codecs, which is one of the most widely used FEC (Forward Error Control) algorithms. The proposed DSP architecture can implement various primitive polynomials by program, and thus, hardwired codecs can be replaced. The new instructions and their hardware architecture perform GF (Galois Field) operations using the proposed GF multiplier and adder. Therefore, the proposed DSP architecture can significantly reduce the number of clock cycles compared with existing DSP chips. It can perform RS decoding rate of up to 228.1 Mbps on 130MHz DSP chips.

The Hardware Design of Effective Sample Adaptive Offset for High Performance HEVC Decoder (고성능 HEVC 복호기를 위한 효과적인 Sample Adaptive Offset 하드웨어 설계)

  • Park, Seungyong;Lee, Dongweon;Ryoo, Kwangki
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.645-648
    • /
    • 2012
  • 본 논문에서는 고성능 HEVC(High Efficiency Video Coding) 복호기 설계를 위한 효율적인 SAO(Sample Adaptive Offset)의 하드웨어 구조 설계에 대해 기술한다. SAO는 양자화 등의 손실 압축에 의해 발생하는 정보의 손실을 보상하는 기술이다. 하지만 HEVC의 최대 블록 크기인 $64{\times}64$ 단위를 화소 단위 연산을 수행하기 때문에 높은 연산시간 및 연산량이 요구된다. 따라서 본 논문에서 제안하는 SAO 하드웨어 구조는 $8{\times}8$ 단위를 처리하는 연산기로 구성하여 하드웨어 면적을 최소화하였고, 내부레지스터를 이용하여 $64{\times}64$ 블록 크기를 지원한다. 또한 기존 SAO의 top-down 블록분할 구조에서 down-top 블록분할 구조로 설계하여 연산시간 및 연산량을 최소화 하였다. 제안하는 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC 칩 공정 $0.18{\mu}m$ 셀 라이브러리로 합성한 결과 동작 주파수는 250MHz, 전체 게이트 수는 45.4k 이다.

A Interpolation Hardware Architecture for HEVC Inter-Prediction Decoder Using Parallel Process (병렬처리를 이용한 HEVC 디코더의 화면간 예측 보간 필터 하드웨어 구조)

  • Choi, Seung-Hwan;Bae, Jong-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.950-953
    • /
    • 2015
  • 본 논문에서는 HEVC 디코더에서 화면간 예측의 보간 필터에 대한 하드웨어 구조를 제시하고, 설계 및 분석결과를 통해 연구 결론을 도출하는 것이 목적이다. 제안하는 하드웨어 구조는 보간 필터의 각 필터 간의 유사성을 확인하고 빠르게 데이터를 처리하기 위한 병렬처리 방법을 제시한다. 또한 레지스터를 통한 데이터를 재사용하는 방식을 이용하여 외부 메모리와의 불필요한 연결을 줄여 성능을 향상시켰다.

An Additional Hardware Architecture for H .264/AVC Intra-Prediction (H.264/AVC의 프레임내 예측 부호화를 위한 부가적인 하드웨어 구조)

  • Lee Sujin;Kim Cheongghil;Kim Myoungseo;Kim Shindug
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07a
    • /
    • pp.805-807
    • /
    • 2005
  • H.264/AVC의 프레임내 예측기법은 현 매크로블록의 이웃픽셀들로부터 예측값을 추출함으로써 인트라 픽처의 압축률을 높이는데 크게 기여했다. 그러나 모든 매크로블록에 대해 총 17가지의 후보 모드를 검사해야 하기 때문에, 전체 부호화기의 복잡도를 상당히 상승시키는 요인이기도 하다. 본 논문에서는 이 문제를 해결하기 위해, 기존의 움직임 추정 전용 하드웨어로 주로 사용되는 1차원 시스톨릭 어레이 구조에 부가적인 하드웨어를 장착하여, 움직임 추정뿐만 아니라 프레임 내 예측까지 가능한 하드웨어 구조를 제안한다. 병렬적으로 끊김이 없는 수행을 위해 프레임내 예측 알고리즘을 약간 수정했으나, 이것은 화질이나 비트스트림 크기에 영향을 거의 미치지 않는다. 제안된 구조는 연산에 대한 명령어 개수로 비교할 때, ARM 기반 시스템에서 얻을 수 있는 성능의 10배에서 40배에 달하는 높은 성능을 보여준다.

  • PDF

3D Texture-Based Volume Graphic Architecture using Visibility-Ordered Division Rendering Algorithm (가시 순차적 분할 렌더링 알고리즘을 이용한 3차원 텍스쳐 기반의 볼륨 그래픽 구조)

  • 김정우;이원종;박우찬;김형래;한탁돈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.706-708
    • /
    • 2002
  • 3차원 텍스쳐 기반의 볼륨 렌더링 기법은 추가적인 하드웨어가 필요 없기 때문에 개발비용이 적다는 장점이 있지만 다각형 기반 렌더링에 최적화 된 범용 그래픽 하드웨어를 그대로 사용하기 때문에 성능이 낮다는 단점이 있다. 이에 본 논문에서는 병렬 구조의 고성능 볼륨 렌더링 시스템에서 사용되던 볼륨 정보 분한 기법을 범용 그래픽 하드웨어에 적용하는 새로운 3차원 텍스쳐 기반 볼륨 그래픽 구조를 제안한다. 제안하는 구조를 통해 볼륨 정보를 분할하여 처리하면, 번용 그래픽 하드웨어가 갖고 있던 물리적 메모리 크기의 한계성을 극복할 수 있다. 또한 전체 해상도의 알파 블렌딩이 아닌 분할된 볼륨 정보 하나가 차지하는 크기만큼의 작은 해상도로 알파 블렌딩을 수행함으로서 렌더링 단계와 프레임 버퍼간의 데이터 전송량을 1/30로 줄이고 픽셀 캐시의 적중률을 99.9%에 근접하게 높일 수 있다.

  • PDF

An Efficient FPGA Based TDC Accelerator for Deconvolutional Neural Networks (효율적인 DCNN 연산을 위한 FPGA 기반 TDC 가속기)

  • Jang, Hyerim;Moon, Byungin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.457-458
    • /
    • 2021
  • 딥러닝 알고리즘 중 DCNN(DeConvolutional Neural Network)은 이미지 업스케일링과 생성·복원 등 다양한 분야에서 뛰어난 성능을 보여주고 있다. DCNN은 많은 양의 데이터를 병렬로 처리할 수 있기 때문에 하드웨어로 설계하는 것이 유용하다. 최근 DCNN의 하드웨어 구조 연구에서는 overlapping sum 문제를 해결하기 위해 deconvolution 필터를 convolution 필터로 변환하는 TDC(Transforming the Deconvolutional layer into the Convolutional layer) 알고리즘이 제안되었다. 하지만 TDC를 CPU(Central Processing Unit)로 수행하기 때문에 연산의 최적화가 어려우며, 외부 메모리를 사용하기에 추가적인 전력이 소모된다. 이에 본 논문에서는 저전력으로 구동할 수 있는 FPGA 기반 TDC 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 자원 사용량이 적어 저전력으로 구동 가능할 뿐만 아니라, 병렬 처리 구조로 설계되어 빠른 연산 처리 속도를 보인다.