Search | Korea Science

Application of integer linear programming on VLSI design automation (정수선형계획법의 반도체 설계자동화에의 응용)

백영석;이현찬
- Proceedings of the Korean Operations and Management Science Society Conference
- /
- 1992.04b
- /
- pp.415-424
- /
- 1992
본 논문에서는 정수선형계획법을 반도체 설계자동화과정에 이용한 예를 보인다. 반도체 설계자동화과정은 매우 여러 단계를 거치게 되는데, 본 논문에서는 상위수준 합성중 스케쥴링(scheduling)문제에 정수선형계획법을 응용하였다. 여기서 스케쥴링 문제는 설계자동화의 초기단계에서 알고리듬으로 주어진 입력을 하드웨어 요소들로 표현하는 과정에서 매 제어단계(control step)에서 수행하여야 할 연산내용을 결정하는 문제이다. 스케쥴링의 목적함수는 주어진 제어단계 갯수내에서 하드웨어 비용의 최소화이다. 이를 위해 우선 ASAP(As Soon As Possible)과 ALAP(As Late As Possible)방법을 이용하여 매 연산의 수행시작이 가능한 가장 빠른 시간과 가장 늦은 시간을 구한다. 이 두 시간 사이가 각 연산의 time frame이 되며 이를 이용하여 스케쥴링 문제를 정수 선형 계획법으로 공식화하여 풀었다. 이 공식화는 chaining, multicycle연산, pipeline data path, pipeline기능 유닛등에도 일반화하여 적용가능함을 보인다. 실험을 통해 본 공식화 방법이 기존 알고리듬에 의한 해보다 우수한 해를 제공함을 보인다. 비교를 위해 잘 알려진 benchmark회로인 bandpass filter를 이용하였는데 이 회로는 8개의 덧셈, 7개의 뺄셈 및 12개의 곱셈연산을 포함하고 있다. 제시된 알고리듬은 이 회로를 8개의 제어단계내에 총비용 675 (연산별 하드웨어 비용은 라이브러리로 주어짐)로 스케쥴링하였는데 이는 기존의 최상의 결과인 685보다 우수한 결과이다.
PDF

Study on High-Radix Montgomery's Algorithm Using Operand Scanning Method (오퍼랜드 스캐닝 방법을 이용한 다진법 몽고메리 알고리즘에 대한 연구)

Moon, San-Gook
- Proceedings of the Korean Institute of Information and Commucation Sciences Conference
- /
- 2008.10a
- /
- pp.732-735
- /
- 2008
In order for fast calculation for the modular multiplication which plays an essential role in RSA cryptography algorithm, the Montgomery algorithm has been studed and developed in varous ways. Since there is no division operation in the algorithm, it is able to perform a fast modular multiplication. However, the Montgomery algorithm requires a few extra operations in the progress of which transformation from/to ordinary modular form to/from Montgomery form should be made. Concept of high radix operation can be considered by splitting the key size into word-defined units in the RSA cryptosystems which use longer than 1024 key bits. In this paper, We adopted the concept of operand scanning methods to enhance the traditional Montgomery algorithm. The methods consider issues of optimization, memory usage, and calculation time.
PDF

High-Performance VLSI Architecture for Stereo Vision (스테레오 비전을 위한 고성능 VLSI 구조)

Seo, Youngho;Kim, Dong-Wook
- Journal of Broadcast Engineering
- /
- v.18 no.5
- /
- pp.669-679
- /
- 2013
This paper proposed a new VLSI (Very Large Scale Integrated Circuit) architecture for stereo matching in real time. We minimized the amount of calculation and the number of memory accesses through analyzing calculation of stereo matching. From this, we proposed a new stereo matching calculating cell and a new hardware architecture by expanding it in parallel, which concurrently calculates cost function for all pixels in a search range. After expanding it, we proposed a new hardware architecture to calculate cost function for 2-dimensional region. The implemented hardware can be operated with minimum 250Mhz clock frequence in FPGA (Field Programmable Gate Array) environment, and has the performance of 805fps in case of the search range of 64 pixels and the image size of $640{\times}480$.
https://doi.org/10.5909/JBE.2013.18.5.669 인용 PDF KSCI

Development of Diffusive Wave Rainfall-Runoff Model Based on CUDA FORTRAN (CUDA FORTEAN기반 확산파 강우유출모형 개발)

Kim, Boram;Kim, Hyeong-Jun;Yoon, Kwang Seok
- Proceedings of the Korea Water Resources Association Conference
- /
- 2021.06a
- /
- pp.287-287
- /
- 2021
본 연구에서는 CUDA(Compute Unified Device Architecture) 포트란을 이용하여 확산파 강우 유출모형을 개발하였다. CUDA 포트란은 그래픽 처리 장치(Graphic Processing Unit: GPU)에서 수행하는 병렬 연산 알고리즘을 포트란 언어를 사용하여 작성할 수 있도록 하는 GPU상의 범용계산(General-Purpose Computing on Graphics Processing Units: GPGPU) 기술이다. GPU는 그래픽 처리 작업에 특화된 다수의 산술 논리 장치(Arithmetic Logic Unit: ALU)로 구성되어 있어서 중앙 처리 장치(Central Processing Unit: CPU)보다 한 번에 더 많은 연산 수행이 가능하다. 이에 따라, CUDA 포트란기반 확산파모형은 분포형 강우유출모형의 수치모의 연산시간을 단축시킬 수 있다. 분포형모형의 지배방정식은 확산파모형과 Green-Ampt모형으로 구성되었고, 확산파모형은 유한체적법을 이용하여 이산화 하였다. CUDA 포트란기반 확산파모형의 정확성은 기존 연구된 수리실험 결과 및 CPU기반 강우유출모형과 비교하였으며, 연산소요시간에 대한 효율성은 CPU기반 확산파모형과 비교하였다. 그 결과 CUDA 포트란기반 확산파모형의 결과는 수리실험 결과 및 CPU기반 강우유출모형의 결과와 유사한 결과를 나타냈다. 또한, 연산소요시간은 CPU 기반 확산파모형의 연산소요시간보다 단축되었으며, 본 연구에 사용된 장비를 기준으로 최대 100배 정도 단축되었다.
PDF

Hardware Implementation for MLP Based Text Detection (MLP 기반의 문자 추출을 위한 하드웨어 구현)

Kyoung, Dong-Wuk;Jung, Kee-Chul
- 한국HCI학회:학술대회논문집
- /
- 2006.02a
- /
- pp.766-771
- /
- 2006
현재 많은 신경망의 하드웨어 구현은 부동 소수점 연산에 비해서 적은 면적과 빠른 수행시간을 가지는 고정소수점 연산을 많이 사용하지만, 소프트웨어에서는 일반적으로 높은 정확도를 가지는 부동소수점 연산을 사용한다. 신경망의 하드웨어 구현에서 많이 사용하는 고정소수점 연산은 부동소수점 연산에 비해서 빠른 처리속도와 적은 면적으로써 쉽게 하드웨어 구현에 용이하지만, 부동소수점 연산에 비해서 낮은 정확도와 기존의 부동소수점 연산을 사용하는 소프트웨어 신경망을 쉽게 적용할 수 없는 단점을 가진다. 본 논문에서는 부동소수점 연산을 사용하여 문자 추출 MLP의 데이터 변환 없이 적용할 수 있는 전체 파이프라이닝 설계 구조를 제안한다. 제안된 설계방법은 신경망의 전체 구조를 입력층과 은닉층을 링크 병렬화 방법과 은닉층과 출력층을 뉴런 병렬화 방법을 개선하여 쉽게 파이프라이닝 구조로 설계함으로써 신경망 처리는 은닉층 뉴런수와 동일한 주기로 처리되며, 기존의 문자추출 소프트웨어 신경망을 제안된 하드웨어 설계방법으로 구현하였을 때 11배의 빠른 성능을 나타낸다.
PDF

An Implementation of Low Cost 5-stage Powering Unit Using Newton Method (Newton Method을 이용한 저비용 5-stage 멱승기의 구현)

Song, Se-Hyun;Kim, Ki-Chul
- Proceedings of the Korean Information Science Society Conference
- /
- 2007.10b
- /
- pp.194-197
- /
- 2007
본 논문에서는 모바일용 3차원 그래픽 라이팅 엔진을 위한 부동소수점 멱승기클 제안한다. 3D 그래픽의 라이팅 과정은 연산량이 많고, 복잡하기 때문에 각 연산 유닛들이 저비용으로 빠르게 연산을 수행해야 한다. 본 논문에서 제안한 멱승기는 처리율을 높이기 위해 파이프라인 구조를 사용하였으며, $10^{-4}$의 정확도를 만족한다. 전체 구조는 5 stage로 구성되며, 크게 로그연산기와 지수연산기로 이루어져 있다. 일반적으로 로그연산기는 정확도를 높이기 위하여 큰 롬 테이블을 사용하는데, 이는 많은 면적을 차지하게 된다. 이러한 롬 테이블 면적 문제를 해결하기 위하여 Newton method을 사용하여 롬 테이블의 사이즈를 줄였다. 또한 오일러 상수를 밑으로 하는 지수연산기도 입력 비트의 크기를 줄이고, 테이블의 개수를 늘림으로써 롬 테이블의 크기를 줄였다. 지수연산의 밑은 부동소수점 포맷으로 [0, 1]의 범위를 가지며, 승은 정수 포맷으로 [0, 128]의 범위를 갖는다. Magnachip $0.18{\mu}m$ 공정에서 100Mhz의 동작주파수를 만족하였으며, 약 16k gates을 차지한다.
PDF

Implementation of Massive FDTD Simulation Computing Model Based on MPI Cluster for Semi-conductor Process (반도체 검증을 위한 MPI 기반 클러스터에서의 대용량 FDTD 시뮬레이션 연산환경 구축)

Lee, Seung-Il;Kim, Yeon-Il;Lee, Sang-Gil;Lee, Cheol-Hoon
- The Journal of the Korea Contents Association
- /
- v.15 no.9
- /
- pp.21-28
- /
- 2015
In the semi-conductor process, a simulation process is performed to detect defects by analyzing the behavior of the impurity through the physical quantity calculation of the inner element. In order to perform the simulation, Finite-Difference Time-Domain(FDTD) algorithm is used. The improvement of semiconductor which is composed of nanoscale elements, the size of simulation is getting bigger. Problems that a processor such as CPU or GPU cannot perform the simulation due to the massive size of matrix or a computer consist of multiple processors cannot handle a massive FDTD may come up. For those problems, studies are performed with parallel/distributed computing. However, in the past, only single type of processor was used. In GPU's case, it performs fast, but at the same time, it has limited memory. On the other hand, in CPU, it performs slower than that of GPU. To solve the problem, we implemented a computing model that can handle any FDTD simulation regardless of size on the cluster which consist of heterogeneous processors. We tested the simulation on processors using MPI libraries which is based on 'point to point' communication and verified that it operates correctly regardless of the number of node and type. Also, we analyzed the performance by measuring the total execution time and specific time for the simulation on each test.
https://doi.org/10.5392/JKCA.2015.15.09.021 인용 PDF KSCI

Self-Configuring Method for Autonomic Grid Computing (자율 그리드 컴퓨팅을 위한 자기구성 기법)

Kim Young-Gyun;Cho Kum Won;Na Jeong-su;Oh Gil-Ho
- Proceedings of the Korean Information Science Society Conference
- /
- 2005.11a
- /
- pp.520-522
- /
- 2005
본 논문에서는 기존의 그리드 컴퓨팅(Grid Computing)에 자율 컴퓨팅(Autonomic Computing)기술을 적용한 자율 그리드 컴퓨팅(Autonomic Grid Computing)에 관하여 연구하였다. 자율 그리드 컴퓨팅 기술 중 자기 구성(Self-Configuration)을 기존의 그리드 컴퓨팅에 적용하는 기법을 새롭게 제안하였다. 장시간 수행 되어야 하는 과학기술 분야의 연산 작업은 연산시간을 단축하기 위해 새로운 노드의 추가와 같은 시스템의 환경 변화를 자동 감지하여 수행중인 연산 작업에 새로운 노드를 추가할 필요가 있다. 제안한 방법은 새롭게 추가된 노드를 연산 작업에 포함하도록 시스템의 변화를 스스로 구성한다. 기존의 그리드 컴퓨팅 보다 시스템의 변화에 보다 잘 적응한다.
PDF

Implementation Schemes to Optimize Very-High Radix Dividers in Pre-processing Scaling Factor Design (높은 자릿수를 이용한 고속 나눗셈 연산기의 최적화 연구 및 변환 요소 전처리를 위한 설계)

이병석;안성용;홍승완;이정아
- Proceedings of the Korean Information Science Society Conference
- /
- 1998.10a
- /
- pp.44-47
- /
- 1998
나눗셈 알고리즘은 다른 덧셈이나 곱셈 알고리즘과 비교하여 복잡하고, 수행빈도수 적다는 이류로 그 동안 고속 나눗셈의 하드웨어 연구는 활발하지 않았다. 그러나 멀티미디어의 발전으로 고속 나눗셈의 필요성 및 전체적인 수행 시간 향상을 위해 고속 나눗셈 연산기의 중요성은 더욱 부각되고 있다. 그러나 칩의 크기는 제작 단가와 깊은 관련이 있기 때문에 고속 나눗셈 연산기를 칩으로 제작할 때 요구되는 성능과 비용을 만족하기 위한 적절한 분석이 필요하다. 본 논문은 자릿수 순환(Digt Recurrence) 알고리즘에서 속도가 빠른 높은 자릿수 이용(Very-High Radix) 알고리즘을 기반으로 최적화된 자릿수 (Radix) 범위를 제시하였다. 그리고 변환요소 (Scaling Factor)를 전처리(Pre-processing)하여 연산의 주기를 감소하고, 크기의 문제를 해결하기 위해서 상수표 대신 제어(Control)방법으로 값을 구하는 방법을 설계하였다.
PDF

A Scalable Architecture of Montgomery Multiplier on GF(p) (GF(p)상의 Scalable한 몽고메리 곱셈기)

이광진;장용희;권용진
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.04a
- /
- pp.382-384
- /
- 2004
최근 인터넷의 발달과 함께 인터넷 상에서의 데이터 보안에 대한 요구가 매우 증가되고 있다. 그래서 공개키 또는 비밀키 알고리즘을 사용하여 데이터 보안을 해결하고 있다. 대부분의 공개키 알고리즘은 모듈러 연산들을 기반으로 살고 있으며 이 중 복잡도가 가장 높은 모듈러 멱승 연산은 모듈러 곱셈 연산을 반복 수행하여 계산된다. 그래서 모듈러 곱셈연산을 효율적으로 계산하기 위한 많은 방법들이 제안되어 왔으며 하드웨어 구현 시 속도와 효율성 문제로 몽고메리 곱셈기에 대한 연구가 주목을 받아 왔다. 현재 몽고메리 곱셈 알고리즘을 이용한 곱셈기는 대부분이 성능과 면적만을 고려한 구조로 보안성 향상을 위해 입력 데이터의 비트수 증가 시 곱셈기의 구조 변경이 요구된다. 따라서 본 논문에서는 비트수 길이가 변하더라도 곱셈기 구조는 변함이 없는 GF(p)상에서의 Scalable한 몽고메리 곱셈기 구조를 제안한다. Sealable한 곱셈기의 구조는 FPGA와 같이 메모리를 포함하는 하드웨어 플랫폼에 적합하다. 제안된 구조는 Xilinx FPGA를 이용하여 하드웨어로 구현하며 ModelSim Tool을 통해 기능 및 타이밍 시뮬레이션을 수행한다.
PDF

Search Result 2,660, Processing Time 0.033 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)