• 제목/요약/키워드: Matrix Multiplication

검색결과 169건 처리시간 0.021초

FPGA에서 에너지 효율이 높은 데이터 경로 구성을 위한 계층적 설계 방법 (A Model-based Methodology for Application Specific Energy Efficient Data path Design Using FPGAs)

  • 장주욱;이미숙;;최선일
    • 정보처리학회논문지A
    • /
    • 제12A권5호
    • /
    • pp.451-460
    • /
    • 2005
  • 본 논문은 ffGA상에서 에너지 효율이 높은 데이터 경로 설계 방법론을 제안한다. 에너지, 처리시간, 그리고 면적간의 트레이드오프를 이해하기 위하여, 도메인 특성 모델링, coarse-grained 성능평가, 설계공간 조사, 그리고 로우-레벨 시뮬레이션 과정들을 통합한다. 도메인 특성 모델링 기술은 도메인의 특성에 따른 시스템 전체의 에너지 모에 영향을 미치는 여러 가지 구성요소와 파라미터들을 식별함으로써 하이-레벨 모델을 명시한다. 도메인이란 주어진 어플리케이션 커널의 알고리즘에 대응하는 아키텍쳐 패밀리이다. 하이-레벨 모델 또한 에너지, 처리시간 그리고 면적을 예측하는 함수들로 구성되어 트레이드오프 분석을 용이하게 한다. 설계 공간 조사(DSE)는 도메인에 명시된 설계 공간을 분석하여 설계 셋을 선택하도록 한다. 로우-레벨 시뮬레이션은 설계 공간 조사(DSE)에 의해 선택된 설계와 최종 선택된 설계의 정확한 성능평가를 위하여 사용된다. 본 논문에서 제안한 설계 방법은 매트릭스 곱셈에 대응하는 알고리즘과 아키텍쳐 패밀리를 사용한다. 제안된 방법에 의해 검증된 설계는 에너지, 처리시간과 면적간의 트레이드오프를 보인다. 제안된 설계 방법의 효율성을 보이기 위하여 Xilinx에서 제공되는 매트릭스 곱셈 커널과 비교하였다. 성능 비교 메트릭으로 평균 전력 밀도(E/AT)와 에너지 대 (면적 x 처리시간)비를 사용하였다. 다양한 문제의 크기에 대하여 Xilinx설계들과 비교하였을 때 제안한 설계 방법이 전력밀도(E/AT)에서 평균 $25\%$우수하였다. 또한 본 논문에 제안한 설계의 방법을 MILAN 프레임워크를 이용하여 구현하였다.

FPGA 상에서 에너지 효율이 높은 병렬 신호처리 기법 (Energy-Efficient Signal Processing Using FPGAs)

  • 장주욱;황윤일
    • 정보처리학회논문지A
    • /
    • 제12A권4호
    • /
    • pp.305-312
    • /
    • 2005
  • 본 논문은 알고리즘 레벨에서 FPGA를 이용하여 에너지 효율이 높은 기법을 제안한다. 제안한 기법을 기반으로 FPGA와 행렬곱셈용 신호처리응용을 위한 고효율 설계 기술을 제안한다. 또한 이러한 신호처리응용 수행시 지연시간과 에너지 효율 측면에서의 FPGA 성능을 분석한다. Xilinx Virtex-II를 대상으로 Virtex-II Pro와 Texas Instrument TMS320C6415에 내장되는 Power PC 코어에서 구동되는 Xilinx library와 기존 알고리즘을 본 논문 기법과의 성능 비교를 수행한다. 성능 비교는 high-level에서 에너지와 지연 시간에 대한 유도 공식을 통한 추정치와 low-level 시뮬레이션을 통해 평가하였다. FFT에 대해 본 논문에서 제안한 기법은 Xilinx library와 DSP에 비해 각각 $60\%,\;56\%$ 적은 에너지를 소모한다는 결과를 얻었다. 또한 임베디드 프로세서와 비교해 EAT지수에서 10배의 개선을 보여준다. 위와 같은 결과는 FPGA가 DSP나 임베디드 프로세서에 비해 월등한 성능을 보여준다는 견해에 결정적인 단서가 된다 또한, 이는 FPGA가 앞의 두 종류의 디바이스에 비해 더 적은 전력을 소모하면서 동시에 더 나은 성능을 보인다는 사실을 보여준다.

일반적인 연결선 구조의 해석을 위한 효율적인 행렬-벡터 곱 알고리즘 (An Efficient Matrix-Vector Product Algorithm for the Analysis of General Interconnect Structures)

  • 정승호;백종흠;김준희;김석윤
    • 대한전자공학회논문지SD
    • /
    • 제38권12호
    • /
    • pp.56-65
    • /
    • 2001
  • 본 논문은 이상적인 균일한 무손실 유전체를 갖는 일반적인 3차원 연결선 구조에서의 커패시턴스 추출 시, 널리 사용되는 일차 대조법(First-order collocation) 외에 고차 구적법을 결합하여 사용함으로써 정확성을 제고하고, 반복적 행렬-벡터의 곱을 효율적으로 수행하기 위한 알고리즘을 제안한다. 제안된 기법은 연결선에서 전기적 성질이 집중되어 있는 코너나 비아를 포함한 경우에 일차 대조법 대신에 구적법을 이용하여 고차로 근사함으로써 정확성을 보장한다. 또한, 이 기법은 경계 요소 기법에서 행렬의 대부분이 수치적으로 저차 계수(low rank)를 이룬다는 회로상의 전자기적 성질을 이용하여 모형차수를 축소함으로써 효율성을 증진한다. 이 기법은 SVD(Singular Value Decomposition)에 기반한 저차 계수 행렬 축소 기법과 신속한 행렬의 곱셈 연산을 위한 Krylov-subspace 차수 축소 기법인 Gram-Schmidt 알고리즘을 도입함으로써 효율적인 연산을 수행할 수 있다. 제안된 방법은 허용 오차 범위 내에서 효율적으로 행렬-벡터의 곱셈을 수행하며, 이를 기존의 연구에서 제시된 기법과의 성능 평가를 통하여 보인다.

  • PDF

데이터 스트림에서 다중 조인 연속질의의 효과적인 처리를 위한 전처리 기법 (Preprocessing Method for Handling Multi-Way Join Continuous Queries over Data Streams)

  • 서기언;이주일;이원석
    • 인터넷정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.93-105
    • /
    • 2012
  • 데이터 스트림이란 빠르게 연속적으로 무한히 발생하는 데이터 집합을 의미한다. 최근 다양한 산업의 발달로 인해 이러한 스트림 데이터의 효율적인 처리를 위한 요구 사항들이 늘어나고 있다. 특히 많은 연산 비용을 요구하는 조인 연산의 효율적인 처리는 데이터 스트림 관리 시스템의 성능 향상에 많은 영향을 미친다. 본 논문에서는 다중 조인 연속질의의 효율적인 처리를 위하여 최종 질의 결과에 포함되지 않는 불필요한 중간 조인 결과들을 사전에 제거함으로써 조인 연산의 비용을 감소시키는 방법을 제안한다. 이를 위해 스트림 데이터의 모니터링을 위한 매트릭스 기반의 구조체를 제안하고, 제안된 구조체를 이용한 매트릭스 연산을 통하여 최종 조인 결과의 투플 수를 예측함과 동시에 불필요한 중간 결과들을 만들어내는 투플들을 찾아낸다. 이를 통해 해당 투플을 이용한 조인 연산의 수행 여부를 결정하여 최종 조인 결과를 만들지 않는 투플을 조인 연산에서 배제함으로써 효율적으로 다중 조인 연속 질의를 처리한다.

CUDA를 이용한 고속 영상 회전 알고리즘에 관한 연구 (A Study on High Speed Image Rotation Algorithm using CUDA)

  • 권희철;조형진;권희용
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 영상 회전은 영상 처리나 영상 패턴 인식에서 중요한 전처리 방법 중 하나이다. 영상 회전은 회전 행렬의 곱으로 이루어 진다. 그러나 기존의 방법은 대량의 실수 연산과 삼각 함수 계산을 필요로 하므로 수행 시간이 오래 걸린다. 본 논문에서는 이 같은 두가지 주요 지체 연산과정을 제거한 새로운 고속 영상 회전 알고리즘을 제안한다. 제안된 알고리즘은 단지 2개의 전단 연산을 행하므로 매우 빠르다. 또한 최신 병렬 처리 기술인 CUDA를 적용한다. CUDA는 최근 널리 보급된 GPU를 이용한 대용량 병렬처리 계산 아키텍쳐이다. GPGPU는 그래픽 전용프로세서이므로 화소 단위의 병렬처리에 탁월한 성능을 보인다. 제안된 알고리즘은 기존의 회전 알고리즘과 다양한 크기의 영상에 대해 비교 실험한다. 실험 결과는 제안된 알고리즘이 기존의 방법보다 8배 이상의 매우 우수한 성능을 보인다.

데이터에 의한 구동과 세분화된 비트-슬라이스의 동적제어를 통한 저전력 2-D DCT/IDCT 구조 (A Low-Power 2-D DCT/IDCT Architecture through Dynamic Control of Data Driven and Fine-Grain Partitioned Bit-Slices)

  • 김견수;류대현
    • 한국멀티미디어학회논문지
    • /
    • 제8권2호
    • /
    • pp.201-210
    • /
    • 2005
  • 본 논문에서는 입력 데이터 특성을 반영하여 전력 효율이 좋은 2차원 DCT/IDCT 구조를 제안한다. 일반적으로 비디오와 영상 데이터 압축에 있어서 제로 또는 작은 값들이 입력 데이터의 많은 부분을 차지하므로 제안 방식에서는 이러한 특성을 이용하여 소모 전력을 줄인다. 특히, 간단한 AND와 비트-슬라이스 매스크(MASK)를 사용하여 곱셈기와 누산기 (accumulator) 내에서 제로를 곱하는 것을 생략하고 요구되는 세분화된 가산기들의 비트-슬라이스를 동적으로 활성화 또는 비 활성화한다. 제안 방식을 1-D DCT/IDCT에 적용하여 얻은 결과에서는 매트릭스 전치에서 전력 절감을 위해 이용되는 불필요한 부호확장비트(SEBs)를 갖고 있지 않음을 보여주고 있다. 비트 레벨 트랜지션 빈도 시뮬레이션(bit-level transition activity simulations)을 통해 기존의 설계에 비해 뚜렷한 전력 절감 효과를 확인하였다.

  • PDF

색상과 에지 공분산 특징을 이용한 변화영역 검출 (Change Area Detection using Color and Edge Gradient Covariance Features)

  • 김동근;황치정
    • 한국산학기술학회논문지
    • /
    • 제17권1호
    • /
    • pp.717-724
    • /
    • 2016
  • 본 논문은 카메라로부터 획득한 컬러 비디오 영상에서 컬러 색상과 에지 그래디언트의 공분산 행렬에 기반한 영상의 변화영역을 검출하는 방법을 제안한다. 컬러 비디오 영상은 RGB 영상 대신에 밝기정보와 색상정보가 분리된 YCbCr 컬러비디오 포맷을 사용한다. CbCr-채널로부터 컬러의 색상분포를 알 수 있는 컬러 공분산 행렬을 계산하며, Y-채널로부터는 영상의 에지 그래디언트 분포를 알 수 있는 공분산 행렬을 계산한다. 컬러 공분산 행렬과 에지 그래디언트 공분산 행렬은 배경영상으로부터 적분영상을 사용하여 사각영역의 합계와 제곱 합계, 곱셈 합계를 효과적으로 계산하여 각 화소에서 빠르게 계산된다. 또한 시간에 따른 변화를 반영하기 위하여 배경영상과 입력영상의 가중평균에 의해 배경영상을 갱신한다. 현재 프레임에서의 배경영상으로부터의 변화영역은 컬러 공분산 행렬과 에지 그래디언트 공분산 행렬을 사용한 통계적 거리측정인 마하라노비스 거리를 이용하여 검출한다. 고속도로의 컬러 비디오 영상의 실험결과에서 컬러색상과 그래디언트의 변화영역을 효과적으로 검출할 수 있었다.

High Expression of KIFC1 in Glioma Correlates with Poor Prognosis

  • Pengfei Xue;Juan Zheng;Rongrong Li;Lili Yan;Zhaohao Wang;Qingbin Jia;Lianqun Zhang;Xin Li
    • Journal of Korean Neurosurgical Society
    • /
    • 제67권3호
    • /
    • pp.364-375
    • /
    • 2024
  • Objective : Kinesin family member C1 (KIFC1), a non-essential kinesin-like motor protein, has been found to serve a crucial role in supernumerary centrosome clustering and the progression of several human cancer types. However, the role of KIFC1 in glioma has been rarely reported. Thus, the present study aimed to investigate the role of KIFC1 in glioma progression. Methods : Online bioinformatics analysis was performed to determine the association between KIFC1 expression and clinical outcomes in glioma. Immunohistochemical staining was conducted to analyze the expression levels of KIFC1 in glioma and normal brain tissues. Furthermore, KIFC1 expression was knocked in the glioma cell lines, U251 and U87MG, and the functional roles of KIFC1 in cell proliferation, invasion and migration were analyzed using cell multiplication, wound healing and Transwell invasion assays, respectively. The autophagic flux and expression levels matrix metalloproteinase-2 (MMP2) were also determined using imaging flow cytometry, western blotting and a gelation zymography assay. Results : The results revealed that KIFC1 expression levels were significantly upregulated in glioma tissues compared with normal brain tissues, and the expression levels were positively associated with tumor grade. Patients with glioma with low KIFC1 expression levels had a more favorable prognosis compared with patients with high KIFC1 expression levels. In vitro, KIFC1 knockdown not only inhibited the proliferation, migration and invasion of glioma cells, but also increased the autophagic flux and downregulated the expression levels of MMP2. Conclusion : Upregulation of KIFC1 expression may promote glioma progression and KIFC1 may serve as a potential prognostic biomarker and possible therapeutic target for glioma.

A Multi-Level Accumulation-Based Rectification Method and Its Circuit Implementation

  • Son, Hyeon-Sik;Moon, Byungin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권6호
    • /
    • pp.3208-3229
    • /
    • 2017
  • Rectification is an essential procedure for simplifying the disparity extraction of stereo matching algorithms by removing vertical mismatches between left and right images. To support real-time stereo matching, studies have introduced several look-up table (LUT)- and computational logic (CL)-based rectification approaches. However, to support high-resolution images, the LUT-based approach requires considerable memory resources, and the CL-based approach requires numerous hardware resources for its circuit implementation. Thus, this paper proposes a multi-level accumulation-based rectification method as a simple CL-based method and its circuit implementation. The proposed method, which includes distortion correction, reduces addition operations by 29%, and removes multiplication operations by replacing the complex matrix computations and high-degree polynomial calculations of the conventional rectification with simple multi-level accumulations. The proposed rectification circuit can rectify $1,280{\times}720$ stereo images at a frame rate of 135 fps at a clock frequency of 125 MHz. Because the circuit is fully pipelined, it continuously generates a pair of left and right rectified pixels every cycle after 13-cycle latency plus initial image buffering time. Experimental results show that the proposed method requires significantly fewer hardware resources than the conventional method while the differences between the results of the proposed and conventional full rectifications are negligible.

레지스터 재활용 사슬의 체계적 생성 (A Systematic Generation of Register-Reuse Chains)

  • 이혁재
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권12호
    • /
    • pp.1564-1574
    • /
    • 1999
  • In order to improve the efficiency of optimizing compilers, integration of register allocation and instruction scheduling has been extensively studied. One of the promising integration techniques is register allocation based on register-reuse chains. However, the generation of register-reuse chains in the previous approach was not completely systematic and consequently it creates unnecessarily dependencies that restrict instruction scheduling. This paper proposes a new register allocation technique based on a systematic generation of register-reuse chains. The first phase of the proposed technique is to generate register-reuse chains that are optimal in the sense that no additional dependencies are created. Thus, register allocation can be done without restricting instruction scheduling. For the case when the optimal register-reuse chains require more than available registers, the second phase reduces the number of required registers by merging the register-reuse chains. Chain merging always generates additional dependencies and consequently enforces the execution order of instructions. A heuristic is developed for the second phase in order to reduce additional dependencies created by merging chains. For matrix multiplication program, the number of registers resulting from the first phase is small enough to fit into available registers for most basic blocks. In addition, it is shown that the restriction to instruction scheduling is reduced by the proposed merging heuristic of the second phase.

  • PDF