• 제목/요약/키워드: General Matrix Multiplication

검색결과 15건 처리시간 0.027초

MULTIPLICATION OPERATORS ON BERGMAN SPACES OVER POLYDISKS ASSOCIATED WITH INTEGER MATRIX

  • Dan, Hui;Huang, Hansong
    • 대한수학회보
    • /
    • 제55권1호
    • /
    • pp.41-50
    • /
    • 2018
  • This paper mainly considers a tuple of multiplication operators on Bergman spaces over polydisks which essentially arise from a matrix, their joint reducing subspaces and associated von Neumann algebras. It is shown that there is an interesting link of the non-triviality for such von Neumann algebras with the determinant of the matrix. A complete characterization of their abelian property is given under a more general setting.

FPGA기반 뉴럴네트워크 가속기에서 2차 타일링 기반 행렬 곱셈 최적화 (Optimizing 2-stage Tiling-based Matrix Multiplication in FPGA-based Neural Network Accelerator)

  • 권진세;이제민;권용인;박제만;유미선;김태호;김형신
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.367-374
    • /
    • 2022
  • The acceleration of neural networks has become an important topic in the field of computer vision. An accelerator is absolutely necessary for accelerating the lightweight model. Most accelerator-supported operators focused on direct convolution operations. If the accelerator does not provide GEMM operation, it is mostly replaced by CPU operation. In this paper, we proposed an optimization technique for 2-stage tiling-based GEMM routines on VTA. We improved performance of the matrix multiplication routine by maximizing the reusability of the input matrix and optimizing the operation pipelining. In addition, we applied the proposed technique to the DarkNet framework to check the performance improvement of the matrix multiplication routine. The proposed GEMM method showed a performance improvement of more than 2.4 times compared to the non-optimized GEMM method. The inference performance of our DarkNet framework has also improved by at least 2.3 times.

범용 병렬화일 시스템 상에서 MPI-IO 방안의 성능 평가 벤티마크 (Benchmarks for Performance Testing of MPI-IO on the General Parallel File System)

  • 박성순
    • 정보처리학회논문지A
    • /
    • 제8A권2호
    • /
    • pp.125-132
    • /
    • 2001
  • IBM developed the MPI-IO, we call it MPI-2, on the General Parallel File System. We designed and implemented various Matrix Multiplication Benchmarks to evaluate its performances. The MPI-IO on the General Parallel File System shows four kinds of data access methods : the non-collective and blocking, the collective and blocking, the non-collective and non-blocking, and the split collective operation. In this paper, we propose benchmarks to measure the IO time and the computation time for the data access methods. We describe not only its implementation but also the performance evaluation results.

  • PDF

GPU 기반 행렬 덧셈 및 스칼라 곱셈 알고리즘 (Matrix Addition & Scalar Multiplication on the GPU)

  • 박상근
    • 융복합기술연구소 논문집
    • /
    • 제8권1호
    • /
    • pp.15-20
    • /
    • 2018
  • Recently a GPU has acquired programmability to perform general purpose computation fast by running thousands of threads concurrently. This paper presents a parallel GPU computation algorithm for dense matrix-matrix addition and scalar multiplication using OpenGL compute shader. It can play a very important role as a fundamental building block for many high-performance computing applications. Experimental results on NVIDIA Quad 4000 show that the proposed algorithm runs 21 times faster than CPU algorithm and achieves performance of 16 GFLOPS in single precision for dense matrices with size 4,096. Such performance proves that our algorithm is practical for real applications.

순환 행렬과 eIRA 부호를 이용한 효율적인 LDPC 부호화기 설계 (Efficient design of LDPC code Using circulant matrix and eIRA code)

  • 배슬기;김준성;송홍엽
    • 한국통신학회논문지
    • /
    • 제31권2C호
    • /
    • pp.123-129
    • /
    • 2006
  • 랜덤하게 생성된 LDPC 부호의 경우 부호화기의 복잡도가 크기 때문에 효과적인 부호화를 위하여 구조적인 설계를 필요로 한다. 본 논문에서는 효율적인 부호화기를 위해 기존에 제안된 eIRA 부호에 순환 행렬의 구조를 적용한 부호화기 구조를 제안하였다. 제안된 순환 행렬 구조는 쉬프트 레지스터를 사용하여 부호화기를 구성할 수 있으며, 순환 행렬의 사용으로 인한 성능 저하를 방지하기 위해 치환 행렬 구조에 해당하는 인터리버를 사용하였다. 제안된 부호는 LDPC 부호화기의 복잡도는 낮추면서도 기존의 부호화기의 성능과 유사한 성능을 보인다.

대안적인 분류기준: 오분류율곱 (Alternative Optimal Threshold Criteria: MFR)

  • 홍종선;김효민;김동규
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.773-786
    • /
    • 2014
  • 본 연구는 ROC 곡선에서 형성되는 면적 형태로 나타나는 분류정확도기준인 오분류율곱(multiplication of false rates; MFR)를 제안한다. MFR 기준과 다른 기준로부터 구한 최적분류점의 분류성과에 대하여 비교 분석한다. 다양한 분포함수에 대하여 최적분류점을 구하고 이에 대응하는 FNR과 FPR을 비교하면서 MFR의 특징과 장점을 유도한다. 일반적인 비용함수를 바탕으로 분류점에 대한 비용비율을 다양한 분류기준을 이용하여 구한다. 비용곡선에 대한 비용비율의 관계를 정리하여 MFR 기준의 장점을 탐색한다. MFR 기준의 정의를 다차원 ROC 분석으로 확장하고 다차원의 다른 분류기준과의 관계를 설명하면서 토론한다.

OpenCL을 이용한 랜더링 노이즈 제거를 위한 뉴럴 네트워크 가속기 구현 (Implementation of Neural Network Accelerator for Rendering Noise Reduction on OpenCL)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제4권4호
    • /
    • pp.373-377
    • /
    • 2018
  • 본 논문에서는 OpenCL을 이용한 랜더링 노이즈 제거를 위한 가속기 구현을 제안한다. 렌더링 알고리즘 중에 고품질 그래픽스를 보장하는 레이트레이싱을 선택하였다. 레이 트레이싱은 레이를 사용하여 렌더링하는데 레이를 적게 사용하면 노이즈가 발생한다. 레이를 많이 사용하게 되면 고화질의 이미지를 생성할 수 있으나 연산 시간이 상대적으로 길어지게 된다. 레이를 적게 사용하면서 연산시간을 줄이기 위해 뉴럴 네트워크를 이용한 LBF(Learning Based Filtering) 알고리즘을 적용하였다. 뉴럴 네트워크를 사용한다고 해서 항상 최적의 결과가 나오지는 않는다. 본 논문에서는 성능향상을 위해 일반적인 행렬 곱셈을 기반으로 하는 새로운 기법의 행렬 곱셈 접근법을 제시하였다. 개발환경으로는 고속병렬 처리가 특화된 OpneCL을 사용하였다. 제안하는 구조는 Kintex UltraScale XKU690T-2FDFG1157C FPGA 보드에서 검증하였다. 하나의 픽셀에 사용되는 파라미터를 계산 시간은 Verilog-HDL 구조보다 약 1.12배 빠른 것으로 확인했다.

LQ 제어와 근의 이동범위를 이용한 중근의 극배치 방법 (Pole Placement Method of a Double Poles Using LQ Control and Pole's Moving-Range)

  • 박민호
    • 한국산학기술학회논문지
    • /
    • 제21권1호
    • /
    • pp.20-27
    • /
    • 2020
  • 일반적으로 비선형 시스템은 1차와 2차 시스템의 곱의 형태로 선형화되며, 시스템은 실근, 중근, 서로 다른 두 실근, 복소근의 4종류의 근을 가진다. 이 논문은 시스템이 가지는 4가지 근 중에서 조단블록을 갖는 중근을 복소근으로 이동시키는 LQ 제어의 가중행렬과 제어법칙을 설계하는 방법에 관한 것이다. 상태가중행렬을 제한 조건으로 하고 성능지수함수를 최소화하는 LQ 제어는 시스템의 안정성을 보장하고 시스템의 근을 이동시키는 극배치 기능을 가지고 있다. 그렇지만 이 방법은 시행착오 방법으로 설계 변수인 가중행렬을 설정하고, 이동되는 근의 위치를 정확히 지정할 수 없는 문제가 있다. 이 문제를 해결하기 위해 해밀토니안 시스템의 특성방정식을 대각행렬의 제어가중행렬과 삼각함수로 표현된 상태가중행렬을 이용하여 기술한다. 이동할 복소근이 이 특성방정식의 근이라는 조건에서 중근과 상태가중행렬의 관계식(𝜌, 𝜃)을 유도하고 상태가중행렬이 양의 반한정행렬이라는 조건에서 중근의 이동범위를 구하고, 좌표평면에 도시한다. 그려진 중근의 이동범위에서 복소근을 선택하여 관계식에 대입하여 상태가중행렬을 계산하고, 이것에서 제어법칙이 구한다. 예제에서 3차 시스템의 중근을 이동시키는 제어법칙의 설계과정을 통해 제안한 방법의 타당성을 확인하였다.

Free vibration and harmonic response of cracked frames using a single variable shear deformation theory

  • Bozyigit, Baran;Yesilce, Yusuf;Wahab, Magd Abdel
    • Structural Engineering and Mechanics
    • /
    • 제74권1호
    • /
    • pp.33-54
    • /
    • 2020
  • The aim of this study is to calculate natural frequencies and harmonic responses of cracked frames with general boundary conditions by using transfer matrix method (TMM). The TMM is a straightforward technique to obtain harmonic responses and natural frequencies of frame structures as the method is based on constructing a relationship between state vectors of two ends of structure by a chain multiplication procedure. A single variable shear deformation theory (SVSDT) is applied, as well as, Timoshenko beam theory (TBT) and Euler-Bernoulli beam theory (EBT) for comparison purposes. Firstly, free vibration analysis of intact and cracked frames are performed for different crack ratios using TMM. The crack is modelled by means of a linear rotational spring that divides frame members into segments. The results are verified by experimental data and finite element method (FEM) solutions. The harmonic response curves that represent resonant and anti-resonant frequencies directly are plotted for various crack lengths. It is seen that the TMM can be used effectively for harmonic response analysis of cracked frames as well as natural frequencies calculation. The results imply that the SVSDT is an efficient alternative for investigation of cracked frame vibrations especially with thick frame members. Moreover, EBT results can easily be obtained by ignoring shear deformation related terms from governing equation of motion of SVSDT.

PIM 아키텍처를 위한 GEMM 최적화 기법 탐구: UPMEM 사례 연구 (Exploring GEMM Optimization Techniques for PIM Architecture: A Case Study on UPMEM)

  • 이찬;최희림;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.65-68
    • /
    • 2024
  • 이 연구는 PIM(Processing-in-Memory) 아키텍처를 활용하여 General Matrix Multiplication(GEMM)의 최적화 기법을 UPMEM PIM 을 통해 탐구한다. 본 연구는 CPU 에서 경험하는 메모리 대역폭의 제한을 극복하고 병렬 처리 구조를 활용함으로써 GEMM 연산에서 PIM 의 잠재적 이점을 확인한다. 또한 연속된 세 개의 행렬 곱셈에 대한 효율성을 평가하고, 데이터 전송 시간이 성능 최적화의 주요병목 현상으로 작용하는 것을 확인한다. CPU 에서 UPMEM 커널로 전송되는 데이터의 양을 한 번에 늘리면서 전송 횟수를 줄이는 방법을 사용하여 CPU 에 비해 성능을 최대 6.57 배 향상시켰다.