• Title/Summary/Keyword: 병렬처리 아키텍처

검색결과 64건 처리시간 0.025초

AI를 위한 파일시스템 병렬 I/O 기술 연구 (A Study on Parallel I/O Technology in Filesystem for AI)

  • 윤준원;홍태영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.49-51
    • /
    • 2022
  • 대규모 데이터를 처리하기 위해 머신러닝, 딥러닝과 같은 AI 활용 연구가 일반화되면서 시스템 환경 또한 병렬처리 연산에 강화된 가속기 기반의 이기종 아키텍처로 확산되고 있다. CPU 기반의 계산 환경과 달리 상대적으로 성능이 낮은 수천 개의 산술연산장치(ALU)를 활용해 쓰레드 방식으로 연산을 수행하며, I/O의 특성 또한 대규모의 데이터들이 수많은 연산장치에 전달되기 위한 Small I/O, High-throughput 처리 성능이 애플리케이션에 큰 영향을 끼친다. 본 논문에서는 병렬 컴퓨팅 환경에 AI 애플리케이션이 접목되면서 요구되는 스토리지, 파일시스템의 환경을 분석하고 나아가 성능 검증을 통해 I/O 특성을 파악하고자 한다.

퍼지 벡터 양자화를 위한 대규모 병렬 알고리즘 (A Massively Parallel Algorithm for Fuzzy Vector Quantization)

  • ;김철홍;김종면
    • 정보처리학회논문지A
    • /
    • 제16A권6호
    • /
    • pp.411-418
    • /
    • 2009
  • 퍼지 클러스터링 기반 벡터 양자화 알고리즘은 퍼지 클러스터링 분석이 벡터 양자화 프로세스 초기단계에서 초기화에 덜 민감하게 하기 때 문에 데이터 압축 분야에서 널리 사용되어 왔다. 하지만, 퍼지 클러스터링 처리는 훈련 벡터 공간에 포함된 불확실한 양적 공식의 복잡한 프레 임워크 때문에 상당한 계산량이 요구된다. 이러한 상당한 계산량 부하를 극복하기위해 본 논문은 4,096 프로세싱 엘리먼트로 구성된 어레이 아 키텍처를 이용하여 퍼지 벡터 양자화 알고리즘의 병렬 구현을 제안한다. 제안하는 병렬 구현은 4,096 프로세싱 엘리먼트를 이용하여 클러스터 링 프로세스 동안 효과적인 벡터 할당 정책을 적용함으로써 계산적으로 효율적인 솔루션을 제공한다. 모의실험 결과, 제안한 병렬 구현은 기존 의 다른 어레이 아키텍처를 이용한 구현보다 성능 및 효율 측면에서 상당한 향상을 보였다. 또한동일한 130nm 기술에서 제안한 병렬 구현은 오늘날의 ARM이나 TI DSP 프로세서를 이용한 구현과 비교하여 약 1000배의 성능 향상 및 100배의 에너지 효율 향상을 보였다. 이 결과들은 향상된 성능 및 에너지효율에서 제안한 병렬 구현의 잠재가능성을 입증한다.

H.264/AVC용 병렬 디블록킹 필터의 아키텍처에 관한 연구 (A Study on Architecture of Parallel Deblocking Filter for H.264/AVC)

  • 손승일;김원삼
    • 한국정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.766-772
    • /
    • 2007
  • H.264/AVC는 블록킹 현상을 제거하기 위해 디블록킹 필터를 채용한 영상 이미지의 압축을 위한 새로운 국제 표준이다. 본 논문에서는 H.264/AVC에 존재하는 디블록킹 필터의 효율적인 아키텍처를 제안한다. 이웃한 $4{\times}4$ 블록사이의 데이터 종속성을 이용하여 메모리의 사용량을 줄이고, 디블록킹 필터 처리의 쓰루풋을 향상시켰다. 수평 필터링과 수직 필터링을 병렬로 수행함으로써 기존의 디블록킹 필터와 비교할 때 1.75에서 4.23배까지 성능을 향상시켰다. 따라서 본 논문에서 제안한 아키텍처는 고해상도 비디오 응용의 실시간 디블록킹을 수행할 수 있을 것으로 예견된다.

PIM 아키텍처를 위한 GEMM 최적화 기법 탐구: UPMEM 사례 연구 (Exploring GEMM Optimization Techniques for PIM Architecture: A Case Study on UPMEM)

  • 이찬;최희림;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.65-68
    • /
    • 2024
  • 이 연구는 PIM(Processing-in-Memory) 아키텍처를 활용하여 General Matrix Multiplication(GEMM)의 최적화 기법을 UPMEM PIM 을 통해 탐구한다. 본 연구는 CPU 에서 경험하는 메모리 대역폭의 제한을 극복하고 병렬 처리 구조를 활용함으로써 GEMM 연산에서 PIM 의 잠재적 이점을 확인한다. 또한 연속된 세 개의 행렬 곱셈에 대한 효율성을 평가하고, 데이터 전송 시간이 성능 최적화의 주요병목 현상으로 작용하는 것을 확인한다. CPU 에서 UPMEM 커널로 전송되는 데이터의 양을 한 번에 늘리면서 전송 횟수를 줄이는 방법을 사용하여 CPU 에 비해 성능을 최대 6.57 배 향상시켰다.

  • PDF

임베디드 병렬 프로세서를 위한 칼라미디어 명령어 구현 (Color Media Instructions for Embedded Parallel Processors)

  • 김철홍;김종면
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권7호
    • /
    • pp.305-317
    • /
    • 2008
  • 최근 모바일 컴퓨팅 환경의 변화로 멀티미디어 데이타의 고성능, 저전력 처리에 대한 수요가 증가하고, 프로세서에 있어서 멀티미디어 전용 가속기 기능의 중요성이 크게 부각되고 있다. 이에 본 논문은 고성능, 저전력 멀티미디어 처리를 위한 SIMD 병렬 프로세서용 칼라미디어 명령어를 제안한다. 기존의 범용 마이크로프로세서 전용 멀티미디어 명령어 (e.g., MMX, VIS, AltiVec)는 4개의 8 비트 픽셀을 32 비트 레지스터에 저장하고 처리하는 반면에, 제안하는 칼라미디어 명령어는 인간의 시각이 칼라에 덜 민감한 점을 고려하여 32비트 데이타패스 아키텍처에서 두 쌍 (6개의 픽셀)의 압축된 16비트 YCbCr (6비트 Y, 5비트 Cb와 Cr) 데이타를 32비트 레지스터에 저장하고 동시에 처리함으로써 YCbCr 데이타 처리에서 높은 병렬성과 효율성을 보여준다. 또한 칼라미디어 명령어는 데이타 포맷 사이즈를 줄임으로써 전체시스템의 비용을 절감할 뿐만 아니라 데이타 대역폭의 감소로 시스템 디자인을 간소화한다. SIMD 병렬 프로세서 아키텍처에서 모의 실험한 결과, 칼라미디어 명령어 기반 프로그램은 baseline 명령어 프로그램보다 평균 6.3배 성능향상을 보여준다. 반면, Intel의 대표적인 멀티미디어 명령어인 MMX 기반 프로그램은 동일한 SIMD 병렬 프로세서에서 baseline 명령어 프로그램보다 단지 3.7배 성능향상을 나타낸다. 또한, 칼라미디어 명령어는 MMX보다 시스템 면적 효율 (52% 증가 대비 13% 증가)과 시스템 전력 효율 (50% 증가 대비 11% 증가)에서 우수성을 보여준다. 칼라미디어 명령어는 이러한 성능과 효율을 단지 3%의 시스템 면적과 5%의 시스템 전력의 증가로 얻는 반면, MMX는 14%의 시스템 면적과 16%의 시스템 전력증가가 요구된다.

OpenCL을 이용한 이미지 처리 프로그램의 자동 최적화 방법 (Automatic Optimization Methods for Image Processing Programs Using OpenCL)

  • 신재호;조강원;이일구;이재진
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.188-193
    • /
    • 2017
  • 영상 장비가 발전하고 고화질 이미지의 사용량이 많아짐에 따라 이를 병렬화하여 빠르게 처리하는 방법이 많이 연구되고 있다. 본 논문은 OpenCL을 사용한 이미지 처리 프로그램이 하드웨어에 관계없이 최적의 성능을 내도록 하는 방법을 제시한다. OpenCL은 계산 디바이스의 아키텍처에 따라 적절한 병렬화 방법과 워크그룹 크기를 개발자가 실험을 통해 찾아야 한다. 하지만 이는 시간적, 자원적 한계가 있다. 본 논문에서는 대상 하드웨어에 최적화된 병렬화 방법과 워크그룹 크기를 프로파일링을 통해 자동으로 선택하는 방법을 제안한다. 또한 OpenCL을 사용한 이미지 처리는 입력 이미지의 크기에 따라 순차코드 보다 성능이 좋을 수도 있고 안좋을 수도 있다. 본 논문에서는 OpenCL코드의 성능이 순차코드 성능보다 좋아지는 시점의 이미지 크기를 자동으로 검색하여 OpenCL을 사용할지 기존의 순차코드를 사용할지 결정하는 이미지 크기 threshold를 설정하는 방법을 제시한다. 이를 통해 이미지 처리 프로그램이 임의의 하드웨어에서 이미지 크기에 상관없이 항상 최적의 성능을 보이는 것을 확인했다.

Xilinx DPU를 사용한 CNN 추론 분석 (Analysis of CNN Inference Using Xilinx DPU)

  • 김채영;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.60-62
    • /
    • 2019
  • 지능형 IoT 애플리케이션들을 효과적으로 사용하기 위해서는 추론 엔진을 Edge device로 포팅하는 것이 필수적이다. 그러나 컴퓨팅 자원이 제한적인 Edge 환경에서 computational cost가 상당히 큰 CNN 추론을 실시간으로 하는 것은 쉽지 않다. 이에, CNN 추론의 하드웨어 가속화의 필요성이 제기되어 활발한 연구가 진행되고 있으며, Xilinx, Intel 등에서도 하드웨어 가속화를 도와주는 툴을 개발하여 지속적으로 업그레이드하고 있다. 본 연구에서는 CIFAR-10 데이터베이스의 테스트 이미지 10,000개를 Xilinx 사의 CNN 추론 엔진인 DPU를 사용하여 Zynq UltraScale+ 보드에서 추론해보고, DPU 아키텍처에 따른 결과를 비교·분석했다. 병렬처리 수준을 높게 한 DPU는 그렇지 않은 DPU보다 소비전력 및 자원 사용량이 3배 이상 높았지만, 1.65배 좋은 성능을 보여 Trade-off 관계를 확인할 수 있었다.

GPU기반 적응형 및 연속적인 부호 거리장의 최적화된 구성과 시각화, 그리고 그 응용 사례 (Optimized Construction and Visualization of GPU-based Adaptive and Continuous Signed Distance Field, and Its Applications)

  • 문성혁;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.655-658
    • /
    • 2021
  • 본 논문에서는 GPU 아키텍처를 이용하여 적응형 부호 거리장을 최적화하여 빠르게 구축하고 시각화 할 수 있는 방법에 대해 제안한다. 쿼드트리를 효율적으로 GPU 메모리로 전달하고, 이를 활용하여 삼각형에 대해 유클리디안 거리를 각 스레드 별로 병렬처리하여 최단 거리를 찾는다. 이 과정에서 GPU를 사용하여 삼각형으로 구성된 3D 메쉬로부터 빠르게 적응형 부호 거리장을 계산할 수 있는 최적화 기법과 절단면 보기, 특정 위치의 값 조회, 실시간 레이트레이싱 및 충돌처리 작업을 빠르고 효율적으로 수행할 수 있는지를 보여준다. 또한, 제안하는 프레임워크를 활용하면 하이 폴리곤 메쉬도 1초 내외로 부호 거리장을 계산할 수 있기 때문에 강체뿐만 아니라 변형체에도 충분히 활용될 수 있다.

  • PDF

HOG를 이용한 ARM 아키텍처에서의 고속 보행자 검출기 (Fast pedestrian detector using HOG in ARM architecture)

  • 권기표;이재흥;강병익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.161-164
    • /
    • 2013
  • 보행자 검출기는 보안이 필요한 곳에서 모니터링을 하거나 특정 장소를 드나드는 사람의 수를 셀 때, 운전 중 차도에 뛰어드는 사람을 감지할 때 등 상황에 따라 여러 목적으로 응용될 수 있다. 이에 따른 연구는 많이 진행되어 왔지만, 임베디드 시스템에서는 제한된 컴퓨팅 능력으로 인해 검출 속도가 느리다는 문제가 있다. 본 논문에서는 입력 영상에서 배경 부분을 빠르게 제거하여 검출 속도를 향상하는 방법과 ARM 아키텍처에서 NEON 병렬화 기법을 이용하여 검출 속도를 향상하는 방법을 제시한다. 제시한 방법으로 구현한 검출기는 기존보다 201.1% 향상된 속도를 나타냈다.

재구성형 어레이 아키텍처에서 데이터 복사 흐름을 고려한 코드 매핑 기법 (A Code Mapping Technique Considering With Data Copying Flow On Coarse-Grained Reconfigurable Array Architectures)

  • 조두산
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1632-1634
    • /
    • 2010
  • 고성능 재구성형 어레이 아키텍처는 애플리케이션에 내재된 병렬성을 충분히 활용하도록 풍부한 하드웨어 리소스로 구성되어 있다. 이러한 하드웨어 리소스는 소프트웨어 파이프라이닝 기반 코드할당 기법을 통하여 사용된다. 이러한 코드할당 기법은 기존의 소프트웨어 파이프라이닝 기법에 FPGA 에서의 라우팅 & 위치선정기법이 연결된 형식으로 구성된다. 이러한 기존의 연구들은 데이터 흐름 (data flow)을 단순한 형태로 가정하여 개발되었다. 따라서 루프 코드 펼침 (loop unrolling)에 따라서 발생되는 데이터 복사에 의한 흐름 (copy flow)은 코드 매핑할 때 고려하지 않기 때문에 소프트웨어 파이프라이닝 적용시 네트웍 리소스의 중복사용으로 인한 데이터 충돌문제(data congestion)로 Minimum Initiation Interval (MII)증가에 따르는 성능 저하가 발생할 수 있다. 본 연구에서는 다양한 데이터 복사 흐름까지 고려하도록 데이터 의존도 그래프 (Data Dependence Graph, DDG)를 확장하여 스케쥴링 단계에서 데이터 충돌 지연에 의한 MII 증가를 방지하여 최적의 시스템 성능을 얻도록 코드 할당 기법을 개발하였다.