• 제목/요약/키워드: loop tiling

검색결과 4건 처리시간 0.02초

Locality-Conscious Nested-Loops Parallelization

  • Parsa, Saeed;Hamzei, Mohammad
    • ETRI Journal
    • /
    • 제36권1호
    • /
    • pp.124-133
    • /
    • 2014
  • To speed up data-intensive programs, two complementary techniques, namely nested loops parallelization and data locality optimization, should be considered. Effective parallelization techniques distribute the computation and necessary data across different processors, whereas data locality places data on the same processor. Therefore, locality and parallelization may demand different loop transformations. As such, an integrated approach that combines these two can generate much better results than each individual approach. This paper proposes a unified approach that integrates these two techniques to obtain an appropriate loop transformation. Applying this transformation results in coarse grain parallelism through exploiting the largest possible groups of outer permutable loops in addition to data locality through dependence satisfaction at inner loops. These groups can be further tiled to improve data locality through exploiting data reuse in multiple dimensions.

비규칙 종속성을 가진 루프의 확장된 세지역 분할 방법 (Extended Three Region Partitioning Method of Loops with Irregular Dependences)

  • 정삼진
    • 한국융합학회논문지
    • /
    • 제6권3호
    • /
    • pp.51-57
    • /
    • 2015
  • 본 논문은 비규칙 종속성을 가진 내포된 루프의 수행 속도를 향상시키기 위해서 Extended Three Region Partitioning Method 라는 효과적인 루프 분할 방법에 대해서 연구하였다. 본 논문에서 제안된 루프 분할 방법은 변수 재명명에 의해서 역종속성을 가진 내포된 루프를 제거한 후 네 개의 선중에 하나 혹은 그 이상의 적절한 선을 선택하는 알고리즘을 개발한다. 한 개의 선이 선택되면 선택된 선에 의해서 전체 영역은 두 개의 병렬지역으로 분할된다. 한 개 이상의 선이 선택되면 그 선들에 의해서 하나의 순차지역과 두 개의 병렬지역으로 분할한다. 제안된 분할 방법은 기존의 분할 방법보다 성능이 우수함을 성능 분석에서 보여준다.

목표물 신호 모니터링 및 SPGD 알고리즘 기반 3 채널 타일형 결맞음 빔결합 시스템 연구 (3-channel Tiled-aperture Coherent-beam-combining System Based on Target-in-the-loop Monitoring and SPGD Algorithm)

  • 김영찬;윤영선;김한솔;장한별;박재덕;최윤진;나정균;이주한;강현구;여민수;최규홍;노영철;정윤찬;이혁재;유봉안;염동일;전창수
    • 한국광학회지
    • /
    • 제32권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 단일 레이저의 출력 한계를 뛰어넘기 위한 빔결합 방법으로서, 보강간섭 원리를 이용한 타일형 결맞음 빔결합 시스템에 대해 연구하였다. 와트급 출력의 3 채널 결맞음 광섬유 레이저 및 삼각형 배치의 팁-틸트(tip-tilt) 기능을 갖춘 3 채널 출력단을 자체제작 하였다. 모니터링 시스템, 위상제어기, 3 채널 위상변조기 간의 궤환 제어 시스템(closed-loop system)을 구성하고 SPGD 알고리즘을 적용하여, 위상잠금 속도 5~67 kHz, 이상적인 계산값 대비 중심부 광세기 효율 53.3%의 성공적인 3 채널 위상잠금을 구현하였다. 빔결합 소자가 필요 없고, 가장 고출력 가능성을 가진 타일형 결맞음 빔결합을 위한 요소기술 개발이 완료되어, 향후 다채널, 고출력, 고속 제어 연구로 이어질 수 있을 것으로 기대된다.

CNN 가속기의 효율적인 데이터 전송을 위한 메모리 데이터 레이아웃 및 DMA 전송기법 연구 (Memory data layout and DMA transfer technique research For efficient data transfer of CNN accelerator)

  • 조석재;박성경;박성정
    • 전기전자학회논문지
    • /
    • 제24권2호
    • /
    • pp.559-569
    • /
    • 2020
  • 딥 러닝 알고리즘 중 하나인 CNN 인공지능 어플리케이션은 하드웨어 측면에서 컨벌루션 레이어의 많은 데이터들을 저장하기 위해 오프 칩 메모리를 사용 하고, DMA를 사용하여 매 데이터 전송 시 프로세서의 부하를 줄여 성능을 향상 시킬 수 있다. 또한 컨벌루션 레이어의 데이터를 가속기의 글로벌 버퍼에 전송되는 순서를 다르게 하여 어플리케이션의 성능의 저하를 줄일 수 있다. 불 연속된 메모리 주소를 가지고 있는 베이직 레이아웃의 경우 SG-DMA를 사용 할 때 ordinary DMA를 사용할 때보다 DMA를 사전 설정하는 부분에서 약 3.4배의 성능향상을 보였고 연속적인 메모리 주소를 가지고 있는 아이디얼 레이아웃의 경우 ordinary DMA 와 SG-DMA를 사용하는 두가지 경우 모두 1396 사이클 정도의 오버헤드를 가졌다. 가장 효율적인 메모리 데이터 레이아웃과 DMA의 조합은 프로세서의 DMA 사전 설정 부하를 약 86 퍼센트까지 감소할 수 있음을 실험을 통해 확인했다.