• 제목/요약/키워드: hybrid parallel algorithm

검색결과 102건 처리시간 0.022초

반도체 검증을 위한 MPI 기반 클러스터에서의 대용량 FDTD 시뮬레이션 연산환경 구축 (Implementation of Massive FDTD Simulation Computing Model Based on MPI Cluster for Semi-conductor Process)

  • 이승일;김연일;이상길;이철훈
    • 한국콘텐츠학회논문지
    • /
    • 제15권9호
    • /
    • pp.21-28
    • /
    • 2015
  • 반도체 공정에서는 소자 내부의 물리량 계산을 통해 불순물의 움직임을 해석하여 결점을 검출하는 시뮬레이션을 수행하게 된다. 이를 위해 유한 차분 시간 영역 알고리즘(Finite-Difference Time-Domain, 이하 FDTD)과 같은 수치해석 기법이 사용된다. 반도체 칩의 집적도 향상으로 인하여 소자의 크기는 나노스케일 시대로 접어들었으며, 시뮬레이션 사이즈 또한 커지고 있는 추세이다. 이에 따라 CPU와 GPU 같은 하나의 연산 장치에서 수행할 수 없는 문제와 다중의 연산 장치로 구성된 한 대의 컴퓨터에서 수행할 수 없는 문제가 발생하기도 한다. 이러한 문제로 인해 분산 병렬처리를 통한 FDTD 알고리즘 연구가 진행되고 있다. 하지만 기존의 연구들은 단일 연산장치만을 이용하기 때문에 GPU를 사용하는 경우 연산 속도는 빠르나 메모리의 제한이 있으며 CPU의 경우 GPU에 비해 연산 속도가 느린 단점이 존재한다. 이를 해결하기 위해 본 논문에서는 CPU, GPU의 이기종 연산 장치를 포함하는 컴퓨터로 구축된 클러스터 상에서 작업 사이즈에 제한되지 않고 시뮬레이션 수행이 가능한 컴퓨팅 모델을 구현하였다. 점대점 통신 기반의 MPI 라이브러리를 이용하여 연산 장치 간 통신을 통한 시뮬레이션을 테스트 하였고 사용하는 연산 장치의 종류와 수에 상관없이 시뮬레이션이 정상 동작함을 확인하였다.

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.