• 제목/요약/키워드: Parallel processor

검색결과 482건 처리시간 0.025초

위상 결합을 기반으로 한 연결 망 설계 및 시뮬레이션 (Design and Simulation of Interconnection Network Based on Topological Combination)

  • 장창수;최창훈
    • 한국통신학회논문지
    • /
    • 제29권6B호
    • /
    • pp.563-574
    • /
    • 2004
  • 본 논문에서는 정적 네트워크 위상과 동적 위상을 결합한 새로운 부류의 MIN(Multistage Interconnection Network)인 Combine MIN을 제안한다. Combine MIN은 단일 경로 성질을 갖는 MIN보다도 적은 하드웨어 비용을 가지면서도 다중 경로를 제공한다. 또한 Combine MIN은 빈번한 통신을 갖는 프로세서-메모리에 짧은 경로의 지름길 경로 및 다중 경로를 제공함으로써 지역화된 통신에 적합하게 구성할 수 있게 설계되었다. 성능 평가를 위한 시뮬레이션 결과에 따르면 Combine MIN은 높은 지역화된 통신에서 같은 네트워크 크기를 갖는 기존의 MIN보다 우수한 성능을 보였다. 따라서 Combine MIN은 공유 메모리 다중 프로세서 시스템에서 지역화된 통신구조를 갖는 병렬 응용 분야에서 효율적으로 활용될 수 있을 것이다.

실시간 비디오 처리에 적합한 에너지 효율적인 멀티코어 스케쥴링 (Energy-Efficient Multi- Core Scheduling for Real-Time Video Processing)

  • 백형구;여정모;이완연
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.11-20
    • /
    • 2011
  • 본 논문에서는 DVFS 기능을 제공하는 멀티코어 프로세서 상에서 실시간 비디오 태스크의 에너지 소모량을 최소화하는 최적 스케쥴링 기법을 제안한다. 제안된 스케쥴링 기법은 멀티코어의 병렬처리 기법을 활용하도록 적절한 수의 멀티코어들을 태스크의 수행에 할당하고, 사용되지 않는 코어들의 전원을 끄며, 실시간 태스크의 데드라인을 만족하는 최저 클락 주파수를 배정한다. 단일 코어에서 태스크를 실행하는 기존 방법과 그리고 모든 코어들에서 태스크를 실행하는 기존 방법을 제안된 스케쥴링 기법과 비교하는 실험 결과에서, 제안된 스케쥴링 기법이 기존 방법들의 에너지 소모량을 각각 최대 67%, 89% 감소시킴을 확인하였다.

인터넷 기반 근사 형상최적설계의 분산처리 (Distributed Process of Approximate Shape Optimization Based on the Internet)

  • 임오강;최은호;김우현
    • 한국전산구조공학회논문집
    • /
    • 제21권4호
    • /
    • pp.317-324
    • /
    • 2008
  • 대형 구조물에 대한 최적설계를 고려할 때 구조해석에 많은 시간과 노력이 소비된다. 한대의 개인용 컴퓨터에 의한 대형 구조물의 구조해석은 대용량의 기억장치와 많은 계산시간이 요구되므로 반복적 해석이 필요한 대형 구조물의 설계에 효율적으로 이용되기 어렵다. 따라서 본 논문에서는 이러한 문제의 대안으로 인터넷이 연결된 다수의 개인용 컴퓨터들로 고성능 병렬연산시스템을 구성하여 구조해석을 분산 처리하여 계산시간을 절감하였다. 아울러 반응표면의 근사를 위해 요구되는 구조해석을 상용 구조해석 어플리케이션으로 해결할 수 있다면 상용성이 확보되어 일반 구조물에 대하여도 반응표면법을 이용한 최적설계를 수행할 수 있을 것이다.

Parsec 기반 시뮬레이터를 이용한 다중처리시스템의 성능 분석 (Performance Analysis of a Multiprocessor System Using Simulator Based on Parsec)

  • 이원주;김선욱;김형래
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.35-42
    • /
    • 2006
  • 본 논문에서는 Parsec을 이용하여 병렬디지털신호처리용 분산공유메모리 다중처리시스템의 성능 분석을 위한 시뮬레이터를 구현한다. 이 시뮬레이터의 특징은 TMS320C6701 DSP 칩의 DMA 기능과 빠른 접근시간을 가진 지역메모리를 사용하는 시스템의 시뮬레이션에 적합하다는 것이다. 또한 시스템의 성능 매개변수 수정과 하드웨어 구성요소들에 대한 재구성이 쉽기 때문에 다양한 실행 환경에서 시스템의 성능을 분석할 수 있다. 시뮬레이션에서는 DSP 알고리즘에서 널리 사용하는 FET, 2D FET, Matrix Multiplication, Fir Filter를 사용하여 프로세서의 수 데이터 크기, 하드웨어 요소의 변화에 따른 실행 시간을 측정한다. 그리고 그 결과를 비교함으로써 본 논문에서 구현한 시뮬레이터의 성능을 검증한다.

  • PDF

필터 뱅크를 사용한 효율적인 short-length running convolution 알고리즘 (Efficient short-length running convolution algorithm using filter banks)

  • 장영범;오세만;이원상
    • 대한전자공학회논문지SP
    • /
    • 제42권6호
    • /
    • pp.187-194
    • /
    • 2005
  • 이 논문에서는 FIR 필터의 연산의 양을 줄이는 효율적인 직접방식의 고속 알고리즘을 제안하였다. 제안된 알고리즘은 임의의 다운샘플링 크기로 병렬화가 가능하며, 다운샘플링의 크기가 결정되면 쉽게 구조를 유도할 수 있다. 특히 제안된 알고리즘은 이론적인 샘플당 곱셈연산의 수를 감소시킴과 동시에 실제 구현에 있어서도 효과가 있음을 실험을 통하여 입증하였다. 이론적으로 연산의 양이 감소함을 보이기 위하여 부필터의 수와 샘플당 곱셈연산의 수를 기존의 고속 알고리즘과 비교하였으며, 실제적으로 구현의 효과를 입증하기 위하여 하드웨어 구현소자의 수와 MAC 프로세서를 사용한 소프트웨어 구현으로 역시 기존의 방식들과 비교하여 제안된 구조가 효과적임을 보였다.

GPGPU를 위한 쉐이더 명령어기반 멀티 스레드 관리 기법 (Method of Multi Thread Management based on Shader Instruction for Mobile GPGPU)

  • 이광엽;박태룡
    • 전기전자학회논문지
    • /
    • 제16권4호
    • /
    • pp.310-315
    • /
    • 2012
  • 본 논문에서는 모바일환경에 최적화 된 멀티 스레드 모바일 GPGPU를 설계하고, 멀티 스레드로 구성된 모바일 프로세서에서의 효과적인 스레드 관리 기법을 검증한다. 스레드의 제어에는 별도의 하드웨어 없이 소프트웨어 명령어를 기반으로 설계하였다. 스레드 관리 기법의 검증은 차선 검출 알고리즘을 구현하여 nVidia의 CUDA Architecture와 설계한 GPGPU의 스레드 관리 효율을 비교 분석한다. 스레드 효율에서는 CUDA와 비교했을 때 최대 2배까지 높은 효율을 보인다.

신재생에너지용 연계형 인버터의 고효율 승압에 관한 연구 (Study on High Efficiency Boosting-up Circuit for Renewable Energy Application)

  • 정태욱;김주용;최세권;조준석;고희석
    • 한국조명전기설비학회:학술대회논문집
    • /
    • 한국조명전기설비학회 2009년도 춘계학술대회 논문집
    • /
    • pp.336-339
    • /
    • 2009
  • In this paper, such as battery power or solar energy and fuel cells generated from Renewable energy sources, high voltage to low voltage DC-DC Converter for converting the design of the study. System consists of low voltage ($24{\sim}28$ [VDC]) and Boosts the voltage (270 [VDC]) for a 3 [kW] DC-DC converter and control circuit is configured as, Power switch the ST Tomson's Automotive low voltage high current MOSFET switches STE250NS10S (temperature 250A) was applied to the two parallel. Also, Controller's processor used ATMEGA128, and Gate Drive applies and composed Photo Coupler TLP250. development. Input voltage (24V) and output voltage (270V) for Conversion in the H-bridge converter topology of the circuit output side power and voltage to control the implementation of the Phase shift angle control applied. And, 3kW of power to pass appropriate specification of the secondary side as interpreted by the high frequency transformer, and the experimental production and analysis of the experiment

  • PDF

HPC 환경의 대용량 유전체 분석을 위한 염기서열정렬 성능평가 (Evaluation of Alignment Methods for Genomic Analysis in HPC Environment)

  • 임명은;정호열;김민호;최재훈;박수준;최완;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.107-112
    • /
    • 2013
  • 인간 유전체 지도 완성 후 NGS 기술의 발달로 대용량 유전체 데이터 분석에 대한 요구가 증대하였다. NGS 데이터는 대용량의 단편서열로 구성되므로 효과적인 분석을 위해 고성능 컴퓨팅 기술의 지원이 요구된다. 본 연구에서는 HPC 환경에서 NGS 데이터로부터 SNP를 탐색하는 유전체 분석 파이프라인을 구축하였다. 각 분석 단계의 CPU 이용률 분석을 통해 분석 단계 중 서열 정렬 단계가 연산 작업의 비율이 가장 높은 것을 확인하고, 공개된 병렬화 서열 정렬 도구들의 성능을 분석하여 유전체 분석를 위한 매니코어 프로세서의 활용 가능성을 확인하였다.

모바일 멀티 코어 GP-GPU를 이용한 H.264/AVC 디코더 구현 (Implementation of IQ/IDCT in H.264/AVC Decoder Using Mobile Multi-Core GPGPU)

  • 김동한;이광엽;정준모
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.321-324
    • /
    • 2010
  • 최근 멀티코어 프로세서의 이용이 증가함에 따라, 멀티코어를 이용한 다양한 병렬화 기법들이 제안되고 있다. 모바일 환경에서도 멀티코어 구조를 적용한 프로세서들이 등장하면서 병렬화 기법들이 연구되고 있다. 하지만, 아직까지 모바일 환경에서의 CPU의 성능은 한계가 있다. 이를 병렬처리와 실수 연산이 뛰어난 GPGPU(General-Purpose computing in Graphics Processing Units)를 멀티코어 구조로 설계함으로써 다른 전용 하드웨어의 추가 없이 성능을 향상 시킬 수 있다. 본 논문에서는 모바일 환경에 적합하게 설계된 멀티코어 GPGPU를 이용하여 H.264 디코더의 Inverse Quantization, Inverse DCT, Color Space Conversion 모듈을 구현하였다. 멀티코어 GPGPU를 이용한 H.264 전체 시스템 동작 시 50%의 성능 향상이 있었다.

  • PDF

Energy Efficient and Low-Cost Server Architecture for Hadoop Storage Appliance

  • Choi, Do Young;Oh, Jung Hwan;Kim, Ji Kwang;Lee, Seung Eun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4648-4663
    • /
    • 2020
  • This paper proposes the Lempel-Ziv 4(LZ4) compression accelerator optimized for scale-out servers in data centers. In order to reduce CPU loads caused by compression, we propose an accelerator solution and implement the accelerator on an Field Programmable Gate Array(FPGA) as heterogeneous computing. The LZ4 compression hardware accelerator is a fully pipelined architecture and applies 16 dictionaries to enhance the parallelism for high throughput compressor. Our hardware accelerator is based on the 20-stage pipeline and dictionary architecture, highly customized to LZ4 compression algorithm and parallel hardware implementation. Proposing dictionary architecture allows achieving high throughput by comparing input sequences in multiple dictionaries simultaneously compared to a single dictionary. The experimental results provide the high throughput with intensively optimized in the FPGA. Additionally, we compare our implementation to CPU implementation results of LZ4 to provide insights on FPGA-based data centers. The proposed accelerator achieves the compression throughput of 639MB/s with fine parallelism to be deployed into scale-out servers. This approach enables the low power Intel Atom processor to realize the Hadoop storage along with the compression accelerator.