• Title/Summary/Keyword: 병렬성능

Search Result 1,947, Processing Time 0.029 seconds

Analysis of Performance Improvement by Adopting a Multistage Parallel Interferece Canceller and a Partial Multistage Parallel Interference Canceller on the Asynchronous DS-CDMA/M-ary QAM Systems (비동기 DS-CDMA/M-ary QAM 시스템에서 다단병렬간섭제거기와 부분 다단병렬간섭제거기에 의한 성능 개선 분석)

  • 김봉철;오창헌;최충열;조성준
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.6A
    • /
    • pp.929-938
    • /
    • 2001
  • CDMA 2000 1X EV.(HDR, 1XTREME, LAS-CDMA)에서는 고속데이터 전송을 위한 변조방식으로 M-ary QAM을 제안하고 있다. 그러나, M-ary QAM을 사용한 DS-CDMA 시스템은 고속 데이터 전송이 가능한 반면에 M-ary 수가 증가할수록 잡음(AWGN)과 타 사용자에 의한 다중접속간섭(MAI)의 영향이 커져 비트에러율(BER)이 증가하고 채널용량이 급격히 줄어드는 문제점이 있다. 따라서, DS-CDMA/M-ary QAM 시스템에서 많은 사용자에게 고속의 데이터 서비스를 제공하기 위해서는 잡음을 줄이거나 MAI를 경감시킬 수 있는 성능 개선 기법이 요구된다. 본 논문에서는 성능 개선 기법으로서 다단병렬간섭제거기(MPIC : Multistage Parallel Interference Canceller)와 부분 다단병렬간섭제거기(partial MPIC)를 채용한 비동기 DS-CDMA/M-ary QAM 시스템의 성능 개선을 이론적으로 분석하고 이를 검증하기 위한 컴퓨터 시뮬레이션을 수행하였다. 결과에서, MPIC와 partial MPIC를 채용함으로써 4 QAM, 16 QAM 및 64 QAM을 사용한 DS-CDMA 시스템의 BER과 채널용량이 크게 개선됨을 확인하였다. MPIC를 채용한 경우는 AWGN 채널의 BER에 근접하였다. 또한, MPIC는 partial MPIC보다 BER 성능이 우수하였으며 더 많은 채널용량 개선을 달성하였다. 그러나, MPIC는 partial MPIC 보다 계산량이 훨씬 많고 복잡한 구조를 갖기 때문에 실제 시스템 구현에 있어서 성능과 복잡도 사이에 타협(tradeoff)이 필요하다.

  • PDF

An Advanced Parallel Join Algorithm for Managing Data Skew on Hypercube Systems (하이퍼큐브 시스템에서 데이타 비대칭성을 고려한 향상된 병렬 결합 알고리즘)

  • 원영선;홍만표
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.30 no.3_4
    • /
    • pp.117-129
    • /
    • 2003
  • In this paper, we propose advanced parallel join algorithm to efficiently process join operation on hypercube systems. This algorithm uses a broadcasting method in processing relation R which is compatible with hypercube structure. Hence, we can present optimized parallel join algorithm for that hypercube structure. The proposed algorithm has a complete solution of two essential problems - load balancing problem and data skew problem - in parallelization of join operation. In order to solve these problems, we made good use of the characteristics of clustering effect in the algorithm. As a result of this, performance is improved on the whole system than existing algorithms. Moreover. new algorithm has an advantage that can implement non-equijoin operation easily which is difficult to be implemented in hash based algorithm. Finally, according to the cost model analysis. this algorithm showed better performance than existing parallel join algorithms.

Design of High-speed H.264/AVC Parallel Decoder Using ASIP Approach (ASIP 기술을 활용한 H.264/AVC 고속 병렬 복호화기 설계)

  • Ji, Bong-Il;Sim, Dong-Gyu;Kim, Kyung-Su;Park, Seong-Mo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2009.11a
    • /
    • pp.251-254
    • /
    • 2009
  • 본 논문에서는 고해상도 동영상의 실시간 복호화를 위하여 Application Specific Instruction-set Processor (ASIP)기술을 이용하여 H.264/AVC 고속 병렬 복호화기를 설계하였다. 우선, 하드웨어에 최적화된 구조로 복호화기를 설계하고 LISA로 기술한 멀티미디어 전용 명령어를 명령어 집합에 추가하였다. 이렇게 설계한 고속 H.264/AVC 복호화기는 사이클 기반 시뮬레이터에서 성능을 측정한 결과 기존 대비 약 35%의 복호화 사이클 감소를 보였다. 추가적인 성능 향상을 위해, 앞서 설계한 고속복호화기를 여러 개 사용하여 병렬 H.264/AVC 복호화기를 설계하였다. 병렬 복호화기는 여러 매크로블록을 동시에 복호화 처리함으로써 복호화기의 성능을 대폭 향상시켰다. 병렬 복호화기는 고속 복호화기 대비 약 75%의 복호화 사이클이 감소하였다. 이에 고해상도 동영상의 실시간 복호화를 위한 H.264/AVC 고속 병렬 복호화기의 설계 방법을 제시하고자 한다.

  • PDF

Implementation of high performance parallel LU factorization program for multi-threads on GPGPUs (GPGPU의 멀티 쓰레드를 활용한 고성능 병렬 LU 분해 프로그램의 구현)

  • Shin, Bong-Hi;Kim, Young-Tae
    • Journal of Internet Computing and Services
    • /
    • v.12 no.3
    • /
    • pp.131-137
    • /
    • 2011
  • GPUs were originally designed for graphic processing, and GPGPUs are general-purpose GPUs for numerical computation with high performance and low electric power. In this paper, we implemented the parallel LU factorization program for GPGPUs. In CUDA, which is computational environment for Nvidia GPGPUs, domains are divided into blocks, and multi-threads compute each sub-blocks Simultaneously. In LU factorization program, computation order should be artificially decided due to the data dependence. To resolve the data dependancy, we suggested a parallel LU program for GPGPUs, and also explained parallel reduction algorithm for partial pivoting of LU factorization. We finally present performance analysis to show efficiency of the parallel LU factorization program based on multi-threads on GPGPUs.

Construction and Performance Test of a Supercomputing PC System using PC-clustering and Parallel Virtual Machine (PC-Clustering과 병렬가상장치에 의한 수치계산용 슈퍼컴퓨팅 PC 시스템 구축과 성능 테스트)

  • Hong, Woo-Pyo;Kim, Jong-Jae;Oh, Kwang-Sik
    • Journal of the Korean Data and Information Science Society
    • /
    • v.10 no.2
    • /
    • pp.473-483
    • /
    • 1999
  • We introduce a way to construct a supercomputing capable system with some networked PCs, running the Linux operating system and computing power comparable with expensive commercial workstations, and with the Parallel Virtual Machine (PVM) software which enables one to control the total CPUs and memories of the networked PCs. By benchmarking the system using a PVM parallel program, we find that the system's parallel efficiency is close to 90 %.

  • PDF

A Study on the Knowledge Elements of HPC in Computational Science through Analysis of Educational Needs (교육요구분석을 통한 계산과학분야의 고성능컴퓨팅 지식요소에 관한 연구)

  • Yoon, Heejun;Ahn, Seongjin
    • Journal of The Korean Association of Information Education
    • /
    • v.22 no.5
    • /
    • pp.545-556
    • /
    • 2018
  • The purpose of this study is to suggest the knowledge elements for HPC education in computational science. For this purpose, the survey for HPC experts was conducted to verify the content validity and reliability, and the 20 candidate knowledge elements was extracted. And the second survey for HPC users was conducted to apply the t test, Borich requirement, and The Locus for Focus model. And 10 knowledge elements for HPC education were derived. As a result, the first group was 'Parallelism Fundamentals', 'Parallelism', 'Parallel communication and coordination', 'Parallel Decomposition', 'Parallel Algorithms, Analysis, and Programming' and 'Introduction to Modeling and Simulation', 'Fundamental Programming Concepts', 'Fundamental Data Structures', 'Memory Management', 'Algorithms and Design' were second group for HPC education.

Performance Analysis of Cluster Network Interfaces for Parallel Computing of Computational Fluid Dynamics (전산유체역학 병렬해석을 위한 클러스터 네트웍 장치 성능분석)

  • Lee Bo-sung;Hong Jeong-Woo;Lee Sangsan;Lee Dong Ho
    • 한국전산유체공학회:학술대회논문집
    • /
    • 2002.05a
    • /
    • pp.152-157
    • /
    • 2002
  • 전산유체역학분야의 고속 연산을 위해서 병렬처리가 보편화되고 있으며 이러한 병렬해석은 주로 클러스터에서 저렴한 비용으로 수행되고 있다. 전산유체역학을 위한 클러스터 컴퓨터에서의 해석프로그램의 성능은 클러스터에 사용되는 프로세서의 성능뿐만 아니라 클러스터 내부의 통신 장비의 성능에 크게 좌우된다. 본 논문에서는 클러스터 컴퓨터의 구축에 널리 사용되고 있는 Myrinet2000, Gigabit Ethernet, Fast Ethernet 등의 네트웍 장치에 대해서 Netpipe, Linpack, NAS NPB, 그리고 MPINS2D Navier-Stokes 해석프로그램을 사용하여 성능을 비교하였다. 이를 통해서 향후 전산유체역학을 위한 클러스터 구축시 최대의 가격대 성능비를 얻을 수 있는 방법을 제시하고자 한다.

  • PDF

Deterministic Parallelism for Symbolic Execution Programs based on a Name-Freshness Monad Library

  • Ahn, Ki Yung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.2
    • /
    • pp.1-9
    • /
    • 2021
  • In this paper, we extend a generic library framework based on the state monad to exploit deterministic parallelism in a purely functional language Haskell and provide benchmarks for the extended features on a multicore machine. Although purely functional programs are known to be well-suited to exploit parallelism, unintended squential data dependencies could prohibit effective parallelism. Symbolic execution programs usually implement fresh name generation in order to prevent confusion between variables in different scope with the same name. Such implementations are often based on squential state management, working against parallelism. We provide reusable primitives to help developing parallel symbolic execution programs with unbound-genercis, a generic name-binding library for Haskell, avoiding sequential dependencies in fresh name generation. Our parallel extension does not modify the internal implementation of the unbound-generics library, having zero possibility of degrading existing serial implementations of symbolic execution based on unbound-genecrics. Therefore, our extension can be applied only to the parts of source code that need parallel speedup.

A Maximum Mechanism of Data Transfer Rate using Parallel Transmission Technology on High Performance Network (고성능 네트워크에서 병렬 전송 기술을 이용한 전송률 극대화 메커니즘)

  • Kim, Young-Shin;Huh, Eui-Nam
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.34 no.9
    • /
    • pp.425-434
    • /
    • 2007
  • Even though Internet backbone speeds have increased in the last few years due to projects like Internet 2 and NGI, many high performance distributed applications are able to achieve only a small fraction of the available bandwidth. The cause of such problem is due to a character of TCP/IP. The primary goal of this protocol is reliable data transmission. Therefore high speed data transmission didn't be considered when TCP/IP is designed. Hence several researchers have been studied in order to solve the problem of TCP/IP. One of these research results, parallel transfer technique, solves this problem to use parallel TCP connections on application level. Additionally, this technique is compatibility. Recently, these researchers have been studied a mechanism to decide the number of parallel TCP connections. However, some researchers reported the number of parallel TCP connection base on only empirical results. Although hardware performance of host affects transmission rate, the hardware performance didn't be considered in their works. Hence, we collect all data related to transmission rate, such as hardware state information (cpu utilization, interrupt, context switch). Then, we analyzed collected data. And, we suggest a new mechanism determining number of parallel TCP connections for maximization of performance based on our analysis.

A Performance Evaluation on Parallel Sorting Algorithm in Multicore Environment (멀티 코어 환경에서 병렬 정렬 알고리즘 성능 평가)

  • Won, Jong-Min;Joo, Young-Hyun;Eom, Young-Ik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.33-35
    • /
    • 2012
  • 개인용 컴퓨터가 보급된 후 오랫동안 CPU의 발전은 주로 클럭 스피드를 통해서 이루어져 왔다. 하지만 최근 들어서는 CPU 내에서 동작하는 코어의 수를 늘리는 방법을 통해 CPU의 성능 향상이 이루어지고 있다. 이렇게 멀티코어 환경의 시대가 도래함에 따라 CPU를 완전하게 이용하기 위해 기존 알고리즘들의 병렬화가 필요로 하게 되었다. 본 논문에서는 가장 많이 사용되는 알고리즘의 종류 중 하나인 정렬 알고리즘을 병렬화하여 멀티 코어 환경에서의 성능을 평가한다. 이는 기존의 단일 스레드 정렬 알고리즘들에 대해 알려진 바와는 다른 경향을 보이며 이러한 현상은 CPU의 병렬화가 진행될수록 더욱 심화될 것으로 예상된다.