• 제목/요약/키워드: multiple CPU's

검색결과 46건 처리시간 0.023초

SMP 가상 머신의 I/O 지연 시간 감소를 위한 이벤트 라우팅 기법 (Event Routing Scheme to Improve I/O Latency of SMP VM)

  • 신정섭;김학영
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1322-1331
    • /
    • 2015
  • vCPU(virtual CPU)는 하이퍼바이저 스케줄러에 의해서 실행 상태와 정지 상태를 반복하는 특징을 갖는다. 정지 상태인 vCPU에게 전달된 이벤트는 vCPU가 실행 상태가 될 때까지 처리되지 못하고 지연 된다. 이러한 이벤트 지연 현상은 I/O 지연 현상으로 나타난다. SMP(symmetric multiprocessing) 가상 머신은 다수의 vCPU를 이용하기 때문에 이벤트를 어느 vCPU에게 전달하는지에 따라 SMP 가상 머신의 이벤트 지연 시간이 달라 질 수 있다. SMP 가상 머신의 이벤트 지연 시간을 줄이기 위해서 본 논문에서는 각 vCPU의 동작 상태에 따라서 이벤트를 전달하는 새로운 기법인 이벤트 라우팅 기법을 제안한다. 제안한 이벤트 라우팅 기법을 Xen ARM 하이퍼바이저에 적용하였고 다양한 실험 환경에서 네트워크 RTT(round trip time)와 TCP 대역폭 측정을 통해 I/O 지연 시간 감소를 확인하였다. 기존 Xen ARM과 비교하여 네트워크 RTT는 최대 94% 감소하였고, TCP 대역폭은 최대 35% 증가하였다.

이산사건 워게임 시뮬레이션을 위한 실시간 병렬 엔진의 설계 및 구현 (Design and Implementation of Real-Time Parallel Engine for Discrete Event Wargame Simulation)

  • 김진수;김대석;김정국;류근호
    • 정보처리학회논문지A
    • /
    • 제10A권2호
    • /
    • pp.111-122
    • /
    • 2003
  • 군사용 워게임 시뮬레이션 모델들의 상호연동을 위해서는 국제표준연동(HLA : High Level Architecture)구조를 반드시 갖추어야하며 타 모델과 연동시 발생되는 시스템 오버헤드를 줄이기 위해서는 병렬 시뮬레이션 엔진 도입이 효과적이다. 그러나 기존 군사용 워게임 시뮬레이션 모델엔진의 이벤트 처리는 순차적 이벤트-드리븐 방식으로 처리하고 있다. 이는 병렬로 처리 시 글로벌 자료영역에 대한 동시참조등의 문제점들이 발생하기 때문이다. 아울러 기존 시뮬레이션 플랫폼으로 다중 CPU 시스템을 사용하여도 여러 개의 CPU를 다 활용하지 못하는 결과를 초래하고 있다. 따라서 이 논문에서는 군사용 워 게임 모델의 시스템 처리능력 향상과 글로벌 자료 영역에 대한 동시참조, 대외적인 시뮬레이션 시간처리, 장애 회복(Crash Recovery)시 병행 처리된 이벤트들의 순서를 보장 할 수 있는 객체모델에 기반한 병렬 시뮬레이션 엔진으로의 전환을 제안한다 이 전환된 병렬 시뮬레이션 엔진은 다중 CPU 시스템(SMP)상에서도 병렬 실행이 가능하도록 설계하고 구현하였다.

클라우드 컴퓨팅 응용 구동을 위한 마이크로서버 성능평가 (Performance Evaluation of Microservers to drive for Cloud Computing Applications)

  • 오명훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.85-91
    • /
    • 2023
  • 국산 마이크로서버인 KOSMOS의 활용을 위해 클라우드 컴퓨팅 분야의 실제 응용 서비스 기반 벤치마크 프로그램인 CloudSuite로 성능 평가 결과를 제시한다. CloudSuite는 오프라인 응용과 온라인 응용의 두 가지 부분에서 클라우드 서비스로 제공되는 몇 가지의 구분되는 응용 프로그램을 컨테이너 기반으로 제공하고 있다. KOSMOS의 유사 스펙의 비교군인 다른 마이크로서버와의 성능 비교에서 전 부분에 걸처 KOSMOS가 우수하였으며, 인텔 Xeon CPU 기반 서버와의 비교에서도 일부 오프라인 응용에서는 성능이 더 우수하였다. CloudSuite 오프라인 응용 벤치마크 프로그램인 Graph Analytics 수행 시 KOSMOS의 다수의 노드들을 분산 실행시킨 형상에서 인텔 Xeon CPU 기반 2개의 서버 비교군과 비교하였을 때, 각각 30.3%, 72.3%만큼의 수행시간을 감소시켰다.

DSP를 이용한 로보트 제어시스템 개발 (Development of robot control system using DSP)

  • 이보희;김진걸
    • 제어로봇시스템학회논문지
    • /
    • 제1권1호
    • /
    • pp.50-57
    • /
    • 1995
  • In this paper, the design and the implementation of the controller for an articulate robot, which is developed in our Automatic Control Laboratory, are mainly discussed. The controller reduces software computational load via distributed processing method using multiple CPU's, and simplifies structures by the time-division control with TMS320C31 DSP chip. The method of control is based on the fuzzy-compensated PID control with scale factor, which compensates for the influence of load variation resulting from the various postures of the robot with conventional PID scheme. The application of the proposed controller to the robot system with DC servo-motors shows some excellent control capabilities. Also, the response characteristics of system for the various trajectory commands verify the superiority of the controller.

  • PDF

CPU 부하가 큰 쓰레드를 가진 모바일 게임에서 QoS를 고려한 전력관리 기법 (QoS-Aware Power Management of Mobile Games with High-Load Threads)

  • 김민성;김지홍
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.328-333
    • /
    • 2017
  • 모바일 플랫폼에서 게임은 가장 전력을 많이 소모하여 배터리 사용시간을 단축시키는 응용 중 하나이다. 따라서 모바일 게임은 스마트폰의 배터리 사용시간을 늘리기 위한 중요한 전력관리 대상이다. 그러나 모바일 게임 실행 중에 배터리 용량이 급격히 감소하는 현상은 빈번하게 발생하는 문제이며 사용자가 많은 여러 모바일 게임의 동작을 검토해 본 결과 멀티 쓰레드로 동작하는 동안 특정 쓰레드가 불필요하게 CPU 사용량을 높게 점유하여 에너지가 낭비되는 경우가 발생하였다. 따라서 본 논문은 게임 실행 중 Quality of Service(QoS)와 무관하게 비정상적으로 CPU 사용량이 높은 쓰레드를 검출하고 이종 멀티프로세싱 (Heterogeneous Multi-Processing)의 특성을 활용하여 QoS 저하 없이 전력소모를 감소시키는 최적화 기법을 제안한다. 제안된 기법을 상용 스마트폰(삼성 Galaxy S6 Edge)에 적용하여 QoS 저하 없이 최대 58%의 에너지 효율 향상이 가능하였다.

운영체제 도움 없이 멀티 페이지를 지원하는 저전력 TLB 구조 (Low Power TLB Supporting Multiple Page Sizes without Operation System)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권12호
    • /
    • pp.1-9
    • /
    • 2013
  • 비록 멀티 페이지 TLB는 성능을 향상시키는데 효과적이지만, 운영체제의 도움을 통한 기존의 방법은 사용자 응용 프로그램에서는 멀티 페이지를 사용할 수 없는 치명적인 단점을 가진다. 이에 본 논문에서는 운영체제의 지원 없이 멀티 페이지를 이용하여 고성능과 저전력을 얻을 수 있는 새로운 멀티 TLB 구조를 제안한다. 제안된 TLB는 작은 페이지를 위한 TLB와 큰 페이지를 위한 TLB로 구성되며, 모두 완전연관 뱅크 구조를 가지고 있다. 작은 페이지를 지원하는 S-TLB(Small TLB)는 큰 페이지를 지원하는 L-TLB(Large TLB)에서 추출된 작은 페이지를 저장하게 되며, L-TLB는 CPU로부터 요청된 작은 페이지를 포함한 큰 가상 페이지 주소를 저장하게 된다. CPU가 요청한 가상주소의 특별한 한 비트와 두 비트를 이용하여 S-TLB와 L_TLB의 각각의 하나의 뱅크만이 접근되며, 동시에 접근되는 엔트리 수 감소에 의해 에너지 소비를 줄일 수 있다. 또한 본 논문에서 효과적인 성능향상을 위해 간단한 1비트 LRU 정책을 제안하였다. 제안된 LRU 정책은 각 TLB 엔트리에 추가적인 1 비트를 사용하여 최근에 참조된 블록을 나타낸다. 이 방법은 간단하게 L-TLB로부터 가장 최근에 참조된 페이지를 선택할 수 있다. 시뮬레이션 결과에 따르면, 제안된 구조는 완전연관 사상 TLB, Dual TLB 그리고 ARM TLB에 비해 76%, 57%, 그리고 6%의 에너지*지연시간을 줄일 수 있었다.

고유진동수와 모드의 민감도를 계산하기 위한 대수적 방법 (Algebraic Method for Computation of Natural Frequency and Mode Shape Sensitivities)

  • 정길호;김동옥;이종원;이인원
    • 대한기계학회논문집A
    • /
    • 제21권5호
    • /
    • pp.707-718
    • /
    • 1997
  • This paper presents an efficient numerical method for the computation of eigenpair derivatives for a real symmetric eigenvalue problem with distinct and multiple eigenvalues. The method has a very simple algorithm and gives an exact solution. Furthermore, it saves computer sotrage and CPU time. The algorithm preserves not only the symmetricity but also the band width of the matrices, allowing efficient computer storage and solution techniques. Results from the proposed method for calculating the eigenpair derivatives are compared with those from Rudisill and Chu's method and Nelson's method which is known efficient one in the case of distinct natural frequencies. As an example to demonstrate the efficiency of the proposed method in the case of distinct eigenvalues, a cantilever plate is considered. The design parameter of the cantilever plate is its thickness. For the eigenvalue problem with multiple natural frequencies, the adjacent eigenvectors are used in the algebraic equation as side conditions, lying adjacent to the multiplicity of multiple natural frequency distinct eigenvalues, which appear when design parameter varies. A cantilever beam is used to demonstrate the efficiency of the proposed method in the case of multiple natural frequencies. Results form the proposed method for calculating the eigenpair derivatives are compared with those from Dailey's method(an amendation of Ojalvo's work) which finds the exact eigenvector derivatives. The design parameter of the cantilever beam is its height. Data is presented showing the amount of CPU time used to compute the first ten eigenpair derivatives by each method. It is important to note that the numerical stability of the proposed method is proved.

고유진동수와 모우드의 미분을 구하기 위한 대수적 방법 (Algebraic Method for Evaluating Natural Frequency and Mode Shape Sensitivities)

  • 정길호;김동욱;이인원
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 1995년도 가을 학술발표회 논문집
    • /
    • pp.225-233
    • /
    • 1995
  • This paper presents an efficient numerical method for computation of eigenpair derivatives for the real symmetric eigenvalue problem with distinct and multiple eigenvalues. The method has very simple algorithm and gives an exact solution. Furthermore, it saves computer storage and CPU time. The algorithm preserves the symmetry and band of the matrices, allowing efficient computer storage and solution techniques. Thus, the algorithm of the proposed method will be inserted easily in the commercial FEM codes. Results of the proposed method for calculating the eigenpair derivatives are compared with those of Rudisill and Chu's method and Nelson's method which is efficient one in the case of distinct natural frequencies. As an example to demonstrate the efficiency of the proposed method in the case of distinct eigenvalues, a cantilever plate is considered. The design parameter of the cantilever plate is its thickness. For the eigenvalue problem with multiple natural frequencies, the adjacent eigenvectors are used in the algebraic equation as side conditions, they lie adjacent to the m (multiplicity of multiple natural frequency) distinct eigenvalues, which appear when design parameter varies. As an example to demonstrate the efficiency of the proposed method in the case of multiple natural frequencies, a cantilever beam is considered. Results of the proposed method fDr calculating the eigenpair derivatives are compared with those of Bailey's method (an amendation of Ojalvo's work) which finds the exact eigenvector derivatives. The design parameter of the cantilever beam is its height. Data is persented showing the amount of CPU time used to compute the first ten eigenpair derivatives by each method. It is important to note that the numerical stability of the proposed method is proved.

  • PDF

오픈 소스 기반 데이터 분산 중복제거 파일 시스템의 성능 분석 (Performance Analysis of Open Source Based Distributed Deduplication File System)

  • 정성욱;최훈
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.623-631
    • /
    • 2014
  • 데이터 중복제거 파일시스템인 LessFS와 SDFS의 성능을 비교하면, LessFS는 CPU 점유율과 수행 시간에서 성능이 우수하고, SDFS는 중복제거 이후 저장소 사용량이 다른 파일시스템보다 1/8 정도의 이점을 가지고 있다. 본 논문은 SDFS의 장점인 중복제거 이후 저장소 사용량 감소와 LessFS의 장점인 낮은 CPU 점유율과 수행 시간 감소의 장점을 지니는 새로운 방식을 제안한다. SDFS의 Dedup File Engines (DFE) n개를 이용하되, Dedup Storage Engines (이하 DSE) 1개를 두어 중복제거 데이터의 정합성과 일관성을 유지하는 방식이다. 제안하는 방식을 2개의 DFE와 1개의 DSE를 가진 시험환경에 구현하고 성능 비교를 수행한다.

Large-scale 3D fast Fourier transform computation on a GPU

  • Jaehong Lee;Duksu Kim
    • ETRI Journal
    • /
    • 제45권6호
    • /
    • pp.1035-1045
    • /
    • 2023
  • We propose a novel graphics processing unit (GPU) algorithm that can handle a large-scale 3D fast Fourier transform (i.e., 3D-FFT) problem whose data size is larger than the GPU's memory. A 1D FFT-based 3D-FFT computational approach is used to solve the limited device memory issue. Moreover, to reduce the communication overhead between the CPU and GPU, we propose a 3D data-transposition method that converts the target 1D vector into a contiguous memory layout and improves data transfer efficiency. The transposed data are communicated between the host and device memories efficiently through the pinned buffer and multiple streams. We apply our method to various large-scale benchmarks and compare its performance with the state-of-the-art multicore CPU FFT library (i.e., fastest Fourier transform in the West [FFTW]) and a prior GPU-based 3D-FFT algorithm. Our method achieves a higher performance (up to 2.89 times) than FFTW; it yields more performance gaps as the data size increases. The performance of the prior GPU algorithm decreases considerably in massive-scale problems, whereas our method's performance is stable.