• 제목/요약/키워드: CPU Throughput

검색결과 73건 처리시간 0.023초

비행제어 컴퓨터의 Throughput 향상 및 Power-Interuption 대처 설계 (Throughput Improvement and Power-Interruption Consideration of Fly-By-Wire Flight Control Computer)

  • 이철;서준호;함흥빈;조인제;윤형식
    • 한국항공우주학회지
    • /
    • 제35권10호
    • /
    • pp.940-947
    • /
    • 2007
  • 초음속 전투기급 비행제어 컴퓨터(FLCC)의 성능향상을 위해 프로세서(CPU) 및 CPU 보드의 형상이 변경되었으며, 하드웨어형상 확정 단계에서 정확한 실시간 처리량 예측이 필요하였다. 본 연구에서는 실시간 처리량 예측을 위한 실험적 방법이 시도되었다. 기존 FLCC를 정상 동작시키며 한 Sampling Time 동안 CPU(SMJ320C40) Address Bus 데이터를 획득 및 디코드하여 메모리별 접근 및 분기 횟수를 측정하였다. 측정된 데이터를 통해, 신규 FLCC CPU(SMJ320C601) Demo Board를 제작하여 정확한 실시간 처리량 예측시험을 수행하였으며, 시험결과를 통해 CPU-Memory Architecture를 조기에 변경할 수 있었다. 특히 설계 변경에 따른 문제점들 중의 하나인 Power- Interruption에 대한 비행 안정성 저하여부를 판단하기 위하여 HILS (Hardware-In-the Loop Simulator)를 통한 비행검증시험이 수행되었다.

ATM LAN 시험망에서 TCP/IP 프로토콜의 성능분석 (Performance Evaluation of TCP/IP on ATM LAM Testbed)

  • 장우현;이세열;황선명;이봉환
    • 한국정보처리학회논문지
    • /
    • 제6권12호
    • /
    • pp.3634-3641
    • /
    • 1999
  • ATM 네트워크 상에서 기존의 LAN 환경의 데이터 서비스를 제공하기 위한 대표적인 프로토콜은 ATM Forum에서 제안한 LAN Emulation과 IETF에서 제안한 IPOA이다. 본 논문에서는 ATM환경에서 TCP/IP의 성능을 분석하기 위하여 현재 널리 사용되고 있는 LAN Emulation과 IPOA를 ATM LAN 상에 구현하여 각각의 성능을 비교 분석하였으며, 또한 기존의 Ethernet 환경에서의 성능과 비교하였다. 성능 비교를 위한 파라미터로는 전송지연시간, 전송률, CPU 사용률, CPU 사용률에 대한 데이터 전송률 등을 사용하였다. ATM LAN에서의 클라이언트와 서버간의 대용량 데이터 전송을 통한 성능 비교 결과 LAN Emulation과 IPOA는 Ethernet에 비하여 월등한 성능을 보였고 IPOA가 LAN Emulation에 비하여 적은 전송지연시간 및 높은 전송률을 제공하였으며, CPU 사용률에 대한 데이터 전송률에서도 IPOA가 우수한 결과를 보였다.

  • PDF

저궤도 위성을 위한 HW 행렬 곱셈기의 구현과 성능 측정 (HW Matrix Multiplier Implementation & Performance Measurement for Low Earth Orbit Satellite)

  • 이윤기;김지훈
    • 한국위성정보통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.115-120
    • /
    • 2015
  • 지금까지 저궤도 위성의 자세제어 SW는 자세제어 연산을 위해서 CPU Resource로 있는 FPU를 사용하였으며, 이 결과 SW Throughput의 상당 부분이 행렬 곱셈 연산에 사용 되었다. 향후 위성에서 제어 주기가 더 짧아지고, 연산 량이 증가하면, 심각한 영향을 받을 수 있기 때문에 곱셈 전용 HW구현이 필요하게 되었다. 본 논문에서는 부동소수점 행렬 곱셈을 전용으로 수행하는 HW를 구현 및 성능 측정을 수행한 결과를 제시하며 추가적인 성능 향상을 위한 방법들과 향후 과제를 언급한다.

리눅스 커널에서 네트워크 멀티미디어 서비스를 위한 메모리 복사 감소 기법 구현 (Implementation of Memory Copy Reduction Scheme for Networked Multimedia Service in Linux)

  • 김정원
    • 한국통신학회논문지
    • /
    • 제28권2B호
    • /
    • pp.129-137
    • /
    • 2003
  • MPEG(Motion Picture Expert Group)과 같은 멀티미디어 스트림은 연속적 재생으로 인해 데이터의 지속적인 디스크 검색을 요구한다. 따라서, 커널의 효율적인 지원이 필요한데, 유닉스 계열의 리눅스 버퍼 캐시 시스템은 비정기적이고 비실시간 데이터인 텍스트 데이터용으로 설계되었다. 대용량의 연속 미디어의 경우 커널 주소공간에서 사용자 주소공간으로의 대량의 복사가 이루어지므로 이 과정에서 CPU의 과중한 오버헤드가 발생한다. 이것은 시스템 처리율을 저하시킬 뿐만 아니라 QOS(Quality of Service)도 보장할 수 없다. 본 논문에서 이 메모리 복사 오버헤드를 감소시키기 위한 direct I/O와 one copy 기법을 리눅스 커널에서 설계 및 구현하였다. direct I/O는 디스크의 데이터를 커널 버퍼로 복사하지 않고 사용자 버퍼로 직접 복사하므로 CPU 오버헤드를 획기적으로 감소시킬 수 있다. 그리고, one-copy는 사용자 버퍼로 데이터를 복사하지 않고 직접 네트워크로 전송하는 기법이다. 구현 결과, CPU 오버헤드의 상당한 감소와 시스템의 처리율이 향상됨을 확인하였다.

Energy Efficient and Low-Cost Server Architecture for Hadoop Storage Appliance

  • Choi, Do Young;Oh, Jung Hwan;Kim, Ji Kwang;Lee, Seung Eun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4648-4663
    • /
    • 2020
  • This paper proposes the Lempel-Ziv 4(LZ4) compression accelerator optimized for scale-out servers in data centers. In order to reduce CPU loads caused by compression, we propose an accelerator solution and implement the accelerator on an Field Programmable Gate Array(FPGA) as heterogeneous computing. The LZ4 compression hardware accelerator is a fully pipelined architecture and applies 16 dictionaries to enhance the parallelism for high throughput compressor. Our hardware accelerator is based on the 20-stage pipeline and dictionary architecture, highly customized to LZ4 compression algorithm and parallel hardware implementation. Proposing dictionary architecture allows achieving high throughput by comparing input sequences in multiple dictionaries simultaneously compared to a single dictionary. The experimental results provide the high throughput with intensively optimized in the FPGA. Additionally, we compare our implementation to CPU implementation results of LZ4 to provide insights on FPGA-based data centers. The proposed accelerator achieves the compression throughput of 639MB/s with fine parallelism to be deployed into scale-out servers. This approach enables the low power Intel Atom processor to realize the Hadoop storage along with the compression accelerator.

CPU-GPU 메모리 계층을 고려한 고처리율 병렬 KMP 알고리즘 (High Throughput Parallel KMP Algorithm Considering CPU-GPU Memory Hierarchy)

  • 박소은;김대희;이명호;박능수
    • 전기학회논문지
    • /
    • 제67권5호
    • /
    • pp.656-662
    • /
    • 2018
  • Pattern matching algorithm is widely used in many application fields such as bio-informatics, intrusion detection, etc. Among many string matching algorithms, KMP (Knuth-Morris-Pratt) algorithm is commonly used because of its fast execution time when using large texts. However, the processing speed of KMP algorithm is also limited when the text size increases significantly. In this paper, we propose a high throughput parallel KMP algorithm considering CPU-GPU memory hierarchy based on OpenCL in GPGPU (General Purpose computing on Graphic Processing Unit). We focus on the optimization for the allocation of work-times and work-groups, the local memory copy of the pattern data and the failure table, and the overlapping of the data transfer with the string matching operations. The experimental results show that the execution time of the optimized parallel KMP algorithm is about 3.6 times faster than that of the non-optimized parallel KMP algorithm.

THE PERFORMANCE OF A MEMORY RESTRICTED COMPUTER WITH A STATE-DEPENDENT JOB ADMISSION POLICY

  • Lim, Jong-Seul
    • Journal of applied mathematics & informatics
    • /
    • 제2권2호
    • /
    • pp.21-46
    • /
    • 1995
  • Congestion and memory occupancy in computer system may be reduced further if new jobs are admitted only when the num-ber of jobs queued at CPU is below CPU run queue cutoff (RQ). In this paper we prove that response time of a job is invariant with respect to RQ if jobs do not communicate each other. We also demonstrate this invariance property numerically using marix-geometric methods and present an approximate method for the delay due to context switch-ing under time slicing. The approximation suggests that time slicing with constant overhead yields a throughput similar to an FCFS system without overhead.

멀티코어 환경에서 SEDA 기반 메시지 처리기의 수행함수 특성을 고려한 쓰레드 매핑 기법 (A Function-characteristic Aware Thread-mapping Strategy for an SEDA-based Message Processor in Multi-core Environments)

  • 강희은;박성용;이윤정;지승배
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.13-20
    • /
    • 2017
  • 메시지 처리기란 클라이언트들로부터 수신된 다양한 포맷의 메시지를 수신 메시지 별 쓰레드를 생성하여 처리하고 그 결과를 목적지로 전달하는 서버 소프트웨어를 말한다. 본 논문에서는 SEDA(The Stage Event Driven Architecture) 구조의 메시지 처리기에서 각 수행함수가 CPU 또는 IO bound 특성을 가질 수 있다는 점에 착안하여, 수행 함수 별 특성을 고려해 쓰레드를 각 코어에 매핑하는 FC-TM(Function Characteristic aware Thread Mapping) 기법을 제안하였다. 본 논문에서는 메시지 처리에 필요한 각 수행함수의 특성이 정적인 것으로 가정하였다. 따라서 수행 가능한 함수를 미리 프로파일링(profiling)하여 특성을 분석한 후, 실제 수신되는 메시지에 따라 단위시간 당 처리량(throughput)이 최대가 되도록 쓰레드를 매핑하였다. 성능 평가 결과 IO bound한 함수가 특정 비율 이상 있을 경우, 기존 연구보다 단위시간당 처리량이 최대 72%까지 증가하였다.

응용프로그램 실행에 따른 CPU/GPU의 온도 및 컴퓨터 시스템의 에너지 효율성 분석 (Analysis of the CPU/GPU Temperature and Energy Efficiency depending on Executed Applications)

  • 최홍준;강승구;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.9-19
    • /
    • 2012
  • 전력 소모 증가와 칩 내부 온도 증가라는 문제점들로 인해 동작 주파수 증대를 통해 CPU의 성능을 향상시키는 기법은 점차 한계에 다다르고 있다. 이와 같은 상황에서, CPU의 작업량을 줄여주는 GPU를 활용하는 것은 컴퓨터 시스템의 성능을 향상시키기 위해 사용되는 대표적인 방안 중 하나이다. GPU는 그래픽 작업을 위해 개발된 프로세서로 기존에는 그래픽 작업들만을 전담으로 처리하여 왔지만, CUDA와 같이 GPU 자원을 쉽게 활용할 수 있는 기술이 점차 개발됨에 따라서 GPU를 범용 연산에 활용함으로써 고성능 컴퓨터 시스템을 구현하는 기법이 주목을 받고 있다. 본 논문에서는 다양한 응용프로그램들을 수행하는 경우에 CPU와 GPU가 동시에 활용되는 고성능 컴퓨터 시스템을 목표로, 시스템에서 발생하는 온도와 에너지 효율성을 상세하게 분석하고자 한다. 이를 통해, CPU와 GPU가 동시에 활용되는 컴퓨터 시스템에서 향후 발생 가능한 온도와 에너지 소비 측면에서의 문제점들을 제시하고자 한다. 온도 분석 결과를 살펴보면, GPU를 이용하여 응용프로그램을 수행하는 경우에는 CPU와 GPU의 온도가 동시에 모두 상승하는 것을 할 수 있다. 이와 달리, CPU를 이용하여 응용프로그램을 수행하는 경우에는 GPU의 온도는 거의 변화가 없이 유지되고, CPU의 온도만이 지속적으로 상승한다. 에너지 효율성 측면에서 살펴보면, GPU를 이용하는 것이 CPU를 이용하는 것과 비교하여 동일한 응용프로그램을 수행하는데 있어서 더 적은 에너지를 소비한다. 하지만, GPU는 CPU에 비해 더 많은 전력을 소모하기 때문에 1Wh의 에너지당 발생하는 온도는 CPU에 비해 GPU에서 훨씬 높게 나타난다.

The Performance Study of a Virtualized Multicore Web System

  • Lu, Chien-Te;Yeh, C.S. Eugene;Wang, Yung-Chung;Yang, Chu-Sing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권11호
    • /
    • pp.5419-5436
    • /
    • 2016
  • Enhancing the performance of computing systems has been an important topic since the invention of computers. The leading-edge technologies of multicore and virtualization dramatically influence the development of current IT systems. We study performance attributes of response time (RT), throughput, efficiency, and scalability of a virtualized Web system running on a multicore server. We build virtual machines (VMs) for a Web application, and use distributed stress tests to measure RTs and throughputs under varied combinations of virtual cores (VCs) and VM instances. Their gains, efficiencies and scalabilities are also computed and compared. Our experimental and analytic results indicate: 1) A system can perform and scale much better by adopting multiple single-VC VMs than by single multiple-VC VM. 2) The system capacity gain is proportional to the number of VM instances run, but not proportional to the number of VCs allocated in a VM. 3) A system with more VMs or VCs has higher physical CPU utilization, but lower vCPU utilization. 4) The maximum throughput gain is less than VM or VC gain. 5) Per-core computing efficiency does not correlate to the quality of VCs or VMs employed. The outcomes can provide valuable guidelines for selecting instance types provided by public Cloud providers and load balancing planning for Web systems.