• 제목/요약/키워드: CPU Throughput

검색결과 73건 처리시간 0.029초

프로그램이 가능한 기가빗 네트웍 인터페이스 카드 상에서의 네트웍 스택 성능 측정 (Performance Evaluation of network stack with programmable Gigabit Network interface Card)

  • 이승윤;박규호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.53-56
    • /
    • 2003
  • Ethernet is one of the most successful LAN technologies. Now gigabit ethernet is available in real network and some network interface cards(NIC) supports TCP segment offloading (TSO), IP checksum offloading(ICO), Jumbo frame and interrupt moderation. If we use this features appropriately, we obtain high throughput with low CPU utilization. This paper represents the network performance by varying above features.

  • PDF

효율적인 데이터 중복제거를 위한 GPGPU 병렬 라빈 핑거프린팅 (Parallel Rabin Fingerprinting on GPGPU for Efficient Data Deduplication)

  • 마정현;박세진;박찬익
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.611-616
    • /
    • 2014
  • 데이터 중복 제거를 수행하기 위한 여러 단계 중 청킹에 사용되는 라빈 핑거프린트 값을 구하는 단계가 가장 큰 오버헤드를 차지한다. 따라서, 본 논문에서는 효율적인 데이터 중복 제거를 위한 병렬라빈 핑거프린트 방법을 제안한다. 또한 효율적인 라빈 핑거프린팅의 병렬화를 위해 네 가지 이슈를 고려한다. 첫 번째로 병렬처리를 위해 입력 데이터 스트림을 일정한 크기의 데이터 섹션으로 분할할 때, 데이터 섹션의 경계선에 있는 데이터들에 대해서도 라빈 핑거프린팅을 수행하기 위한 고려, 두 번째로 라빈 핑거프린팅 연산 특징을 효율적으로 이용하기 위한 고려, 세 번째로 순차 방식으로 청크 경계선을 구했을 때와 비교하여 병렬 방식으로 청크 경계선을 구했을 때, 변경 될 수 있는 청크 경계선에 대한 고려를 한다. 마지막으로 최적의 GPGPU 메모리 접근을 위한 고려를 한다. GPGPU를 이용한 병렬 라빈 핑거프린트 방식은 CPU를 이용한 순차 라빈 핑거프린트 방식에 비해 약 16배 성능향상을 보였고, CPU를 이용한 병렬 라빈 핑거프린트 방식에 비해서도 약 5.3배 성능향상을 보였다. 이러한 라빈 핑거프린팅 연산 처리량의 증가는 데이터 중복 제거 기법의 전체적인 성능향상을 가져올 수 있다.

분산 공간 데이터 스트림 시스템에서 연산 처리율 기반의 적응적 업스트림 백업 기법 (Adaptive Upstream Backup Scheme based on Throughput Rate in Distributed Spatial Data Stream System)

  • 정원일
    • 한국산학기술학회논문지
    • /
    • 제14권10호
    • /
    • pp.5156-5161
    • /
    • 2013
  • 분산 공간 데이터 스트림 처리에서는 분산 노드의 활용도를 높이고 고장이 발생한 경우 신속하게 시스템을 복구하기 위해 하위 노드에서 처리된 튜플에 대해 상위 노드로 데이터를 백업한다. 그러나 데이터의 유입량이 증가하고 노드의 연산 결과를 다수의 하위 노드들과 공유할 때 튜플 처리가 지연되면 상위 노드의 삭제 지연으로 인해 백업 데이터의 손실을 야기할 수 있다. 본 논문에서는 노드들의 데이터 유입량과 하위 노드의 연산 처리율을 분석하고 적응적 업스트림 백업 방법을 적용하여 노드의 평균 부하율을 감소시키고, 노드 연산 결과의 공유에 따른 데이터 손실을 최소화하는 방법을 제안한다. 그리고 실험에서는 제안 기법을 통해 데이터 손실을 방지하고, 노드 모니터링에 소요되는 CPU 사용률을 평균 20% 감소시키는 결과를 나타낸다.

신뢰성 향상과 안전한 웹 서비스를 위한 웹 서버 아키텍처 환경의 설계 (A Design of Web Server Architecture Environment for Reliability Enhancement and Secure Web Services)

  • 김용태;정윤수;박길철
    • 한국정보통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.343-350
    • /
    • 2010
  • 기존의 웹 서버 아키텍처 설계에서는 웹 서비스의 신뢰성, 견고성과 안전성을 유지하기 위하여 데이터 암호화(encryption) 기법을 사용하였다. 그러나 데이터 암호화 기법의 사용은 웹 서버의 처리량(throughput) 감소와 평균 응답 시간을 증가시키면서, CPU 작업을 낭비하기기 때문에 웹 어플리케이션 서버의 성능에 부정적인 영향을 나타낸다. 또한 최근의 웹 어플리케이션들은 안전한 인터넷 통신을 위하여 보안과 안전성을 요구하고 있다. 그러므로 본 논문에서는 안전한 웹 서비스를 위하여 기존의 웹 서버에 새로운 웹 서비스 모듈들을 추가하고 쓰레드 풀(Thread pool)과 Non-blocking I/O를 이용하는 개선된 웹 서버를 제안하고, 안전한 웹 서비스 성능을 나타내기 위하여 신뢰성과 안전성을 제공한다. 그리고 본 논문에서 제안한 웹 서버 시스템의 안전성과 성능을 평가하기 위하여 기존의 전형적인 톰캣 기반의 웹 서버와 제안 시스템에 대하여 실험을 통해 안전성과 성능을 비교 평가한다.

분산 ATM 교환제어시스템에서 프로세서간 통신 정합부에 대한 성능 분석 (Perfomance Analysis for the IPC Interface Part in a Distributed ATM Switching Control System)

  • 여환근;송광석;노승환;기장근
    • 전자공학회논문지S
    • /
    • 제35S권6호
    • /
    • pp.25-35
    • /
    • 1998
  • 교환기 제어계의 구조는 전기통신 서비스에서 필요로 하는 다양한 호처리 기능을 제공하기 위하여 많은 구조적인 변화가 진행되어 왔따. 특히 분산 교환제어 환경하에서의 호처리 수행에 있어 프로세서들간의 통신에 의한 지연은 시스템의 성능에 영향을 미치는 중요한 요소중의 하나이다. 본 논문에서는 분산 제어 구조를 갖는 ATM 교환기에서 호처리 수행에 필수적으로 요구되는 프로세서간 메시지 통신이 ATM 스위치를 통해서 이루어지는 경우, 각 프로세서내의 한 기능으로 구현되는 IPC(Inter Processor Communication) 정합부에 대한 성능 분석 모델을 제안하고, 시뮬레이션을 통해서 프로세서의 성능에 미치는 병목 요인에 대해서 검토하였다. 결과적으로, 프로세서간 통신 메시지의 입력율 변화에 따라 이를 처리하는 각 성분(자원)의 이용율과, 메시지 입력율의 변화에 따른 각 성분에서의 큐길이 및 처리 지연시간과의 관계로부터 IPC에 관련되는 주요 성분중 로컬 CPU가 프로세서 시스템의 최대 성능을 제한하는 주 요인이 됨을 정량적으로 확인하였다. 또한 로컬 CPU의 성능 변화에 따른 IPC 메시지 처리 지연효과와, 평균 메시지 길이의 가변에 따른 로컬 CPU의 처리 능력을 정량적으로 제시하였으며, 이 결과는 향후 프로세서의 성능 개선이나 시스템 확장을 위한 기초 자료로 활용될 수 있을 것이다.

  • PDF

iOS 기반 실시간 객체 분리 및 듀얼 카메라 합성 개발 (Development of Real-Time Objects Segmentation for Dual-Camera Synthesis in iOS)

  • 장유진;김지영;이주현;황준
    • 인터넷정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.37-43
    • /
    • 2021
  • 본 논문에서는 모바일 환경에서 실시간으로 전면과 후면 카메라의 객체를 인식하여 객체 픽셀의 영역을 분할하고 이미지 처리를 통해 합성하는 방법을 연구하였다. 이를 위해 Apple사의 iOS에서 제공하는 듀얼 카메라에 DeepLabV3 머신러닝 모델을 적용하여 객체를 분할하였다. 또한 이미지 합성 및 후처리를 위해 Apple사의 코어 이미지와 코어 그래픽 라이브러리를 이용하여 영역의 배경 제거 및 합성 방식을 제안하고 구현하였다. 또한, 이전 연구에 비해 CPU 사용량을 개선하였고 깊이와 DeepLabV3의 처리 속도를 비교하여 처리 결과에 영향을 주는 요소를 분석하였다. 마지막으로 이 두 방식을 활용한 카메라 애플리케이션을 개발하였다.

Forecasting Chemical Tanker Freight Rate with ANN

  • Lim, Sangseop;Kim, Seokhun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.113-118
    • /
    • 2021
  • 본 논문은 케미컬 탱커시장의 운임예측에 관하여 인공신경망을 적용하였으며 전통적인 시계열 모델인 ARIMA모형과 비교하였다. 케미컬 시장의 경우 상대적으로 소규모이나 범용성이 높은 선박을 이용한 시장으로 수급모델을 활용하여 운임시장을 분석하기 어려우며, 운임의 변동성이 크기 때문에 선형모형을 활용하는데는 한계가 있다. 본 연구는 케미컬 시장의 특성을 고려하여 비선형 모델인 인공신경망을 이용하여 ARIMA와 비교한 결과 RMSE와 Correlation 측면에서 예측성능이 우수함을 보였으며, 케미컬 탱커의 운임예측에 더 적합함을 보였다. 본 연구는 운임거래에 있어 과학적 모델을 제시함으로써 의사결정의 질을 제고하는데 기여할 뿐만 아니라 학문적으로 소외되어온 케미컬 시장 연구에 도움이 될 것으로 기대된다.

Development of Real time Air Quality Prediction System

  • Oh, Jai-Ho;Kim, Tae-Kook;Park, Hung-Mok;Kim, Young-Tae
    • 한국환경과학회:학술대회논문집
    • /
    • 한국환경과학회 2003년도 International Symposium on Clean Environment
    • /
    • pp.73-78
    • /
    • 2003
  • In this research, we implement Realtime Air Diffusion Prediction System which is a parallel Fortran model running on distributed-memory parallel computers. The system is designed for air diffusion simulations with four-dimensional data assimilation. For regional air quality forecasting a series of dynamic downscaling technique is adopted using the NCAR/Penn. State MM5 model which is an atmospheric model. The realtime initial data have been provided daily from the KMA (Korean Meteorological Administration) global spectral model output. It takes huge resources of computation to get 24 hour air quality forecast with this four step dynamic downscaling (27km, 9km, 3km, and lkm). Parallel implementation of the realtime system is imperative to achieve increased throughput since the realtime system have to be performed which correct timing behavior and the sequential code requires a large amount of CPU time for typical simulations. The parallel system uses MPI (Message Passing Interface), a standard library to support high-level routines for message passing. We validate the parallel model by comparing it with the sequential model. For realtime running, we implement a cluster computer which is a distributed-memory parallel computer that links high-performance PCs with high-speed interconnection networks. We use 32 2-CPU nodes and a Myrinet network for the cluster. Since cluster computers more cost effective than conventional distributed parallel computers, we can build a dedicated realtime computer. The system also includes web based Gill (Graphic User Interface) for convenient system management and performance monitoring so that end-users can restart the system easily when the system faults. Performance of the parallel model is analyzed by comparing its execution time with the sequential model, and by calculating communication overhead and load imbalance, which are common problems in parallel processing. Performance analysis is carried out on our cluster which has 32 2-CPU nodes.

  • PDF

Adaptive Memory Controller for High-performance Multi-channel Memory

  • Kim, Jin-ku;Lim, Jong-bum;Cho, Woo-cheol;Shin, Kwang-Sik;Kim, Hoshik;Lee, Hyuk-Jun
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권6호
    • /
    • pp.808-816
    • /
    • 2016
  • As the number of CPU/GPU cores and IPs in SOC increases and applications require explosive memory bandwidth, simultaneously achieving good throughput and fairness in the memory system among interfering applications is very challenging. Recent works proposed priority-based thread scheduling and channel partitioning to improve throughput and fairness. However, combining these different approaches leads to performance and fairness degradation. In this paper, we analyze the problems incurred when combining priority-based scheduling and channel partitioning and propose dynamic priority thread scheduling and adaptive channel partitioning method. In addition, we propose dynamic address mapping to further optimize the proposed scheme. Combining proposed methods could enhance weighted speedup and fairness for memory intensive applications by 4.2% and 10.2% over TCM or by 19.7% and 19.9% over FR-FCFS on average whereas the proposed scheme requires space less than TCM by 8%.

Gen-Z memory pool system implementation and performance measurement

  • Kwon, Won-ok;Sok, Song-Woo;Park, Chan-ho;Oh, Myeong-Hoon;Hong, Seokbin
    • ETRI Journal
    • /
    • 제44권3호
    • /
    • pp.450-461
    • /
    • 2022
  • The Gen-Z protocol is a memory semantic protocol between the memory and CPU used in computer architectures with large memory pools. This study presents the implementation of the Gen-Z hardware system configured using Gen-Z specification 1.0 and reports its performance. A hardware prototype of a DDR4 Gen-Z memory pool with an optimized character, a block device driver, and a file system for the Gen-Z hardware was designed. The Gen-Z IP was targeted to the FPGA, and a 512 GB Gen-Z memory pool was configured on an ×86 server. In the experiments, the latency and throughput of the Gen-Z memory were measured and compared with those of the local memory, SATA SSD, and NVMe using character or block device interfaces. The Gen-Z hardware exhibited superior throughput and latency performance compared with SATA SSD and NVMe at block sizes under 4 kB. The MySQL and File IO benchmark of Gen-Z showed good write performance in all block sizes and threads. Besides, it showed low latency in RocksDB's fillseq dbbench using the ext4 direct access filesystem.