• Title/Summary/Keyword: 컴퓨터 CPU

Search Result 445, Processing Time 0.026 seconds

An Implementation of a Video-Equipped Real-Time Fire Detection Algorithm Using GPGPU (GPGPU를 이용한 비디오 기반 실시간 화재감지 알고리즘 구현)

  • Shon, Dong-Koo;Kim, Cheol-Hong;Kim, Jong-Myon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.8
    • /
    • pp.1-10
    • /
    • 2014
  • This paper proposes a parallel implementation of the video based 4-stage fire detection algorithm using a general-purpose graphics processing unit (GPGPU) to support real-time processing of the high computational algorithm. In addition, this paper compares the performance of the GPGPU based fire detection implementation with that of the CPU implementation to show the effectiveness of the proposed method. Experimental results using five fire included videos with an SXGA ($1400{\times}1050$) resolution, the proposed GPGPU implementation achieves 6.6x better performance that the CPU implementation, showing 30.53ms per frame which satisfies real-time processing (30 frames per second, 30fps) of the fire detection algorithm.

Cache memory system for high performance CPU with 4GHz (4Ghz 고성능 CPU 위한 캐시 메모리 시스템)

  • Jung, Bo-Sung;Lee, Jung-Hoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.2
    • /
    • pp.1-8
    • /
    • 2013
  • TIn this paper, we propose a high performance L1 cache structure on the high clock CPU of 4GHz. The proposed cache memory consists of three parts, i.e., a direct-mapped cache to support fast access time, a two-way set associative buffer to exploit temporal locality, and a buffer-select table. The most recently accessed data is stored in the direct-mapped cache. If a data has a high probability of a repeated reference, when the data is replaced from the direct-mapped cache, the data is selectively stored into the two-way set associative buffer. For the high performance and low power consumption, we propose an one way among two ways set associative buffer is selectively accessed based on the buffer-select table(BST). According to simulation results, Energy $^*$ Delay product can improve about 45%, 70% and 75% compared with a direct mapped cache, a four-way set associative cache, and a victim cache with two times more space respectively.

Implementation and Performance Evaluation of a Video-Equipped Real-Time Fire Detection Method at Different Resolutions using a GPU (GPU를 이용한 다양한 해상도의 비디오기반 실시간 화재감지 방법 구현 및 성능평가)

  • Shon, Dong-Koo;Kim, Cheol-Hong;Kim, Jong-Myon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.1
    • /
    • pp.1-10
    • /
    • 2015
  • In this paper, we propose an efficient parallel implementation method of a widely used complex four-stage fire detection algorithm using a graphics processing unit (GPU) to improve the performance of the algorithm and analyze the performance of the parallel implementation method. In addition, we use seven different resolution videos (QVGA, VGA, SVGA, XGA, SXGA+, UXGA, QXGA) as inputs of the four-stage fire detection algorithm. Moreover, we compare the performance of the GPU-based approach with that of the CPU implementation for each different resolution video. Experimental results using five different fire videos with seven different resolutions indicate that the execution time of the proposed GPU implementation outperforms that of the CPU implementation in terms of execution time and takes a 25.11ms per frame for the UXGA resolution video, satisfying real-time processing (30 frames per second, 30fps) of the fire detection algorithm.

Assessing the ED-H Scheduler in Batteryless Energy Harvesting End Devices: A Simulation-Based Approach for LoRaWAN Class-A Networks

  • Sangsoo Park
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.1
    • /
    • pp.1-9
    • /
    • 2024
  • This paper proposes an integration of the ED-H scheduling algorithm, known for optimal real-time scheduling, with the LoRaEnergySim simulator. This integration facilitates the simulation of interactions between real-time scheduling algorithms for tasks with time constraints in Class-A LoRaWAN Class-A devices using a super-capacitor-based energy harvesting system. The time and energy characteristics of LoRaWAN status and state transitions are extracted in a log format, and the task model is structured to suit the time-slot-based ED-H scheduling algorithm. The algorithm is extended to perform tasks while satisfying time constraints based on CPU executions. To evaluate the proposed approach, the ED-H scheduling algorithm is executed on a set of tasks with varying time and energy characteristics and CPU occupancy rates ranging from 10% to 90%, under the same conditions as the LoRaEnergySim simulation results for packet transmission and reception. The experimental results confirmed the applicability of co-simulation by demonstrating that tasks are prioritized based on urgency without depleting the supercapacitor's energy to satisfy time constraints, depending on the scheduling algorithm.

Quantitative Analysis on Performance and Power Consumption of GPU varying to Frequency (GPU의 성능과 소비전력에 대한 동작 주파수의 영향 분석)

  • Joo, Se-Yoon;Choi, Hong-Jun;Kim, Cheol-Hong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.203-205
    • /
    • 2012
  • 최근 컴퓨터 시스템에서는 동작 주파수 증가에 따른 전력 소모량과 높은 온도문제로 인해 CPU의 성능에만 의존할 수는 없는 상황이다. 이에 따라 GPU 병렬처리 연산능력을 CPU의 범용 데이터 처리에 이용하는 기술에 대한 관심이 높아지고 있다. 하지만 CPU와 GPU의 모든 자원을 활용하기에는 이에 따른 높은 온도와 전력 상승이 문제가 된다. 따라서 본 논문에서는 GPU의 전력효율과 성능 측면에서 최적이 되는 동작 주파수에 대한 분석을 수행하고자 한다. GPU를 활용하는 API인 CUDA를 이용하여 GPU의 동작 주파수 변화에 따른 성능 변화, 전력 변화 그리고 Energy Delay에 대해서 분석한다. 실험을 통한 분석 결과 동작 주파수의 증가에 따라 성능은 최대 30%이상 증가했고, 전력소모량은 최대 약18%의 증가를 보여주었다. 또한 Energy Delay도 최대 21% 향상되는 것을 확인할 수 있었다.

The Recent Trends of Rendering Acceleration Technologies (렌더링 가속화 기술 동향)

  • Nam, Seung-U;Kim, Hae-Dong;Kim, Seong-Su;Choe, Jin-Seong
    • Electronics and Telecommunications Trends
    • /
    • v.22 no.4 s.106
    • /
    • pp.12-23
    • /
    • 2007
  • 컴퓨터 그래픽스를 이용한 디지털 콘텐츠를 제작 및 생산함에 있어서 마지막 단계에서 렌더링 과정을 꼭 거쳐야 하기 때문에 렌더링 부분은 아주 중요하다. 렌더링해야 할 디지털 콘텐츠에는 게임과 같이 실시간성이 아주 중요한 콘텐츠가 있으며, 영화와 같이 영상의 높은 품질을 요구하는 콘텐츠가 있다. 본 고에서는 영화와 같이 고품질을 요구하는 콘텐츠에 대한 렌더링 기술에 대하여 다루고자 한다. 영화의 한 장면과 같이 복잡하며 높은 해상도를 갖는 영상을 기존 단일 CPU 및 소프트웨어 렌더러를 이용하여 렌더링하는 데 아주 많은 시간이 걸린다. 본 고에서는 렌더링 시간을 줄이며 높은 품질의 렌더링 결과를 얻는 기술을 3가지 부분에서 소개하고자 한다. 첫번째 방법에는 수십 개에서 수천 개의 CPU를 이용하거나 PC를 클러스터링하는 방법이고, 두번째는 기존 GPU의 기술이 아주 빨리 발전하여 CPU 보다 빠른 성능을 갖기 때문에 GPU를 활용하여 가속화하는 방법이 있으며, 세번째는 전용 하드웨어를 제작하여 렌더링을 가속하는 방법이 있다. 위의 방법들에 대한 기술 동향에 대하여 살펴보도록 한다.

A Study on Efficiency of Cryptography Using GPU (GPU를 이용한 암호화 효율성 연구)

  • Byeon, Jin-Yeong;Lee, Ki-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2011.10a
    • /
    • pp.683-686
    • /
    • 2011
  • 1970년대 라디오 주파수를 사용하여 컴퓨터 통신 네트워크가 구축된 이후 눈부신 발전을 거듭하여 Personal Computer 뿐만 아니라 Mobile이나 Tablet PC등에서도 인터넷이 가능하다. 이렇게 다양한 매체를 통해 인터넷을 사용함에 따라 보안에 대한 중요성이 높아지고 있다. 하지만 최근 현대 캐피탈이나 농협, 네이트와 같은 해킹 사례를 보면 평문 데이터 사용에 의해 피해가 더욱 확대 되었다. 평문 데이터 사용함에 따라 보안 위협이 커지는데 평문 데이터를 사용하는 이유를 암호화를 사용했을 때보다 QoS 하락 때문이라고 볼 수있다. 이를 해결하기 위해 고정된 인프라에서 잉여 자원인 GPU를 사용하여 암호화를 할 때 QoS 하락을 줄일 수 있을 것이다. 또한 CPU보다는 멀티코어를 사용한 병렬 처리를 활용하여 CPU보다 상대적으로 효율적인 암호화가 가능하다고 생각한다. 본 논문에서는 CPU를 이용한 암호화 처리 속도와 GPU를 이용한 암호화 처리 속도를 비교하여 GPU를 이용한 암호화 처리 가능성을 검토하였다.

  • PDF

A Study on Optimizing LRU lock for Improving Parallel I/O Throughout in Manycore CPU Systems (매니코어 CPU 시스템에서의 병렬 I/O 성능 향상을 위한 LRU 최적화 기법 연구)

  • Byun, Eun-Kyu;Bang, Jiwoo;Gu, Gibeom;Oh, Kwang-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.2-4
    • /
    • 2022
  • 매니코어 CPU 시스템에서의 병렬 I/O 는 현재의 리눅스 시스템의 LRU 관리 방법의 한계로 확장성에 문제를 가지고 있다. 본 연구에서는 이 문제를 해결했던 하기 위한 개선된 FinerLRU 를 제안한다. LRU 락을 최대 코어 개수만큼 증가시키고 세분화된 Lock 관리를 통해 버퍼 캐시를 사용하는 파일 시스템의 병렬 I/O 성능을 향상시킨다. 리눅스 5.18.11 에 제안한 방법을 구현하였으며, 64 개의 물리적 코어와 256 개의 논리적 코어를 가지는 Intel Knights Landing 프로세서를 이용한 실험을 통해 두 배 가량의 성능 향상을 얻을 수 있음을 확인하였다.

TP-Sim: A Trace-driven Processing-in-Memory Simulator (TP-Sim: 트레이스 기반의 프로세싱 인 메모리 시뮬레이터)

  • Jeonggeun Kim
    • Journal of the Semiconductor & Display Technology
    • /
    • v.22 no.3
    • /
    • pp.78-83
    • /
    • 2023
  • This paper proposes a lightweight trace-driven Processing-In-Memory (PIM) simulator, TP-Sim. TP-Sim is a General Purpose PIM (GP-PIM) simulator that evaluates various PIM system performance-related metrics. Based on instruction and memory traces extracted from the Intel Pin tool, TP-Sim can replay trace files for multiple models of PIM architectures to compare its performance. To verify the availability of TP-Sim, we estimated three different system configurations on the STREAM benchmark. Compared to the traditional Host CPU-only systems with conventional memory hierarchy, simple GP-PIM architecture achieved better performance; even the Host CPU has the same number of in-order cores. For further study, we also extend TP-Sim as a part of a heterogeneous system simulator that contains CPU, GPGPU, and PIM as its primary and co-processors.

  • PDF

Efficient Collaboration Method Between CPU and GPU for Generating All Possible Cases in Combination (조합에서 모든 경우의 수를 만들기 위한 CPU와 GPU의 효율적 협업 방법)

  • Son, Ki-Bong;Son, Min-Young;Kim, Young-Hak
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.7 no.9
    • /
    • pp.219-226
    • /
    • 2018
  • One of the systematic ways to generate the number of all cases is a combination to construct a combination tree, and its time complexity is O($2^n$). A combination tree is used for various purposes such as the graph homogeneity problem, the initial model for calculating frequent item sets, and so on. However, algorithms that must search the number of all cases of a combination are difficult to use realistically due to high time complexity. Nevertheless, as the amount of data becomes large and various studies are being carried out to utilize the data, the number of cases of searching all cases is increasing. Recently, as the GPU environment becomes popular and can be easily accessed, various attempts have been made to reduce time by parallelizing algorithms having high time complexity in a serial environment. Because the method of generating the number of all cases in combination is sequential and the size of sub-task is biased, it is not suitable for parallel implementation. The efficiency of parallel algorithms can be maximized when all threads have tasks with similar size. In this paper, we propose a method to efficiently collaborate between CPU and GPU to parallelize the problem of finding the number of all cases. In order to evaluate the performance of the proposed algorithm, we analyze the time complexity in the theoretical aspect, and compare the experimental time of the proposed algorithm with other algorithms in CPU and GPU environment. Experimental results show that the proposed CPU and GPU collaboration algorithm maintains a balance between the execution time of the CPU and GPU compared to the previous algorithms, and the execution time is improved remarkable as the number of elements increases.