• Title/Summary/Keyword: CPU time

검색결과 946건 처리시간 0.027초

계층적 비디오 코딩의 품질확장성을 활용한 전력 관리 기법 (Exploiting Quality Scalability in Scalable Video Coding (SVC) for Effective Power Management in Video Playback)

  • 정현미;송민석
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권11호
    • /
    • pp.604-609
    • /
    • 2014
  • 미디어 플레이어에서의 디코딩 과정은 많은 연산을 필요로 하며, CPU로부터 높은 소비전력을 초래한다. 디코딩 연산을 줄이는 것은 CPU 소비 전력을 감소시킬 수 있지만 사용자로부터 비디오 품질을 저하시키게 된다. 본 논문에서는 H.264의 품질 확장성을 이용하여 새로운 CPU 전력 관리 기법을 제안한다. 첫째, VQM(Video Quality Metric)을 사용하여 계층적 비디오 코딩의 서로 다른 양자화 인자를 고려한 새로운 비디오 품질 모델을 제안한다. 그리고 이전 디코딩 시간과 프레임 크기를 선택적으로 융합한 디코딩 시간 예측기법에 기반한 새로운 동적 전압 기법을 제안한다. 최신 스마트폰에서 구현하였고, 사용자 테스트를 수행하였다. 제안한 기법을 실제 측정에 적용하였을 때 리눅스 동적 전압 및 주파수 조절(DVFS) 거버너에 비해 34%의 에너지 감소를 보였고 사용자 테스트를 통해 실험 영상의 품질 하락을 사용자는 인지하지 못하거나 용인될 수 있음을 확인하였다.

고성능 컴퓨팅 시스템을 위한 효율적인 동적 작업부하 균등화 정책 (An Efficient Dynamic Workload Balancing Strategy for High-Performance Computing System)

  • 이원주;박말순
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권5호
    • /
    • pp.45-52
    • /
    • 2008
  • 본 논문에서는 고성능 컴퓨팅 시스템의 성능 향상을 위한 효율적인 동적 작업부하 균등화 정책을 제안한다. 이 정책은 시스템 자원인 CPU와 메모리를 효율적으로 사용하여 고성능 컴퓨팅 시스템의 처리량을 최대화하고, 각 작업의 수행시간을 최소화한다. 또한 이 정책은 수행중인 작업의 메모리 요구량과 각 노드의 부하 상태를 파악하여 작업을 동적으로 할당한다. 이때 작업을 할당받은 노드가 과부하 상태가 되면 다른 노드로 작업을 이주시켜 각 노드의 작업부하를 균등하게 유지함으로써 작업의 대기시간을 줄이고, 각 작업의 수행시간을 단축한다. 본 논문에서는 시뮬레이션을 통하여 제안하는 동적 작업부하 균등화 정책이 기존의 메모리 기반의 작업부하 균등화 정책에 비해 고성능 컴퓨팅 시스템의 성능 향상 면에서 우수함을 보인다.

  • PDF

A Study of Dark Photon at the Electron-Positron Collider Experiments Using KISTI-5 Supercomputer

  • Park, Kihong;Cho, Kihyeon
    • Journal of Astronomy and Space Sciences
    • /
    • 제38권1호
    • /
    • pp.55-63
    • /
    • 2021
  • The universe is well known to be consists of dark energy, dark matter and the standard model (SM) particles. The dark matter dominates the density of matter in the universe. The dark matter is thought to be linked with dark photon which are hypothetical hidden sector particles similar to photons in electromagnetism but potentially proposed as force carriers. Due to the extremely small cross-section of dark matter, a large amount of data is needed to be processed. Therefore, we need to optimize the central processing unit (CPU) time. In this work, using MadGraph5 as a simulation tool kit, we examined the CPU time, and cross-section of dark matter at the electron-positron collider considering three parameters including the center of mass energy, dark photon mass, and coupling constant. The signal process pertained to a dark photon, which couples only to heavy leptons. We only dealt with the case of dark photon decaying into two muons. We used the simplified model which covers dark matter particles and dark photon particles as well as the SM particles. To compare the CPU time of simulation, one or more cores of the KISTI-5 supercomputer of Nurion Knights Landing and Skylake and a local Linux machine were used. Our results can help optimize high-energy physics software through high-performance computing and enable the users to incorporate parallel processing.

방출단층촬영 시스템을 위한 GPU 기반 반복적 기댓값 최대화 재구성 알고리즘 연구 (A Study on GPU-based Iterative ML-EM Reconstruction Algorithm for Emission Computed Tomographic Imaging Systems)

  • 하우석;김수미;박민재;이동수;이재성
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제43권5호
    • /
    • pp.459-467
    • /
    • 2009
  • 목적: ML-EM (The maximum likelihood-expectation maximization) 기법은 방출과 검출 과정에 대한 통계학적 모델에 기반한 재구성 알고리즘이다. ML-EM은 결과 영상의 정확성과 유용성에 있어 많은 이점이 있는 반면 반복적인 계산과 방대한 작업량 때문에 CPU(central processing unit)로 처리할 때 상당한 연산시간이 소요되었다. 본 연구에서는 GPU(graphic processing unit)의 병렬 처리 기술을 ML-EM 알고리즘에 적용하여 영상을 재구성하였다. 대상 및 방법: 엔비디아사(社)의 CUDA 기술을 이용하여 ML-EM 알고리즘의 투사 및 역투사 과정을 병렬화 전략을 구상하였으며 Geforce 9800 GTX+ 그래픽 카드를 이용하여 병렬화 연산을 수행하여 기존의 단일 CPU기반 연산법과 비교하였다. 각 반복횟수마다 투사 및 역투사 과정에 걸리는 총 지연 시간과 퍼센트 오차(percent error)를 측정하였다. 총 지연 시간에는 RAM과 GPU 메모리 간의 데이터 전송 지연 시간도 포함하였다. 결과: 모든 반복횟수에 대해 CPU 기반 ML-EM 알고리즘보다 GPU 기반 알고리즘이 더 빠른 성능을 나타내는 것을 확인하였다. 단일 CPU 및 GPU 기반 ML-EM의 32번 반복연산에 있어 각각 3.83초와 0.26초가 걸렸으며 GPU의 병렬연산의 경우 15배 정도의 개선된 성능을 보였다. 반복횟수가 1024까지 증가하였을 경우, CPU와 GPU 기반 알고리즘은 각각 18분과 8초의 연산시간이 걸렸다. GPU 기반 알고리즘이 약 135배 빠른 처리속도를 보였는데 이는 단일 CPU 계산이 특정 반복횟수 이후 나타나는 시간 지연에 따른 것이다. 결과적으로, GPU 기반 계산이 더 작은 편차와 빠른 속도를 보였다. 결론: ML-EM 알고리즘에 기초한 GPU기반 병렬 계산이 처리 속도와 안정성을 더 증진시킴을 확인하였으며 이를 활용해 다른 영상 재구성 알고리즘에도 적용시킬 수 있을 것으로 기대한다.

샷 경계 탐지 알고리즘의 병렬 설계와 구현 (Parallel Design and Implementation of Shot Boundary Detection Algorithm)

  • 이준구;김승현;유병문;황두성
    • 전자공학회논문지
    • /
    • 제51권2호
    • /
    • pp.76-84
    • /
    • 2014
  • 최근 고화질 영상의 증가와 더불어 대용량 영상 데이터의 처리는 높은 연산이 요구되어 병렬 처리 설계가 선택되고 있다. 영상 처리에서 나타나는 많은 단순 연산이 병렬처리 가능한 경우, CPU 기반 병렬처리보다는 GPU 기반 병렬처리를 적용하는 것이 계산문제의 시간과 공간 계산 복잡도를 줄일 수 있다. 본 논문은 영상에서 샷 경계 탐지 알고리즘의 병렬 설계와 구현을 연구하였다. 제안하는 샷 경계 탐지 알고리즘은 프레임 간 지역 화소 밝기 비교와 전역 히스토그램 정보를 이용하는데, 이들 데이터의 계산은 대량의 데이터에 대한 높은 병렬성을 갖는다. 이들 연산의 병렬처리를 최대화하기 위해 화소 밝기와 히스토그램의 계산을 NVIDIA GPU에서 병렬 설계 하였다. GPU 기반 샷 탐지 방법은 국가기록원에서 선택된 10개의 비디오 데이터에 대한 성능 테스트를 수행하였다. 테스트에서 GPU 기반 알고리즘의 탐지율은 CPU 기반 알고리즘과 유사하였으나 약 10배의 연산 속도가 개선되었다.

엔트로피 시계열 데이터 추출과 순환 신경망을 이용한 IoT 악성코드 탐지와 패밀리 분류 (IoT Malware Detection and Family Classification Using Entropy Time Series Data Extraction and Recurrent Neural Networks)

  • 김영호;이현종;황두성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권5호
    • /
    • pp.197-202
    • /
    • 2022
  • IoT (Internet of Things) 장치는 취약한 아이디/비밀번호 사용, 인증되지 않은 펌웨어 업데이트 등 많은 보안 취약점을 보여 악성코드의 공격 대상이 되고 있다. 그러나 CPU 구조의 다양성으로 인해 악성코드 분석 환경 설정과 특징 설계에 어려움이 있다. 본 논문에서는 CPU 구조와 독립된 악성코드의 특징 표현을 위해 실행 파일의 바이트 순서를 이용한 시계열 특징을 설계하고 순환 신경망을 통해 분석한다. 제안하는 특징은 바이트 순서의 부분 엔트로피 계산과 선형 보간을 통한 고정 길이의 시계열 패턴이다. 추출된 특징의 시계열 변화는 RNN과 LSTM으로 학습시켜 분석한다. 실험에서 IoT 악성코드 탐지는 높은 성능을 보였지만, 패밀리 분류는 비교적 성능이 낮았다. 악성코드 패밀리별 엔트로피 패턴을 시각화하여 비교했을 때 Tsunami와 Gafgyt 패밀리가 유사한 패턴을 나타내 분류 성능이 낮아진 것으로 분석되었다. 제안된 악성코드 특징의 데이터 간 시계열 변화 학습에 RNN보다 LSTM이 더 적합하다.

VOD 시스템에서 CPU 가용성을 최대화하는 저장공간관리 알고리즘 (An Algorithm for Managing Storage Space to Maximize the CPU Availability in VOD Systems)

  • 정지찬;고재두;송민석;심정섭
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권3호
    • /
    • pp.140-148
    • /
    • 2009
  • VOD 서버에 서비스를 요청하는 단말장치의 종류가 다양해짐으로 인해 VOD 서비스 사업자가 제공해야 하는 해상도 버전의 종류 역시 다양해지고 있다. 단말장치가 서비스를 요청할 때 서버는 단말장치에 맞는 해상도 버전으로 서비스를 제공해야 하는데 대개의 경우 서버의 저장공간의 용량이 제한되어 있기 때문에 비디오별로 모든 해상도 버전들을 저장하고 있기는 어렵다. 단말장치가 서버에 저장되어 있는 해상도 버전을 요청한 경우라면 바로 서비스가 가능하다. 하지만 단말장치가 서버에 저장되어 있지 않은 해상도 버전을 요청했다면 저장되어 있던 버전을 이용해 해상도를 변환한 후 서비스를 해주어야 한다. 만약 서버가 해상도를 변환하는 빈도가 높아 CPU 가용성이 충분하지 않다면 다른 단말장치들의 서비스 요청에 바로 응할 수 없게 된다. 따라서 서버에 저장되는 파일들을 CPU 사용률을 줄일 수 있는 해상도의 버전들로 저장하여 CPU 가용성을 높인다면 보다 많은 단말장치의 요청을 허용할 수 있을 것이다. 본 논문에서는 한정된 저장용량을 가진 VOD 서버가 단말장치의 서비스 요청들을 가능한 많이 허용하기 위해 저장해야 할 각 비디오의 해상도 버전들을 분기한정 기법을 이용하여 찾는 알고리즘을 제시한다.

반도체 검증을 위한 MPI 기반 클러스터에서의 대용량 FDTD 시뮬레이션 연산환경 구축 (Implementation of Massive FDTD Simulation Computing Model Based on MPI Cluster for Semi-conductor Process)

  • 이승일;김연일;이상길;이철훈
    • 한국콘텐츠학회논문지
    • /
    • 제15권9호
    • /
    • pp.21-28
    • /
    • 2015
  • 반도체 공정에서는 소자 내부의 물리량 계산을 통해 불순물의 움직임을 해석하여 결점을 검출하는 시뮬레이션을 수행하게 된다. 이를 위해 유한 차분 시간 영역 알고리즘(Finite-Difference Time-Domain, 이하 FDTD)과 같은 수치해석 기법이 사용된다. 반도체 칩의 집적도 향상으로 인하여 소자의 크기는 나노스케일 시대로 접어들었으며, 시뮬레이션 사이즈 또한 커지고 있는 추세이다. 이에 따라 CPU와 GPU 같은 하나의 연산 장치에서 수행할 수 없는 문제와 다중의 연산 장치로 구성된 한 대의 컴퓨터에서 수행할 수 없는 문제가 발생하기도 한다. 이러한 문제로 인해 분산 병렬처리를 통한 FDTD 알고리즘 연구가 진행되고 있다. 하지만 기존의 연구들은 단일 연산장치만을 이용하기 때문에 GPU를 사용하는 경우 연산 속도는 빠르나 메모리의 제한이 있으며 CPU의 경우 GPU에 비해 연산 속도가 느린 단점이 존재한다. 이를 해결하기 위해 본 논문에서는 CPU, GPU의 이기종 연산 장치를 포함하는 컴퓨터로 구축된 클러스터 상에서 작업 사이즈에 제한되지 않고 시뮬레이션 수행이 가능한 컴퓨팅 모델을 구현하였다. 점대점 통신 기반의 MPI 라이브러리를 이용하여 연산 장치 간 통신을 통한 시뮬레이션을 테스트 하였고 사용하는 연산 장치의 종류와 수에 상관없이 시뮬레이션이 정상 동작함을 확인하였다.

DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 FFT 구현 (Implementation of FFT on Massively Parallel GPU for DVB-T Receiver)

  • 이규형;허서원
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.204-214
    • /
    • 2013
  • 최근 GPU의 뛰어난 병렬 연산 처리 능력을 이용하여 신호 처리나 통신 시스템을 소프트웨어로 구현하기 위한 다양한 연구가 진행되고 있다. 본 논문에서는 DVB-T에서 사용되는 2K/8K FFT를 GPU를 이용하여 처리함으로써 소프트웨어 모의실험에 소요되는 시간을 줄였다. 우리는 먼저 DTV 전송 표준 방식의 일종인 DVB-T 시스템을 CPU로 구현할 때 소요되는 처리 시간을 모의실험을 통해서 추정한다. 그리고 DVB-T의 핵심 연산 처리기의 일종인 FFT 처리를 NVIDIA사의 대용량 GPU 프로세서를 이용하여 소프트웨어로 구현한다. 본 논문은 CPU와 GPU 간의 데이터 전송에 소요되는 오버헤드를 줄이기 위해 스트림 처리 기법, 외부 전역 메모리 전송 시간을 단축하기 위한 결합 전송 기법 (coalescing), 공유 메모리 활용을 높이기 위한 변수 설계 기법 등을 통해서 연산시간을 대폭 단축하였다. 그 결과 제안된 방식은 DVB-T의 2K/8K FFT 모드의 경우 CPU 기반의 FFT 처리 방식 대비 약 20~30배, NVIDIA사에서 제공하는 FFT 라이브러리 (CUFFT version 2.1) 대비 약 1.8배 그리고 기존에 발표된 타 방식 대비 약 1.5~10배 정도 빠른 처리 능력을 보인다.

On-Chip SRAM을 이용한 임베디드 시스템 메모리 계층 최적화 (Memory Hierarchy Optimization in Embedded Systems using On-Chip SRAM)

  • 김정원;김승균;이재진;정창희;우덕균
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권2호
    • /
    • pp.102-110
    • /
    • 2009
  • 컴퓨터 시스템 분야의 대표적인 문제 중 하나는 메모리의 처리 속도가 CPU의 처리 속도보다 매우 느리기 때문에 생기는 CPU 휴면 시간의 증가, 즉 메모리 장벽 문제이다. CPU와 메모리의 속도 차이를 줄이기 위해서는 레지스터, 캐시 메모리, 메인 메모리, 디스크로 대표되는 메모리 계층을 이용하여 자주 쓰이는 데이터를 메모리 계층 상위, 즉 CPU 가까이 위치시켜야 한다. 본 논문에서는 On-Chip SRAM을 이용한 임베디드 시스템 메모리 계층 최적화 기법을 리눅스 기반 시스템에서 최초로 제안한다. 본 기법은 시스템의 가상 메모리를 이용하여 프로그래머가 원하는 코드나 데이터를 On-Chip SRAM에 적재한다. 제안된 기법의 실험 결과 총 9개의 어플리케이션에 대하여 최대 35%, 평균 14%의 시스템 성능 향상과 최대 40% 평균 15%의 에너지 소비 감소를 보였다.