• 제목/요약/키워드: K-코어 알고리즘

검색결과 124건 처리시간 0.025초

병렬처리 기반의 H.264/AVC 인코더를 위한 저 메모리 대역폭 움직임 예측 코어설계 (A Low Memory Bandwidth Motion Estimation Core for H.264/AVC Encoder Based on Parallel Current MB Processing)

  • 김시혜;최준림
    • 대한전자공학회논문지SD
    • /
    • 제48권2호
    • /
    • pp.28-34
    • /
    • 2011
  • 본 논문에서는 H.264/AVC 인코더를 위한 하드웨어 지향 알고리즘의 정화소 및 부화소 움직임 예측 코어를 제안한다. 정화소 움직임 엔진의 경우 참조블록은 병렬 처리 내의 연속된 현재 블록들에 공유되어 데이터 재사용율을 높이고 오프칩 대역폭을 줄인다. 부화소 움직임 엔진의 경우 두 단계의 순차적 보간 신호 생성 대신 불필요한 후보 위치들 대신 1/2과 1/4 화소정밀도 신호를 병렬 기법으로 생성하여 처리량을 두배로 높인다. 또한 제안하는 H.264 움직임 예측 코어는 Chartered $0.18{\mu}m$ CMOS 1P5M 공정의 MPW(Multi-Project Wafer)를 통해 칩으로 제작되었으며 높은 처리량으로 HDTV 720p 30fps를 실시간 지원한다.

UID 기반 이기종 망 간 에서의 이동성 제공 알고리즘 (Mobility Support Algorithm for Heterogeneous Networks Based UID)

  • 김동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.544-547
    • /
    • 2013
  • 차세대 네트워크 환경은 유선과 무선, 방송과 통신, 음성과 데이터의 융합을 고려한 통합망 형태로 진화하고 있다. 특히, 인터넷 프로토콜(IP) 기반의 코어 네트워크(Core network)를 중심으로 다양한 접속기술을 갖는 서로 다른 이기종(Heterogeneous) 접속망이 존재하는 환경에서 대용량의 멀티미디어 서비스들을 언제, 어디서나, 이동 중에도 끊김 없이 제공받고자 하는 사용자의 요구 또한 증가하고 있는 상황이다. 본 논문에서는 이러한 융합 서비스 관리자로서 유비쿼터스 식별자(UID)를 사용하여 통합된 식별체계와 인증 및 과금을 지원하고 통합 프로파일 관리를 통하여 사용자 정보를 서비스 제공자에게 제공하는 알고리즘을 구현 단말이 이동되는 경우에도 융합 서비스를 제공할 수 있도록 제시한다.

  • PDF

현악기의 물리적 모델링을 위한 최적의 멀티코어 프로세서 아키텍처 탐색 (Exploration of Optimal Multi-Core Processor Architecture for Physical Modeling of Plucked-String Instruments)

  • 강명수;최지원;김용민;김종면
    • 한국음향학회지
    • /
    • 제30권5호
    • /
    • pp.281-294
    • /
    • 2011
  • 물리적 모델링 기반 음 합성 알고리즘은 음 합성 시 많은 연산량을 요구하며 이는 실시간 음 합성을 저해한다. 이러한 문제를 해결하기 위해 본 논문에서는 물리적 모델링 기반 현악기 사운드 엔진을 멀티코어 프로세서에 구현하고, 사운드 엔진을 위한 최적의 멀티코어 프로세서 구조를 제안한다. 대상 현악기의 단위음을 합성하기 위해 각 프로세싱 엘리먼트 (processing element, PE)당 합성하는 샘플 (sample-per-processing element, SPE) 수를 변화시키는 실험을 통해 시스템의 성능 (system performance), 시스템 면적 효율 (area efficiency), 에너지 효율 (energy efficiency)을 각각 측정하고, 측정된 결과를 바탕으로 최적의 멀티코어 프로세서 구조를 선택하였다. 모의실험 결과, 어쿠스틱 기타는 SPE가 5,513과 2,756일 때 가장 높은 시스템 면적 효율과 에너지 효율을 보였으며, 클래식 기타는 SPE가 22,050과 5,513일 때 시스템 면적 효율과 에너지 효율이 가장 높았다. 또한 이를 이용하여 44.1 kHz의 샘플링율을 갖도록 대상 악기의 단위음을 합성한 결과 원음과 스펙트럼에서 매우 유사함을 확인할 수 있었고, 울산대학교 대학원생 및 교수 10명을 대상으로 실시한 MUSHRA 주관 청취 테스트에서도 좋은 결과를 얻었다.

다중코어 GPU를 위한 병렬처리 보간 알고리즘 구현 (Implementation of Parallel Processing Interpolation Algorithm for Multicore GPU)

  • 이광엽;김치용
    • 전기전자학회논문지
    • /
    • 제16권4호
    • /
    • pp.304-309
    • /
    • 2012
  • 최근 디스플레이의 해상도가 높아짐에 따라 그래픽 하드웨어가 처리해야할 데이터량과 연산량이 증가 하고 있다. 특히 레스터라이저의 데이터 처리량이 크게 증가 하고 있다. 본 논문은 높은 해상도의 많은 데이터를 빠르게 처리하기 위하여 레스터라이저를 병렬로 설계 하였다. 본 논문은 레스터라이저의 병렬화를 용이하게 하기 위하여 기존 보간 단계에서 사용하는 Bilinear 알고리즘[1] 대신 삼각형의 무게중심 좌표와 넓이를 이용하는 알고리즘을 사용하였다. 설계한 레스터라이저를 FPGA 환경에서 구현하여 기존 레스터라이저와 비교 검증 하였다. 기존 레스터라이저와 비교 결과 성능이 약 50퍼센트 상승 하였다.

Niod II 코어기반 가속기 비교 (Comparison of Nios II Core-based Accelerators)

  • 송기용
    • 한국산학기술학회논문지
    • /
    • 제16권1호
    • /
    • pp.639-645
    • /
    • 2015
  • Nios II 코어에 기반한 하드웨어 가속기를 checksum과 residue checking 알고리즘을 대상으로 하여 HDL 코딩으로 해당 하드웨어를 구현하는 component 방식, 프로세서 명령어세트 확장에 의한 custom instruction 방식과 C2H 컴파일러로 해당 로직을 자동 생성하는 C2H 방식으로 구현하고, 실행 결과를 분석 및 비교한다. 비교 결과 실행 소요시간 기준의 경우 C2H 방식 구현이 최단시간 수행을, 그리고 하드웨어 추가 소요량 기준의 경우 custom instruction 방식 구현이 최소의 하드웨어를 추가로 사용함을 확인한다.

NUMA구조를 가진 고성능 컴퓨팅 시스템에서의 메쉬 재배열의 라플라시안 스무딩에 대한 효과 (The Effect of Mesh Reordering on Laplacian Smoothing for Nonuniform Memory Access Architecture-based High Performance Computing Systems)

  • 김지범
    • 전자공학회논문지
    • /
    • 제51권3호
    • /
    • pp.82-88
    • /
    • 2014
  • 우리는 고성능 컴퓨팅 (high performance computing) 시스템에서 메쉬 재배열이 라플라시안 스무딩에 대해서 어떠한 효과가 있는지 연구한다. 구체적으로, 우리는 nonuniform memory access (NUMA) 구조의 고성능 컴퓨팅 시스템에서 Reverse-Cuthill Mckee 알고리즘을 사용하여 메쉬를 재배열하고 메쉬질을 높이기 위하여 라플라시안 스무딩을 사용한다. 먼저 하나의 코어를 사용하여 메쉬 재배열의 라플라시안 스무딩에 대한 속도 향상을 조사한 후에 NUMA구조의 멀티코어 시스템에서 OpenMP를 이용하여 병렬화할 경우 메쉬 재배열의 라플라시안 스무딩에 대한 속도 향상에 대하여 조사한다.

고해상도 SAR 영상처리 고속화를 위한 병렬 성능 최적화 기법 연구 (A Study on Parallel Performance Optimization Method for Acceleration of High Resolution SAR Image Processing)

  • 이규범;김규빈;안솔보름;조진연;임병균;김동현;김정호
    • 한국항공우주학회지
    • /
    • 제46권6호
    • /
    • pp.503-512
    • /
    • 2018
  • SAR(Synthetic Aperture Radar)는 레이더를 이용하여 얻은 신호를 처리해 영상을 획득하는 기술로서, SAR 영상의 활용도와 고해상도 영상에 대한 요구가 증가하고 있는 상황이다. 따라서 본 연구에서는 고해상도 영상 데이터의 고속 처리를 위해 SAR 영상처리 알고리즘을 다중코어 기반의 컴퓨터 구조에서 최적의 성능을 낼 수 있도록 구현하기 위한 연구를 수행했다. 고해상도 영상에 따른 방대한 양의 입출력에 의한 성능 저하를 개선시키기 위해 메모리를 최대한 활용하는 성능 최적화 기법을 적용하고 OpenMP의 동적 스케쥴링 기법과 중첩 병렬성(nested parallelism)을 사용해 코드의 병렬화 비율을 높였다. 그 결과 전체 계산시간을 줄일 뿐만 아니라 병렬 성능의 최대 한계치를 크게 높일 수 있었으며, 제안된 기법을 10개 코어를 가진 다중코어 시스템에 적용한 결과 기존 대비 8배 이상의 성능 향상이 있었다. 본 연구 결과는 대용량 메모리를 가진 다중코어 시스템을 대상으로 하는 고해상도 SAR 영상처리 소프트웨어 개발에 효과적으로 활용될 수 있을 것으로 기대된다.

멀티쓰레드 워크로드를 위한 DVFS 기반 메모리 경합 인지 스케줄링 기법 (DVFS based Memory-Contention Aware Scheduling Method for Multi-threaded Workloads)

  • 남윤성;강민규;염헌영;엄현상
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권1호
    • /
    • pp.10-16
    • /
    • 2018
  • 비용절감을 위해 제한된 서버 워크로드를 통합하는 것은 데이터센터의 효율성에 중요하다. 하지만 더 많은 워크로드가 하나의 서버에 통합되면서, 워크로드들의 성능이 제한된 공유 자원에 대한 경합으로 인해 감소될 수 있다. 이러한 성능감소를 줄이기 위해서 공유자원에 대한 경합을 줄이는 스케줄이 필요하다. 본 논문에서는 이러한 공유자원, 특히 메모리 서브시스템에 대해서 경합을 줄일 수 있는 DVFS(Dynamic Voltage Frequency Scaling) 기반의 메모리 인지 쓰레드 스케줄링 방법을 제안한다. 제안한 알고리즘은 메모리 자원에 대한 경합을 줄이기 위해서, 메모리 자원에 대한 접근을 제한하는 방식으로 두 가지 방법을 사용한다. 메모리 인텐시브 쓰레드를 제한된 코어에서 수행하고, 메모리 인텐시브 쓰레드가 수행되는 코어의 주파수를 낮추어 경합을 완화한다. 제안한 알고리즘을 적용하여 쓰레드 스케줄링 시, 리눅스의 CFS(Completely Fair Scheduler) 대비 최대 43%의 성능향상을 이루고 파워소모를 38% 줄일 수 있었다.

멀티코어 플랫폼에서 에너지 효율적 EDZL 실시간 스케줄링 (Energy-aware EDZL Real-Time Scheduling on Multicore Platforms)

  • 한상철
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.296-303
    • /
    • 2016
  • 시스템 자원과 가용한 전력량이 한정적인 모바일 실시간 시스템은 시간제약의 만족뿐만 아니라 시스템 부하가 높을 때는 시스템 자원을 최대한 활용하고 시스템 부하가 낮을 때는 에너지 소모량을 줄일 수 있어야 한다. 멀티프로세서 실시간 스케줄링 알고리즘인 EDZL(Earliest Deadline until Zero Laxity)은 높은 시스템 이용률을 가지고 있으나 에너지 절감기법에 대한 연구가 매우 적다. 본 논문은 멀티코어 플랫폼에서 EDZL 스케줄링의 동적 전압조절(DVFS) 기법을 다룬다. 본 논문은 full-chip DVFS 플랫폼을 위한 동일속도와 per-core DVFS 플랫폼을 위한 개별속도 산정 기법을 제안한다. EDZL 스케줄 가능성 검사에 기반을 둔 이 기법은 단순하지만 효과적으로 태스크들의 수행속도를 오프라인에 결정할 수 있다. 또한 모의실험을 통하여 제안한 기법이 효과적으로 에너지를 절감할 수 있음을 보인다.

멀티코어 인메모리 환경에서 트랜잭션을 처리하기 위한 효율적인 HTM 기법 (Efficient Hardware Transactional Memory Scheme for Processing Transactions in Multi-core In-Memory Environment)

  • 장연우;강문환;윤민;장재우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권8호
    • /
    • pp.466-472
    • /
    • 2017
  • 하드웨어 트랜잭셔널 메모리(HTM)는 트랜잭션 처리를 위한 병렬 프로그래밍 패러다임을 크게 바꾸었으며, 최근 Intel에서 TSX를 제안함에 따라 HTM에 기반한 다수의 연구들이 수행되었다. 그러나 기존 연구들은 트랜잭션 처리에서 하나의 원인에 대한 충돌 예측만을 지원하며, 모든 워크로드에 대해 획일화된 TSX 환경을 제공한다. 이러한 문제점을 해결하기 위해, 본 논문에서는 멀티코어 인메모리 환경에서 트랜잭션을 처리하기 위한 효율적인 HTM 기법을 제안한다. 첫째, 제안하는 기법은 과거 트랜잭션 처리 정보를 수집한 매트릭스를 이용하여, HTM 실패시의 대비책 경로로써 STM 혹은 single lock을 선택한다. 둘째, 머신러닝 알고리즘 기반 재시도 정책을 제공함으로써, 워크로드 특성에 맞는 효율적인 트랜잭션 처리를 수행한다. 마지막으로 STAMP를 이용한 성능평가를 통해, 제안하는 기법이 기존 연구에 비해 10~20%의 성능 향상이 있음을 보인다.