• 제목/요약/키워드: 데이터 레벨 병렬성

검색결과 13건 처리시간 0.022초

멀티코어 프로세서에서의 H.264/AVC 디코더를 위한 데이터 레벨 병렬화 성능 예측 및 분석 (Data Level Parallelism for H.264/AVC Decoder on a Multi-Core Processor and Performance Analysis)

  • 조한욱;조송현;송용호
    • 대한전자공학회논문지SD
    • /
    • 제46권8호
    • /
    • pp.102-116
    • /
    • 2009
  • 최근 멀티코어 프로세서의 이용이 증가함에 따라, 멀티코어환경에서 고성능 H.264/AVC 코덱을 구현하기 위한 다양한 병렬화 기법들이 제안되고 있다. 이러한 기법들은 병렬화 기법 적용 방식에 따라 태스크 레벨 병렬화 기법과 데이터 레벨 병렬화 기법으로 구분된다. 태스크 레벨 병렬화 기법을 이용한 파이프라인 병렬화 기법은 H.264 알고리즘을 파이프라인 단계로 나누어 구현하며, 일반적으로 화면 사이즈가 작고 복잡도가 낮은 비트스트림에 유리하다. 그러나 프로세싱 모듈별 수행시간 차이가 커서 로드밸런싱이 좋지 않고, 파이프라인 단계의 수가 제한적이라 성능 확장성에 제한이 있어 HD 비디오같이 해상도가 큰 비트스트림 처리에는 적합하지 않은 단점이 있다. 본 논문에서는 로드밸런싱 및 성능 확장성을 고려하여 매크로블록 라인 단위로 쓰레드를 할당하는 수평적 데이터 레벨 병렬화 기법을 제안하고, 이에 대한 성능 예측 수식 모델을 통하여 성능을 예상한다. 또한 성능 예측의 정확성을 검증하기 위해 JM 13.2 레퍼런스 디코더에 대한 데이터 레벨 병렬화 기법을 ARM11 MPCore 환경에서 구현하고 이에 대한 성능 검증을 수행하였다. SoCDesigner를 이용한 사이클 단위의 성능 측정 결과, 본 논문에서 제시하는 쓰레드 증가에 대한 병렬화 기법의 성능 변화를 비교적 높은 수준의 정확도로 예측 가능하였다.

효율적인 영상데이터 처리를 위한 SIMD기반 매니코어 프로세서 구현 (Implementation of SIMD-based Many-Core Processor for Efficient Image Data Processing)

  • 최병국;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-9
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가하면서 고성능, 저전력 멀티미디어 프로세서에 대한 필요성이 높아지고 있는 추세이다. 주문형반도체 (ASIC)는 모바일 멀티미디어에서 요구되는 고성능을 만족시키지만 다양한 형태의 멀티미디어 애플리케이션에서 요구되는 범용성을 만족시키지 못한다. 반면 DSP기반의 시스템은 범용성에 기인하여 다양한 형태의 애플리케이션에서 사용될 수 있으나, 주문형반도체 보다 높은 가격, 전력소모 및 낮은 성능을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 범용성을 유지하면서 고성능, 저전력으로 영상데이터 처리가 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)처리 방식의 매니코어 프로세서를 제안한다. 제안한 SIMD기반 매니코어 프로세서는 16개의 프로세싱 엘리먼트(processing element, PE)로 구성되어 영상데이터 처리에 내재한 무수한 데이터 레벨 병렬성을 높인다. 모의 실험한 결과, 제안한 SIMD기반 매니코어 프로세서는 현재 상용 고성능 프로세서보다 평균 22배의 성능, 7배의 에너지 효율 및 3배의 시스템 면적 효율을 보였다.

코딩 유닛 깊이 정보를 이용한 HEVC 디블록킹 필터의 병렬화 기법 (Parallel Method for HEVC Deblocking Filter based on Coding Unit Depth Information)

  • 조현호;유은경;남정학;심동규;김두현;송준호
    • 방송공학회논문지
    • /
    • 제17권5호
    • /
    • pp.742-755
    • /
    • 2012
  • 본 논문에서는 high efficiency video coding (HEVC) 복호화기의 디블록킹 필터를 병렬화할 때 발생하는 작업량 불균형 문제를 해결하는 병렬화 방법을 제안한다. HEVC의 디블록킹 필터는 인-루프 필터로써 먼저 수직 에지에서 필터링을 수행한 후, 수평 에지에서 필터링을 수행한다. 수직 및 수평 에지에 대해 필터링을 수행하는 경우 주변 에지와 의존성이 없기 때문에 데이터 레벨의 병렬화를 통하여 복호화를 고속화 할 수 있다. 그러나 데이터 레벨 병렬화 방법을 통해 데이터가 균등하게 분할된 경우에도 영역 간의 작업량은 불균등 할 수 있으며, 이는 복호화기의 병렬화 성능을 저하시킨다. 본 논문에서는 coding tree block (CTB)에서 coding unit (CU)의 깊이 정보를 사용하여, 현재 프레임에 대한 디블록킹 필터링 과정의 연산량을 예측하고, 이를 통해 각 코어에 동등한 작업량이 분배되게 함으로써 작업량 불균형 문제를 해결하였다. 실험 결과, 제안하는 작업량 예측 기반의 데이터 레벨 병렬화 방법은 단일 코어를 사용하여 디블록킹 필터를 수행하는 것에 비하여 64.3%의 평균 시간 감소 (average time saving; ATS)를 얻었고, 기존의 균등 분할 데이터 레벨 병렬화 방법보다 평균 6.7%, 최대 13.5% 감소를 얻었다.

초고해상도 비디오를 위한 분할 영상 기반 HEVC 복호화기 병렬화 (Performance Analysis of HEVC Decoder Parallelization based on Slice and Tile for Ultra-High Definition Video)

  • 손소희;백아람;최해철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.359-360
    • /
    • 2016
  • 본 논문에서는 초고화질의 비디오 실시간 복호화를 위해 HEVC(High Efficiency Video Coding)에서 지원하는 병렬화 기술인 Slice와 Tile 기술을 이용하여 초고해상도 영상에 대한 복호화기 병렬화 성능을 비교한다. Slice와 Tile은 분할 데이터간 의존성이 존재하지 않으므로 분할된 데이터를 다중 스레드에 할당하여 데이터-레벨 병렬화를 수행하였다. 실험 결과에서는 병렬화된 복호화기 성능이 기존 순차 복호화기에 비해 최대 2.08배 고속화 되었고, 분할 데이터 수가 증가하여도 화질 손실이 거의 없는 결과를 보인다.

  • PDF

객체지향 프로그램 정보 분석기 설계 및 구현 (Design and Implementation of an Information Analyzer for Object-Oriented Program)

  • 김운용;최영근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.490-492
    • /
    • 1999
  • 본 논문에서는 객체지향 프로그램에 대한 프로그램 정보를 분석하여 이들간의 관계를 표현할 수 있는 방법을 제시한다. 현재까지 프로그램을 분석하고 표현하기 위한 그래프 표현으로 호출 그래프, 제어흐름 그래프 및 종속 그래프 등이 있으며 이를 이용하여 테스팅, 슬라이싱, 디버깅, 프로그램 이해, 병렬처리, 역공학과 같은 다양한 분야에 적용되고 있다. 본 논문에서는 객체지향 언어의 프로그램의 시각적 이해를 돕고, 분석에 필요한 정보를 표현하는 그래프들간의 관계성을 고려한 효율적인 분석기를 표현한다. 이를 위해 클래스, 상속관계, 호출관계, 제어흐름 및 데이터 종속관계를 고려하여 객체 지향언어 분석에 필요한 그래프 요소를 멤버함수레벨, 클래스 레벨, 모듈 클래스 레벨 단위로 추출하고 이들간의 정보를 저장소로 통합 구성한다. 이를 통해 기존의 특정목적을 위해 표현하는 그래프 표현 방식은 그래프간의 관계성과 분석정보의 독립성 그리고 재사용성의 특징을 가지는 통합 분석기로 구성될 수 있다. 이러한 특징은 프로그램의 이해와 정보의 관리효과를 증가시킬 수 있으며, 많은 소프트웨어 엔지니어링 도구와 기술들에 필요한 통합화된 정보를 제공하고 이용될 수 있을 것이다.

  • PDF

스트라이핑 기반의 병렬 접근 미러링 기법 (Parallel Accessed Mirroring based on Stripping)

  • 강동재;김창수;신범주;김학영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.539-542
    • /
    • 2002
  • 멀티미디어와 인터넷의 대중화가 야기한 급격한 데이터의 증가는 테라(Tera)바이트 이상의 대용량 저장공간과 대용량 정보의 효율적인 공유를 지원하는 스토리지 시스템을 요구하고 있으며 이를 위하여 SAN 기반의 스토리지 클러스터링 시스템들이 많이 사용되고 있다. 이러한 환경에서 하드웨어 또는 소프트웨어 RAID(Redundant Array of Independent Disks)는 대용량 정보의 고성능의 입출력과 신뢰성을 위해서 필수적이 되었다. 범용적인 RAID로는 RAE-0, RAID-1, RAID-5가 주로 사용되고 있으며 각각의 레벨은 장단점을 갖는다. 본 논문에서는 RAID-0와 RAID-1이 갖는 문제점들의 보완을 위하여 변형된 RAID 레벨인 RAID-SM을 제안한다. RAID-SM은 기존의 RAID-1이 가지는 데이터의 가용성을 유지하면서 추가적인 비용 없이 RAID-0의 우수한 입출력 성능을 얻기 위한 RAID-1의 변형된 방식이다. RAID-SM의 구현을 위하여 디스크상의 데이터의 배치 및 데이터 맵핑 탕식을 정의하고 RAID-SM에서의 I/O방법을 기술한다. 제안하는 RAID-SM은 멀티미디어나 GIS 데이터와 같은 읽기 연산 집약적인 시스템을 대상으로 하는 안정적인 레이드 방식이며 RAID-SM의 장점 및 성능은 본 논문에서의 실험을 통한 결과로서 제시한다.

  • PDF

모바일 초음파 영상신호의 빔포밍 알고리즘을 위한 멀티코어 프로세서 구현 (Implementation of Multi-Core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권2호
    • /
    • pp.45-52
    • /
    • 2011
  • 과거에는 환자가 초음파 영상진단장치가 설치되어 있는 방에 가서 진단을 받았지만, 현재는 의사가 초음파 영상 진단장치를 가지고 이동하면서 환자를 진단(모바일 초음파, handheld ultrasound)할 수 있는 시대가 왔다. 그러나 초음파 영상진단장치로서의 기본적인 기능만을 구현하였으며, 초음파 영상의 질을 결정하는 초음파 빔의 포커싱 알고리즘에서 요구되는 고성능을 만족하지 못하는 실정이다. 또한 모바일 기기의 경우 저전력의 요구조건도 만족하여야 한다. 이를 위해 본 논문에서는 모바일 초음파 영상신호의 포커싱을 위한 방법 중 대표적인 빔포밍 알고리즘(Beamforming Algorithm)을 고성능, 저전력으로 처리 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)기반의 멀티코어 프로세서를 제안한다. 제안한 SIMD기반 멀티코어 프로세서는 16개의 프로세싱 엘리먼트(Processing Element, PE)로 구성되어 있으며, 초음파의 에코 영상데이터에 내재한 무수한 데이터 레벨 병렬성을 활용하여 빔포밍 알고리즘에서 요구되는 고성능을 만족시킨다. 모의실험 결과, 제안한 멀티코어 프로세서는 현재 상용 고성능 프로세서인 TI DSP C6416보다 평균 15.8배의 성능, 6.9배의 에너지 효율 및 10배의 시스템 면적 효율을 보였다.

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

모바일 초음파 영상신호의 빔포밍 기법을 위한 최적의 매니코어 프로세서 구현 (Implementation of an Optimal Many-core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.119-128
    • /
    • 2011
  • 본 논문에서는 모바일 초음파(mobile ultrasound) 영상신호의 빔포밍 알고리즘에서 요구되는 고성능 및 저전력을 만족시키는 매니코어 프로세서에 대한 디자인 공간 탐색 방법을 소개한다. 매니코어 프로세서의 디자인 공간 탐색을 위해 매니코어의 각 프로세싱 엘리먼트(Processing Element, PE)당 초음파 영상신호 데이터의 수를 변화시키는 실험을 통해 실행시간, 에너지 효율 및 시스템 면적 효율을 측정하고, 측정된 결과를 바탕으로 최적의 매니코어 프로세서 구조를 선택하였다. 모의실험 결과, PE 개수가 4096일 때 에너지 효율이 가장 높았으며, PE 개수가 1024일 때 가장 높은 시스템 면적 효율을 보였다. 또한, PE 개수가 4096인 매니코어 아키텍처는 초음파 영상장치에 가장 많이 사용되는 TI DSP C6416보다 각각 에너지 효율에서 46배, 시스템 면적 효율에서 10배의 향상을 보였다.

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.