• 제목/요약/키워드: 데이터병렬화

검색결과 335건 처리시간 0.032초

CUDA 환경에서 CUSUM 검증의 병렬화 (Parallelization of CUSUM Test in a CUDA Environment)

  • 손창환;박우열;김형균;한경숙;표창우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.476-481
    • /
    • 2015
  • NIST통계적 난수 검증 모음에 속한 누적 합(CUSUM) 검증을 CUDA 환경에서 병렬화하였다. 배열 사유화를 적용하여 스칼라 변수에 저장하던 랜덤 워크(random walk) 값을 배열 변수에 저장하여 데이터 의존성을 제거하였다. 자료 구조 변경에 따라 알고리즘 각 단계에 병렬 스캔, 스캐터 및 병렬 축약 적용이 가능하게 되었다. 또한 CPU를 사용하여 진행되던 부분을 GPU가 담당하게 하여 두 프로세서 사이의 데이터 이동으로 인해 발생하는 직렬화를 해소하였다. 마지막으로 전역 메모리 접근을 최적화하여 전체적으로 순차적 구현 대비 약 23배에 달하는 성능 향상을 달성하였다. 이 결과는 검증 모음의 실행시간 단축과 더불어 암호 키 보안 향상을 위한 난수 연구에 기여할 것으로 예상된다.

타일 및 프레임 수준의 HEVC 병렬 부호화 (Tile-level and Frame-level Parallel Encoding for HEVC)

  • 김연희;석진욱;정순흥;김휘용;최진수
    • 방송공학회논문지
    • /
    • 제20권3호
    • /
    • pp.388-397
    • /
    • 2015
  • 고화질 비디오에 대한 시장의 요구가 높아짐에 따라 고화질 비디오를 기존 보다 낮은 데이터 량으로 압축할 수 있는 새로운 비디오 부호화 표준 기술인 HEVC(High Efficiency Video Coding)가 최근에 개발 완료되었다. 즉 HEVC로 압축한 데이터의 양은 기존 비디오 부호화 표준인 AVC/H.264로 압축한 데이터의 양의 동일 화질 대비 약 50%로 보고되고 있다. 압축 성능이 개선된 새로운 부호화 표준에 대한 시장의 관심은 뜨겁지만 시장에 바로 활용되기 위하여서는 응용 서비스에서 요구하는 수준의 처리속도를 만족시켜야 한다. 다수의 코어가 탑재된 컴퓨터 시스템이 널리 보급된 오늘날의 개발 환경에서 부호화 처리 속도를 개선시키기 위해서 여러 각도의 병렬 부호화 적용이 필수이다. 본 논문에서는 HEVC 부호화기에 화면 분할 병렬화와 프레임 수준의 병렬화를 조합하여 적용할 때 코딩 효율 대비 병렬화로 인한 더 높은 속도 향상 결과를 가져올 수 있는 방법을 제안하였다. 즉 시스템 자원과 병렬로 처리할 프레임에 따라 화면을 적응적으로 분할하게 함으로써 코딩 효율 대비 속도 향상을 개선시킬 수 있었다. 한 화면 안에서는 다수의 타일(Tile) 단위로 병렬처리하고, 참조되지 않는 프레임(Frame)들을 병렬로 부호화하도록 본 논문을 통해 구현하였으며 Full-HD 및 4K UHD 영상을 이용하여 제안하는 방법이 코딩 효율 대비 병렬화로 인한 속도 향상이 개선되었음을 보여주었다.

SIMD와 MIMD가 결합된 구조를 갖는 병렬처리시스템 (Parallel Processing System with combined Architecture of SIMD with MIMD)

  • 이형;최성혁;김중배;박종원
    • 정보처리학회논문지A
    • /
    • 제8A권1호
    • /
    • pp.9-15
    • /
    • 2001
  • 영상에 관련된 다양한 응용 시스템들을 구현하는 많은 연구들이 진행되어 왔지만, 그러한 영상 관련 응용 시스템을 구현함에 있어서 처리속도의 저하로 인하여 많은 어려움을 겪고 있다. 이를 해결하기 위해 대두된 여러 방법들 중에서 최근 하드웨어 접근 방법에 고려한 많은 관심과 연구가 진행되고 있다. 본 논문은 영상을 실시간으로 처리하기 위하여 하드웨어 구조를 갖는 병렬처리시스템을 기술하며, 또한 병렬처리시스템을 얼굴 검색 시스템에 적용한 후 처리속도 및 실험 결과를 기술한다. 병렬처리시스템은 SIMD와 MIMD가 결합된 구조를 갖고 있기 때문에 다양한 영상 응용시스템에 대해서 융통성과 효율성을 제공하며, 144개의 처리기와 12개의 다중접근기억장치, 외부 메모리 모듈을 위한 인터페이스와 외부 프로세서 장치(i960Kx)와의 통신을 위한 인터페이스로 구성되어있다. 다중접근기억장치는 메모리 모듈선택회로, 데이터 라이팅회로, 그리고, 주소계산 및 라우팅회로로 구성되어 있다. 또한 얼굴 검색 시스템을 병렬처리 시스템에 적합한 병렬화를 제공하기 위해 메쉬방법을 이용하여 전처리, 정규화, 4개 특징값 추출, 그리고 분류화로 구성하였다. 병렬처리시스템은 하드웨어 모의실험 패키지인 CADENCE사의 Verilog-XL로 모의실험을 수행하여 기능과 성능을 검증하였다.

  • PDF

고해상도 디스플레이 환경에서의 시변환 데이터 애니메이션을 위한 프레임워크 (A framework for time-varying data animation in VR environments)

  • 허영주;이중연;김민아;구기범;이세훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.379-382
    • /
    • 2013
  • 시변환 데이터(time-varying data)는 과학 시뮬레이션의 결과로 생성되는 데이터의 일종으로, 일반적인 스테디 데이터(steady data)와는 달리 시간에 따른 데이터의 변화를 담고 있다. 따라서 시변환 데이터를 가시화하는 것은 시간에 따른 데이터의 변화를 비교, 분석할 수 있는 방법을 제공해야 한다는 것을 의미한다. 일반적으로 시변환 데이터는 대용량 데이터에 해당되며, 따라서 대부분의 경우에는 일반 PC 환경에서 시변환 데이터에 대한 애니메이션을 수행하는 것이 불가능하다. 본 논문에서는 병렬 렌더링 시스템에서 대용량의 시변환 데이터에 대해 일련의 가시화 작업을 수행 함으로써 데이터의 시간에 따른 변화를 분석할 수 있게 해주는 병렬 애니메이션 프레임워크에 대해 소개한다. 본 논문에서 소개하는 애니메이션 프레임워크는 병렬 렌더링 시스템을 기반으로 시변환 데이터에 대한 애니메이션을 수행하며, 이를 위한 렌더링 동기화 프로세스를 제공한다. 이 환경은 향후 지원 분야, 지원 장비에 따라 다양한 형태로의 확장이 가능하며, 고해상도 디스플레이 환경에서 가상현실을 기반으로 사용자와 상호작용하는 것이 가능하다.

SIMD 구조의 다중 프로세서를 이용한 NTGST의 병렬고속화 (Parallel Speedup of NTGST on SIMD type Multiprocessor)

  • 김복만;서경석;김종화;최흥문
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.127-130
    • /
    • 2001
  • 본 논문에서는 SIMD (Single Instruction stream and Multiple Data stream)형 병렬 구조의 다중 프로세서를 이용하여 NTGST (noise-tolerant generalized symmetry transform)를 병렬 고속화하였다. 먼저 NTGST의 화소 및 영상 영역간의 계산 독립성을 이용하여 영상을 분할하여 P개의 프로세서에 할당하고, 이들 각각을 N개의 데이터를 한번에 처리하는 SIMD 구조로 병렬화하여 NP에 비례하는 속도 향상을 얻었다. 실험에서 MMX 기술의 펜티엄 Ⅲ 프로세서를 2개 사용하여 제안한 알고리즘이 기존의 NTGST 보다 8배 가까이 고속으로 처리됨을 확인하였다.

  • PDF

워크스테이션 클러스트 환경에서 병렬 BMA의 구현 및 성능 분석 (Performance Evaluation of Parallel BMA on Networked Cluster of Workstations)

  • 김종렬;나현태;김정선;문영식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.753-755
    • /
    • 1999
  • 본 논문에서는 동영상에서 움직임 벡터를 찾는 방법 중의 하나인 BMA(Block Matching Algorithm)를 워크스테이션 클러스터(cluster of workstations) 환경하에서 구현하고 이에 대한 성능 분석 모델을 제시한다. 동영상에서 움직임 벡터를 찾는 BMA는 영상처리 및 컴퓨터 비전 분야에서 널리 사용되는 방법으로 병렬화를 통해 처리 속도를 단축시킬수 있는 알고리즘이다. 그러나 워크스테이션 클러스트 환경하에서는 데이터의 분할 및 각 노드간의 통신방법에 따라서 전체적인 성능에 많은 영향을 미친다. 따라서 본 논문에서는 최적의 데이터 분할 및 각 노드간의 통신을 최소화하는 병렬 BMA를 설계.구현한다. 또한 데이터의 분할 및 각 노드간의 통신을 고려한 성능 모델을 제시하여 프로세서의 증가 및 데이터의 분배에 따른 성능을 예측하고, 실험 결과를 통하여 제시한 모델의 타당성을 입증한다.

  • PDF

분산 멀티미디어 플레이어 기반 웹 미디어 동기화에 관한 연구 (A Study about Web Media Synchronization based on Distributed Media Player)

  • 이민경;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.507-508
    • /
    • 2008
  • 인터넷의 급속한 발달은 새로운 형태의 응용시스템 뿐만 아니라, 다양한 산업분야에 영향을 미치고 있다. 멀티미디어 환경의 사용자들은 새로운 정보에 대한 욕구와 차별화된 서비스를 요구함에 따라 새로운 인터넷 기반으로 변화를 촉진시키고 있다. 특히, 멀티미디어 데이터는 사운드와 이미지, 영상이 결합된 매체이므로 데이터의 크기가 크며, 전체적인 네트워크의 오버 헤드를 발생시키는 요인이 될 수 있다. 따라서 본 논문에서는 기존의 네트워크에서 발생할 수 있는 멀티미디어 데이터에 대한 오버헤드를 최소화하기 위해 여러 대의 시스템을 병렬포트로 제어하여 이를 분산 환경에 적용시키고자 한다. 이에 제안방식에서는 병렬시스템에서의 동기화 문제뿐만 아니라, 기존 네트워크 시스템의 오버헤드 효율적인 네트워크 및 데이터 관리 방식을 제공한다.

  • PDF

가상화 환경에서의 병렬 분산 처리 파일시스템 프로파일러 구조 (Architecture of Parallel Distributed File System Profiler in Virtualized Enviroments)

  • 최원석;김태원;정혜진;민영근;김준모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.145-147
    • /
    • 2012
  • 최근 데이터의 급증으로 인해 병렬 분산 처리 파일시스템의 사용이 증가되었으나 물리 자원 요구와 그에 따른 관리 자원 소모로 인해 가상화 환경에서의 병렬 분산 처리 파일 시스템이 활발히 연구되고 있다. 이의 성능 분석을 위해서는 프로파일러의 역할이 중요한데 현재 사용되고 있는 프로파일러들은 시스템 및 관리 프로파일러로써 가상화 환경에 적합하지 않아 가상화 환경에 적합하며 기존 프로파일러의 단점을 보완하는 새로운 프로파일러의 필요성이 증가하고 있다. 본 논문에서는 기존 프로파일러의 장단점을 분석하고 기존 프로파일러들의 단점을 보완하는 가상화 환경에 적합한 새로운 프로파일러의 구조를 제안한다.

GPU-based Parallel Ant Colony System for Traveling Salesman Problem

  • Rhee, Yunseok
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.1-8
    • /
    • 2022
  • 본 논문에서는 개미 집단 시스템(ant colony system)을 통한 순회 외판원 문제(traveling salesman problem)를 효과적으로 해결하기 위해 GPU 기반 병렬 알고리즘을 설계 구현하였다. TSP에서 동시에 수백 또는 수천의 탐색 여정(tour)을 생성하는 반복 과정을 GPU의 작업 병렬성을 활용하여 처리성능을 개선하고, 페로몬 자취 데이터의 업데이트 과정은 32x32의 쓰레드 블럭을 사용하여 데이터 병렬성을 적극 활용하였다. 특히 다중 쓰레드의 메모리 동시 접근을 통해 연속 메모리공간의 병합 접근 효과와 공유 메모리의 동시 접근을 지원하였다. 본 실험은 TSPLIB에서 제공되는 127개부터 1002개에 이르는 도시 데이터를 사용하였고, Intel Core i9-9900K CPU와 Nvidia Titan RTX 시스템을 사용하여 순차 알고리즘과 병렬 알고리즘의 성능을 비교하였다. GPU 병렬화에 의한 성능 향상은 약 10.13~11.37배의 성능 개선 효과를 보였다.

효율적인 각 기반 공간 분할 병렬 스카이라인 질의 처리를 위한 데이터 샘플링 기반 프루닝 기법 (A Sampling based Pruning Approach for Efficient Angular Space Partitioning based Skyline Query Processing)

  • 최우성;민종현;정재화;정순영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.55-58
    • /
    • 2016
  • 스카이라인 질의란 다수의 선택지 중 '선호될 만한(preferable)' 선택지를 요청하는 질의이다. 사용자가 검토해야하는 선택지의 수를 대폭 감소시키는 스카이라인 질의는 데이터가 폭증하는 빅데이터 환경에서 매우 유용하게 활용된다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행 중이다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 최근 각 기반 공간분할 기법을 사용하여 부하 불균등 문제와 중복 계산 문제를 해소하는 맵리듀스 기반 스카이라인 질의 처리 기법이 제안되었으나 해당 기법은 네트워크 비용 관점에서 최적화되어있지 않다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 새로운 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 제안한다. MR-SEAP에서는 데이터를 샘플링하여 샘플 스카이라인 객체를 추출한 뒤 해당 객체들을 균등 분배하는 각도를 기준으로 공간을 분할하여 스카이라인 질의를 병렬 계산하되, 샘플 스카이라인을 이용하여 다수의 객체를 사전에 프루닝함으로써 네트워크 비용을 절감한다. 본 논문에서는 다양한 데이터 수량(cardinality) 및 분포(distribution)에 따른 제안 기법의 성능을 실험 평가함으로써 제안 기법의 우수성을 검증한다.