• 제목/요약/키워드: 병렬 라이브러리

검색결과 172건 처리시간 0.025초

병렬구조를 이용한 증강현실 구현 (Implementation of augmented reality using parallel structure)

  • 박태룡;허훈;곽재창
    • 전기전자학회논문지
    • /
    • 제17권3호
    • /
    • pp.371-377
    • /
    • 2013
  • 본 논문에서는 FAST와 BRIEF 알고리즘을 기반으로 하는 증강현실을 구현하기 위해서 효율적인 병렬 구조를 제안한다. 객체 인식 알고리즘으로 잘 알려진 SURF 알고리즘은 객체인식에 강인하지만 연산 량이 많아 실시간으로 구현하기에 어려운 단점을 가지고 있다. FAST와 BRIEF 알고리즘을 활용하여 객체를 인식하였고, 임베디드 환경에서 성능을 향상하기 위해 기존의 OpenMP 라이브러리를 사용한 병렬구조를 개선하여 속도를 약 70%에서 100%로 향상 시켰다.

Windows-NT 워크스테이션 클러스터를위한 소프트웨어 기반 분산 공유 메모리 시스템의 구현 및 성능 평가 (Implementation and Performance Evaluation of a Software-based DSM Sytem for a Windows-NT Workstations Cluster)

  • 이종우
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권2호
    • /
    • pp.176-184
    • /
    • 1999
  • 지금까지의 소프트웨어 기반 분산 공유 메모리(이하 DSM이라 칭함)시스템은 유닉스 워크스테이션 클러스터를 목표로 하는 것이 대부분이었다. 그러나 현재 Windows-NT 는 서버급 시스템과 PC 모두를 위한 운영체제로서 유닉스와 더불어 널리 사용되고 있는 실정이다. 본 논문에서는 Windows-NT 워크스테이션 클러스터 환경을 위한 DSM 시스템을 구현하고, 구현된 DSM 시스템의 성능 평가 결과를 제시한다. 구현된 DSM 시스템은 Win32 API와 표준 실행-시간 라이브러리를 이용해 구현되었기 때문에 모든 Windows-NT 워크스테이션에서 실행 가능하며 , 프로그래머는 몇 라인의 코드 추가만으로 DSM 시스템 상에서 수행되는 병렬 응용 프로그램을 작성할 수 있다. 워크스테이션 간의 상호연결망으로 범용성을 위해 이더넷 LAN을 지원하였고, 아울러 성능 향상을 위해 기가비트 SAN(System Area Network)도 지원하였다. 기가비트 SAN을 위한 하드웨어로는 Dolphin 사의 PCI-SCI 타입 제품인 Clustar를 사용하였다. 우리는 성능 평가를 통해, 구현된 DSM 시스템이 정확히 동작함은 물론 확장성이 뛰어나다는 것을 확인하였다. 특히 , 기가비트 SAN을 사용할 경우 일부 병렬 벤치 마크 프로그램에서는 노드 수 증가에 따라 성능이 거의 선형적으로 향상된다는 것을 알 수 있었다. 본 논문이 기여하는 바는 Windows-NT 기반 소프트웨어 DSM 시스템의 원천 기술을 확보함으로써 향후 Windows-NT 워크스테이션 클러스터 환경에서의 분산 및 병렬 처리 연구에 도움을 줄 수 있다는 점이다.

소켓 및 RMI 기반 자바 메시지 전달 시스템의 구현 및 성능평가 (Implementation and Performance Evaluation of Socket and RMI based Java Message Passing Systems)

  • 방승준;안진호
    • 인터넷정보학회논문지
    • /
    • 제8권5호
    • /
    • pp.11-20
    • /
    • 2007
  • 본 논문은 자바 언어로 완성된 MPI(Message Passing Interface) 스펙인 MPJ(Message Passing in Java) 스펙을 준수하여 병렬 컴퓨팅 환경에서 메시지 통신 인터페이스를 제공하는 JMPI(Java Message Passing Interface) 라이브러리를 설계하고 구현하였다. 이 라이브러리는 간단하면서도 매우 편리한 GUI(Graphical User Interface) 도구를 제공하여, 사용자가 손쉽게 병렬 컴퓨팅 환경을 구성할 수 있다. 또한, 본 논문에서는 두 가지 전형적인 분산 시스템 통신 메커니즘인 소켓과 RMI(Remote Method Invocation) 방식을 이용하여 두 가지 버전의 시스템을 구현하였고, 기존의 JPVM 시스템과의 성능을 벤치마크 애플리케이션들을 통하여 컴퓨터 대수의 증가에 따른 처리 속도를 비교해 보았다. 실험 결과로는 본 논문에서 제시한 JMPI 시스템이 JPVM시스템보다 다양한 측면에서 높은 성능을 발휘한다는 것과 컴퓨터의 가장 효율적인 처리 속도는 애플리케이션에 따라 컴퓨터의 수를 증가시킨다고 해서 일정하게 처리속도가 증가하는 것이 아니라 네트워크의 트래픽을 고려하여 컴퓨터의 수를 증가시켰을 때 얻을 수 있다는 것을 보여준다. 마지막으로 컴퓨터의 수가 증가함에 따라 RMI를 사용하여 메시지를 전달하는 것이 소켓에 부속된 객체 스트림을 사용하여 메시지를 전달하는 것보다 효과적이라는 것을 알 수 있다.

  • PDF

비정형 응용을 위한 워크스테이션 클러스터링 환경에서의 병렬 입출력 시스템 (A Parallel I/O System on Workstation Clustering Environment for Irregular Applications)

  • 노재춘;박성순;알록 샤우드리
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권5호
    • /
    • pp.496-505
    • /
    • 2000
  • 워크스테이션 클러스터 환경은 그 가격 대 성능비가 일반적으로 MPPS보다 좋고, 그 소프트웨어나 하드웨어가 쉽게 이후에 개선될 수 있기 때문에 병렬처리 분야에서 새로운 대안으로 연구되고 있다. 본 논문에서는 ‘집단적 입출력 클러스터링 (Collective I/O Clustering)’이라 불리는 워크스테이션 클러스터를 위한 실행사간 라이브러리의 설계 및 구현 방안을 제시한다. 이 라이브러리에서는 통신 및 입출력 시스템 하에서 완벽하게 통합되는 워크스테이션 클러스터 상에서 비정형 응용 프로그램의 입출력을 위해 , 사용자에 친숙한 프로그래밍 모형을 제공한다,. 이 집단적 입출력 클러스터링에서는 두 가지 형태의 입출력 방식이 가능하다 첫 번째 입출력 방식에서 할당되는 모든 프로세서들은 연산 노드뿐만 아니라, 입출력 서버의 역할도 수행하는 형태이다. 두 번째 입출력 방식에서는 오직 일부분의 프로세서들만이 입출력 서버의 역할을 수행하는 형태이다. 그리고 본 논문에서는 통신과 입출력 비용을 최적화하기 위해 압축과 소프트웨어 캐슁 기능을 집단적 입출력 클러스터링에 적용한 결과를 보인다. 모든 성능실험 결과는 아르곤 연구소에서 보유하고 있는 IBM SP2를 사용하여 얻었다.

  • PDF

병렬 Shifted Sort 알고리즘의 Warp 단위 CUDA 구현 최적화 (Optimization of Warp-wide CUDA Implementation for Parallel Shifted Sort Algorithm)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권4호
    • /
    • pp.739-745
    • /
    • 2017
  • 본 논문에서는 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위(warp) 내에서 shifted sort 기반 k개 최근접 이웃 검색 기법을 구현하는 방법을 논의하고 일반적으로 동일한 목적으로 널리 사용되는 GPU 기반 kd-tree 및 CPU 기반 ANN 라이브러리와 비교한 결과를 제시한다. 또한 많은 애플리케이션에서 k가 비교적 작은 값이 필요한 경우가 많다는 사실을 고려해서 k가 warp 내부에서 직접 처리 가능한 2, 4, 8, 16개일 때 최적화에 집중한다. 구현 세부에서는 사용한 CUB 공개 라이브러리의 루프 내 메모리 관리 방법, GPU 하드웨어 직접 명령 적용 방법 등의 최적화 방법을 논의한다. 실험 결과, 제안하는 방법은 기존의 GPU 기반 유사 방법에 비해 데이터 지점과 질의 지점의 개수가 각각 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이러한 경향은 처리해야 할 데이터의 크기가 커지면 더욱 더 커지는 것으로 판단된다.

CRAY-2에서 멀티/마이크로 태스킹 라이브러리를 이용한 선형시스템의 병렬해법 (Parallel solution of linear systems on the CRAY-2 using multi/micro tasking library)

  • 마상백
    • 한국정보처리학회논문지
    • /
    • 제4권11호
    • /
    • pp.2711-2720
    • /
    • 1997
  • CRAY 에서 멀티/마이크로 태스킹은 다수의 CPU를 이용하여 계산속도를 증가시키는 하나의 방법이다. CRAY-2 에는 4개의 CPU 가 있으므로 적절히 설계된 알고리즘을 가지고 최대 4배의 speedup을 실현할 수 있다. 저자는 이 논문에서 CRAY-2에서 멀티태스킹/마이트로태스킹 라이브러리를 이용한 2가지의 선형시스템의 해의 병렬화를 제시한다. 하나는 조밀행렬에 대한 가우스 소거법이고 다른 하나는 Radicati di Brozolo가 제안한 준비행렬을 이용한 대형이산 행렬의 반복적 해법이다. 첫째 경우에 크기가 600인 행렬에서 2개의 CPU에 멀티태스킹을 이용하여 1.3의 speedup을 얻었으며 두 번째 경우에서는 크기가 8192인 행렬에서 4개의 CPU에 마이크로 태스킹을 사용하여 3이상의 speedup을 얻었다. 첫째 경우에서는 비균일한 벡터길이 때문에 speedup 이 제한되었다. 두 번째 경우에서는 Radicati 의 테크닉을 혼합한 ILU(0) 준비행렬은 4개의 프로세서에서 상당히 높은 speedup을 얻었다.

  • PDF

스마트폰 엔터테인먼트 애플리케이션의 상호작용성 개선을 위한 코드 수준 병렬화 방법론 (A Code-level Parallelization Methodology to Enhance Interactivity of Smartphone Entertainment Applications)

  • 김병철
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.381-390
    • /
    • 2015
  • 스마트폰과 같은 이동형 장치들은 계산 성능이나 메모리 크기, 배터리 전력량 등의 한계로 인해 엔터테인먼트 애플리케이션이 요구하는 상호작용성을 보장하기 어렵다. 이를 해결하기 위해 본 논문에서는 상호작용이 필수적인 애플리케이션의 응답 속도를 개선할 수 있는 코드 수준 병렬화 방법론을 제안한다. 이 방법을 적용하면, 스마트폰 등에서 제공하는 멀티코어 아키텍쳐를 바탕으로 기존 애플리케이션의 모노코어 알고리즘을 복잡한 재설계 없이 코드 수준에서 병렬화 할 수 있다. 특히 플랫폼 독립적인 표준 쓰레드 라이브러리인 POSIX 쓰레드를 활용하면 안드로이드나 iOS등의 다양한 스마트폰 플랫폼에서 본 방법론을 적용할 수 있다. 이의 효과적인 응용 사례로서 수백만개의 원소를 처리하는 행렬 연산 함수를 병렬화 해보았고 실사용 환경에서 약 3배가량의 성능 향상을 확인하였다.

CPU 클러스터 구축 및 3차원 공간분할 병렬 FDTD 알고리즘 구현 (Construction of a CPU Cluster and Implementation of a 3-D Domain Decomposition Parallel FDTD Algorithm)

  • 박성민;추광욱;주세훈;박윤미;김기백;정경영
    • 한국전자파학회논문지
    • /
    • 제25권3호
    • /
    • pp.357-364
    • /
    • 2014
  • 본 연구에서는 빠르게 전자파 해석을 수행할 수 있는 병렬 유한차분 시간영역(Finite-Difference Time-Domain: FDTD) 알고리즘을 구현하기 위하여 CPU 클러스터를 구축하였다. 병렬 FDTD 알고리즘은 단일 프로세서를 이용한 FDTD 알고리즘에 비해 해석 시간을 크게 줄일 수 있으며, 전기적으로 매우 큰 구조물에 대한 전자파 해석도 가능하다. 본 연구팀에서는 CPU 클러스터 기반의 병렬 FDTD 알고리즘에서 요구되는 프로세스 간의 통신을 위해 MPI(Message Passing Interface) 라이브러리를 이용하였으며, 3차원 공간분할을 적용하여 프로세스 간의 통신 시간을 최소화하였다. 단일 프로세서를 이용한 FDTD 알고리즘 대비 CPU 클러스터 기반의 병렬 FDTD 알고리즘의 계산속도 향상도를 기본 모드와 하이퍼 모드에서 분석하였으며, 전기적으로 매우 큰 콘크리트 구조물의 전자파 해석을 하였다.

제한된 범위의 Signed-Digit Number 인코딩을 이용한 병렬 십진 곱셈기 설계 (Design of Parallel Decimal Multiplier using Limited Range of Signed-Digit Number Encoding)

  • 황인국;김강희;윤완오;최상방
    • 전자공학회논문지
    • /
    • 제50권3호
    • /
    • pp.50-58
    • /
    • 2013
  • 본 논문에서는 제한된 범위의 Signed-Digit number 인코딩과 축약 단계를 이용한 고정소수점 병렬 십진 곱셈기를 제안한다. 제안한 병렬 십진 곱셈기는 승수와 피승수를 제한된 범위의 SD number로 인코딩하여 캐리 전달 지연 없이 빠르게 부분곱을 생성한다. 인코딩에 사용하는 숫자의 범위를 줄임으로써 SD number 다중 피연산자 덧셈의 한번에 연산 가능한 피연산자의 개수가 늘어나게 되고, 이에 따라 부분곱 축약 단계의 연산을 빠르게 수행 할 수 있다. 제안한 병렬 십진 곱셈기의 성능 평가를 위해 Design Compiler에서 SMIC사의 180nm CMOS 공정 라이브러리를 이용하여 합성한 결과 기존의 Signed-Digit number를 이용한 병렬 십진 곱셈기보다 전체 지연시간은 4.3%, 전체 면적은 5.3% 감소함을 확인 하였다. 전체 지연시간 및 면적에서 부분곱 축약 단계가 차지하는 비중이 가장 크므로 부분곱 생성 단계에서 약간의 지연시간 및 면적 증가가 있음에도 불구하고 전체 지연시간과 면적이 감소하는 결과를 얻을 수 있다.

다중 GPU기반 홀로그램 생성을 위한 병렬처리 성능 최적화 기법 (An Optimization Method for Hologram Generation on Multiple GPU-based Parallel Processing)

  • 국중진
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.9-15
    • /
    • 2019
  • 홀로그램의 생성을 위한 연산은 포인트 클라우드의 규모에 따라 연산량이 기하급수적으로 증가하기 때문에 최근에는 다중의 GPU를 기반으로 CUDA 또는 OpenCL 라이브러리를 활용한 병렬처리가 이루어지고 있다. GPU기반의 병렬처리를 위한 CUDA 커널은 GPU의 코어 개수와 메모리 크기를 고려하여 쓰레드(thread), 블록(block), 그리드(grid)를 구성해야 하며, 다중 GPU 환경인 경우 GPU의 개수에 따른 그리드, 블록, 또는 쓰레드 단위의 분산처리가 필요하다. 본 논문에서는 CGH 생성에 대한 성능평가를 위해 포인트 클라우드의 포인트 개수를 10~1,000,000개 범위에서 점진적으로 증가시키면서 CPU, 단일 GPU, 다중 GPU 환경에서 연산 속도를 비교해 보았으며, 다중 GPU 환경에서 CGH(Computer Generated Hologram) 생성 연산을 가속화하기 위한 CUDA 기반의 병렬처리 과정에서 요구되는 메모리 구조 설계와 연산 방법을 제안한다.