• 제목/요약/키워드: Parallel computation

검색결과 594건 처리시간 0.022초

이더넷 다중 클러스터에서 GHT의 병렬 분산 구현 (Parallel Distributed Implementation of GHT on Ethernet Multicluster)

  • 김영수;김명호;최흥문
    • 전자공학회논문지CI
    • /
    • 제46권3호
    • /
    • pp.96-106
    • /
    • 2009
  • 이더넷 클러스터에서 그 분산처리 규모를 확장하려면 스위치 당 최대포트 수(현재 48포트)에 의해 물리적 제약을 받는다. 본 연구에서는 MPI기반 이더넷 클러스터에서 일반화 허프변환(generalized Hough transform: GHT)의 분산처리 규모를 확장하기 위해 다수의 이더넷 스위치들로 다중 클러스터를 구현하고, 확장에 따른 통신 부담을 병렬분산 시간분석 모델 및 통신성능 모델로 분석한 후 고속화 구현하였다. 다중 클러스터 분산처리환경에서 가능한 작업분할 정책들에 대해 평가하고, 허프공간 누산기 배열분할(accumulator array partitioning: AAP)정책을 수정 적용하여 노드간의 통신회수와 통신시간을 최소화하였고, 노드 수의 증가에 따라 AAP 정책의 분할 데이터 범위를 크게 하고 그에 부합하는 부하균형 알고리즘도 구현하였다. 단일링크 병목을 갖는 클러스터간(intercluster) 통신지연을 최대한 줄이기 위하여 일감 분배에는 선형 파이프라인 방송을 사용하고, 작은 결과 메시지들의 수합(gathering)에는 선형 플랫트리(flat tree)를 사용함으로써 총체적으로 계산과 통신을 최대한 시간 중첩시켰다. 제안한 병렬분산 GHT를 이더넷 다중 클러스터 상에서 그 성능을 점근해석하고 실험하여, 4개 고속 이더넷 스위치로 128 노드의 MPI 기반 다중 클러스터를 구현하여 거의 선형에 가까운 속도제고율(speedup)을 확인하였다.

스크립트 언어를 사용한 DSSAT 모델 기반 격자형 작물 생육 모의 시스템 개발 (Development of a gridded crop growth simulation system for the DSSAT model using script languages)

  • 유병현;김광수;반호영
    • 한국농림기상학회지
    • /
    • 제20권3호
    • /
    • pp.243-251
    • /
    • 2018
  • 작물 생산량의 시 공간적 분석은 정책입안자와 이해관계자들에게 중요한 정보를 제공할 수 있으나, 이를 위해서는 공간적 기상자료를 처리하고 이에 맞추어 작물 모형을 구동할 수 있는 작업들이 필요하다. 이에 따라 DSSAT (Decision Support System for Agrotechnology Transfer)을 기반으로 지역내 작물 생산성 자료를 생산할 수 있는 자동화 시스템을 개발하고자 하였다. 이 시스템은 전문적인 컴퓨터 프로그래머가 아니더라도 사용가능한 R과 shell script를 기반으로 개발되었다. 먼저, 격자형 기상자료의 각 격자에 해당하는 정보를 텍스트 형식의 기상 입력자료 형식으로 변환하는 기능을 가지는 모듈을 작성하였다. 다음으로 R 패키지를 사용하여 GIS자료 처리와 병렬 처리기능이 구현된 R script을 작성하였다. 또한, 작물 모델을 자동으로 구동하는 기능을 shell script를 사용하여 구현하였다. 사례 연구로, 미국 Illinois 주에서 콩의 최대 수량을 얻을 수 있는 재배관리 조건의 공간적인 분포를 파악하고자 하였다. 개발된 도구를 통해 AgMERRA 자료로부터 Illinois 주의 1981 - 2005년 까지의 기상입력자료를 생산하였다. 해당 지역에서 1개의 CPU 코어를 사용하여 1년간의 자료를 처리하기 위해 7.38 시간이 걸렸으나, 병렬처리를 통해 16개의 CPU 코어를 사용하였을 때 처리 시간이 크게 줄어, 35분만에 처리가 가능하였다. 이렇게 생산된 기상 입력자료들을 작물 모형 자동 구동 시스템에 활용하여 해당 지역에서의 최대 수량과, 최대 수량을 가지는 성숙군 및 파종일 지도를 작성할 수 있었다. 특히, 본 연구에서 개발된 도구는 DSSAT 모델뿐만 아니라 국내에서 사용되는 다른 작물모델들에게 적용될 수 있어 공간적 작물 생산성 평가에 도움을 줄 수 있을 것으로 보인다.

Radix-4 트렐리스 병렬구조 및 역방향 상태천이의 제어에 의한 역추적 비터비 디코더 (Radix-4 Trellis Parallel Architecture and Trace Back Viterbi Decoder with Backward State Transition Control)

  • 정차근
    • 대한전자공학회논문지SP
    • /
    • 제40권5호
    • /
    • pp.397-409
    • /
    • 2003
  • 본 논문에서는 2-step 트렐리스를 하나로 통합한 Radix-4 트렐리스 병렬구조 및 역방향 상태천이의 연속적인 제어에 의한 역추적 비터비 디코더를 구현하고, 이를 초고속 무선 랜에 응용한 결과를 제시한다. Radix-4 트렐리스 병렬구조의 비터비 디코더는 throughput을 개선함과 동시에 구조가 간단하고 지연시간 및 회로의 overhead가 적은 이점이 있다. 이 특성을 기반으로, 본 논문에서는 Radix-4 트렐리스 병렬구조의 구현을 위한 가지 메트릭의 계산과 ACS의 구성, 역방향 상태천이의 연속적인 제어에 의한 역추적 복호 등으로 구성된 새로운 비터비 디코더를 제안한다. 본 제안방법의 적용으로 펑처링의 결과로 인한 가변 부호율의 복호를 통합된 하나의 디코더로 대응할 수 있으며, 부호율의 변화에 따라 별도의 부가회로나 주변제어 회로를 요구하지 않는 특성을 갖는다. 또한, 본 논문에서 제안한 역방향 상태천이의 제어에 의한 역추적 복호는 메모리 제어를 위한 별도의 회로를 추가함이 없이 ACS 사이클 타임에 정확이 동기되어 순서적인 복호를 수행할 수 있게 한다. 제안방법의 유용성을 검증하기 위해, 초고속 무선 랜 규격인 IEEE 802.11a PHY 계층의 채널부호 및 복호에 적용하고, HDL 언어로 구현한 회로의 시뮬레이션 결과를 제시한다.

기업 직무 정보를 활용한 OOPP(Optimized Online Portfolio Platform)설계 (A Design of the OOPP(Optimized Online Portfolio Platform) using Enterprise Competency Information)

  • 정보근;박진욱;이병관
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.493-506
    • /
    • 2018
  • 본 논문에서는 직무별로 취업에 필요한 역량을 나타내고, 구직자가 온라인상에서 포트폴리오를 효율적으로 작성하고 관리하는 OOPP(Optimized Online Portfolio Platform)를 제안한다. 제안하는 OOPP는 세 가지 모듈로 구성된다. 첫째, JDCM(Job Data Collection Module)은 직업정보 사이트의 구인 광고들을 수집하여 스프레드시트에 저장한다. 둘째, CSM(Competency Statistical Medel)은 수집한 구인 광고들을 텍스트 마이닝하여 직무별로 요구되는 핵심 역량을 분류한다. 셋째, OBBM(Optimize Browser Behavior Module)은 브라우저의 처리속도를 개선하여 사용자가 데이터를 빠르게 조회할 수 있게 한다. OBBM은 검색엔진의 연산을 최적화하는 PSES(Parallel Search Engine Sub-Module)과 이미지 텍스트 등의 로드를 최적화하는 OILS(Optimized Image Loading Sub-Module)로 구성된다. 제안하는 OOPP의 성능분석 결과 CSM로 분석된 데이터의 정확도는 최대 100%, 최소 99.4%로 실제 광고와 분석된 데이터의 차이가 거의 발생하지 않았으며, OBBM을 이용한 브라우저 최적화를 실행하면, 작업시간이 약 68.37%가 감소한다. 결과적으로 OOPP는 직현재 직업정보 사이트의 구인 광고를 정확하게 분석하여 사용자가 분석한 결과를 웹페이지에서 신속하게 조회할 수 있다.

CUDA 라이브러리를 이용한 위성영상 병렬처리 : NDVI 연산을 중심으로 (Parallel Processing of Satellite Images using CUDA Library: Focused on NDVI Calculation)

  • 이강훈;조명희;이원희
    • 한국지리정보학회지
    • /
    • 제19권3호
    • /
    • pp.29-42
    • /
    • 2016
  • 원격탐사는 넓은 지역을 직접 접촉하지 않고 정보를 취득할 수 있고 다양한 분야에 적용할 수 있음으로써 급속히 발전하게 되었다. 이에 따라 위성의 제원 또한 원격탐사의 발전과 함께 급속한 발전을 이루게 되었다. 이러한 이유로 여러 분야에서 활용에 관한 연구가 활발히 이루어지고 있다. 현재 활용에 관한 연구는 활발히 이루어지고 있지만, 자료처리에 관련된 연구가 부족한 실정이다. 예전보다 인공위성의 제원이 발전하면서 많은 양의 정보 획득이 가능해진 것과 동시에 데이터 크기 또한 매우 커졌다. 이는 과거에 비해 자료의 처리속도가 저하된다는 단점이 존재한다. 따라서 본 논문에서는 병렬 처리의 한 가지 기법인 NVIDIA에서 제공하고 있는 CUDA (Compute Unified Device Architecture) 라이브러리를 활용하여 위성영상 자료처리 성능의 최적화를 목적으로 하고 있다. 본 연구의 순서는 다음과 같다. 다목적실용위성(Korea Multi-Purpose Satellite, KOMPSAT)의 영상을 크기를 기준으로 5가지 Type으로 나눈다. 이렇게 나누어진 영상을 원격탐사 분야의 한 가지 방법인 NDVI (Normalized Difference Vegetation Index)로 구현한다. 이때 CPU (Central Processing Unit, 중앙처리장치) 기반과 GPU (Graphic Processing Unit, 그래픽처리장치) 기반의 두 가지 방법과 상용 소프트웨어인 ArcMap을 이용하여 NDVI를 구현한다. 그리고 동일한 영상 유무를 판단하기 위해 구현된 결과 영상들을 히스토그램과 시각적으로 비교하고 CPU 버전과 GPU 버전의 처리속도를 비교 분석하였다. 연구결과 CPU 버전과 GPU 버전의 결과 영상은 ArcMap으로 구현한 영상과 시각적 그리고 히스토그램 비교를 통해 같은 결과를 나타내어 NDVI 코드는 올바르게 구현되었으며, 처리속도는 CPU보다 GPU가 약 5배 정도 빠른 것으로 확인하였다. 본 연구에서 병렬 처리의 한 기법인 CUDA 라이브러리를 활용하여 위성영상 자료처리 성능을 향상시킬 수 있었으며, 향후 NDVI와 같은 단순한 픽셀 연산 이외에도 다양한 원격탐사 기법의 적용이 필요할 것으로 사료된다.

H.264/AVC 를 위한 높은 처리량의 2-D $8{\times}8$ integer transforms 병렬 구조 설계 (High Throughput Parallel Design of 2-D $8{\times}8$ Integer Transforms for H.264/AVC)

  • 미투라니 사르마;하니 티와리;조용범
    • 대한전자공학회논문지SD
    • /
    • 제49권8호
    • /
    • pp.27-34
    • /
    • 2012
  • 본 논문에서 H.264표준을 위해 2차원 $8{\times}8$ 순방향/역방향 정수 DCT 변환을 빠르고 효율적으로 계산할 수 있는 알고리즘을 제안한다. 순방향/역방향 변환은 간단한 시프트와 덧셈 동작을 사용하여 계산 복잡도를 줄였으며, DCT 연산에 메모리를 사용하지 않으므로 해서 불필요한 자원소모를 줄였다. 제안된 파이프라인 아키텍처의 최대 동작 주파수는 1.184GHz이며, 합성결과는 44864 게이트가 사용되어 25.27Gpixels/sec의 스루풋을 보여준다. 면적 비율에 비해 높은 스루풋으로 인해, 제안된 설계는 H.264/AVC 고해상도 비디오기술의 실시간 처리에 효율적으로 사용할 수 있다.

재난지역에서의 대피·대응 동시수행을 위한 다중목적 긴급대피경로 최적화 (Route Optimization for Emergency Evacuation and Response in Disaster Area)

  • 강창모;이종달;송재진;정광수
    • 대한토목학회논문집
    • /
    • 제34권2호
    • /
    • pp.617-626
    • /
    • 2014
  • 최근 들어 재난 발생으로 인한 재산 및 인명피해가 속출하고 있다. 이에 따라 국내 여러 분야에서 분야별 대응방안 모색을 위해 노력하고 있지만 대피매뉴얼 작성을 위한 연구는 미비한 실정이다. 본 연구에서는 공단과 같은 산업지역에서 대규모 대피가 필요한 사고가 발생하였을 때, 대응방안에 따른 최적의 대피경로를 산정하는 모형을 개발하였다. 모형개발에는 Dijkstra 최단경로 알고리즘, 가능경로법, 유전자 알고리즘 및 파레토 최적해 산정 등을 통하여 모형을 개발하였고, 병렬처리를 통하여 연산시간을 단축시킬 수 있도록 하였다. 뿐만 아니라 개발된 모형을 가상네트워크에 대한 적용을 통해 타당성을 검증하였고, 구미 국가산업 1단지를 대상으로 적용하여 실제 지역을 대상으로 한 모형의 적용성을 검증하였다. 모형을 이용하여 목적함수별 최적경로를 산출한 결과, 최적경로 산출 이전보다 좋은 결과를 얻을 수 있어 타당성이 검증되었고, 실제 지역을 대상으로 연산한 결과를 통해 모형의 적용성도 검증되었다. 본 연구 결과는 재난을 대비한 대응목적별 대피매뉴얼의 작성뿐만 아니라, 재난 발생 시 대응차량의 진입경로 산정에도 도움이 될 것으로 판단된다.

MCM과 폴딩 방식을 적용한 웨이블릿 변환 장치의 VLSI 설계 (VLSI Design for Folded Wavelet Transform Processor using Multiple Constant Multiplication)

  • 김지원;손창훈;김송주;이배호;김영민
    • 한국멀티미디어학회논문지
    • /
    • 제15권1호
    • /
    • pp.81-86
    • /
    • 2012
  • 본 논문은 하드웨어 곱셈 연산을 최적화 한 리프팅 기반의 9/7 웨이블릿 필터의 VLSI 구조를 제안한다. 제안하는 구조는 범용 곱셈기를 사용하는 기존의 리프팅 기법과 달리 웨이블릿 계수에 패턴 탐색 기법의 Lef$\grave{e}$vre 알고리즘을 적용하였으며, MCM(Multiple constant multiplication)과 폴딩 방식을 9/7 DWT 필터에 적용하여 효율적으로 하드웨어 설계가 이루어 질수 있도록 제안하였다. 이러한 구조는 하드웨어 자원을 100% 활용하는 이점을 지니며, 이전의 성능에 비해 화질 열화 없이 단순한 하드웨어 구조, 속도, 면적, 전력소모 측면에서 효율적이다. 비교 실험을 위해 Verilog HDL을 통해 구현하였으며, $0.18{\mu}m$ CMOS 공정의 스탠다드 셀을 이용하여 합성하였다. 제안한 구조를 기존의 구조와 200MHz의 합성 타겟 클럭 주파수에서 비교하였을 때 면적, 전력소모 측면에서 60.1%, 44.1% 감소하였으며, 이를 통해 이전의 리프팅 기법에 비해 하드웨어 구현에 보다 최적화된 구조임을 보여준다.

GPGPU와 Combined Layer를 이용한 필기체 숫자인식 CNN구조 구현 (Implementation of handwritten digit recognition CNN structure using GPGPU and Combined Layer)

  • 이상일;남기훈;정준모
    • 문화기술의 융합
    • /
    • 제3권4호
    • /
    • pp.165-169
    • /
    • 2017
  • CNN(Convolutional Nerual Network)는 기계학습 알고리즘 중에서도 이미지의 인식과 분류에 뛰어난 성능을 보이는 알고리즘 중 하나이다. CNN의 경우 간단하지만 많은 연산량을 가지고 있어 많은 시간이 소요된다. 따라서 본 논문에서는 CNN 수행과정에서 많은 처리시간이 소모되는 convolution layer와 pooling layer, fully connected layer의 연산수행을 SIMT(Single Instruction Multiple Thread)구조의 GPGPU(General-Purpose computing on Graphics Processing Units)를 통하여 병렬로 연산처리를 수행했다. 또한 convolution layer의 출력을 저장하지 않고 pooling layer의 입력으로 바로 사용함으로 메모리 접근횟수를 줄여 성능 향상을 기대했다. 본 논문에서는 이 실험검증을 위하여 MNIST 데이터 셋을 사용하였고 이를 통하여 제안하는 CNN 구조가 기존의 구조보다 12.38% 더 좋은 성능을 보임을 확인했다.

Static Homogeneous Multiprocessor Task Graph Scheduling Using Ant Colony Optimization

  • Boveiri, Hamid Reza;Khayami, Raouf
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권6호
    • /
    • pp.3046-3070
    • /
    • 2017
  • Nowadays, the utilization of multiprocessor environments has been increased due to the increase in time complexity of application programs and decrease in hardware costs. In such architectures during the compilation step, each program is decomposed into the smaller and maybe dependent segments so-called tasks. Precedence constraints, required execution times of the tasks, and communication costs among them are modeled using a directed acyclic graph (DAG) named task-graph. All the tasks in the task-graph must be assigned to a predefined number of processors in such a way that the precedence constraints are preserved, and the program's completion time is minimized, and this is an NP-hard problem from the time-complexity point of view. The results obtained by different approaches are dominated by two major factors; first, which order of tasks should be selected (sequence subproblem), and second, how the selected sequence should be assigned to the processors (assigning subproblem). In this paper, a hybrid proposed approach has been presented, in which two different artificial ant colonies cooperate to solve the multiprocessor task-scheduling problem; one colony to tackle the sequence subproblem, and another to cope with assigning subproblem. The utilization of background knowledge about the problem (different priority measurements of the tasks) has made the proposed approach very robust and efficient. 125 different task-graphs with various shape parameters such as size, communication-to-computation ratio and parallelism have been utilized for a comprehensive evaluation of the proposed approach, and the results show its superiority versus the other conventional methods from the performance point of view.