• 제목/요약/키워드: parallel search algorithm

검색결과 160건 처리시간 0.031초

작업의 특성에 종속되는 병렬기계의 일정계획을 위한 발견적 기법 (A Heuristic for parallel Machine Scheduling Depending on Job Characteristics)

  • 이동현;이경근;김재균;박창권;장길상
    • 한국경영과학회지
    • /
    • 제17권1호
    • /
    • pp.41-41
    • /
    • 1992
  • In the real world situations that some jobs need be processed only on certain limited machines frequently occur due to the capacity restrictions of machines such as tools fixtures or material handling equipment. In this paper we consider n-job non-preemptive and m parallel machines scheduling problem having two machines group. The objective function is to minimize the sum of earliness and tardiness with different release times and due dates. The problem is formulated as a mixed integer programming problem. The problem is proved to be Np-complete. Thus a heuristic is developed to solve this problem. To illustrate its suitability and efficiency a proposed heuristic is compared with a genetic algorithm and tabu search for a large number of randomly generated test problems in ship engine assembly shop. Through the experimental results it is showed that the proposed algorithm yields good solutions efficiently.

서픽스트리 클러스터링 방법과 블라스트를 통합한 유전자 서열의 클러스터링과 기능검색에 관한 연구 (A Study on Clustering and Identifying Gene Sequences using Suffix Tree Clustering Method and BLAST)

  • 한상일;이성근;김경훈;이주영;김영한;황규석
    • 제어로봇시스템학회논문지
    • /
    • 제11권10호
    • /
    • pp.851-856
    • /
    • 2005
  • The DNA and protein data of diverse species have been daily discovered and deposited in the public archives according to each established format. Database systems in the public archives provide not only an easy-to-use, flexible interface to the public, but also in silico analysis tools of unidentified sequence data. Of such in silico analysis tools, multiple sequence alignment [1] methods relying on pairwise alignment and Smith-Waterman algorithm [2] enable us to identify unknown DNA, protein sequences or phylogenetic relation among several species. However, in the existing multiple alignment method as the number of sequences increases, the runtime increases exponentially. In order to remedy this problem, we adopted a parallel processing suffix tree algorithm that is able to search for common subsequences at one time without pairwise alignment. Also, the cross-matching subsequences triggering inexact-matching among the searched common subsequences might be produced. So, the cross-matching masking process was suggested in this paper. To identify the function of the clusters generated by suffix tree clustering, BLAST was combined with a clustering tool. Our clustering and annotating tool is summarized as the following steps: (1) construction of suffix tree; (2) masking of cross-matching pairs; (3) clustering of gene sequences and (4) annotating gene clusters by BLAST search. The system was successfully evaluated with 22 gene sequences in the pyrubate pathway of bacteria, clustering 7 clusters and finding out representative common subsequences of each cluster

Accelerating Self-Similarity-Based Image Super-Resolution Using OpenCL

  • Jun, Jae-Hee;Choi, Ji-Hoon;Lee, Dae-Yeol;Jeong, Seyoon;Cho, Suk-Hee;Kim, Hui-Yong;Kim, Jong-Ok
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권1호
    • /
    • pp.10-15
    • /
    • 2015
  • This paper proposes the parallel implementation of a self-similarity based image SR (super-resolution) algorithm using OpenCL. The SR algorithm requires tremendous computations to search for a similar patch. This becomes a bottleneck for the real-time conversion from a FHD image to UHD. Therefore, it is imperative to accelerate the processing speed of SR algorithms. For parallelization, the SR process is divided into several kernels, and memory optimization is performed. In addition, two GPUs are used for further acceleration. The experimental results shows that a GPGPU implementation can speed up over 140 times compared to a single-core CPU. Furthermore, it was confirmed experimentally that utilizing two GPUs can speed up the execution time proportionally, up to 277 times.

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘 (An efficient acceleration algorithm of GPU ray tracing using CUDA)

  • 지중현;윤동호;고광희
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.469-474
    • /
    • 2009
  • 본 논문은 CUDA를 이용하여 GPU에서의 최적화된 kd-tree 탐색구조 환경과 광선/삼각형의 교차검사 알고리즘을 통한 실시간의 광선추적 시스템을 제안한다. 기존의 GPU 기반 kd-tree 탐색 알고리즘은 대부분 스택이 없는 GPU 하드웨어의 특성상 임의의 단말노드에서 기하요소의 교차검사가 실패할 경우 상위노드로 상향식 탐색을 진행하기 때문에 노드에 대한 중복 방문이 반드시 필요하거나 혹은 불필요한 메모리의 적재가 필요하기 때문에 큰 장면에 대한 광선추적은 어렵게 된다. 본 논문에서 제안하는 알고리즘은 CPU 방식의 kd-tree 탐색과 비슷하게 동작하도록 stack을 CUDA 프레임워크를 이용하여 GPU의 지역메모리로 구현하였기 때문에 기존의 방법 등에서의 문제점을 해결하였다. 또한 탐색구조를 통해서 찾은 말단 삼각형들의 처리를 위해서 최신의 CPU 기반의 교차검사 알고리즘인 Plucker 좌표계 검사를 CUDA로 구현하여 병렬 가속시켰다. Plucker 검사는 기존의 무게중심 좌표 대신에 광선과 삼각형 edge의 관계를 이용하는 간단한 연산만을 이용하는 장점이 있다. 전체 시스템은 단일 커널로 구성되어 있으며 병렬처리를 위한 복잡한 동기화나 광선패킷의 도입 없이 간단하게 구현되었다. 결과적으로 본 논문의 실험은 기존 알고리즘 대비 제안하는 알고리즘이 약 2배의 성능 향상이 있음을 보여 준다.

  • PDF

관수로 시스템의 최적설계 (Optimal Design of Municipal Water Distribution System)

  • 안태진;박정응
    • 대한토목학회논문집
    • /
    • 제14권6호
    • /
    • pp.1375-1383
    • /
    • 1994
  • 관수로시스템 문제는 수리학적 및 시스템운영 제약조건아래서 시스템의 전체비용을 최소비용으로 구하는 것이다. 관수로시스템 문제는 수많은 국지해(local minimum)을 갖는 비볼록(nonconvex) 이므로 종래의 최적화 기법은 임의의 국지해만을 구할 수 있다. 따라서 본 연구에서는 좀더 나은 국지해를 구하기 위해 외부탐사 및 내부최적화 단계 즉 2 단계 분해기법을 제안하였다. 외부탐사 단계에서는 관로들의 최적유량을 찾기 위해 여러 국지해 사이를 이동하면서 좀더 나은 국지해를 찾는 방법인 추계학적탐사방법(stochastic probing method)을 이용 하였고 내부최적화 단계(local minimizer)에서는 외부탐사 단계에서 구한 국지해를 증진시킨다. 이 제안한 방법은 신설 관수로시스템 설계와 기존 관수로시스템의 확장에 적용할 수 있으며, 제안한 방법의 효율성을 검증하기 위해 어느 관수로시스템을 표본으로 채택하여 제안한 방법을 적용한 결과 먼저 발표된 연구자들의 결과보다 적은 비용으로 설계할 수 있었다.

  • PDF

고속 탐색 알고리즘에 적합한 움직임 추정 전용 명령어 및 구조 설계 (Novel IME Instructions and their Hardware Architecture for Fast Search Algorithm)

  • 방호일;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제48권12호
    • /
    • pp.58-65
    • /
    • 2011
  • 본 논문은 H.264/AVC, MPEG4 등, 다양한 영상압축 코덱을 지원할 수 있는 ME ASIP (Application-specific Instruction Processor)의 정화소 움직임 추정 전용 명령어와 재구성 가능한 하드웨어 구조를 제안한다. 제안하는 전용의 명령어와 하드웨어 가속기는 HD급의 고화질 영상을 지원할 수 있는 성능을 가지고 있다. 제안하는 정화소 움직임 추정 명령어는 다수의 병렬 연산과 패턴 정보를 이용한 가변 포인트 2D SAD 연산기 구조를 통하여 전역탐색을 비롯한 각종 고속 탐색 알고리즘을 지원한다. 이를 위한 하드웨어 구조는 128개의 Processor Elements (PEs)로 구성되어 있는 Processor Element Group (PEG) 하나당 25,500 게이트를 가진다. 제안하는 ASIP은 Synopsys 사의 Processor Designer 로 검증하였고, Design Compiler를 이용 IBM 90nm 공정으로 합성하였다. 그 결과 제안하는 ASIP의 하드웨어 사이즈는 453K 게이트였으며, 동작 주파수는 188MHz로 HD급 1080p의 해상도를 가지는 영상을 실시간으로 동작 시킬 수 있다. 본 논문은 기존 2D SAD ASIP에 비하여 하드웨어 사이즈 측면에서 26%, 연산 속도 측면에서 평균 18%의 성능 향상을 보인다.

대용량 LiDAR 데이터 보간을 위한 MPI 격자처리 과정의 작업량 발란싱 기법 (Task Balancing Scheme of MPI Gridding for Large-scale LiDAR Data Interpolation)

  • 김선영;이희진;박승규;오상윤
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권9호
    • /
    • pp.1-10
    • /
    • 2014
  • 본 논문은 MPI를 이용하여 LiDAR 데이터를 처리하는 방식에서 각 코어간의 통신을 최소화하고 작업량 발란싱을 위해 격자크기를 다양하게 하여 LiDAR 데이터의 보간 처리 성능을 향상시키는 기법을 제안한다. 항공기 등을 통해 얻어진 LiDAR 데이터는 3차원 공간정보로서 정밀한 관측 성능과 거리 정보를 포함하여 지리정보, 기상관측 등 다양한 분야에 활용되고 있다. 하지만 필요보다 높은 해상도의 데이터를 사용하거나, 비지표정보를 포함하는 경우를 위해 획득된 LiDAR 데이터를 필터링 하여 사용하게 되며, 필터링된 데이터를 사용하기 위해서는 주변을 탐색할 수 있는 자료구조를 이용해서 보간법을 수행하여야만 데이터가 재구성된다. 데이터의 규모에 비례하여 처리시간도 증가하기 때문에 이를 해결하기 위해 MPI를 이용한 고성능 병렬 처리 방식 연구가 활발히 진행되고 있다. 그러나 기존에 병렬 처리를 사용한 기존의 방식은 각 노드에 할당된 데이터의 밀도가 달라 성능 저하가 생길 수 있으며, 경계값 불일치를 해결하기 위해 노드간의 통신이 많아지는 단점을 가진다. 제안한 방법의 효과를 검증하기 위해 기존 연구에서 제안된 방식들과 처리 성능을 비교하였으며, 데이터에 따라 최대 4.2배의 실행시간 단축되는 것을 확인하였다.

병렬 Shifted Sort 알고리즘의 Warp 단위 CUDA 구현 최적화 (Optimization of Warp-wide CUDA Implementation for Parallel Shifted Sort Algorithm)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권4호
    • /
    • pp.739-745
    • /
    • 2017
  • 본 논문에서는 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위(warp) 내에서 shifted sort 기반 k개 최근접 이웃 검색 기법을 구현하는 방법을 논의하고 일반적으로 동일한 목적으로 널리 사용되는 GPU 기반 kd-tree 및 CPU 기반 ANN 라이브러리와 비교한 결과를 제시한다. 또한 많은 애플리케이션에서 k가 비교적 작은 값이 필요한 경우가 많다는 사실을 고려해서 k가 warp 내부에서 직접 처리 가능한 2, 4, 8, 16개일 때 최적화에 집중한다. 구현 세부에서는 사용한 CUB 공개 라이브러리의 루프 내 메모리 관리 방법, GPU 하드웨어 직접 명령 적용 방법 등의 최적화 방법을 논의한다. 실험 결과, 제안하는 방법은 기존의 GPU 기반 유사 방법에 비해 데이터 지점과 질의 지점의 개수가 각각 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이러한 경향은 처리해야 할 데이터의 크기가 커지면 더욱 더 커지는 것으로 판단된다.

맵리듀스 잡을 사용한 해시 ID 매핑 테이블 기반 대량 RDF 데이터 변환 방법 (Conversion of Large RDF Data using Hash-based ID Mapping Tables with MapReduce Jobs)

  • 김인아;이규철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.236-239
    • /
    • 2021
  • AI 기술의 성장과 함께 지식 그래프의 크기는 지속적으로 확장되고 있다. 지식 그래프는 주로 트리플이 연결된 RDF로 표현되며, 많은 RDF 저장소들이 RDF 데이터를 압축된 형태의 ID로 변환한다. 그러나 RDF 데이터의 크기가 특정 기준 이상으로 클 경우, 테이블 탐색으로 인한 높은 처리 시간과 메모리 오버헤드가 발생한다. 본 논문에서는 해시 ID 매핑 테이블 기반 RDF 변환을 분산 병렬 프레임워크인 맵리듀스에서 처리하는 방법을 제안한다. 제안한 방법은 RDF 데이터를 정수 기반 ID로 압축 변환하면서, 처리 시간을 단축하고 메모리 오버헤드를 개선한다. 본 논문의 실험 결과, 약 23GB의 LUBM 데이터에 제시한 방법을 적용했을 때, 크기는 약 3.8배 가량 줄어들었으며 약 106초의 변환 시간이 소모되었다.

  • PDF

ASIP을 위한 움직임 추정 전용 연산기 구조 및 명령어 설계 (Motion Estimation Specific Instructions and Their Hardware Architecture for ASIP)

  • 황성조;선우명훈
    • 대한전자공학회논문지SP
    • /
    • 제48권3호
    • /
    • pp.106-111
    • /
    • 2011
  • 본 논문은 H.264나 MPEG4등, 다양한 영상압축 코덱을 지원할 수 있는 ME ASIP의 전용 IME 명령어와 재구성 가능한 하드웨어 구조를 제안한다. 제안하는 전용의 명령어와 하드웨어 가속기는 HD급의 고화질 영상을 지원할 수 있는 성능을 가지고 있다. 제안하는 IME명령어는 다수의 병렬 연산과 패턴 정보를 이용한 연산기 제어를 통하여 전역탐색을 비롯한 각종 고속 탐색 알고리즘을 지원한다. 제안한 하드웨어 구조는 256개의 Processor Elements로 구성되어 있는 Processor Element Group (PEG) 하나당 77,860 게이트를 가진다. 16개의 PEG로 구성된 ASIP은 160MHz의 동작 주파수를 가지고 있으며, HD급 1080p의 해상도를 가지는 영상을 실시간으로 동작 시킬 수 있다.