• 제목/요약/키워드: Computations Execution

검색결과 32건 처리시간 0.031초

휴대 장치용 기타 음 합성을 위한 매니코어 아키텍처의 디자인 공간 탐색 (Design Space Exploration of Many-Core Architecture for Sound Synthesis of Guitar on Portable Device)

  • 강명수;김종면
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.1-4
    • /
    • 2014
  • Although physical modeling synthesis is becoming more and more efficient in rich and natural high-quality sound synthesis, its high computational complexity limits its use in portable devices. This constraint motivated research of single-instruction multiple-data many-core architectures that support the tremendous amount of computations by exploiting massive parallelism inherent in physical modeling synthesis. Since no general consensus has been reached which grain sizes of many-core processors and memories provide the most efficient operation for sound synthesis, design space exploration is conducted for seven processing element (PE) configurations. To find an optimal PE configuration, each PE configuration is evaluated in terms of execution time, area and energy efficiencies. Experimental results show that all PE configurations are satisfied with the system requirements to be implemented in portable devices.

  • PDF

트리구조의 계산을 위한 효율적인 동적 부하분산 전략 (An Efficient Dynamic Load balancing Strategy for Tree-structured Computations)

  • 황인재;홍동권
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.455-460
    • /
    • 2001
  • 어떤 응용프로그램에서는 계산구조가 프로그램의 수행도중 동적으로 변한다. 이런 경우 정적으로 태스크를 분할하고 할당하는 것은 병렬컴퓨터에서 높은 성능을 얻는데 충분하지 못하다. 이 논문에서는 동적으로 변하는 트리구조를 가진 계산을 프로세서들에 효율적으로 분배하는 부하분산 알고리즘을 소개한다. 이 알고리즘의 메쉬구조상에서의 구현기법이 소개되고 복잡도가 분석된다. 실험을 통하여 이 알고리즘이 좋은 성능을 나타내는 것을 보인다.

  • PDF

GPU 기반 임베디드 시스템에서 대용량 데이터의 안정적 수신을 위한 ECC 연산의 가속화 (Acceleration of ECC Computation for Robust Massive Data Reception under GPU-based Embedded Systems)

  • 권지수;박대진
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.956-962
    • /
    • 2020
  • 최근 임베디드 시스템에서 사용되는 데이터의 크기가 증가함에 따라, 대용량의 데이터를 안전하게 수신하기 위한 ECC (Error Correction Code) 복호화 연산의 필요성이 강조되고 있다. 본 논문에서는 GPU가 내장된 임베디드 시스템에서 해밍 코드를 사용하여 ECC 복호화를 할 때, 신드롬 벡터를 계산하는 연산의 수행을 가속할 방법을 제안한다. 제안하는 가속화 방법은, 복호화 연산의 행렬-벡터 곱셈이 희소 행렬을 나타내는 자료 구조 중 하나인 CSR (Compressed Sparse Row) 형식을 사용하고, GPU의 CUDA 커널에서 병렬적으로 수행되도록 한다. 본 논문에서는 GPU가 내장된 실제 임베디드 보드를 사용하여 제안하는 방법을 검증하였고, 결과는 GPU 기반으로 가속된 ECC 복호화 연산이 CPU만을 사용한 경우에 비하여 수행 시간이 감소하는 것을 보여준다.

Automatic decomposition of unstructured meshes employing genetic algorithms for parallel FEM computations

  • Rama Mohan Rao, A.;Appa Rao, T.V.S.R.;Dattaguru, B.
    • Structural Engineering and Mechanics
    • /
    • 제14권6호
    • /
    • pp.625-647
    • /
    • 2002
  • Parallel execution of computational mechanics codes requires efficient mesh-partitioning techniques. These mesh-partitioning techniques divide the mesh into specified number of submeshes of approximately the same size and at the same time, minimise the interface nodes of the submeshes. This paper describes a new mesh partitioning technique, employing Genetic Algorithms. The proposed algorithm operates on the deduced graph (dual or nodal graph) of the given finite element mesh rather than directly on the mesh itself. The algorithm works by first constructing a coarse graph approximation using an automatic graph coarsening method. The coarse graph is partitioned and the results are interpolated onto the original graph to initialise an optimisation of the graph partition problem. In practice, hierarchy of (usually more than two) graphs are used to obtain the final graph partition. The proposed partitioning algorithm is applied to graphs derived from unstructured finite element meshes describing practical engineering problems and also several example graphs related to finite element meshes given in the literature. The test results indicate that the proposed GA based graph partitioning algorithm generates high quality partitions and are superior to spectral and multilevel graph partitioning algorithms.

Accelerating Self-Similarity-Based Image Super-Resolution Using OpenCL

  • Jun, Jae-Hee;Choi, Ji-Hoon;Lee, Dae-Yeol;Jeong, Seyoon;Cho, Suk-Hee;Kim, Hui-Yong;Kim, Jong-Ok
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권1호
    • /
    • pp.10-15
    • /
    • 2015
  • This paper proposes the parallel implementation of a self-similarity based image SR (super-resolution) algorithm using OpenCL. The SR algorithm requires tremendous computations to search for a similar patch. This becomes a bottleneck for the real-time conversion from a FHD image to UHD. Therefore, it is imperative to accelerate the processing speed of SR algorithms. For parallelization, the SR process is divided into several kernels, and memory optimization is performed. In addition, two GPUs are used for further acceleration. The experimental results shows that a GPGPU implementation can speed up over 140 times compared to a single-core CPU. Furthermore, it was confirmed experimentally that utilizing two GPUs can speed up the execution time proportionally, up to 277 times.

이동 Ad-Hoc 네트워크 환경에서 페어링 연산의 밀러 알고리듬에 대한 데이터 오류 공격 (A Data Fault Attack on the Miller Algorithm for Pairing Computation in Mobile Ad-Hoc Network Environments)

  • 배기석;손교용;박영호;문상재
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.70-79
    • /
    • 2013
  • 최근 이동 ad hoc 네트워크에 적합한 ID 기반의 암호시스템 구현을 위해서 다양한 페어링 연산들이 사용되고 있으며, 밀러 알고리듬은 Weil, Tate, Ate 페어링 연산에서 가장 많이 사용되는 알고리듬이다. 본 논문에서는 Whelan과 Scott에 의해 제안된 밀러 알고리듬의 중간 값에 대한 오류 공격을 구체화하여 라운드 위치와 상관없이 적용할 수 있는 데이터 오류 주입 공격의 가능성을 분석하였다. 시뮬레이션 결과, 제안하는 공격 방법이 라운드 위치나 사용하는 좌표계와 관계없이 적용 가능하여 효과적이며 강력한 오류 주입 공격 방법임을 확인하였다.

메모리 계층 구조를 사용한 타일 기반 레스터라이져 설계 (A Design of a Tile Based Rasterizer Using Memory Hierarchy Structure)

  • 김도현;곽재창
    • 전기전자학회논문지
    • /
    • 제19권4호
    • /
    • pp.590-595
    • /
    • 2015
  • 본 논문은 타일 기반 레스터라이져에서 연산이 필요하지 않은 하위 계층에 대한 호출을 막아 연산의 효율을 올릴수 있는 계층 구조의 설계를 제안한다. 제안하는 계층 구조는 내외부 판정과 각 하위 계층이 가지는 타일의 최대 좌표값, 최소 좌표값을 이용하여 하위 계층을 3가지 형태로 분류한다. 각 하위 계층이 분류되는 형태에 따라 해당 계층의 연산의 필요 여부를 구분할 수 있으며 연산이 필요하지 않는 하위 계층에 대한 호출을 수행하지 않는 것으로 그래픽 처리과정의 전체 연산량을 줄일 수 있다. 제안하는 구조를 이용하여 하위 계층의 분류를 통해 그래픽 처리의 연산 시간을 줄일 수 있으며 3D 모델을 구성하는 정점의 밀집도가 클수록 높은 효율을 보인다.

Multi-Sized cumulative Summary Structure Driven Light Weight in Frequent Closed Itemset Mining to Increase High Utility

  • Siva S;Shilpa Chaudhari
    • Journal of information and communication convergence engineering
    • /
    • 제21권2호
    • /
    • pp.117-129
    • /
    • 2023
  • High-utility itemset mining (HIUM) has emerged as a key data-mining paradigm for object-of-interest identification and recommendation systems that serve as frequent itemset identification tools, product or service recommendation systems, etc. Recently, it has gained widespread attention owing to its increasing role in business intelligence, top-N recommendation, and other enterprise solutions. Despite the increasing significance and the inability to provide swift and more accurate predictions, most at-hand solutions, including frequent itemset mining, HUIM, and high average- and fast high-utility itemset mining, are limited to coping with real-time enterprise demands. Moreover, complex computations and high memory exhaustion limit their scalability as enterprise solutions. To address these limitations, this study proposes a model to extract high-utility frequent closed itemsets based on an improved cumulative summary list structure (CSLFC-HUIM) to reduce an optimal set of candidate items in the search space. Moreover, it employs the lift score as the minimum threshold, called the cumulative utility threshold, to prune the search space optimal set of itemsets in a nested-list structure that improves computational time, costs, and memory exhaustion. Simulations over different datasets revealed that the proposed CSLFC-HUIM model outperforms other existing methods, such as closed- and frequent closed-HUIM variants, in terms of execution time and memory consumption, making it suitable for different mined items and allied intelligence of business goals.

도로망에서 움직이는 k-최원접 이웃 질의를 위한 일괄 처리 알고리즘 (Batch Processing Algorithm for Moving k-Farthest Neighbor Queries in Road Networks)

  • 조형주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.223-224
    • /
    • 2021
  • Recently, k-farthest neighbor (kFN) queries have not as much attention as k-nearest neighbor (kNN) queries. Therefore, this study considers moving k-farthest neighbor (MkFN) queries for spatial network databases. Given a positive integer k, a moving query point q, and a set of data points P, MkFN queries can constantly retrieve k data points that are farthest from the query point q. The challenge with processing MkFN queries in spatial networks is to avoid unnecessary or superfluous distance calculations between the query and associated data points. This study proposes a batch processing algorithm, called MOFA, to enable efficient processing of MkFN queries in spatial networks. MOFA aims to avoid dispensable distance computations based on the clustering of both query and data points. Moreover, a time complexity analysis is presented to clarify the effect of the clustering method on the query processing time. Extensive experiments using real-world roadmaps demonstrated the efficiency and scalability of the MOFA when compared with a conventional solution.

  • PDF

동적으로 할당된 구조체를 위한 압축된 필드 재배치 (Compact Field Remapping for Dynamically Allocated Structures)

  • 김정은;한환수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권10호
    • /
    • pp.1003-1012
    • /
    • 2005
  • 내장형 시스템과 범용 시스템의 가장 큰 차이는 유한한 전력인 배터리를 사용한다는 것과 대용량의 디스크를 사용하지 않고 메모리에 의존한다는 것이다. 특히 멀티미디어 데이타를 처리하는 응용프로그램이 늘어감에 따라 메모리 사용량이 기하급수적으로 증가하고 있어서 메모리가 성능과 에너지 소비의 병목지점으로 작용하게 되었다. 따라서 데이타 접근 비용을 줄이고자 하는 시도가 많이 이루어지고 있다. 대부분의 프로그램은 지역성을 갖는다. 지역성은 한번 참조된 데이타가 조만간 다시 참조된다는 시간적 지역성(temporal locality)과 근접한 곳에 할당된 데이타끼리 함께 참조된다는 공간적 지역성(spatial locality)으로 나눌 수 있다. 최근의 많은 임베디드시스템은 이 두 가지 지역성을 이용한 캐시 메모리를 사용함으로써 메모리 접근 시간을 대폭 줄이고 있다. 우리는 이 논문에서 낭비되는 메모리 공간을 줄이고, 캐시 실패율(cache miss rate)과 프로그램 수행시간을 줄일 수 있도록 구조체 형식의 데이타를 항목(field)별로 재배치시키는 알고리즘을 제안하고자 한다. 이 알고리즘은 동적으로 할당되는 구조체의 각 필드를 압축된 형태로 모아서 재배치함으로써, 실험에서 사용한 Olden 벤치마크의 Ll캐시 실패는 평균 $13.9\%$를, L2 캐시 실패는 평균 $15.9\%$를 이전 연구들보다 줄일 수 있었다. 수행시간 또한 이전의 방법보다 평균 $10.9\%$ 줄인 결과를 얻을 수 있었다.