• 제목/요약/키워드: multi-core processing

검색결과 218건 처리시간 0.025초

SIMD 벡터 명령어를 이용한 다차원 레코드 스캔 (Multi-Dimensional Record Scan with SIMD Vector Instructions)

  • 조성룡;한환수;이상원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.732-736
    • /
    • 2010
  • 대량의 데이터 처리 영역에 대한 중요성이 증가하는 가운데 다차원의 속성을 갖는 레코드에 대한 스캔을 필요로 하는 질의처리에 있어 SIMD 명령어 셋을 이용하여 보다 효율적인 스캔성능을 얻을 수 있다. 이러한 배경하에서 이 논문에서 제시하는 기법인 'SIMD 레코드 스캔'은 행-기반의 스캔으로 열-기반의 저장구조를 갖는 기존의 메모리 기반 데이터베이스 시스템에서 조건식 처리나 집계연산등에서의 연산성능을 높이기 위해 열에 종속적으로 SIMD 명령어를 이용하던 것과는 달리 다차원 속성들의 비교가 요구되는 레코드 스캔에서의 효율을 높일 수 있다. 이는 레지스터 및 시스템 메모리의 크기가 증가함에 따라 더 큰 성능향상을 가져올 수 있으며, 멀티코어 기반의 병렬화 기법과 독립적이므로 SIMD를 지원하는 단일 프로세서뿐 아니라 이들로 구성된 멀티코어 프로세서에도 기존 시스템이나 아키텍처를 변경하지 않고도 적용이 가능하다.

모바일 멀티코어 시스템을 위한 동적 전력관리 프레임워크 (Dynamic Power Management Framework for Mobile Multi-core System)

  • 안영호;정기석
    • 대한전자공학회논문지SD
    • /
    • 제47권7호
    • /
    • pp.52-60
    • /
    • 2010
  • 본 논문에서는 멀티코어 시스템을 위한 동적전력관리 프레임워크를 통하여 응용프로그램의 특성에 따라 멀티코어의 불필요한 전력소모를 줄일 수 있음을 Intel Centrino Duo를 사용한 경우와 ARM11 MPCore를 사용한 경우를 통하여 검증하였다. 프로세서의 종류에 따라 전력 소모를 줄이기 위하여 사용된 기술에 차이가 있으며 아직까지는 멀티코어 임베디드 프로세서에 동적 전압 관리와 같은 정밀한 제어가 이뤄지지 못하고 있다. 제안하는 동적전력관리 프레임워크를 이용하여 스마트폰과 같이 운영체제를 통한 멀티 프로세싱을 지원하는 환경에서는 다수의 프로세서가 소모하는 불필요한 전력을 효과적으로 줄일 수 있어야한다. 필요한 만큼의 프로세서 성능을 결정하고 실시간으로 프로세서의 성능을 변경함으로써 각 응용프로그램의 동작을 위한 최소 요구사항을 만족시키면서 전력소모를 최소화 시킬 수 있다. 이를 위하여 본 논문에서는 응용프로그램의 실행과 종료에 따라 필요한 동작을 자동화시키고 시스템 성능을 분석하기 위한 기준을 정의하였다. 대표적인 임베디드 프로세서와 범용프로세서에 제안하는 전력 관리 프레임워크를 적용하여 성능을 검증하였으며 본 논문이 제안한 동적전력관리 프레임워크가 응용프로그램의 최소 요구 성능을 만족시키면서 가능한 전력소모를 줄일 수 있는 인터페이스라는 것을 확인하였다.

병렬처리 알고리즘 적용 유도탄 점검 (Inspection of guided missiles applied with parallel processing algorithm)

  • 정의재;고상훈;이유상;김영성
    • 한국항행학회논문지
    • /
    • 제25권4호
    • /
    • pp.293-298
    • /
    • 2021
  • 일반적으로 유도무기의 탐색기와 유도조종장치는 유도탄의 상태를 나타내기 위해 표적, 탐색, 인지, 포착정보를 처리하여 유도무기의 운용 및 제어를 담당하는 역할을 한다. 유도에 필요한 신호는 시선 변화율 신호, 시각 신호, 종말 단계 동체 지향 신호이며, 발사 통제에 필요한 신호는 표적, 감지 신호가 필요하다. 최근 유도탄의 복잡하고 처리하기 어려운 유도탄 신호를 실시간으로 처리하기 위해 유도탄의 데이터 처리 속도를 높여야 한다. 본 연구는 PLINQ(Parallel Language-Integrated Query)의 병렬 알고리즘 방법 중 스톱앤고와 역 열거형 알고리즘을 적용한 후 유도탄 점검 프로그램을 이용하여 실시간으로 유도탄 필요 신호 데이터 처리속도를 비교 후 처리결과를 나타내었다. 도출된 데이터 처리결과 기준으로 다중코어 처리방식과 단독코어 처리방식 CPU(Central Processing Unit) 처리속도 비교, CPU 코어 이용률을 비교하고 병렬처리 알고리즘 적용 시 유도탄 데이터 처리에 효과적 방법을 제안한다.

MSFM: Multi-view Semantic Feature Fusion Model for Chinese Named Entity Recognition

  • Liu, Jingxin;Cheng, Jieren;Peng, Xin;Zhao, Zeli;Tang, Xiangyan;Sheng, Victor S.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1833-1848
    • /
    • 2022
  • Named entity recognition (NER) is an important basic task in the field of Natural Language Processing (NLP). Recently deep learning approaches by extracting word segmentation or character features have been proved to be effective for Chinese Named Entity Recognition (CNER). However, since this method of extracting features only focuses on extracting some of the features, it lacks textual information mining from multiple perspectives and dimensions, resulting in the model not being able to fully capture semantic features. To tackle this problem, we propose a novel Multi-view Semantic Feature Fusion Model (MSFM). The proposed model mainly consists of two core components, that is, Multi-view Semantic Feature Fusion Embedding Module (MFEM) and Multi-head Self-Attention Mechanism Module (MSAM). Specifically, the MFEM extracts character features, word boundary features, radical features, and pinyin features of Chinese characters. The acquired font shape, font sound, and font meaning features are fused to enhance the semantic information of Chinese characters with different granularities. Moreover, the MSAM is used to capture the dependencies between characters in a multi-dimensional subspace to better understand the semantic features of the context. Extensive experimental results on four benchmark datasets show that our method improves the overall performance of the CNER model.

A Packet Processing of Handling Large-capacity Traffic over 20Gbps Method Using Multi Core and Huge Page Memory Approache

  • Kwon, Young-Sun;Park, Byeong-Chan;Chang, Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권6호
    • /
    • pp.73-80
    • /
    • 2021
  • 본 논문에서는 멀티 코어 및 Huge Page 메모리 접근법을 이용한 20Gbps 이상의 대용량 트래픽 처리 가능한 패킷 처리 방법을 제안한다. ICT 기술이 발전함에 따라 전 세계 월 평균 트래픽은 2022년 396엑사 바이트에 이를 것으로 예측된다. 이러한 네트워크 트래픽의 증가와 동시에 사이버위협 또한 증가하고 있어 트래픽 분석에 대한 중요도가 높아지고 있다. 기존 고비용의 외산 제품으로 분석되고있는 트래픽은 단순히 통계 데이터를 저장함과 동시에 가시적으로 보여주는 것에 불과하다. 네트워크 관리자들은 다양한 구간에서 트래픽을 분석하기 위해 많은 트래픽 분석 시스템을 도입하여 분석하고 있으나, 망 전체의 통합된 트래픽을 확인할 수 없다. 또한, 기존 장비는 10Gbps급이 대부분이기 때문에 매년 증가되고 있는 트래픽을 빠른속도로 처리할 수 없다. 본 논문에서는 20Gbps 이상 대용량 트래픽 처리를 하기 방법으로 단일코어와 기본 SMA 메모리 접근법을 이용한 방법에서 멀티코어와 NUMA 메모리 접근법을 이용하여 고성능으로 패킷수신, 패킷검출, 통계까지 raw 패킷을 copy 없이 처리하는 과정을 제안한다. 제안한 방법을 이용하였때, 기존 장비보다 50%이상 트래픽이 처리되는 것을 확인할 수 있었다.

고해상도 SAR 영상처리 고속화를 위한 병렬 성능 최적화 기법 연구 (A Study on Parallel Performance Optimization Method for Acceleration of High Resolution SAR Image Processing)

  • 이규범;김규빈;안솔보름;조진연;임병균;김동현;김정호
    • 한국항공우주학회지
    • /
    • 제46권6호
    • /
    • pp.503-512
    • /
    • 2018
  • SAR(Synthetic Aperture Radar)는 레이더를 이용하여 얻은 신호를 처리해 영상을 획득하는 기술로서, SAR 영상의 활용도와 고해상도 영상에 대한 요구가 증가하고 있는 상황이다. 따라서 본 연구에서는 고해상도 영상 데이터의 고속 처리를 위해 SAR 영상처리 알고리즘을 다중코어 기반의 컴퓨터 구조에서 최적의 성능을 낼 수 있도록 구현하기 위한 연구를 수행했다. 고해상도 영상에 따른 방대한 양의 입출력에 의한 성능 저하를 개선시키기 위해 메모리를 최대한 활용하는 성능 최적화 기법을 적용하고 OpenMP의 동적 스케쥴링 기법과 중첩 병렬성(nested parallelism)을 사용해 코드의 병렬화 비율을 높였다. 그 결과 전체 계산시간을 줄일 뿐만 아니라 병렬 성능의 최대 한계치를 크게 높일 수 있었으며, 제안된 기법을 10개 코어를 가진 다중코어 시스템에 적용한 결과 기존 대비 8배 이상의 성능 향상이 있었다. 본 연구 결과는 대용량 메모리를 가진 다중코어 시스템을 대상으로 하는 고해상도 SAR 영상처리 소프트웨어 개발에 효과적으로 활용될 수 있을 것으로 기대된다.

CUDA와 OPenMP를 이용한 빠르고 효율적인 신경망 구현 (Fast and Efficient Implementation of Neural Networks using CUDA and OpenMP)

  • 박안진;장홍훈;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.253-260
    • /
    • 2009
  • 컴퓨터 비전이나 패턴 인식 분야에서 이용되고 있는 많은 알고리즘들이 최근 빠른 수행시간을 위해 GPU에서 구현되고 있지만, GPU를 이용하여 알고리즘을 구현할 경우 크게 두 가지 문제점을 고려해야 한다. 첫째, 컴퓨터 그래픽스 분야의 지식이 필요한 쉐이딩(shading) 언어를 알아야 한다. 둘째, GPU를 효율적으로 활용하기 위해 CPU와 GPU간의 데이터 교환을 최소화해야 한다. 이를 위해 CPU는 GPU에서 처리할 수 있는 최대 용량의 데이터를 생성하여 GPU에 전송해야 하기 때문에 CPU에서 많은 처리시간을 소모하며, 이로 인해 CPU와 GPU 사이에 많은 오버헤드가 발생한다. 본 논문에서는 그래픽 하드웨어와 멀티코어(multi-core) CPU를 이용한 빠르고 효율적인 신경망 구현 방법을 제안한다. 기존 GPU의 첫 번째 문제점을 해결하기 위해 제안된 방법은 복잡한 쉐이팅 언어 대신 그래픽스적인 기본지식 없이도 GPU를 이용하여 응용프로그램 개발이 가능한 CUDA를 이용하였다. 두 번째 문제점을 해결하기 위해 멀티코어 CPU에서 공유 메모리 환경의 병렬화를 수행할 수 있는 OpenMP를 이용하였으며, 이의 처리시간을 줄여 CPU와 GPU 환경에서 오버 헤드를 최소화할 수 있다. 실험에서 제안된 CUDA와 OpenMP기반의 구현 방법을 신경망을 이용한 문자영역 검출 알고리즘에 적용하였으며, CPU에서의 수행시간과 비교하여 약 15배, GPU만을 이용한 수행시간과 비교하여 약 4배정도 빠른 수행시간을 보였다.

Design and Analysis of MPEG-2 MP@HL Decoder in Multi-Processor Environments

  • Yoo, Seung-Hwan;Lee, Hyun-Seung;Lee, Sang-Jo;Park, Rae-Hong;Kim, Do-Hyung
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.211-216
    • /
    • 2009
  • As demands for high-definition television (HDTV) increase, the implementation of real-time decoding of high-definition (HD) video becomes an important issue. The data size for HD video is so large that real-time processing of the data is difficult to implement, especially with software. In order to implement a fast moving picture expert group-2 decoder for HDTV, we compose five scenarios that use parallel processing techniques such as data decomposition, task decomposition, and pipelining. Assuming the multi digital signal processor environments, we analyze each scenario in three aspects: decoding speed, L1 memory size, and bandwidth. By comparing the scenarios, we decide the most suitable cases for different situations. We simulate the scenarios in the dual-core and dual-central processing unit environment by using OpenMP and analyze the simulation results.

  • PDF

멀티코어를 이용한 차선 검출 병렬화 시스템 설계 (Design of Parallel Processing of Lane Detection System Based on Multi-core Processor)

  • 이효찬;문대철;박인학;허강
    • 한국정보통신학회논문지
    • /
    • 제20권9호
    • /
    • pp.1778-1784
    • /
    • 2016
  • 본 논문에서는 차선 검출 알고리즘에 병렬처리를 적용하여 성능을 개선하였다. 차선 검출은 지능형 보조 시스템으로써 자동차가 차선을 이탈하면 경보음 또는 핸들을 보정해줌으로써 운전자를 돕는 보조 시스템이다. 병렬 처리 알고리즘 중 데이터 레벨 병렬처리는 설계가 간단하지만 병목현상이 발생하는 문제가 있다. 제안하는 고속 데이터 레벨 병렬처리 알고리즘은 병목현상을 줄여 성능이 향상되었다. 실제 블랙박스 도로 영상을 도입하여 알고리즘을 측정한 결과 싱글 코어 경우 약 30 Frames/sec의 성능을 얻었다. 병렬처리를 적용한 결과로써 옥타코어 기준으로 데이터 레벨인 경우 약 100 Frames/sec의 성능을, 고속 데이터 레벨인 경우는 약 150 Frames/sec의 성능을 얻을 수 있다.