• 제목/요약/키워드: 멀티프로세싱

검색결과 93건 처리시간 0.036초

효율적인 영상데이터 처리를 위한 SIMD기반 매니코어 프로세서 구현 (Implementation of SIMD-based Many-Core Processor for Efficient Image Data Processing)

  • 최병국;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-9
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가하면서 고성능, 저전력 멀티미디어 프로세서에 대한 필요성이 높아지고 있는 추세이다. 주문형반도체 (ASIC)는 모바일 멀티미디어에서 요구되는 고성능을 만족시키지만 다양한 형태의 멀티미디어 애플리케이션에서 요구되는 범용성을 만족시키지 못한다. 반면 DSP기반의 시스템은 범용성에 기인하여 다양한 형태의 애플리케이션에서 사용될 수 있으나, 주문형반도체 보다 높은 가격, 전력소모 및 낮은 성능을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 범용성을 유지하면서 고성능, 저전력으로 영상데이터 처리가 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)처리 방식의 매니코어 프로세서를 제안한다. 제안한 SIMD기반 매니코어 프로세서는 16개의 프로세싱 엘리먼트(processing element, PE)로 구성되어 영상데이터 처리에 내재한 무수한 데이터 레벨 병렬성을 높인다. 모의 실험한 결과, 제안한 SIMD기반 매니코어 프로세서는 현재 상용 고성능 프로세서보다 평균 22배의 성능, 7배의 에너지 효율 및 3배의 시스템 면적 효율을 보였다.

멀티코어 기반 어플리케이션 운용을 위한 데스크탑 가상화 구성 및 성능 분석 (VDI deployment and performance analysys for multi-core-based applications)

  • 박준용
    • 한국정보통신학회논문지
    • /
    • 제26권10호
    • /
    • pp.1432-1440
    • /
    • 2022
  • 최근 VDI(Virtual Desktop Infrastructure)가 오피스 업무 환경뿐만 아니라 고사양의 멀티코어 기반 어플리케이션을 사용하는 워크로드에도 많이 사용되면서 VDI에 대한 실시간성과 안정성에 대한 요구 사항이 증대되고 있다. 그에 따라 VDI에서 원격접속에 사용되는 디스플레이 프로토콜과 가상머신의 성능 최적화 또한 중요성이 높아졌다. 본 논문에서는 멀티코어 기반 어플리케이션 운용을 위한 데스크탑 가상화 구성을 위해 두 가지를 제안한다. 첫 번째는 멀티 프로세싱으로 인한 고부하 상황에서 최적의 성능을 가진 디스플레이 프로토콜의 코덱 구성을 제안한다. 두 번째는 가상머신 간 CPU 경합 시 스케쥴링 지연을 줄이기 위한 가상 CPU 스케쥴링 최적화 방안을 제안한다. 시험 결과 Blast Extreme의 H.264 코덱이 가장 좋고 안정적인 프레임을 보여줬으며 스케쥴링 최적화를 통해 가상 CPU의 스케쥴링 성능이 개선됨을 확인하였다.

UNI 4.0 기반 ATM 망에서의 IP 멀티캐스트 지원 방안을 위한 서비스 구조 (A Service Architecture to support IP Multicast Service over UNI 4.0 based ATM Networks)

  • 이미정;정선;김예경
    • 한국정보과학회논문지:정보통신
    • /
    • 제27권3호
    • /
    • pp.348-359
    • /
    • 2000
  • 인터넷에서의 대부분의 중요한 실시간 멀티미디어 응용들은 멀티캐스트 서비스를 요구하므로 이들 응용을 ATM 기반의 인터넷에서 지원하기 위해서는 IP 멀티캐스트의 효율적인 처리가 필수적이다. IETF에서는 UNI 3.0/3.1 기반 ATM 망에서 연결형 일대다. ATM VC로 비연결형 IP 멀티캐스트를 지원하기 위해 MARS(Multicast Address Resolution Server)모델을 제안하였다. UNI 3.0/3.1 시그널링으로는 동적으로 멀티캐스트 그룹에 참여하려는 수신원을 VC 연결의 주체인 송신원에게 알릴 수 없기 때문에, MARS는 동적으로 멀티캐스트 그룹에 참여하려는 수신원을 멤버들의 요청을 받아 이를 송신원에게 알려주는 오버레이 서비스를 제공한다. 그런데 ATM Forum이 UNI 3.0/3.1 시그널링을 수정, 보완하여 표준화한 UNI 4.0 시그널링에서는 일대다 ATM VC에 참여하기 위해 수신원이 직접 송신원으로 신호할 수 있는 LIJ(Leaf Initiated Join)기능이 제안되었다. 본 논문에서는 UNI 4.0 기반의 ATM 망에서 LIJ 기능을 이용하여 IP 멀티캐스트 서비스를 제공하는 UNI4MARS 모델을 제안한다. MARS 서버와는 대조적으로, 제안하는 UNI4MARS 서버는 수신원이 LIJ 요청을 할 때 필요로 하는 송신원 정보를 알려주기 위하여 멀티캐스트 그룹에 대한 송신원의 등록/탈퇴 정보를 유지한다. 시뮬레이션을 통하여 비교해 본 결과, 제안하는 UNI4MARS모델은 동적인 IP 멀티캐스트를 지원하는 기능적인 면에서는 기존의 MARS 모델과 동일하지만 송신원에 비하여 수신원의 수가 많은 비대칭적 다중점 대 다중점 응용의 경우 구현에 필요한 프로세싱 오버헤드 및 메모리와 대역폭 요구량 측면에서 MARS 모델보다 유리함을 알 수 있었다.

  • PDF

GPU에서의 SEED암호 알고리즘 수행을 통한 공인인증서 패스워드 공격 위협과 대응

  • 김종회;안지민;김민재;주용식
    • 정보보호학회지
    • /
    • 제20권6호
    • /
    • pp.43-50
    • /
    • 2010
  • 병렬처리를 이용한 GPU(그래픽 프로세싱 유닛)의 연산 능력이 날이 갈수록 고속화됨에 따라 GPU에 대한 관심이 높아지고 있다. GPU는 다중 쓰레드 처리가 가능하도록 CPU보다 수십 배 많은 멀티코어로 구성되어 있으며 이 각각의 코어는 맹렬 프로그래밍이 가능하도록 처리 결과를 공유할 수 있다. 최근 해외에서 이러한 GPU의 연산 능력을 이용한 해쉬인증 공격의 효과가 다수 입증되었으며 패스워드 기반의 인증 방식이 보편화 되어있는 국내에서도 GPU를 이용한 인증 공격이 시도되고 있다. 본 논문에서는 국내 금융권에서 사용되고 있는 공인인증서의 개인키 복호화 과정을 GPU내에서 고속 수행이 가능하도록 개선하고, 이를 바탕으로 패스워드 무차별 대입 공격을 시도하여 공인 인증서에 사용되는 패스워드가 보안의 안전지대만이 아님을 보인다. 또한 날로 발전하는 하드웨어의 연산속도에 맞추어 공인인증서 등에 보편적으로 사용되는 패스워드 정책의 개선 방안을 제시한다.

JPEG 인코더를 위한 고성능 병렬 프로세서 하드웨어 설계 및 검증 (Design and Verification of High-Performance Parallel Processor Hardware for JPEG Encoder)

  • 김용민;김종면
    • 대한임베디드공학회논문지
    • /
    • 제6권2호
    • /
    • pp.100-107
    • /
    • 2011
  • As the use of mobile multimedia devices is increasing in the recent year, the needs for high-performance multimedia processors are increasing. In this regard, we propose a SIMD (Single Instruction Multiple Data) based parallel processor that supports high-performance multimedia applications with low energy consumption. The proposed parallel processor consists of 16 processing elements(PEs) and operates on a 3-stage pipelining. Experimental results for the JPEG encoding algorithm indicate that the proposed parallel processor outperforms conventional parallel processors in terms of performance and energy efficiency. In addition, the proposed parallel processor architecture was developed and verified with verilog HDL and a FPGA prototype system.

대용량 트래픽 처리를 위한 패킷 처리 엔진 설계 및 구현 (A Design and Implementation of Packet Processing Engine for Handling Large Volumes of Traffic)

  • 윤주영;김명수;장훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.325-326
    • /
    • 2020
  • 최근 5G의 영향으로 인터넷에 연결되는 사람과 기기가 더욱 증가하고 있고 새로운 사물인터넷(Internet of Things) 애플리케이션이 가능해짐에 따라 트래픽 양이 급증하고 있다. 그러나 국내의 많은 기업은 이러한 트래픽을 분석하기 위해 고비용의 외산 제품을 이용하고 있다. 그러나 이러한 제품은 네트워크상에서 처리되는 트래픽에 대한 통계 데이터를 저장하고 보여주는 것을 주된 목적으로 사용하고 있을 뿐 패킷을 자세하게 분석하기 어렵다는 단점이 있다. 따라서 본 논문에서는 대용량 트래픽 처리를 위한 효율적인 패킷 처리 엔진을 제안한다. 이 패킷 처리 엔진은 다수의 Core Process를 활용하여 시스템 자원을 최대한 활용할 수 있도록 하고, 멀티 프로세싱을 통하여 각 노드의 작업부하를 균등하게 유지함으로써 작업의 대기시간을 줄이고, 각 작업의 수행 시간을 최소화한다. 본 논문에서 제안하는 대용량 트래픽 처리를 위한 패킷 처리 엔진은 기존의 트래픽 처리를 수행하는 패킷 처리 엔진보다 고성능 컴퓨팅 시스템의 성능 향상 면에서 우수함을 보인다.

  • PDF

효과적인 데이터 수집을 위한 웹 크롤러 개선 및 동적 프로세스 설계 및 구현 (Web crawler Improvement and Dynamic process Design and Implementation for Effective Data Collection)

  • 왕태수;송재백;손다연;김민영;최동규;장종욱
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1729-1740
    • /
    • 2022
  • 근래 정보의 다양성과 활용에 따라 많은 데이터가 생성되었고, 데이터를 수집, 저장, 가공 및 예측 하는 빅데이터 분석의 중요성이 확대되었으며, 필요한 정보만을 수집할 수 있는 능력이 요구되고 있다. 웹 공간은 절반 이상이 텍스트로 이루어져 있고, 유저들의 유기적인 상호작용을 통해 수많은 데이터가 발생한다. 대표적인 텍스트 데이터 수집 방법으로 크롤링 기법이 있으나 데이터를 가져올 수 있는 방법에 치중되어 웹 서버나 관리자를 배려하지 못하는 크롤러가 많이 개발되고 있다. 본 논문에서는 크롤링 과정에서 발생할 수 있는 문제점 및 고려해야 할 주의사항에 대해 살펴보고 효율적으로 데이터를 가져올 수 있는 개선된 동적 웹 크롤러를 설계 및 구현한다. 기존 크롤러의 문제점들을 개선한 크롤러는 멀티프로세스로 설계되어 작업소요 시간이 평균적으로 4배정도 감소하였다.

모바일 멀티코어 시스템을 위한 동적 전력관리 프레임워크 (Dynamic Power Management Framework for Mobile Multi-core System)

  • 안영호;정기석
    • 대한전자공학회논문지SD
    • /
    • 제47권7호
    • /
    • pp.52-60
    • /
    • 2010
  • 본 논문에서는 멀티코어 시스템을 위한 동적전력관리 프레임워크를 통하여 응용프로그램의 특성에 따라 멀티코어의 불필요한 전력소모를 줄일 수 있음을 Intel Centrino Duo를 사용한 경우와 ARM11 MPCore를 사용한 경우를 통하여 검증하였다. 프로세서의 종류에 따라 전력 소모를 줄이기 위하여 사용된 기술에 차이가 있으며 아직까지는 멀티코어 임베디드 프로세서에 동적 전압 관리와 같은 정밀한 제어가 이뤄지지 못하고 있다. 제안하는 동적전력관리 프레임워크를 이용하여 스마트폰과 같이 운영체제를 통한 멀티 프로세싱을 지원하는 환경에서는 다수의 프로세서가 소모하는 불필요한 전력을 효과적으로 줄일 수 있어야한다. 필요한 만큼의 프로세서 성능을 결정하고 실시간으로 프로세서의 성능을 변경함으로써 각 응용프로그램의 동작을 위한 최소 요구사항을 만족시키면서 전력소모를 최소화 시킬 수 있다. 이를 위하여 본 논문에서는 응용프로그램의 실행과 종료에 따라 필요한 동작을 자동화시키고 시스템 성능을 분석하기 위한 기준을 정의하였다. 대표적인 임베디드 프로세서와 범용프로세서에 제안하는 전력 관리 프레임워크를 적용하여 성능을 검증하였으며 본 논문이 제안한 동적전력관리 프레임워크가 응용프로그램의 최소 요구 성능을 만족시키면서 가능한 전력소모를 줄일 수 있는 인터페이스라는 것을 확인하였다.

임베디드 병렬 프로세서를 위한 칼라미디어 명령어 구현 (Color Media Instructions for Embedded Parallel Processors)

  • 김철홍;김종면
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권7호
    • /
    • pp.305-317
    • /
    • 2008
  • 최근 모바일 컴퓨팅 환경의 변화로 멀티미디어 데이타의 고성능, 저전력 처리에 대한 수요가 증가하고, 프로세서에 있어서 멀티미디어 전용 가속기 기능의 중요성이 크게 부각되고 있다. 이에 본 논문은 고성능, 저전력 멀티미디어 처리를 위한 SIMD 병렬 프로세서용 칼라미디어 명령어를 제안한다. 기존의 범용 마이크로프로세서 전용 멀티미디어 명령어 (e.g., MMX, VIS, AltiVec)는 4개의 8 비트 픽셀을 32 비트 레지스터에 저장하고 처리하는 반면에, 제안하는 칼라미디어 명령어는 인간의 시각이 칼라에 덜 민감한 점을 고려하여 32비트 데이타패스 아키텍처에서 두 쌍 (6개의 픽셀)의 압축된 16비트 YCbCr (6비트 Y, 5비트 Cb와 Cr) 데이타를 32비트 레지스터에 저장하고 동시에 처리함으로써 YCbCr 데이타 처리에서 높은 병렬성과 효율성을 보여준다. 또한 칼라미디어 명령어는 데이타 포맷 사이즈를 줄임으로써 전체시스템의 비용을 절감할 뿐만 아니라 데이타 대역폭의 감소로 시스템 디자인을 간소화한다. SIMD 병렬 프로세서 아키텍처에서 모의 실험한 결과, 칼라미디어 명령어 기반 프로그램은 baseline 명령어 프로그램보다 평균 6.3배 성능향상을 보여준다. 반면, Intel의 대표적인 멀티미디어 명령어인 MMX 기반 프로그램은 동일한 SIMD 병렬 프로세서에서 baseline 명령어 프로그램보다 단지 3.7배 성능향상을 나타낸다. 또한, 칼라미디어 명령어는 MMX보다 시스템 면적 효율 (52% 증가 대비 13% 증가)과 시스템 전력 효율 (50% 증가 대비 11% 증가)에서 우수성을 보여준다. 칼라미디어 명령어는 이러한 성능과 효율을 단지 3%의 시스템 면적과 5%의 시스템 전력의 증가로 얻는 반면, MMX는 14%의 시스템 면적과 16%의 시스템 전력증가가 요구된다.

멀티코어 시스템에서 흐름 수준 병렬처리에 기반한 리눅스 TCP/IP 스택의 성능 개선 (A Performance Improvement of Linux TCP/IP Stack based on Flow-Level Parallelism in a Multi-Core System)

  • 권희웅;정형진;곽후근;김영종;정규식
    • 정보처리학회논문지A
    • /
    • 제16A권2호
    • /
    • pp.113-124
    • /
    • 2009
  • 최근 멀티코어가 장착된 시스템이 증가하면서 이를 통한 애플리케이션 성능향상에 대한 노력이 계속 되어왔다. 하나의 시스템에 다수의 처리장치가 존재함으로 인해 프로세싱 파워는 기존보다 증가했지만 기존의 소프트웨어나 하드웨어들은 싱글코어 시스템에 적합하게 설계된 경우가 많아 멀티코어의 이점을 충분히 활용하지 못하고 있는 경우가 많다. 기존의 많은 소프트웨어들은 멀티코어 상에서 공유 자원에 대한 병목현상과 비효율적인 캐시 메모리 사용으로 인하여 충분한 성능향상을 기대하기 어려우며 이러한 문제점들로 인하여 기존 소프트웨어는 코어의 개수에 비례한 성능을 얻지 못하며, 최악의 경우 오히려 감소될 수 있다. 본 논문에서는 TCP/IP를 사용하는 기존의 네트워크 애플리케이션과 운영체제에 흐름 수준 병렬처리 기법을 적용하여 성능을 증가 시킬 수 있는 방법을 제안한다. 제안된 방식은 개별 코어단위로 네트워크 애플리케이션, 운영체제의 TCP/IP 스택, 디바이스 드라이버, 네트워크 인터페이스가 서로 간섭 없이 작동할 수 있는 환경을 구성하며, L2 스위치를 통해 각 코어 단위로 트래픽을 분산하는 방법을 적용하였다. 이를 통해 각 코어 간에 애플리케이션의 데이터 및 자료구조, 소켓, 디바이스 드라이버, 네트워크 인터페이스의 공유를 최소화하여, 각 코어간의 자원을 차지하기 위한 경쟁을 최소화하고 캐시 히트율을 증가시킨다. 이를 통하여 8개의 멀티코어를 사용하였을 경우 네트워크 접속속도와 대역폭이 코어의 개수에 따라 선형적으로 증가함을 실험을 통해 입증하였다.