• 제목/요약/키워드: Multi-core Architecture

검색결과 159건 처리시간 0.03초

EH40과 API2W강재의 극 후판재 다층 FCAW 버트 접합부 잔류응력해석 (Numerical Analysis of Welding Residual Stresses for Ultra-thick Plate of EH40 TM and API 2W Gr.50 Steel Joined by Flux Core Arc Welding)

  • 황세윤;이장현;양용식;이성제;김병종
    • Journal of Welding and Joining
    • /
    • 제28권3호
    • /
    • pp.65-72
    • /
    • 2010
  • Some structural members of large-scale marine vessels such as large-scale offshore structures and very large container ships are assembled by very thick plates of which thickness exceeds 60mm. Also, high-tensile steels have been selected to meet the required structural strength and fatigue strength. Generally, multi-pass welding method such as FCA(Flux-Core Arc) welding has been used to join the thick plates. Considering the welding residual stresses, fatigue strength of the welded joints of thick plates should be assured since the residual stress influences the fatigue strength. This paper presents a numerical procedure to investigate the residual stress of structure joined by multi-pass FCA welding so that it can be incorporated into the fatigue strength assessment considering the effect of welding residual stress. The residual stress distribution is also measured by X-Ray diffraction method. The residual stress obtained by the computational model also has been compared with that of experiment. The results of FEA are in very good agreement with the experimental measurements.

멀티코어와 매니코어 환경에서의 2 차원 DCT 가속 (Accelerating 2D DCT in Multi-core and Many-core Environments)

  • 홍진건;정성욱;김정길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.250-253
    • /
    • 2011
  • Chip manufacture nowadays turned their attention from accelerating uniprocessors to integrating multiple cores on a chip. Moreover desktop graphic hardware is now starting to support general purpose computation. Desktop users are able to use multi-core CPU and GPU as a high performance computing resources these days. However exploiting parallel computing resources are still challenging because of lack of higher programming abstraction for parallel programming. The 2-dimensional discrete cosine transform (2D-DCT) algorithms are most computational intensive part of JPEG encoding. There are many fast 2D-DCT algorithms already studied. We implemented several algorithms and estimated its runtime on multi-core CPU and GPU environments. Experiments show that data parallelism can be fully exploited on CPU and GPU architecture. We expect parallelized DCT bring performance benefit towards its applications such as JPEG and MPEG.

차량용 임베디드 프로세서에서 저전력 반응적 제어를 위한 이기종 멀티코어 협력적 스트리밍 온-칩 소프트웨어 구조 (Collaborative Streamlined On-Chip Software Architecture on Heterogenous Multi-Cores for Low-Power Reactive Control in Automotive Embedded Processors)

  • 권지수;박대진
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.375-382
    • /
    • 2022
  • This paper proposes a multi-core cooperative computing structure considering the heterogeneous features of automotive embedded on-chip software. The automotive embedded software has the heterogeneous execution flow properties for various hardware drives. Software developed with a homogeneous execution flow without considering these properties will incur inefficient overhead due to core latency and load. The proposed method was evaluated on an target board on which a automotive MCU (micro-controller unit) with built-in multi-cores was mounted. We demonstrate an overhead reduction when software including common embedded system tasks, such as ADC sampling, DSP operations, and communication interfaces, are implemented in a heterogeneous execution flow. When we used the proposed method, embedded software was able to take advantage of idle states that occur between heterogeneous tasks to make efficient use of the resources on the board. As a result of the experiments, the power consumption of the board decreased by 42.11% compared to the baseline. Furthermore, the time required to process the same amount of sampling data was reduced by 27.09%. Experimental results validate the efficiency of the proposed multi-core cooperative heterogeneous embedded software execution technique.

실시간 차선인식 알고리즘을 위한 최적의 멀티코어 아키텍처 디자인 공간 탐색 (Optimal Design Space Exploration of Multi-core Architecture for Real-time Lane Detection Algorithm)

  • 정인규;김종면
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권3호
    • /
    • pp.339-349
    • /
    • 2017
  • 본 논문에서는 주행 중인 차량의 차선 인식을 위해 4단계로 구성된 알고리즘을 제안한다. 첫 번째 단계에서는 관심영역 추출한다. 두 번째 단계에서는 신호 잡음을 제기하기 위해 중간 값 필터를 이용한다. 세 번째 단계에서는 입력되는 이미지의 배경과 전경의 두 클래스로 구분하기 위한 이진화 알고리즘을 수행한다. 마지막 단계에서는 이진화 과정 후에 남아 있는 노이즈나 불완전한 에지 등을 제거하여 선명한 차선을 얻기 위해 이미지 침식 알고리즘을 이용한다. 하지만 이러한 차선 인식 앍고리즘은 높은 계산량을 요구하여 실시간 처리가 어려운 실정이다. 따라서 본 논문에서는 멀티코어 아키텍처를 이용하여 실시간 차선이탈 감지 알고리즘을 병렬구현 한다. 또한, 차선이탈 감지 알고리즘을 위한 최적의 멀티코어 아키텍처의 구조를 탐색하기 위해 총 8가지의 서로 다른 프로세싱 엘리먼트 구조를 이용하여 실험하였고, 모의실험 결과 40×40의 프로세싱 엘리먼트 구조에서 최적의 성능, 에너지 효율 및 면적 효율을 보였다.

멀티 코어 환경에서 실시간 트래픽 분석 시스템 처리속도 향상 (Performance Improvement of a Real-time Traffic Identification System on a Multi-core CPU Environment)

  • 윤성호;박준상;김명섭
    • 한국통신학회논문지
    • /
    • 제37권5B호
    • /
    • pp.348-356
    • /
    • 2012
  • 오늘날 네트워크 환경은 응용 프로그램 및 서비스의 변화가 많아 응용탐지에 있어 기존의 단일 분석 알고리즘으로는 모든 트래픽의 응용을 정확하게 탐지하기 어렵다. 최근 이러한 단점을 보완하기 위해 여러 개별 알고리즘을 통합한 멀티 레벨의 트래픽 탐지 알고리즘에 대한 연구가 진행되고 있다. 이러한 멀티 레벨 탐지 알고리즘은 단일 알고리즘 구조에 비해 계산 복잡도가 높은 단점이 있다. 또한, 고속 네트워크에서 실시간으로 트래픽을 분류하기 위해서는 멀티코어 CPU의 장점인 병렬처리를 이용하여 높은 계산 복잡도를 해결해야 할 필요가 있다. 본 논문에서는 요즘 일반화된 멀티 코어 CPU환경에 적합한 실시간 응용 트래픽 탐지 시스템 구조를 제안한다. 먼저 멀티 레벨 트래픽 탐지 알고리즘이 멀티 코어 환경에서 실시간으로 동작하기 위한 고려 사항들을 살펴보고, 이를 통해 시스템을 설계하고 구현한 내용을 기술한다. 본 논문에서 구축한 시스템은 캠퍼스 네트워크와 기숙사 네트워크를 대상으로 구축하여 그 실효성을 검증하였다.

딥러닝을 하드웨어 가속기를 위한 저전력 BSPE Core 구현 (Implementation of low power BSPE Core for deep learning hardware accelerators)

  • 조철원;이광엽;남기훈
    • 전기전자학회논문지
    • /
    • 제24권3호
    • /
    • pp.895-900
    • /
    • 2020
  • 본 논문에서 BSPE는 전력이 많이 소모되는 기존의 곱셈 알고리즘을 대체했다. Bit-serial Multiplier를 이용해 하드웨어 자원을 줄였으며, 메모리 사용량을 줄이기 위해 가변적인 정수 형태의 데이터를 사용한다. 또한, 부분 합을 더하는 MOA(Multi Operand Adder)에 LOA(Lower-part OR Approximation)를 적용해서 MOA의 자원 사용량 및 전력사용량을 줄였다. 따라서 기존 MBS(Multiplication by Barrel Shifter)보다 하드웨어 자원과 전력이 각각 44%와 42%가 감소했다. 또한, BSPE Core를 위한 hardware architecture design을 제안한다.

Accelerating Group Fusion for Ligand-Based Virtual Screening on Multi-core and Many-core Platforms

  • Mohd-Hilmi, Mohd-Norhadri;Al-Laila, Marwah Haitham;Hassain Malim, Nurul Hashimah Ahamed
    • Journal of Information Processing Systems
    • /
    • 제12권4호
    • /
    • pp.724-740
    • /
    • 2016
  • The performance issues of screening large database compounds and multiple query compounds in virtual screening highlight a common concern in Chemoinformatics applications. This study investigates these problems by choosing group fusion as a pilot model and presents efficient parallel solutions in parallel platforms, specifically, the multi-core architecture of CPU and many-core architecture of graphical processing unit (GPU). A study of sequential group fusion and a proposed design of parallel CUDA group fusion are presented in this paper. The design involves solving two important stages of group fusion, namely, similarity search and fusion (MAX rule), while addressing embarrassingly parallel and parallel reduction models. The sequential, optimized sequential and parallel OpenMP of group fusion were implemented and evaluated. The outcome of the analysis from these three different design approaches influenced the design of parallel CUDA version in order to optimize and achieve high computation intensity. The proposed parallel CUDA performed better than sequential and parallel OpenMP in terms of both execution time and speedup. The parallel CUDA was 5-10x faster than sequential and parallel OpenMP as both similarity search and fusion MAX stages had been CUDA-optimized.

멀티 코어 DSP를 위한 이더넷 기반 고속 데이터 통신 구현 (Implementation of Ethernet-Based High-Speed Data Communication for Multi-core DSP)

  • 응우옌후동;최준영
    • 대한임베디드공학회논문지
    • /
    • 제17권3호
    • /
    • pp.185-190
    • /
    • 2022
  • We propose a high speed data communication method for motor drive systems with fast control cycle in order to collect state variables of motor control without degrading control performance. Ethernet is chosen for communication device, and multi-core DSP architecture is exploited for communication processing load distribution. The communication program including network protocol stack and motor control program are assigned to two separate cores, and data between two cores are exchanged using interrupt-based inter-process communication mechanism, which enables to achieve a high-speed communication performance without degrading the motor control performance. The performance of developed communication method is demonstrated by real experiments using TCP, UDP and Raw Socket protocols in an experimental setup consisting of TI's TMS320F28388D motor control card and MS Windows PC.

캐쉬 구성에 따른 3차원 쿼드코어 프로세서의 성능 및 온도 분석 (Analysis on the Performance and Temperature of the 3D Quad-core Processor according to Cache Organization)

  • 손동오;안진우;최홍준;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.1-11
    • /
    • 2012
  • 공정기술이 지속적으로 발달함에 따라 멀티코어 프로세서는 성능 향상이라는 장점과 함께 내부 연결망의 긴 지연 시간, 높은 전력 소모, 그리고 발열 현상 등의 문제점들을 내포하고 있다. 이와 같은 2차원 멀티코어 프로세서의 문제점들을 해결하기 위한 방안 중 하나로 3차원 멀티코어 프로세서 구조가 주목을 받고 있다. 3차원 멀티코어 프로세서는 TSV를 이용하여 수직으로 쌓은 여러 개의 레이어들을 연결함으로써 2차원 멀티코어 프로세서와 비교하여 배선 길이를 크게 줄일 수 있다. 하지만, 3차원 멀티코어 프로세서에서는 여러 개의 코어들이 수직으로 적층되므로 전력밀도가 증가하고, 이로 인해 발열문제가 발생하여 높은 냉각 비용과 함께 신뢰성에 부정적인 영향을 유발한다. 따라서 3차원 멀티코어 프로세서를 설계할 때에는 성능과 함께 온도를 반드시 고려하여야 한다. 본 논문에서는 캐쉬 구성에 따른 3차원 쿼드코어 프로세서의 온도를 상세히 분석하고, 이를 기반으로 발열문제를 해결하기 위해저온도 캐쉬 구성 방식을 제안하고자 한다. 실험결과, 명령어 캐쉬는 최고온도가 임계값보다 낮고 데이터 캐쉬는 많은 웨이를 가지는 구성을 적용할 때 최고온도가 임계값보다 높아짐을 알 수 있다. 또한, 본 논문에서 제안하는 캐쉬구성은 쿼드코어 프로세서를 사용하는 3차원 구조에서 캐쉬의 온도 감소에 효과적일 뿐만 아니라 성능 저하 또한 거의 없음을 알 수 있다.

MPEG 시스템용 다중 작업에 적합한 양방향 버스 구조 (Bi-directional Bus Architecture Suitable to Multitasking in MPEG System)

  • 전치훈;연규성;황태진;위재경
    • 대한전자공학회논문지SD
    • /
    • 제42권4호
    • /
    • pp.9-18
    • /
    • 2005
  • 본 논문은 OCP(Open Core Protocol)에 호환되는 파이프라인 구조를 가진 시스템 버스와 MPEG 시스템에 적합한 메모리 버스로 구성된 계층 구조를 가지는 새로운 동기 세그먼트 버스를 제안한다. 이 구조는 MPEG 시스템의 모바일 제품에 사용되는 영상 데이터 처리를 위한 메모리 인터페이스에 기반을 둔 버스 구조와 멀티 마스터와 멀티 슬레이브를 사용하여 고성능의 다중 처리를 위한 양방향 다중 버스 구조(hi-direction multiple bus architecture)를 가진다. 효율적인 데이터 처리를 위하여 파이프라인 스테이지와 결합된 마스터와 슬레이브의 주소번지가 latency를 결정하며, 시스템의 특성에 따라서 각각의 IP 코어를 배치하였다. 제안된 버스는 저전력 구현을 위하여 세그먼트 버스 구조를 가지고, 멀티미디어 SoC 시스템의 성능 저하 없이 다중 작업이 가능한 구조를 가지며 확장이 가능하다. 제안된 버스 구조는 AMBA와 비교하였을 때 bandwidth는 3.7배 증가하였고 latency는 0.25배 감소하였다.