• 제목/요약/키워드: Multi-Core Processor

검색결과 131건 처리시간 0.024초

멀티코어 시스템에서 TLB Lockdown에 의한 TLB Miss 영향 분석 (Investigation on TLB Miss Impact through TLB Lockdown in Multi-core Systems)

  • 송대영;박시형;김형신
    • 대한임베디드공학회논문지
    • /
    • 제17권1호
    • /
    • pp.59-65
    • /
    • 2022
  • Virtual memory is used as the method to ensure the safety of the system through memory protection in the real-time system. TLB miss caused by using virtual memory makes the real-time system WCET more pessimistically. TLB lockdown can be applied as a method to improve this problem. However, processors with limited TLB lockdown entries, a selection criterion is needed to efficiently utilize the TLB lockdown entry. In this paper, the most frequently accessed virtual pages in the process are applied to the TLB lockdown by analyzing memory profiling. The results showed that micro data TLB miss stall cycle and main data TLB miss stall cycle of the processor decreased by at least 4.7% and up to 29.7%.

TCP/IP 소켓통신에서 대용량 스트링 데이터의 전송 속도를 높이기 위한 송수신 모델 설계 및 구현 (A design and implementation of transmit/receive model to speed up the transmission of large string-data sets in TCP/IP socket communication)

  • 강동조;박현주
    • 한국정보통신학회논문지
    • /
    • 제17권4호
    • /
    • pp.885-892
    • /
    • 2013
  • TCP/IP소켓 통신을 활용하여 데이터를 송수신하는 송수신 모델에서 데이터의 크기가 작고 데이터 전송 요청이 빈번하지 않을 경우 서버와 클라이언트 간 통신 속도의 중요성은 부각되지 않지만 오늘날 대용량 데이터에 대한 전송 요청과 빈번한 데이터 전송 요청에서 송수신 모델의 통신 속도에 대한 중요성이 부각되고 있다. 본 논문은 대용량의 데이터를 전송하는 서버의 전송 구조와 데이터를 수신하는 클라이언트의 수신 구조를 변경하여 멀티 코어(이하 CMP : ChipMulti Processor) 환경에서 데이터 전송 속도에 대한 성능향상을 기대할 수 있는 보다 효율적인 TCP/IP 송수신 모델을 제안한다.

현악기의 물리적 모델링을 위한 최적의 멀티코어 프로세서 아키텍처 탐색 (Exploration of Optimal Multi-Core Processor Architecture for Physical Modeling of Plucked-String Instruments)

  • 강명수;최지원;김용민;김종면
    • 한국음향학회지
    • /
    • 제30권5호
    • /
    • pp.281-294
    • /
    • 2011
  • 물리적 모델링 기반 음 합성 알고리즘은 음 합성 시 많은 연산량을 요구하며 이는 실시간 음 합성을 저해한다. 이러한 문제를 해결하기 위해 본 논문에서는 물리적 모델링 기반 현악기 사운드 엔진을 멀티코어 프로세서에 구현하고, 사운드 엔진을 위한 최적의 멀티코어 프로세서 구조를 제안한다. 대상 현악기의 단위음을 합성하기 위해 각 프로세싱 엘리먼트 (processing element, PE)당 합성하는 샘플 (sample-per-processing element, SPE) 수를 변화시키는 실험을 통해 시스템의 성능 (system performance), 시스템 면적 효율 (area efficiency), 에너지 효율 (energy efficiency)을 각각 측정하고, 측정된 결과를 바탕으로 최적의 멀티코어 프로세서 구조를 선택하였다. 모의실험 결과, 어쿠스틱 기타는 SPE가 5,513과 2,756일 때 가장 높은 시스템 면적 효율과 에너지 효율을 보였으며, 클래식 기타는 SPE가 22,050과 5,513일 때 시스템 면적 효율과 에너지 효율이 가장 높았다. 또한 이를 이용하여 44.1 kHz의 샘플링율을 갖도록 대상 악기의 단위음을 합성한 결과 원음과 스펙트럼에서 매우 유사함을 확인할 수 있었고, 울산대학교 대학원생 및 교수 10명을 대상으로 실시한 MUSHRA 주관 청취 테스트에서도 좋은 결과를 얻었다.

Zynq EPP를 이용한 모터 제어기의 하드웨어 구현 (Hardware Implementation of Motor Controller Based on Zynq EPP(Extensible Processing Platform))

  • 문용선;임승우;이영필;배영철
    • 한국전자통신학회논문지
    • /
    • 제8권11호
    • /
    • pp.1707-1712
    • /
    • 2013
  • 본 논문에서는 기존의 DSP, MCU, FPGA 기반의 모션 제어기들의 구조적인 문제점을 개선하기 위하여 최신 All Programmable SoC 인 Zynq EPP를 이용한 FPGA + 임베디드 프로세서 기반의 모터 제어기에 대한 하드웨어를 구현하였다. 구현한 모터 제어기는 FPGA와 임베디드 프로세서의 장점을 융합한 제어기로서 고속의 모터 제어용 신호처리 부분은 FPGA 기반의 모터 제어기가 수행한다. 복잡한 소수연산 등의 알고리즘 처리가 요구되는 모션 프로파일 및 기구학 계산 등은 듀얼 코어 기반의 임베디드 프로세서에서 처리하여 하나의 칩에서 분산처리 효과를 실현할 수 있는 구조적인 장점을 가진다. 또한 FPGA 상에 구현된 모터 제어 IP 코어의 추가를 통하여 손쉬운 다축 모터 제어기로의 구성이 가능한 장점도 가진다.

멀티코어 이기종메모리 환경에서의 유전 알고리즘 기반 실시간 전력 절감 스케줄링 (Real-Time Power-Saving Scheduling Based on Genetic Algorithms in Multi-core Hybrid Memory Environments)

  • 류수현;조예원;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.135-140
    • /
    • 2020
  • 최근 사물인터넷, 지능형 시스템 등의 활성화로 실시간 임베디드 시스템의 전력 절감 기술이 중요해지고 있다. 본 논문은 멀티코어 이기종메모리 환경에서 실시간 시스템의 전력 소모량을 절감하는 P-GA (parallel genetic algorithm) 스케줄링 알고리즘을 제안한다. P-GA는 멀티코어를 위한 PF (proportional fairness) 알고리즘에 기반한 프로세서의 전압 및 주파수 동적 조절 기법에 차세대 비휘발성메모리 기술을 결합하여 시스템의 전력 소모를 더욱 줄인다. 특히, 유전 알고리즘을 사용하여 태스크별 수행 프로세서의 전압 및 주파수 모드와 메모리의 종류를 최적화하여 태스크 집합의 전력 소모량을 최소화한다. 시뮬레이션 실험을 통해 P-GA가 기존 방식 대비 최대 2.85배의 전력 소모량을 감소할 수 있음을 보인다.

유전알고리즘 기반 콘크리트 구조물의 최적화 설계를 위한 멀티코어 퍼스널 컴퓨터 클러스터의 확장 가능성 연구 (A Study on the Scalability of Multi-core-PC Cluster for Seismic Design of Reinforced-Concrete Structures based on Genetic Algorithm)

  • 박근형;최세운;김유석;박효선
    • 한국전산구조공학회논문집
    • /
    • 제26권4호
    • /
    • pp.275-281
    • /
    • 2013
  • 본 논문에서는 유전알고리즘을 사용하여 철근콘크리트 구조물의 최적 지진설계를 효율적으로 수행하기 위해 클러스터를 사용하는 경우 확장성을 확인하였다. 클러스터를 구성하는 코어프로세서의 개수를 증가시키면서 유전알고리즘의 각 세대에 소요되는 시간의 감소를 관찰하였다. 단일 퍼스널 컴퓨터의 구성을 분류한 후, wall-clock time과 암달의 법칙으로 예상된 값을 비교하여 예상되었던 병목현상을 확인하였다. 이에 클러스터의 확장성에서 복합적인 요인에 의한 경향을 확인할 수 있었다. 병목현상의 물리적인 요인과 알고리즘 측면에서의 요인을 구분하기 위해 유전알고리즘의 개채수를 나누어 실험을 수행하여 결과를 확인하였다.

A Low Power Design of H.264 Codec Based on Hardware and Software Co-design

  • Park, Seong-Mo;Lee, Suk-Ho;Shin, Kyoung-Seon;Lee, Jae-Jin;Chung, Moo-Kyoung;Lee, Jun-Young;Eum, Nak-Woong
    • 정보와 통신
    • /
    • 제25권12호
    • /
    • pp.10-18
    • /
    • 2008
  • In this paper, we present a low-power design of H.264 codec based on dedicated hardware and software solution on EMP(ETRI Multi-core platform). The dedicated hardware scheme has reducing computation using motion estimation skip and reducing memory access for motion estimation. The design reduces data transfer load to 66% compared to conventional method. The gate count of H.264 encoder and the performance is about 455k and 43Mhz@30fps with D1(720x480) for H.264 encoder. The software solution is with ASIP(Application Specific Instruction Processor) that it is SIMD(Single Instruction Multiple Data), Dual Issue VLIW(Very Long Instruction Word) core, specified register file for SIMD, internal memory and data memory access for memory controller, 6 step pipeline, and 32 bits bus width. Performance and gate count is 400MHz@30fps with CIF(Common Intermediated format) and about 100k per core for H.264 decoder.

소형화와 저전력화를 위해 2M-byte on-chip SRAM과 아날로그 회로를 포함하는 SoC (SoC including 2M-byte on-chip SRAM and analog circuits for Miniaturization and low power consumption)

  • 박성훈;김주언;백준현
    • 전기전자학회논문지
    • /
    • 제21권3호
    • /
    • pp.260-263
    • /
    • 2017
  • 다종의 CPU를 기반으로 ADC와 DC-DC 변환기를 포함하며 2M-byte의 SRAM이 내장된 SoC가 제안되었다. CPU 코어는 12-bit MENSA 코어, 32-bit Symmetric Multi-core 프로세서, 16-bit CDSP로 구성된다. 외부 SDRAM 메모리를 제거하기 위해 내부의 2M-byte SRAM을 설계하였으나 SRAM 블록들이 넓은 영역에 분포하여 기생 성분에 의해 속도가 저하되므로 SRAM을 작게 분할하여 레이아웃 하였다. 설계된 SoC는 55nm 공정으로 개발되었으며 속도는 200MHz이다.

머신러닝 컴파일러와 모듈로 스케쥴러에 관한 연구 (A Study on Machine Learning Compiler and Modulo Scheduler)

  • 조두산
    • 한국산업융합학회 논문집
    • /
    • 제27권1호
    • /
    • pp.87-95
    • /
    • 2024
  • This study is on modulo scheduling algorithms for multicore processor in machine learning applications. Machine learning algorithms are designed to perform a large amount of operations such as vectors and matrices in order to quickly process large amounts of data stream. To support such large amounts of computations, processor architectures to support applications such as artificial intelligence, neural networks, and machine learning are designed in the form of parallel processing such as multicore. To effectively utilize these multi-core hardware resources, various compiler techniques are being used and studied. In this study, among these compiler techniques, we analyzed the modular scheduler, which is especially important in one core's computation pipeline. This paper looked at and compared the iterative modular scheduler and the swing modular scheduler, which are the most widely used and studied. As a result, both schedulers provided similar performance results, and when measuring register pressure as an indicator, it was confirmed that the swing modulo scheduler provided slightly better performance. In this study, a technique that divides recurrence edge is proposed to improve the minimum initiation interval of the modulo schedulers.

임베디드 영상 응용을 위한 GP_SoC (A SoC based on the Gaussian Pyramid (GP) for Embedded image Applications)

  • 이봉규
    • 전기학회논문지
    • /
    • 제59권3호
    • /
    • pp.664-668
    • /
    • 2010
  • This paper presents a System-On-a-chip (SoC) for embedded image processing and pattern recognition applications that need Gaussian Pyramid structure. The system is fully implemented into Field-Programmable Gate Array (FPGA) based on the prototyping platform. The SoC consists of embedded processor core and a hardware accelerator for Gaussian Pyramid construction. The performance of the implementation is benchmarked against software implementations on different platforms.