• Title/Summary/Keyword: 다수코어 프로세서

Search Result 18, Processing Time 0.024 seconds

Power Consumption and Temperature Comparison between Real Multicore Processor System and Virtual Multicore Processor System (실제 멀티코어 프로세서 시스템과 가상 시스템의 전력 소모 및 온도 비교)

  • Jeon, Hyung-Gyu;Kang, Seung-Gu;Ahn, Jin-Woo;Kim, Cheol-Hong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.450-453
    • /
    • 2011
  • 반도체 공정 기술의 발달에 따라 프로세서의 성능은 비약적으로 증가하였다. 특히 최근에는 하나의 프로세서에 여러 개의 코어를 집적한 멀티코어 프로세서 기술이 급속도로 발달하고 있는 추세이다. 멀티코어 프로세서는 동작주파수를 높여 성능을 개선하는 싱글코어 프로세서의 한계를 극복하기 위해 코어 개수를 늘림으로써 각각의 코어가 더 낮은 동작주파수에서 실행할 수 있도록 하여 소모 전력을 줄일 수 있다. 또한 다수의 코어가 동시에 연산을 수행하기 때문에 싱글코어 프로세서보다 더 많은 연산을 효율적으로 수행하여 사용률이 크게 높아지고 있지만 멀티코어 프로세서에서는 다수의 코어를 단일 칩에 집적하였기 때문에 전력밀도의 증가와 높은 발열이 문제가 되고 있다. 이와 같은 상황에서 본 논문에서는 듀얼코어 프로세서를 탑재한 시스템과 쿼드코어 프로세서를 탑재한 시스템의 소모 전력과 온도를 실제 측정하고 시뮬레이션을 통해 얻은 가상 시스템의 결과를 비교, 분석함으로써 실제 측정 결과와 시뮬레이션 결과가 얼마나 유사한지를 살펴보고, 차이가 발생하는 원인에 대한 분석을 수행하고자 한다. 실험결과, 실제 시스템을 측정한 결과와 시뮬레이션을 통한 가상 시스템의 결과는 매우 유사한 추이를 보이는 것으로 나타났다. 하지만 실제 시스템의 소모 전력과 온도의 증가비율은 가상 시스템의 소모 전력과 온도의 증가비율과는 다른 경향을 보이는 것을 확인하였다.

Trends on Task Scheduling in Heterogeneous Multi-core Processors (이종 멀티코어 프로세서 작업 스케줄링에 관한 연구 동향 분석)

  • Kim, Sung-il;Kim, Jong-kook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.119-122
    • /
    • 2012
  • 이종 멀티코어 프로세서는 각기 상이한 마이크로아키텍처, 캐시 사이즈, 클록 주파수를 갖는 다수의 코어 또는 프로세싱 유닛으로 이루어진 마이크로프로세서이다. 저에너지 소비가 산업계의 키워드로 부상하고 있는 이 시기에 이종 멀티코어는 동종 멀티코어보다 더 낮은 전력을 소비하고 성능면에서도 더 나은 프로세서로 주목받고 있다. 하지만, 동종 멀티코어에서의 동작을 가정하는 현재의 운영체제의 작업 스케줄러로는 이종 멀티코어의 이종적인 특성을 잘 활용할 수 없다. 본 논문에서는 이종 멀티코어 프로세서 작업 스케줄링에 관한 연구를 다면적으로 분석하여 각 방법의 장점과 단점을 개략적으로 정리하고 관련된 이슈들을 살펴보고자 한다.

Idle Cache Exploiting Techniques for Shared Bus-based Chip Multi-processors (칩 멀티 프로세서의 공유 버스를 이용한 유휴 캐시 활용 기법)

  • Kang, Seok-bin;Kim, Ju-hwan;Kwak, Jong Wook;Jhang, Seong Tae;Jhon, Chu-shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.877-880
    • /
    • 2009
  • 반도체 집적도의 향상과 제한된 프로세서 설계 능력으로 인한 칩 멀티 프로세서의 도입은 최근 수 년 동안 급속히 이루어졌으나, 다수의 프로세싱 코어를 효율적으로 사용하기 위한 기법은 부족한 실정이다. 칩 멀티 프로세서 상에서 실제 작업을 수행하지 않는 유휴 코어의 발생은 불가피하며, 이 때 코어가 소유한 자원들은 낭비될 수 밖에 없다. 기존의 연구들은 이렇게 낭비되는 자원 중에서 캐시의 효율적 관리를 위해 공유 캐시 형태로 캐시를 구성하였으나, 전체 캐시 관리에 따른 많은 오버헤드를 수반하였다. 본 논문에서는 이러한 유휴 캐시의 발생이 불가피함을 인지하고 그것을 칩 내 메모리 공간으로써 활용하여 칩 멀티 프로세서 전체의 성능을 향상시키는 기법을 제안한다. 이를 위해 ARM 코어 기반의 칩 멀티프로세서 시뮬레이터 환경을 구성하여 제안된 기법을 검증한다. 실험 결과 본 논문에서 소개된 기법은 4-코어 및 16 코어 기반 칩 멀티 프로세서 환경에서 각각 17%와 8%의 IPC 향상을 가져왔다.

Technology and Trend of Parallel Processor (병렬 프로세서 기술 및 동향)

  • Chung, M.K.;Park, S.M.;Eum, N.W.
    • Electronics and Telecommunications Trends
    • /
    • v.24 no.6
    • /
    • pp.86-93
    • /
    • 2009
  • 프로세서는 더 이상 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 멀티프로세서로 기술 발전이 이루어지고 있다. 최근 2, 4, 8개의 프로세서 코어를 넘어 64, 128개 이상의 프로세서를 집적한 대규모 데이터 처리 및 과학 연산용 고성능 프로세서들이 개발되고 있다. 본 문서는 이러한 병렬 프로세싱의 개념 및 병렬 프로세서의 기술을 정리하고 최근 동향과 함께 당면한 문제점들을 기술한다.

An Optimization Tool for Determining Processor Affinity of Networking Processes (통신 프로세스의 프로세서 친화도 결정을 위한 최적화 도구)

  • Cho, Joong-Yeon;Jin, Hyun-Wook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.2
    • /
    • pp.131-136
    • /
    • 2013
  • Multi-core processors can improve parallelism of application processes and thus can enhance the system throughput. Researchers have recently revealed that the processor affinity is an important factor to determine network I/O performance due to architectural characteristics of multi-core processors; thus, many researchers are trying to suggest a scheme to decide an optimal processor affinity. Existing schemes to dynamically decide the processor affinity are able to transparently adapt for system changes, such as modifications of application and upgrades of hardware, but these have limited access to characteristics of application behavior and run-time information that can be collected heuristically. Thus, these can provide only sub-optimal processor affinity. In this paper, we define meaningful system variables for determining optimal processor affinity and suggest a tool to gather such information. We show that the implemented tool can overcome limitations of existing schemes and can improve network bandwidth.

Analysis of Programming Techniques for Creating Optimized CUDA Software (최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석)

  • Kim, Sung-Soo;Kim, Dong-Heon;Woo, Sang-Kyu;Ihm, In-Sung
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.7
    • /
    • pp.775-787
    • /
    • 2010
  • Unlike general-purpose CPUs, the GPUs have been specialized as many-core streaming processors, and are frequently replacing the CPUs in an increasing range of computations thanks to their outstanding parallel computing capacity. In order to respond to such trend, NVIDIA has recently issued a new parallel computing architecture called CUDA(Compute Unified Device Architecture), offering a flexible GPU programming environment for GPGPU(General Purpose GPU) computing. In general, when programmers use the CUDA API, they should clearly understand many aspects of GPU's computing architecture to produce efficient parallel software. In this article, we explain several optimization techniques for CUDA programming that we have verified through a lot of experiment and trial and error, and review how those techniques affect the performance of code execution. In particular, we use a specific problem as an example to analyze several elements that affect performances, such as effective accesses to hierarchical memory system, processor occupancy, and latency hiding. In conclusion, we present several directions that may be utilized effectively in CUDA-based parallel programming.

Implementation of an Optimal SIMD-based Many-core Processor for Sound Synthesis of Guitar (기타 음 합성을 위한 최적의 SIMD기반 매니코어 프로세서 구현)

  • Choi, Ji-Won;Kang, Myeong-Su;Kim, Jong-Myon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.1
    • /
    • pp.1-10
    • /
    • 2012
  • Improving operating frequency of processors is no longer today's issues; a multiprocessor technique which integrates many processors has received increasing attention. Currently, high-performance processors that integrate 64 or 128 cores are developing for large data processing over 2, 4, or 8 processor cores. This paper proposes an optimal many-core processor for synthesizing guitar sounds. Unlike the previous research in which a processing element (PE) was assigned to support one of guitar strings, this paper evaluates the impacts of mapping different numbers of PEs to one guitar string in terms of performance and both area and energy efficiencies using architectural and workload simulations. Experimental results show that the maximum area energy efficiencies were achieved at PEs=24 and 96, respectively, for synthesizing guitar sounds with sampling rate of 44.1kHz and 16-bit quantization. The synthesized sounds were very similar to original guitar sounds in their spectra. In addition, the proposed many-core processor was 1,235 and 22 times better than TI TMS320C6416 in area and energy efficiencies, respectively.

Dynamic Power Management Framework for Mobile Multi-core System (모바일 멀티코어 시스템을 위한 동적 전력관리 프레임워크)

  • Ahn, Young-Ho;Chung, Ki-Seok
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.47 no.7
    • /
    • pp.52-60
    • /
    • 2010
  • In this paper, we propose a dynamic power management framework for multi-core systems. We reduced the power consumption of multi-core processors such as Intel Centrino Duo and ARM11 MPCore, which have been used at the consumer electronics and personal computer market. Each processor uses a different technique to save its power usage, but there is no embedded multi-core processor which has a precise power control mechanism such as dynamic voltage scaling technique. The proposed dynamic power management framework is suitable for smart phones which have an operating system to provide multi-processing capability. Basically, our framework follows an intuitive idea that reducing the power consumption of idle cores is the most effective way to save the overall power consumption of a multi-core processor. We could minimize the energy consumption used by idle cores with application-targeted policies that reflect the characteristics of active workloads. We defined some properties of an application to analyze the performance requirement in real time and automated the management process to verify the result quickly. We tested the proposed framework with popular processors such as Intel Centrino Duo and ARM11 MPCore, and were able to find that our framework dynamically reduced the power consumption of multi-core processors and satisfied the performance requirement of each program.

Improving Multi-DNN Computational Performance of Embedded Multicore Processors through a Global Queue (글로벌 큐를 통한 임베디드 멀티코어 프로세서의 멀티 DNN 연산 성능 향상)

  • Cho, Ho-jin;Kim, Myung-sun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.6
    • /
    • pp.714-721
    • /
    • 2020
  • DNN is expanding its use in embedded systems such as robots and autonomous vehicles. For high recognition accuracy, computational complexity is greatly increased, and multiple DNNs are running aperiodically. Therefore, the ability processing multiple DNNs in embedded environments is a crucial issue. Accordingly, multicore based platforms are being released. However, most DNN models are operated in a batch process, and when multiple DNNs are operated in multicore together, the execution time deviation between each DNN may be large and the end-to-end execution time of the whole DNNs could be long depending on how they are allocated to the cores. In this paper, we solve these problems by providing a framework that decompose each DNN into individual layers and then distribute to multicores through a global queue. As a result of the experiment, the total DNN execution time was reduced by 31%, and when operating multiple identical DNNs, the deviation in execution time was reduced by up to 95.1%.

A Study on Micro Clustering Technology for Breeding Pig Behavior Analysis (모돈 행동 특성 분석을 위한 마이크로 클러스터링 기술 연구)

  • Cho, Jinho;Oh, Jong-woo;Lee, DongHoon
    • Proceedings of the Korean Society for Agricultural Machinery Conference
    • /
    • 2017.04a
    • /
    • pp.165-165
    • /
    • 2017
  • 모돈은 사육 특성상 제한된 파일롯 공간 안에 장시간 머물기 때문에 과중한 몸무게에 의한 지제 이상, 섭식 등의 불량, 수면상태의 불량 등을 지속적으로 관찰해야 하는 대상이다. 측면에 다수의 초음파 센서를 설치하여 기립의 상태 및 운동 시 몸체 궤적의 특성을 분석하여 종합적으로 모돈의 행동 특성을 정량화 하고자 하였다. 이 과정에서 계측 신호의 값을 대수적으로 비교하는 방식에 한계가 있음을 발견하였고, 이를 해결하고자 10 Hz/Ch 내외의 시계열 상대거리 궤적 신호를 주파수 도메인으로 변경하여 분석을 수행하였다. 일정 주파수에 집중되어 있는 주파수 값의 크기 변화(파워 스펙트럼 밀도)를 기준으로 모돈의 움직임의 정상 상태 유무 판별이 가능하였다. 단, 이러한 분석은 계측 데이터를 일괄 처리 방식으로 분석하는 방법으로 도출이 되었으므로, 계측과 정량 분석을 동시에 수행하기 위한 개선이 필요하였다. 계측 시스템에서 사용한 마이크로 프로세서는 Nucleo-446(STMelectronics, CA, USA)로 180 Mhz의 클럭 속도로 작동하나, 총 100 Hz 내외의 16비트 계측 신호에 대해 추가적으로 FFT 등의 주파수 변환 신호 처리를 수행하기에는 연산 능력이 부족하였다. 한편, 주파수 분석의 주기를 1분 단위로 할 경우 처리해야할 정보의 크기는 $100{\times}60{\times}5{\times}2Byte$ 이므로 1분 내에 해당 연산을 종료할 수 있는 추가의 연산 장치가 필요하였다. 계측과 주파수 도메인 변환 연산을 동시에 수행하기 위하여 1 Ghz의 연산능력을 가진 ARM A9 계열의 초소형 멀티코어 AP인 NanoPi Neo Air(Friendlyarm, Guangzhou, China)을 선정하였다. 4개의 코어를 각각 계측, Median 필터링, Smoothing 연산, FFT 분석에 사용하여 1분 단위, 2분 단위, 5분 단위의 주파수 분석을 동시에 수행하였다. 병렬 연산 라이브러리는 오픈 소스인 MPICH(www.mpich.org)를 이용하였다. 상대적으로 여유있는 자원을 보유하고 코어를 실시간으로 결정하여 다수의 모돈 개체 동시 모니터링을 위한 네트워크 연결 역할을 동시에 수행하도록 하였다. 1주일 내외의 요인 실험 수행 결과, 약 70 Mbyte의 데이터가 축적이 되었으며, 1분 단위, 2분 단위, 5분 단위의 주파수 도메인 변환 후 결과를 동시에 취득할 수 있었다. 일부 주파수 도메인 상의 파워 밀도 값이 모돈의 행동 특성에 분석에 유효한 정보를 제공함을 발견하였다. 모돈사 내 현장 보급이 가능한 초소형 AP와 멀티 코어 기반 병렬 처리 기법을 이용한 현장 진단 시스템 개발 연구를 지속적으로 수행할 것이다.

  • PDF