• 제목/요약/키워드: 스레드 스케줄링

검색결과 18건 처리시간 0.022초

다중스레드 모델에서 최단 프레임 우선 스레드 스케줄링 알고리즘 (Shortest-Frame-First Scheduling Algorithm of Threads On Multithreaded Models)

  • 심우호;유원희;양창모
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권5호
    • /
    • pp.575-582
    • /
    • 2000
  • 기존 다중스레드 모델에서의 주로 사용되는 선입선출 스케줄링 알고리즘은 실행의 지역성을 고려하지 않았기 때문에 높은 문맥전환 비용과 상대적으로 수행 시간이 짧은 프레임의 지연이 야기되어 일부 환경에서는 실행의 효율성을 떨어뜨리는 요인이 된다. 선입선출 스케줄링 알고리즘의 문제를 개선한 TAM의 퀀텀 단위 스케줄링 방법은 퀀텀 단위의 우선권을 너무 강조하므로 프로그램 실행의 병렬성을 제한시켜 프로세서의 활용도가 저하될 수 있고, 프레임 내에 있는 스레드들 간의 동기화로 인한 지연이 발생될 경우 대기 시간이 길어질 수 있다는 문제점을 가지고 있다. 위의 문제점들을 해결하기 위해 본 논문에서는 컴파일러에 의해 생성된 스레드의 크기와 동기화 정보를 이용하여 상대적으로 가장 짧은 프레임의 실행 시간을 예상하여 이를 우선적으로 처리하는 최단 프레임 우선(shortest-frame-first) 스케줄링 알고리즘을 제안한다. 다중스레드 모델은 실행의 일부분 특히 동기화 처리를 컴파일러에 의존하는 방식을 취함으로써 작업 시간에 대한 정확한 예상과 일관성을 쉽게 이용할 수 있다. 제안한 최단 프레임 우선 스케줄링 알고리즘을 선입선출 스케줄링 알고리즘과 비교한 실험 결과, 실행시간의 평가에서는 평균 15% 정도 실행 시간을 단축시켰고 프로세서 활용도의 평가에서는 5% 정도의 성능 향상을 얻었다. 그리고 대기 시간의 평가에서는 평균 24% 정도의 대기 시간을 줄였다.

  • PDF

SimTBS: GPGPU 스레드블록 스케줄링 시뮬레이터 (SimTBS: Simulator For GPGPU Thread Block Scheduling)

  • 조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.87-92
    • /
    • 2020
  • GPGPU(General-Purpose GPU)는 수만 단위의 스레드들을 병렬적으로 수행하여 성능을 최대화시킬 수 있지만, 실질적으로는 스레드들을 그룹화하여 스레드블록(Thread Block) 단위로 작업을 정의하고 GPGPU 하드웨어 자원의 할당 단위로 활용한다. 이러한 역할을 담당하는 스레드블록 스케줄러는 GPGPU내에 하드웨어적으로 구현되어 있으며, 스레드블록들을 하드웨어 자원들에게 라운드로빈 방식으로 할당한다. 그런데, 라운드로빈 정책은 단순 순차 할당 방식으로서 GPGPU 하드웨어 자원의 활용도에 최적화되어 있지 않다. 본 논문에서는 다양한 스레드블록 스케줄링 방식의 성능을 정량적으로 분석할 수 있는 스레드블록 스케줄러 모델을 제안하고, 구현된 시뮬레이터의 성능 결과를 통해 기존 GPGPU의 스레드블록 스케줄링 방식이 작업 부하가 높은 경우에는 적합하지 않음을 보이고자 한다.

CC-NUMA 시스템을 위한 다중 스레드 프로세스의 노드 스케줄링 설계 및 구현 (The Node Scheduling of Multi-Threaded Process for CC-NUMA System)

  • 김정녀;김해진;이철훈
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.488-496
    • /
    • 2000
  • 본 논문에서는 여러 개의 노드가 상호연결망으로 연결되어 각각의 메모리를 공유하는 CC-MUMA 시스템인 고성능 멀티미디어 서버(MX-Server)상에서 다중 스레드 프로세스의 노드 스케줄링 설계 및 구현 내용을 소개한다. 고성능 멀티미디어 서버의 컴퓨팅 서버용 운영체제인 COSMIX(cache COherent Shared Memory unIX)에서는 서버의 플랫폼에 알맞은 하드웨어 및 시스템 관련하여 CC-NUMA 시스템에 적합한 운영체제 기능을 설계하였다. 고성능 멀티미디어 서버는 최대 8개까지의 노드로 구성된 CC-NUMA 시스템으로 각 노드들은 SCI ring으로 연결된다. 이러한 CC-NUMA 구조의 시스템에서 데이터의 지역성을 고려한 노드 스케줄링 방식으로 Oracle8i와 같은 DBMS의 성능을 높이고자 한다. 고성능 멀티미디어 서버에서는 데이터의 저역성을 고려하여 한 노드에 프로세스를 바인드 하는 기능이 있으나, 그중 다중 스레드로 구성된 프로세스의 바인드 기능은 없다. Oracle 8i와 간츤 DBMS에서는 다중 스레드로 구성된 하나의 프로세스가 일정한 디스크를 점유하여 사용할 수 있으므로 이와 같은 다중 스레드의 프로세스를 해당 디스크가 있는 하나의 노드 즉 cg에 마인드 하는 기능을 구현하였다. 현재는 가용한 플랫폼이 없어서 MX Server 대신 PC 테스트베드를 이용한 CC-NUMA 시스템의 시뮬레이션 환경을 구축하여 다중 스페드의 CG 바인드 기능을 개발하고 그 시험을 완료하였다.

  • PDF

Non-Strict 프로그램 조건식의 향상된 스레드 분할 (The Enhanced Thread Partitioning of Conditional Expressions of Non-Strict Programs)

  • 조선문;양창모;유원희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.277-280
    • /
    • 2000
  • 다중스레드 병렬기계(multithreaded parallel machine)를 위하여 함수 프로그램을 번역할 때 스레드 분할이란 수행 순서를 번역시간에 알 수 있어 정적 스케줄링이 가능한 프로그램의 부분을 식별하여 스레드로 모으는 작업을 말한다. 조건식에서 연산의 수행 순서는 판단식 -> 참실행식 또는 판단식 -> 거짓실행식이므로 번역시간에는 수행순서를 결정할 수 없다. 따라서 기존의 분할 알고리즘은 조건식의 판단식, 참실행식, 거짓실행식을 기본 블록으로 나누고 각각에 대하여 지역 분할을 적용한다. 이러한 제약은 스레드의 정의를 약간 수정하여 스레드 내에서의 분기를 허용한다면 좀더 좋은 분할을 얻을 수 있다. 스레드내에서의 분기는 병렬성을 감소시키거나 동기화의 횟수를 증가시키거나 또는 교착상태를 발생시키는 등의 스레드 분할의 기본 원칙을 어기지 않으며 오히려 스레드 길이를 증가시키거나 동기화 횟수를 줄이는 장점을 가질 수 있다. 본 논문에서는 조건식의 세 가지 기본 블록을 하나 또는 두 개의 기본 블록으로 병합함으로서 스레드 분할을 향상시키는 방법을 제안한다.

  • PDF

비평가인자 함수 프로그램의 스레드 분할 향상을 위한 자료형 분리 집합 분할알고리즘 (Typed Separation Set Partitioning for Thread Partitioning of Non-strict functional Programs)

  • 양창모;주형석;유원희
    • 한국정보처리학회논문지
    • /
    • 제5권8호
    • /
    • pp.2127-2136
    • /
    • 1998
  • 비평가인자 함수 언어는 비평가인자 어의로 인하여 기존의 von Neumann 형 병렬기에서 효율적인 수행을 어렵게 하는 미세수준의 동적 스케줄링 단위로 병합하는 과정이 중요하다. 이러한 과정을 스레드 분할이라 한다. 본 논문에서는 비평가인자 함수 프로그램을 스레드로 분할하는 자료형 분리집합 분할이라는 스레드 분할 알고리즘을 제안한다. 자료형 분리 집합 분할 알고리즘은 자료형을 비교할 수 없는 입력명과 출력명 사이에는 잠재 종속이 존재할 수 없다는 사실을 이용하여 스레드 분할을 수행한다. 이 방법을 사용하면 기존의 스레드 분할 방법에서 실패하는 스레드의 병합이 가능하며, 기존의 분할 알고리즘보다 더 큰 스레드를 생성할 수 있다.

  • PDF

다중 워크로드 환경을 위한 GPGPU 스레드 블록 스케줄링 (Thread Block Scheduling for Multi-Workload Environments in GPGPU)

  • 박소연;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.71-76
    • /
    • 2022
  • 대규모 병렬 워크로드를 GPGPU의 연산 유닛에 할당하기 위한 스케줄링으로 라운드 로빈 방식이 널리 사용되고 있다. 라운드 로빈은 작업을 각 연산 유닛에 순차적으로 할당하여 구현이 쉽다는 장점이 있으나, 클라우드와 같은 다중 워크로드 환경에서는 연산 유닛 간 부하 균형이 잘 이루어지지 않는 문제점이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 스레드 블록 스케줄링을 제안한다. 제안하는 방식은 다양한 GPGPU 워크로드가 만들어낸 스레드 블록들을 그 작업량에 근거해 다중큐로 관리하고 각 연산 유닛의 잔여 자원을 가장 잘 활용할 수 있는 큐에서 스레드 블록을 선택하여 연산 유닛들의 자원 이용률을 극대화시키고 부하균형을 유도한다. 다양한 부하 환경에서의 시뮬레이션 실험을 통해 제안하는 방식이 라운드 로빈 대비 평균 24.8%의 성능개선 효과가 있음을 보인다.

경성 실시간 운영체제 RT-eCos3.0을 위한 LLF 스케줄러의 구현 (Implementation of an LLF Scheduler for the Hard Real-time OS, RT-eCos3.0)

  • 유휘재;김정국
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.395-397
    • /
    • 2011
  • RT-eCos3.0은 대표적 분산 실시간 객체 모델인 TMO(Time-triggered Message-triggered Object)의 실행을 제공하기 위하여 공개소스 eCos3.0 기반으로 개발된 초경량 경성 실시간 임베디드 운영체제이다. RT-eCos3.0에서는 그간 스레드의 최장 수행 시간 입력이 필요 없는 EDF 및 FIFO 스케줄러를 지원하여 왔다. 본 논문에서는 TMO의 시간 구동 스레드와 메시지 구동 스레드의 스레드 등록 시 최장 수행 시간을 입력 받아 이를 기반으로 마감시간까지의 수행시간 대비 잔여시간을 이용하는 LLF (Least Laxity First) 스케줄러를 클럭 인터럽트 핸들러 내에 구현하고 각 스레드로 하여금 스케줄링 정책을 선택할 수 있도록 구현하였다.

GPGPU 자원 활용 개선을 위한 블록 지연시간 기반 워프 스케줄링 기법 (A Novel Cooperative Warp and Thread Block Scheduling Technique for Improving the GPGPU Resource Utilization)

  • ;최용;김종면;김철홍
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권5호
    • /
    • pp.219-230
    • /
    • 2017
  • 멀티스레딩 기법이 적용된 GPGPU는 내부 병렬 자원들을 기반으로 데이터를 고속으로 처리하고 메모리 접근시간을 감소시킬 수 있다. CUDA, OpenCL 등과 같은 프로그래밍 모델을 활용하면 스레드 레벨 처리를 통해 응용프로그램의 고속 병렬 수행이 가능하다. 하지만, GPGPU는 범용 목적의 응용프로그램을 수행함에 있어 내부 하드웨어 자원들을 효과적으로 사용하지 못한다는 단점을 보이고 있다. 이는 GPGPU에서 사용하는 기존의 워프/스레드 블록 스케줄러가 메모리 접근시간이 긴 명령어를 처리하는데 있어서 비효율적이기 때문이다. 이와 같은 문제점을 해결하기 위해 본 논문에서는 GPGPU 자원 활용률을 개선하기 위한 새로운 워프 스케줄링 기법을 제안하고자 한다. 제안하는 워프 스케줄링 기법은 스레드 블록의 워프들 중 긴 메모리 접근시간을 가진 워프와 짧은 메모리 접근시간을 가진 워프들을 구분한 후, 긴 메모리 접근시간을 가진 워프를 우선 할당하고, 짧은 메모리 접근시간을 가진 워프를 나중에 할당하여 처리한다. 또한, 메모리와 내부 연결망에서 높은 경합이 발생했을 때 동적으로 스트리밍 멀티프로세서의 수를 감소시켜 워프 스케줄러를 효과적으로 사용할 수 있는 기법도 제안한다. 실험결과에 따르면, 15개의 스트리밍 멀티프로세서를 가진 GPGPU 플랫폼에서 제안된 워프 스케줄링 기법은 기존의 라운드로빈 워프 스케줄링 기법과 비교하여 평균 7.5%의 성능(IPC)이 향상됨을 확인할 수 있다. 또한, 제안된 두 개의 기법을 동시에 적용하였을 경우에는 평균 8.9%의 성능(IPC) 향상을 보인다.

상세 자원 이용률에 기반한 병렬 가속기용 스레드 블록 스케줄링 (Thread Block Scheduling for GPGPU based on Fine-Grained Resource Utilization)

  • 반효경;조경운
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.49-54
    • /
    • 2022
  • 최근 클라우드 시스템에서 병렬가속기를 사용하는 사례가 늘면서 가속기 내에서 멀티태스킹을 통해 자원 이용률을 높이는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 병렬가속기 내 자원 사용 패턴을 컴퓨팅 중심과 메모리 중심으로 분류하여 워크로드를 배치하는 방식이 자원 이용률 측면에서 충분한 효과를 나타내지 못함을 보이고, 워크로드별 상세 자원 이용률에 기반한 새로운 스레드 블록 스케줄링 기법을 제안한다. 제안한 기법은 기존 방식과 달리 프로파일링과 스케줄링을 분리하여 스케줄링시의 오버헤드를 줄이고 병목 자원이 일치하지 않는 워크로드들을 최대한 중복 배치하여 자원 이용률을 높인다. 다양한 가상머신 시나리오에 대한 시뮬레이션 실험을 통해 제안한 기법이 병렬가속기의 처리량을 평균 130.6%, 최대 161.4%까지 개선함을 보인다.

GPGPU 프로그램의 자료경합 탐지기법을 위한 벤치마크 모음 (A Benchmark Suite for Data Race Detection Technique in GPGPU Progrmas)

  • 이건표;최으뜸;전용기
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.7-8
    • /
    • 2019
  • 자료경합은 두 개 이상의 스레드가 같은 공유메모리에 적절한 동기화 없이 접근하고, 적어도 한 개의 접근사건이 쓰기일 때 발생할 수 있는 동시성 오류이다. 자료경합은 프로그래머가 의도하지 않은 비결정적인 수행결과를 초래하여, 항공기 소프트웨어와 같은 고신뢰성이 요구되는 프로그램에서 치명적인 오류를 발생시켜 인적 물적 손해로 이어질 수 있다. 자료경합 탐지기법은 이러한 문제를 사전에 탐지하여 수정하는데 사용되어진다. 하지만 GPGPU 프로그램에서의 자료경합은 CPU 병행프로그램에서보다 복잡한 실행구조를 가지고 있어 스레드 및 메모리 계층, 스케줄링, 동기화 기법 등의 많은 변수가 존재한다. 이로 인해 실세계 프로그램에 자료경합 탐지기법을 적용하여 검증 시 이러한 변수들을 반영하여 실험하는데 많은 노력이 소요된다. 본 논문은 실세계 프로그램에서의 자료경합을 대표하는 4가지 패턴의 합성프로그램으로 이루어지고 실행 시 스레드 및 메모리 계층, 스레드 구조, 메모리 사용량 및 동기화 방안을 지정할 수 있는 벤치마크 모음을 제시한다.

  • PDF