• 제목/요약/키워드: Thread Block

검색결과 26건 처리시간 0.018초

SimTBS: GPGPU 스레드블록 스케줄링 시뮬레이터 (SimTBS: Simulator For GPGPU Thread Block Scheduling)

  • 조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.87-92
    • /
    • 2020
  • GPGPU(General-Purpose GPU)는 수만 단위의 스레드들을 병렬적으로 수행하여 성능을 최대화시킬 수 있지만, 실질적으로는 스레드들을 그룹화하여 스레드블록(Thread Block) 단위로 작업을 정의하고 GPGPU 하드웨어 자원의 할당 단위로 활용한다. 이러한 역할을 담당하는 스레드블록 스케줄러는 GPGPU내에 하드웨어적으로 구현되어 있으며, 스레드블록들을 하드웨어 자원들에게 라운드로빈 방식으로 할당한다. 그런데, 라운드로빈 정책은 단순 순차 할당 방식으로서 GPGPU 하드웨어 자원의 활용도에 최적화되어 있지 않다. 본 논문에서는 다양한 스레드블록 스케줄링 방식의 성능을 정량적으로 분석할 수 있는 스레드블록 스케줄러 모델을 제안하고, 구현된 시뮬레이터의 성능 결과를 통해 기존 GPGPU의 스레드블록 스케줄링 방식이 작업 부하가 높은 경우에는 적합하지 않음을 보이고자 한다.

Wireless LAN 환경에서 임베디드 SIP User Agent 구현 (An Implementation of Embedded SIP User Agent under Wireless LAN Area)

  • 박승환;이재흥
    • 한국정보통신학회논문지
    • /
    • 제9권3호
    • /
    • pp.493-497
    • /
    • 2005
  • 본 논문은 무선의 임베디드 시스템 환경에서, VoIP 시스템을 구성하는 프로토콜 요소 중의 하나인 SIP를 이용한 User Agent의 구현에 관한 연구이다. User Agent는 설정 블록과, 주변 장치를 제어하기 위한 디바이스 쓰래드 블록, SIP 메시지를 처리하기 위한 SIP 스택 블록으로 구성하였다. 디바이스 쓰래드는 RTP 쓰래드 블록과 사운드 카드 처리 블록으로 구성하였으며, SIP 스택은 프락시 이벤트를 처리하는 워커 쓰래드 블록과 SIP 메시지를 전송하여 처리하는 SIP 트랜시버 및 SIP 쓰래드 블록으로 구성하였다. 하드웨어 플랫폼은 Intel XScale PXA25S 프로세서 기반에 플래쉬 메모리, SDRAM, AC'97 오디오 코덱, 무선 랜카드와 연결된 PCMCIA 소켓이 내장된 보드를 구성하였으며, 오디오 입출력으로 마이크로폰과 헤드폰을 사용하였다. 본 연구의 실험을 위한 타겟 시스템 구성은 임베디드 리눅스 커널 2.4.19를 포팅하였다. 임베디드 시스템의 자원 효율을 높이고자, User Agent의 속성과 SIP 메소드의 기능을 최소화하였고, TCP를 배제하여, 주변 장치 제어를 최소화함으로써, 자원의 소비를 $12.9\%$ 절감할 수 있었다.

다중 워크로드 환경을 위한 GPGPU 스레드 블록 스케줄링 (Thread Block Scheduling for Multi-Workload Environments in GPGPU)

  • 박소연;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.71-76
    • /
    • 2022
  • 대규모 병렬 워크로드를 GPGPU의 연산 유닛에 할당하기 위한 스케줄링으로 라운드 로빈 방식이 널리 사용되고 있다. 라운드 로빈은 작업을 각 연산 유닛에 순차적으로 할당하여 구현이 쉽다는 장점이 있으나, 클라우드와 같은 다중 워크로드 환경에서는 연산 유닛 간 부하 균형이 잘 이루어지지 않는 문제점이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 스레드 블록 스케줄링을 제안한다. 제안하는 방식은 다양한 GPGPU 워크로드가 만들어낸 스레드 블록들을 그 작업량에 근거해 다중큐로 관리하고 각 연산 유닛의 잔여 자원을 가장 잘 활용할 수 있는 큐에서 스레드 블록을 선택하여 연산 유닛들의 자원 이용률을 극대화시키고 부하균형을 유도한다. 다양한 부하 환경에서의 시뮬레이션 실험을 통해 제안하는 방식이 라운드 로빈 대비 평균 24.8%의 성능개선 효과가 있음을 보인다.

GPGPU 자원 활용 개선을 위한 블록 지연시간 기반 워프 스케줄링 기법 (A Novel Cooperative Warp and Thread Block Scheduling Technique for Improving the GPGPU Resource Utilization)

  • ;최용;김종면;김철홍
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권5호
    • /
    • pp.219-230
    • /
    • 2017
  • 멀티스레딩 기법이 적용된 GPGPU는 내부 병렬 자원들을 기반으로 데이터를 고속으로 처리하고 메모리 접근시간을 감소시킬 수 있다. CUDA, OpenCL 등과 같은 프로그래밍 모델을 활용하면 스레드 레벨 처리를 통해 응용프로그램의 고속 병렬 수행이 가능하다. 하지만, GPGPU는 범용 목적의 응용프로그램을 수행함에 있어 내부 하드웨어 자원들을 효과적으로 사용하지 못한다는 단점을 보이고 있다. 이는 GPGPU에서 사용하는 기존의 워프/스레드 블록 스케줄러가 메모리 접근시간이 긴 명령어를 처리하는데 있어서 비효율적이기 때문이다. 이와 같은 문제점을 해결하기 위해 본 논문에서는 GPGPU 자원 활용률을 개선하기 위한 새로운 워프 스케줄링 기법을 제안하고자 한다. 제안하는 워프 스케줄링 기법은 스레드 블록의 워프들 중 긴 메모리 접근시간을 가진 워프와 짧은 메모리 접근시간을 가진 워프들을 구분한 후, 긴 메모리 접근시간을 가진 워프를 우선 할당하고, 짧은 메모리 접근시간을 가진 워프를 나중에 할당하여 처리한다. 또한, 메모리와 내부 연결망에서 높은 경합이 발생했을 때 동적으로 스트리밍 멀티프로세서의 수를 감소시켜 워프 스케줄러를 효과적으로 사용할 수 있는 기법도 제안한다. 실험결과에 따르면, 15개의 스트리밍 멀티프로세서를 가진 GPGPU 플랫폼에서 제안된 워프 스케줄링 기법은 기존의 라운드로빈 워프 스케줄링 기법과 비교하여 평균 7.5%의 성능(IPC)이 향상됨을 확인할 수 있다. 또한, 제안된 두 개의 기법을 동시에 적용하였을 경우에는 평균 8.9%의 성능(IPC) 향상을 보인다.

다중 GPU기반 홀로그램 생성을 위한 병렬처리 성능 최적화 기법 (An Optimization Method for Hologram Generation on Multiple GPU-based Parallel Processing)

  • 국중진
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.9-15
    • /
    • 2019
  • 홀로그램의 생성을 위한 연산은 포인트 클라우드의 규모에 따라 연산량이 기하급수적으로 증가하기 때문에 최근에는 다중의 GPU를 기반으로 CUDA 또는 OpenCL 라이브러리를 활용한 병렬처리가 이루어지고 있다. GPU기반의 병렬처리를 위한 CUDA 커널은 GPU의 코어 개수와 메모리 크기를 고려하여 쓰레드(thread), 블록(block), 그리드(grid)를 구성해야 하며, 다중 GPU 환경인 경우 GPU의 개수에 따른 그리드, 블록, 또는 쓰레드 단위의 분산처리가 필요하다. 본 논문에서는 CGH 생성에 대한 성능평가를 위해 포인트 클라우드의 포인트 개수를 10~1,000,000개 범위에서 점진적으로 증가시키면서 CPU, 단일 GPU, 다중 GPU 환경에서 연산 속도를 비교해 보았으며, 다중 GPU 환경에서 CGH(Computer Generated Hologram) 생성 연산을 가속화하기 위한 CUDA 기반의 병렬처리 과정에서 요구되는 메모리 구조 설계와 연산 방법을 제안한다.

상세 자원 이용률에 기반한 병렬 가속기용 스레드 블록 스케줄링 (Thread Block Scheduling for GPGPU based on Fine-Grained Resource Utilization)

  • 반효경;조경운
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.49-54
    • /
    • 2022
  • 최근 클라우드 시스템에서 병렬가속기를 사용하는 사례가 늘면서 가속기 내에서 멀티태스킹을 통해 자원 이용률을 높이는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 병렬가속기 내 자원 사용 패턴을 컴퓨팅 중심과 메모리 중심으로 분류하여 워크로드를 배치하는 방식이 자원 이용률 측면에서 충분한 효과를 나타내지 못함을 보이고, 워크로드별 상세 자원 이용률에 기반한 새로운 스레드 블록 스케줄링 기법을 제안한다. 제안한 기법은 기존 방식과 달리 프로파일링과 스케줄링을 분리하여 스케줄링시의 오버헤드를 줄이고 병목 자원이 일치하지 않는 워크로드들을 최대한 중복 배치하여 자원 이용률을 높인다. 다양한 가상머신 시나리오에 대한 시뮬레이션 실험을 통해 제안한 기법이 병렬가속기의 처리량을 평균 130.6%, 최대 161.4%까지 개선함을 보인다.

WRF 물리 과정의 GP-GPU 계산을 위한 CUDA Fortran 프로그램 구현 (WRF Physics Models Using GP-GPUs with CUDA Fortran)

  • 김영태;이용희;정관영
    • 대기
    • /
    • 제23권2호
    • /
    • pp.231-235
    • /
    • 2013
  • We parallelized WRF major physics routines for Nvidia GP-GPUs with CUDA Fortran. GP-GPUs are originally designed for graphic processing, but show high performance with low electricity for calculating numerical models. In the CUDA environment, a data domain is allocated into thread blocks and threads in each thread block are computing in parallel. We parallelized the WRF program to use of thread blocks efficiently. We validated the GP-GPU program with the original CPU program, and the WRF model using GP-GPUs shows efficient speedup.

웹2.0에서 SOAP 처리와 성능 향상을 위한 모바일 웹 서버 프레임워크의 설계 (A Design of Mobile Web Server Framework for SOAP Transaction and Performance Enhancement in Web2.0)

  • 김용태;정윤수;박길철
    • 한국정보통신학회논문지
    • /
    • 제12권10호
    • /
    • pp.1866-1874
    • /
    • 2008
  • 기존의 웹 서버는 과부하 상태인 경우 폐쇄 연결, 암호 핸드쉐이크 실행 증가와 서버 용량의 현저한 감소로 서버의 처리량에 문제가 발생하여 시스템의 전체적인 성능을 저하시킨다. 또한 쓰레드 블록으로 인하여 다수의 클라이언트 요청 처리가 원활하지 못하고, 쓰레드 활성화를 위하여 많은 시간과 자원을 요구하여, 클라이언트의 요청에 대해 접속시간과 응답 시간이 증가하는 단점이 발생한다. 그러므로 본 논문에서는 웹서버스의 장점인 통합과 커뮤니케이션 지원과 시스템 성능 향상을 위해 서버 과부하를 개선하고, 지연처리를 위해 필요한 기술을 제공하는 확장된 웹서버를 제안한다. 그리고 기존 시스템(Tomcat 5.5에서 구현)과 제안한 모바일 웹 서버 아키텍처를 평가한다. 확장된 서버 아키텍처는 시스템 성능을 위해 우수한 교환 조건을 제공하고, 다중쓰레드와 쓰레드풀을 결합한 개선된 웹 서버 아키텍처를 평가한다. 본 논문에서 제안된 웹서비스 아키텍처는 오리지널 Tomcat 5.5의 평가 결과보다 개선된 성능 이익의 결과를 얻었다.

스레드 기반 모니터링을 통한 악의적인 행위 주체 추적 및 차단에 관한 연구 (A Study on the Tracking and Blocking of Malicious Actors through Thread-Based Monitoring)

  • 고보승;최원혁;정다정
    • 정보보호학회논문지
    • /
    • 제30권1호
    • /
    • pp.75-86
    • /
    • 2020
  • 최근 윈도우즈 운영체제 환경에서 악성코드가 고도화됨에 따라 악의적인 행위를 수행하는 주체가 프로세스가 아닌 경우가 많이 발생하고 있다. 운영체제에 기본적으로 탑재된 프로세스 등에 삽입되어 동작하는 악성코드는 DLL/코드 인젝션과 같은 방식으로 스레드 단위로 동작한다. 이 경우 프로세스 단위로 악성 유무를 진단 및 차단하는 것은 시스템 운영에 심각한 문제를 야기할 수도 있다. 본 논문에서는 프로세스 기반 모니터링 정보를 사용하여 프로세스의 악성유무를 판단하고 차단하는 방법이 가지고 있는 문제점을 나열하고 그에 대한 개선된 방안을 제시한다.

다중쓰레드 프로그래밍을 위한 분산공유메모리 관리 기법 (Distributed Shared Memory Scheme for Multi-thread programming)

  • 서대화
    • 한국정보처리학회논문지
    • /
    • 제3권4호
    • /
    • pp.791-802
    • /
    • 1996
  • 본 논문에서는 대규모 다중처리기 시스템에서 다중쓰레드를 지원하는 기법에 관하여 다룬다. 분산공유메로리에서의 주소번역표 관리, 블록 일관성 유지 방법, 그리고 블록 대치 정책에 대하여 쓰레드 프로그래밍 환경에 적합한 새로운 기법을 제안한다. 이 기법은 분산공유메모리에서 일반적으로 발생하는 문제점들인 거짓 공유, 불필요한 중복, 블록 바운싱, 그리고 주소 엘리어싱 등을 효율적으로 해결한다. 그리고 응용프 로그램의 투명성을 제공하고, 시스템의 확장과 구현 용이하도록 해주며, 다중쓰레드 환경을 사용자에서 제공한다.

  • PDF