통합 검색 | Korea Science

병렬 응용프로그램 실행 시 GPU 구조에 따른 성능 분석 (Performance Evaluation of the GPU Architecture Executing Parallel Applications)

최홍준;김철홍
- 한국콘텐츠학회논문지
- /
- 제12권5호
- /
- pp.10-21
- /
- 2012
통합형셰이더 코어 구조 개발 이후 GPU는 그래픽스 전용 연산장치에서 범용 연산장치로 발달하고 있다. 특히, 병렬 응용 프로그램들은 병렬화된 하드웨어 구조를 효과적으로 활용할 수 있기 때문에, GPU를 활용하여 병렬 응용프로그램들을 실행시키는 기법이 주목을 받고 있다. 하지만, 현재의 GPU 구조는 비그래픽스 응용프로그램을 실행하는데 있어서 병렬성을 충분히 확보하지 못하다는 한계를 가지고 있기 때문에, 이를 해결하기 위해 GPU 구조는 빠르게 변화하고 있다. 본 논문에서는 GPU 구조의 개발 방향을 살펴보기 위해, 비그래픽스 병렬 응용프로그램들을 수행하는 경우에 코어 개수 및 동작 주파수 등의 하드웨어구조에 따른 GPU의 성능을 상세히 분석하고자 한다. 실험 결과, 코어 개수가 30에서 192로 늘어나고 동작주파수가 325MHz에서 450MHz로 증가함에 따라 GPU 성능은 28.9%에서 125.8%, 4.4%에서 16.2% 각각 향상되는 반면 성능 향상 효율성은 감소하는 것을 볼 수 있다. 성능 향상 효율성 감소의 주된 원인은 향상된 연산 능력에 맞추어 증가된 데이터 요구를 메모리가 적절하게 처리하지 못하기 때문이다. 결과적으로 GPU의 성능 향상 효율성을 더욱 높이기 위해서는 연산 능력 향상과 더불어 시스템 자원들 또한 GPU 구조에 맞게 변경되어야 함을 구체적인 실험을 통해 알 수 있다.
https://doi.org/10.5392/JKCA.2012.12.05.010 인용 PDF KSCI

고성능 프로세서 기술동향 (Technology and Trends of High Performance Processors)

김영우;김성운
- 전자통신동향분석
- /
- 제25권5호
- /
- pp.123-136
- /
- 2010
반도체 공정 기술의 발전으로 인하여 반도체 회로는 지속적으로 비약적인 성능의 발전을 가져오고 있다. 고성능 프로세서는 이와 같은 반도체 공정의 미세화에 따라 전력소모 및 발열 문제로 인하여 공정 및 속도 향상을 통한 성능 경쟁에서 탈피하여, 수십 개에서 수백 개의 코어를 내장하는 고도병렬화/이기종화를 통한 성능 향상을 추구하는 시대로 접어들고 있다. 본 문서에서는 최근의 고성능 프로세서 동향을 중심으로 병렬/이기종화 기술 및 관련 기술의 최근 동향과 향후 발전 추세에 대해 논의하고자 한다.
https://doi.org/10.22648/ETRI.2010.J.250511 인용 PDF

Rayleigh 페이딩 채널에서 복합간섭제거기법을 적용한 WCDMA 시스템의 성능분석 (Performance Analysis of WCDMA Systems Employing a Hybrid Interference Cancellation Scheme in Rayleigh Fading Channels)

서정욱;임철호;최충열;오창헌;조성준
- 한국전자파학회:학술대회논문집
- /
- 한국전자파학회 2000년도 종합학술발표회 논문집 Vol.10 No.1
- /
- pp.3-4
- /
- 2000
본 논문에서는 다양한 QoS와 전송률을 갖는 WCDMA 시스템에 복합간섭제거기법을 적용하여 그 성능을 분석하였다. 전송률이 높은 사용자들은 병렬간섭제거기법이나 복합간섭제거기법을 사용하여 간섭을 제거하는 것이 효과적이며, 전송률이 낮은 사용자들은 순차간섭제거기법이나 복합간섭제거기법을 사용하는 게 효과적이다. 그러나, 순차 및 병렬간섭제거기법과 비교해 본 결과 QoS와 전송률에 관계없이 복합간섭제거기법의 성능이 가장 우수함을 알 수 있었다.
PDF

병렬 파일 시스템에서의 가용 입출력 대역폭을 고려한 테이블 비교 선반입 정책 (Table Comparison Prefetching using Available I/O Bandwidth in Parallel File System)

김재열;석성우;조종현;서대화
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
- /
- pp.630-632
- /
- 2000
과도한 파일 입출력이 요구되는 병렬파일 시스템의 성능을 결정하는 중요한 요소로서 캐슁과 선반입을 들 수 있다. 본 논문은 캐쉬의 크기에 비해 상대적으로 큰 파일을 요청하는 경우에 시스템 성능에 막대한 영향을 미치는 선반입에 대해서 선반입할 데이터를 결정하는 알고리즘으로 테이블 비교법을 제안하고, 이와 더불어 예측된 데이터의 선반입 여부와 선반입 시기를 결정하는 경우 현재의 가용 입출력 대역폭을 고려하는 기법을 제안한다. 제안하는 선반입 알고리즘을 시뮬레이션을 통하여 기타 선반입 알고리즘과 비교해 본 결과 파일 시스템 성능이 향상되었음을 보여준다.
PDF

대칭형 다중프로세서 시스템에서 태스크 중복기반의 클러스터링과 스케줄링 (Task Duplication Based Clustering and Scheduling on Symmetric Multiprocessor Systems)

강오한;조경미;김기남;김시관
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
- /
- pp.97-99
- /
- 2003
대칭형 다중프로세서 (SMP: Symmetric Multiprocessors) 시스템은 고성능의 병렬 연산을 위한 중요하고 효과적인 기반환경을 제공하고 있다. SMP에서 태스크 클러스터링과 스케줄링 기법은 시스템의 성능에 큰 영향을 미친다. 본 논문에서는 버스 기반의 SMP에서 사용할 수 있는 태스크 중복 기반의 클러스터링과 스케줄링 기법을 소개한다. 본 논문에서 제안한 클러스터링 기법에서는 휴리스틱을 사용하여 중복할 태스크를 선택한 후 프로세서에 할당하고, 스케줄링 기법에서는 잠재하는 통신 충돌을 방지하기 위하여 네트워크 통신 자원을 사전에 할당한다. 새로운 클러스터링과 스케줄링 기법의 성능을 확인하기 위하여 시뮬레이션에서는 통신비용의 변화에 대한 병렬연산시간을 비교하였다.
PDF

Pthread 라이브러리를 이용한 Linked List 병렬화 클래스 라이브러리의 설계 및 구현 (Design and Implementation of Parallelized Linked List Class Library using Pthread Library)

김홍숙;한동수
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
- /
- pp.780-782
- /
- 1999
병렬 프로세서 시스템이 제고하는 하드웨어적인 장점을 이용하기 위해서는 병렬 프로그래밍을 통한 애플리케이션의 병렬화가 필요하다. 기존의 순차적 코드의 경우에 자동 병렬화 컴파일러 기법을 통하여 병렬 프로세서시스템이 제공하는 성능을 극대화하고 있다. 그러나 자동병렬화는 과학 기술 계산용 코드와 같은 정형성을 지닌 코드에서는 유용하지만 비즈니스 응용에서 사용되는 동적인 자료구조를 사용하는 코드에서는 포인터에 의한 별명과 이에 따른 의존성 분석에 어려움으로 인해 많이 응용되고 있지는 못하다. 본 논문은 병렬 프로세서 시스템이 제공하는 기능을 이용하기 위한 한 방법으로 비즈니스 응용에서 많이 사용되는 동적인 자료 구조 중 linked list 클래스 라이브러리의 설계와 구현에 대하여 기술한다.
PDF

실행시간 적응에 의한 병렬처리시스템의 성능개선 (Performance Improvement of Parallel Processing System through Runtime Adaptation)

박대연;한재선
- 한국정보과학회논문지:시스템및이론
- /
- 제26권7호
- /
- pp.752-765
- /
- 1999
대부분 병렬처리 시스템에서 성능 파라미터는 복잡하고 프로그램의 수행 시 예견할 수 없게 변하기 때문에 컴파일러가 프로그램 수행에 대한 최적의 성능 파라미터들을 컴파일 시에 결정하기가 힘들다. 본 논문은 병렬 처리 시스템의 프로그램 수행 시, 변화하는 시스템 성능 상태에 따라 전체 성능이 최적화로 적응하는 적응 수행 방식을 제안한다. 본 논문에서는 이 적응 수행 방식 중에 적응 프로그램 수행을 위한 이론적인 방법론 및 구현 방법에 대해 제안하고 적응 제어 수행을 위해 프로그램의 데이타 공유 단위에 대한 적응방식(적응 입도 방식)을 사용한다. 적응 프로그램 수행 방식은 프로그램 수행 시 하드웨어와 컴파일러의 도움으로 프로그램 자신이 최적의 성능을 얻을 수 있도록 적응하는 방식이다. 적응 제어 수행을 위해 수행 시에 병렬 분산 공유 메모리 시스템에서 프로세서 간 공유될 수 있은 데이타의 공유 상태에 따라 공유 데이타의 크기를 변화시키는 적응 입도 방식을 적용했다. 적응 입도 방식은 기존의 공유 메모리 시스템의 공유 데이타 단위의 통신 방식에 대단위 데이타의 전송 방식을 사용자의 입장에 투명하게 통합한 방식이다. 시뮬레이션 결과에 의하면 적응 입도 방식에 의해서 하드웨어 분산 공유 메모리 시스템보다 43%까지 성능이 개선되었다. Abstract On parallel machines, in which performance parameters change dynamically in complex and unpredictable ways, it is difficult for compilers to predict the optimal values of the parameters at compile time. Furthermore, these optimal values may change as the program executes. This paper addresses this problem by proposing adaptive execution that makes the program or control execution adapt in response to changes in machine conditions. Adaptive program execution makes it possible for programs to adapt themselves through the collaboration of the hardware and the compiler. For adaptive control execution, we applied the adaptive scheme to the granularity of sharing adaptive granularity. Adaptive granularity is a communication scheme that effectively and transparently integrates bulk transfer into the shared memory paradigm, with a varying granularity depending on the sharing behavior. Simulation results show that adaptive granularity improves performance up to 43% over the hardware implementation of distributed shared memory systems.

6자유도를 갖는 병렬형 기구의 병진속도와 회전속도 성능 지표에 관한 연구 (A Study on Translational and Rotational Velocity Performance Indices of Six-Degree-of-Freedom parallel Mechanism)

김찬수
- 한국게임학회 논문지
- /
- 제10권6호
- /
- pp.57-65
- /
- 2010
본 논문에서는 6자유도를 갖는 병렬형 기구의 출력 속도 공간에서 성능을 평가할 수 있는 지표를 제안하였다. Manipulability와 condition number에 기반을 둔 성능 지표가 단위계의 볼일치로 인한 물리적 의미의 결함이 없도록 출력공간을 병진속도 공간과 회전속도 공간으로 분리하는 방법을 제안하였다. 각 공간에서 단위 입력에 대용하는 mobility ellipsoid를 정의하여 이를 기반으로 병진운동 출력공간에서 두 종류 성능 지표와 회전운동 공간에서 두 종류의 성능 지표를 제안하였다.
PDF KSCI

인텔 MKL 라이브러리를 이용한 Xeon Phi Coprocessor 벤치마크 (Benchmarking the Intel Xeon Phi Coprocessor with Intel MKL library)

박영수;박구락;김진묵
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
- /
- pp.1-4
- /
- 2014
인텔 Many Integrated Core (MIC) 아키텍쳐는 61개의 코어가 하나의 칩에 결합되어 있다. Xeon Phi 로 명명된 인텔 MIC는 인텔 E5 Xeon CPU 보다 2배의 single precision GFLOPs 성능을 제공한다. 인텔 MIC 는 수치연산에 최적화 되어 있는 아키텍쳐이다. 우리는 Xeon Phi 7120P를 가지고 벤치마킹을 하였고 클락스피드 1.238GHz, 61Core 이고 한 개의 코어당 4쓰레드를 사용하며 이론상 최고 성능은 Peak Double Precision(GFLOP)는 약 2-TFlops 이다. 이에 우리는 인텔 X86 아키텍쳐에서 openMP 와 인텔 MKL(Math kernel library) 라이브러리를 이용한 병렬프로그램을 작성하여 쓰레드 수를 증가 시키면서 인텔 Xeon Phi 와 E5 Xeon CPU에서 single precision 성능을 벤치마킹 하여, Xeon Phi 와 Xeon E5 의 이론적인 성능을 비교해 보고자 한다. 또한 openMP와 인텔 MKL라이브러리를 사용한 병렬환경에서 CPU의 성능 지표인 클락스피드와 코어수 외에 Vector unit size 의 크기가 성능에 어떤 영향을 미치는지 살펴보았다.
PDF

웹 기반 분산/병렬 프레임워크상에서 실시간 자원 모니터링 (Real-Time Monitoring of Resource for Distributed/Parallel Framework on the Web)

김수자;정재홍;송은하;한성국;주수종;정영식
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
- /
- pp.117-120
- /
- 2003
웹의 다양한 자원을 이용하여 고성능 작업 처리를 요구하는 분산/병렬 시스템은 균형적인 작업 할당을 위해 각 호스트의 성능 평가가 중요하다. 하지만 성능 평가에 대한 지속적인 신뢰하기가 어려우며 뿐만 아니라, 작업 도중 호스트의 성능 변화를 예측하기가 어렵다. 성능 변화에 따른 효율적인 작업 스케줄링이 필요하며, 자원 관리자는 작업을 수행중인 호스트에 대한 모니터가 요구된다. 본 논문에서는 자원 관리자와 시스템 관리자에게 효율적인 자원 정책을 제안하기 위해 각 호스트의 자원을 모니터하고, 분산/병렬 시스템의 작업 할당 메커니즘에 의해 각 호스트의 성능 평가 기준을 정한다 또한 관리자에게 실시간으로 호스트의 성능 변화에 따른 자원 정보를 관리하도록 다양한 시각화를 제공한다.
PDF

검색결과 1,948건 처리시간 0.027초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)