• 제목/요약/키워드: 공유메모리 병렬프로그램

검색결과 44건 처리시간 0.028초

GPGPU를 위한 공유 메모리 최적화 (Optimizing Shared Memory Accesses for GPGPU Computations)

  • 쟌 느앗 프엉;이명호;홍석원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.197-199
    • /
    • 2012
  • 최근 GPU 의 뛰어난 부동 소수점 연산 능력을 활용하여 그래픽 이외에 다양한 응용 프로그램들의 병렬화 및 성능최적화가 활발하게 이루어지고 있다. 이러한 GPU 의 성능을 극대화하기 위해서는 메모리 계층구조 및 shared memory 를 비롯한 on-chip 메모리의 사용을 최적화하는 것이 필수적이다. 본 논문에서는 이러한 shared memory 의 사용을 최적화하기 위한 기법들을 제안하고, 이를 패턴 매칭 응용 프로그램에 적용하여 효용성을 검증한다.

OpenMP 프로그램을 위한 경합탐지 도구의 분석 (An Analysis of Race Detection Tool for OpenMP Programs)

  • 김영주;강문혜;전용기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.478-480
    • /
    • 2003
  • 공유메모리 기반의 OpenMP 프로그램에서 발생하는 경합은 의도하지 않은 비결정적 수행 결과를 초래하므로 효과적으로 경합을 탐지하는 도구가 필요하다. 본 연구는 OpenMP 프로그램의 경합탐지를 위한 Intel 사의 Thread Checker를 내포병렬성의 여부와 접근사건들의 분포 형태를 기준으로 개발한 커널프로그램 집합을 이용하여 분석한 결과로서, 스레드들을 순서적으로 수행하면서 내포된 스레드를 부모 스레드와 동일한 스레드로 간주하고 적어도 하나의 읽기와 쓰기 접근사건들을 유지하면서 수행중에 경합을 탐지하는 도구임을 보인다. 이 도구는 접근사건의 발생 시에 이전 접근사건들과의 경합 여부를 검사한 후에 그 접근사건의 유지 여부를 결정하므로, 논리적 병행성 관계를 반영하지 못하는 내포된 스레드가 존재하지 않으면 경합의 존재를 검증한다.

  • PDF

병렬 프로그램의 동적 분석을 위한 효율적인 감시 필터링 기술 (An Efficient Filtered Monitoring Technique for Dynamic Analysis of Parallel Programs)

  • 박세원;하옥균
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.9-10
    • /
    • 2016
  • 본 논문에서는 멀티 스레드 기반 병렬 프로그램의 동적 분석을 통한 자료경합 탐지를 위해 효율적인 감시 필터링 기술을 제시한다. 제시하는 감시 필터링 기술은 자료경합과 같은 동시성 오류를 탐지하기 위해 프로그램의 수행 중에 발생하는 공유 메모리에 대한 스레드들의 접근 분석 시에 동일한 코드영역을 단순 반복하는 스레드들을 감시대상에서 제외시킴으로써 동적 분석을 위한 추가적인 오버헤드를 최소화한다. 제시하는 필터링 기술을 수행 중 자료경합 탐지 도구에 적용한 실험적 평가를 통해 개선된 수행시간 오버헤드의 제공이 가능함을 보인다.

  • PDF

마이크로프로세서복합에 의한 병렬처리에 관한 연구 (A Study on Parallel Processing by Multi-Microprocessors)

  • 정연택;송영재
    • 대한전자공학회논문지
    • /
    • 제17권5호
    • /
    • pp.36-42
    • /
    • 1980
  • 본 연구에서는, 8085CPU 4대를 사용하여서, 주마이크로프로세서의 버스에 DMA장치를 통하여 종마이크로프로세서에 접속되는 복합마이크로프로세서 시스템을 설계하여서 병렬처리 시킴으로서 처리효율을 높일 수 있었다. 마이크로프로세서의 동작대수와 시스템 Throughput의 관계를 측정한 결과, 이상치의 70∼80퍼센트 정도에 머무는 결과를 얻었다. 자원의 할당이나 일정계획은 주마이크로프로세서가 이루도록 하였고, 마이크로프로세서 사이의 통신 및 공유데이터의 격납은 공유메모리를 사용하도록 하였다. 또한 직렬로 작성된 원시프로그램으로 부터 병렬성을 검출하는 방법을 제시하였다.

  • PDF

워크스테이션 클러스터 상에서 분산공유메모리 인터페이스로 배열 데이터의 공유를 지원하는 Java 패키지의 설계와 구현 (Design and Implementation of a Java Package for Sharing Array Data by the DSM Interface on a Cluster of Workstations)

  • 임혜정;김명
    • 한국멀티미디어학회논문지
    • /
    • 제2권3호
    • /
    • pp.355-365
    • /
    • 1999
  • 본 연구에서는 배열 데이터를 여러 호스트 상에 분산시켜 생성하고 편리하게 공유할 수 있도록 하는 Java 패키지인 JPAS (Java Package for Array Sharing)를 설계하고 구현하였다. JPAS는 순수 Java로 구현되어 이식성이 뛰어나고, Java RMI를 이용하여 분산공유메모리 모델과 같이 위치 독립적인 접근 인터페이스로 배열 데이터를 공유할 수 있도록 한다. JPAS는 네트원 오버헤드로 인한 성능 저하를 막기 위해서, 프로그래머 가 알고 있는 애플리케이션의 특성을 공유 데이터 사용시에 반영할 수 있도록 한다. 또한, 데이터의 일관성을 유지하기 위해서, JPAS의 모든배열 데이터들은 값을 갱신 할수 있는 메소드틀을 갖는다. 실제로, 병렬프로그램들을 작성하여 워크스테이션 클러스터 상에서 실행시켜 본 결과, JPAS가 비교적 우수한 성능의 병렬 프로그래밍 도구임을 보였다.

  • PDF

멀티코어 CPU를 갖는 공유 메모리 구조의 대규모 병렬 유한요소 코드에 대한 설계 고려 사항 (Design Considerations on Large-scale Parallel Finite Element Code in Shared Memory Architecture with Multi-Core CPU)

  • 조정래;조근희
    • 한국전산구조공학회논문집
    • /
    • 제30권2호
    • /
    • pp.127-135
    • /
    • 2017
  • 멀티코어 CPU와 BLAS, LAPACK을 구현한 최적 수치라이브러리, 직접 희소 솔버의 대중화 등 PC나 워크스테이션 수준에서도 대규모 유한요소 모델을 해석할 수 있도록 컴퓨팅 환경이 급속도로 변화되었다. 이 논문에서는 멀티코어 CPU를 갖는 공유 메모리 구조에 대한 병렬 유한요소 프로그램 설계시 고려사항으로 (1) 최적화된 수치라이브러리의 사용, (2) 최신 직접 희소 솔버의 사용, (3) OpenMP를 이용한 병렬 요소 강성 행렬의 계산, (4) 희소행렬 저장방식의 일종인 triplet을 이용한 어셈블 기법 등을 제시하였다. 또한 대규모 수치모델을 통해 많은 시간이 소요되는 작업을 기준으로 병렬화 효과를 검토하였다.

요약보고 방법에 의해 병목현상을 개선한 최초경합의 수행중 탐지기법 (On-the-fly Detection of the First Races for Reducing Bottlenecks by Summary Report Method)

  • 김정시;전용기
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권9호
    • /
    • pp.1042-1054
    • /
    • 1999
  • 공유메모리 병렬프로그램의 오류수정에서 경합의 탐지는 중요하다. 왜냐하면 경합은 잘못된 수행 결과를 초래할 뿐만 아니라, 의도하지 않은 프로그램의 비결정적인 수행을 유발하여 오류수정을 어렵게 하기 때문이다. 특히 최초경합의 탐지는 더욱 중요하다. 그 이유는 최초경합을 제거함으로써 나머지 경합들을 방지할 수도 있기 때문이다. 기존의 수행중 경합 탐지기법들은 접근별 보고방식을 기반으로 하는데, 이 기법들은 임의 공유변수에 대한 병행 쓰레드들의 모든 접근사건들을 검사하기 위해서 접근역사라는 유일한 공유정보를 이용하므로 탐지과정에 심각한 병목현상을 유발시킨다. 그러나, 최초경합 탐지를 위한 경우 이러한 병목현상은 크게 개선될 수 있다. 본 논문에서는, 각 접근사건 검사를 위해 각 쓰레드에 공유되지 않는 독립적인 접근역사를 별개로 두고, 경합을 보고하는 시점인 쓰레드 합류시점에서만 공유되는 접근역사를 이용하도록 함으로써 병목현상을 개선하여 최초경합을 탐지할 수 있는 새로운 수행중 탐지기법을 제안한다. 그러므로 본 기법은 최초경합을 보다 효율적으로 탐지할 수 있기 때문에 수행중 경합 탐지를 더욱 효율적이고 실용적으로 할 수 있다. Abstract Detecting races is important for debugging shared-memory parallel programs, because the races lead to unintended nondeterministic executions of the programs as well as erroneous result and then make debugging programs difficult. Especially, detecting the first races is more important. The reason is that the removal of the first races can make other races disappear. Most existing on-the-fly techniques to detect the races are based on per- access reporting method incurring the serious central bottleneck, because the techniques use unique shared information called access history for checking all accesses of concurrent threads to a shared variable. Such bottleneck, however, can be improved considerably in case of detecting first races. This paper presents a new on-the-fly technique which detects the first races with reduced bottleneck through checking each accesses with private access histories and finally reporting races with shared access histories. Therefore, this technique makes on-the-fly race detection more efficient and practical.

SCI 네트워크 상의 소프트웨어 VIA기반 PC글러스터 시스템 (A Software VIA based PC Cluster System on SCI Network)

  • 신정희;정상화;박세진
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권4호
    • /
    • pp.192-200
    • /
    • 2002
  • PC 클러스터 시스템에서 노드 사이의 데이타 교환을 위해 사용되는 TCP/IP 기반 통신 방식은 소프트웨어 부하가 크기 때문에 전체 시스템의 성능을 저하시키는 요인이 된다. 이러한 문제점을 해결하기 위해 사용자 수준 통신(user-level communication) 구조가 제안되었다. 사용자 수준 통신은 성능에 치명적인 영향을 미치는 커널을 통신 단계에서 제거함으로써 적은 지연 시간과 높은 대역폭을 제공하며, 이러한 우수한 성능은 업계 표준인 VIA(Virtual Interface Architecture)를 만들었다. 본 논문에서는 공유 메모리 기반 Interconnect의 IEEE 표준인 SCI(Scalable Coherent Interface) 네트워크에 기반하여 VIA 클러스터 시스템을 구현하였다. 본 논문의 클러스터 시스템은 메시지 패싱 및 공유메모리 프로그래밍 환경을 동시에 제공하며, 최대 84MB/s의 대역폭과 $8{\mu}s$의 지연 시간을 가진다. 또한, 본 시스템이 병렬 벤치마크 프로그램의 수행시 비교 대상 시스템들에 비해 성능이 우수함을 입증하였다.

KDSM(KAIST Distributed Shared Memory) 시스템의 설계 및 구현 (Design and Implementation of KDSM(KAIST Distributed Shared Memory) System)

  • 이상권;윤희철;이준원;맹승렬
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권5호
    • /
    • pp.257-264
    • /
    • 2002
  • 본 논문에서는 KDSM(KAIST Distributed Shared Memory) 시스템의 설계 및 구현에 관해서 설명한다. KDSM은 Linux 2.2.13 상에서 실행되는 사용자 수준 라이브러리로 구현되었고, TCP/IP를 기반 통신 구조로 사용한다. KDSM은 페이지 기반 무효화 프로토콜(page-based invalidation protocol)과 다중 쓰기 프로토콜(multiple writer protocol)을 기반으로 하고, HLRC(Home-barred Lazy Release Consistency) 메모리 일관성 모델을 사용한다. KDSM의 성능을 측정하기 위해서 4개의 과학계산용 응용 프로그램을 실행하여 JIAJIA와 성능 비교를 하였다. 그 결과, 2개의 응용은 같은 결과를 냈고, 나머지 2개는 KDSM의 성능이 우수하였다.

고성능 웹크롤러의 설계 및 구현 (Design and Implementation of a High Performance Web Crawler)

  • 권성호;이영탁;김영준;이용두
    • 한국산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.64-72
    • /
    • 2003
  • 웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이다. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안하고 웹 로봇의 수행동작에 대한 분석 결과를 제공한다. 이러한 분석 결과를 기반으로 향후 웹 크롤러의 성능향상을 위한 설계 방향을 제시한다.

  • PDF