• 제목/요약/키워드: High-Throughput Computing

검색결과 94건 처리시간 0.031초

GPU 성능 향상을 위한 MSHR 정보 기반 워프 스케줄링 기법 (A new warp scheduling technique for improving the performance of GPUs by utilizing MSHR information)

  • 김광복;김종면;김철홍
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권3호
    • /
    • pp.72-83
    • /
    • 2017
  • GPU는 다수의 워프를 병렬적으로 수행함으로써 레이턴시를 숨기면서 높은 처리량을 제공할 수 있다. 만약 GPU에서 캐쉬에 대한 요청이 미스를 발생시킨다면 하위 메모리로부터 요청한 데이터를 받을 때까지 MSHR(Miss Status Holding Register)을 통해 미스 정보를 추적하고 다른 워프를 수행한다. 최신 GPU에서는 캐쉬 자원에 대한 과도한 요청이 발생한 경우 자원점유 실패가 발생하여 GPU 자원을 충분히 활용할 수 없는 경우가 자주 발생한다. 본 논문에서는 MSHR 자원 부족으로 인해 발생하는 성능 감소를 줄이고자 새로운 워프 스케줄링 기법을 제안한다. L1 데이터 캐쉬에서 각 워프별 캐쉬 미스율은 긴 사이클 동안 비슷하게 유지되는 특성을 이용하여 각 워프들의 캐쉬 미스율을 예측하고, 이를 바탕으로 MSHR의 자원을 더 이상 사용할 수 없는 상태에서는 낮은 캐쉬 미스율을 보일 것으로 예측되는 워프들과 연산 위주 워프들을 우선적으로 이슈 한다. 제안하는 기법은 예측된 캐쉬 미스율과 MSHR 상태를 기반으로 캐쉬 자원을 더 효율적으로 사용함으로써 GPU 성능을 향상시킨다. 실험 결과, 제안된 기법은 LRR(Loose Round Robin) 정책에 비해 자원점유실패 사이클이 25.7% 감소하고 IPC(Instruction Per Cycle)가 6.2% 증가한다.

기약 All One Polynomial을 이용한 유한체 GF(2$^{m}$ )상의 시스톨릭 곱셈기 설계 (Design of Systolic Multipliers in GF(2$^{m}$ ) Using an Irreducible All One Polynomial)

  • 권순학;김창훈;홍춘표
    • 한국통신학회논문지
    • /
    • 제29권8C호
    • /
    • pp.1047-1054
    • /
    • 2004
  • 본 논문에서는 AOP(All One Polynomial)에 의해 결정되는 유한체 GF(2$^{m}$ )상의 곱셈을 위한 두 가지 종류의 시스톨릭 어레이를 제안한다. 제안된 두 시스톨릭 어레이 모두 패러럴 입출력 구조를 가진다. 첫 번째 제안된 곱셈기는 O($m^2$)의 면적 복잡도와 O(1)의 시간 복잡도를 가진다. 다시 말하면, 이 곱셈기는 m(m+1)/2 개의 동일한 셀들로 이루어지며 초기 m/2+1 사이클 지연 후, 1 사이클마다 곱셈의 결과를 출력한다. 첫 번째 제안된 곱셈기를 기존의 AOP를 사용하는 병렬형 시스톨릭 곱셈기와 비교 분석한 결과 하드웨어 및 계산지연 시간에 있어 각각 12% 및 50%의 성능 개선을 보인다. 두 번째 제안된 시스톨릭 곱셈기는 암호응용을 위해 선형 어레이로 설계되었으며, O(m)의 면적 복잡도와 O(m)의 시간 복잡도를 가진다. 즉, m+1 개의 동일한 셀들로 이루어지며 m/2+1 사이클마다 곱셈의 결과를 출력한다. 두 번째 곱셈기를 기존의 선형 시스톨릭 곱셈기들과 비교 분석한 결과, 하드웨어, 계산지연 시간, 그리고 처리율에 있어 각각 43%, 83%, 그리고 50%의 성능 개선을 보인다. 또한 제안된 곱셈기들은 높은 규칙성과 모듈성을 가지기 때문에 VLSI 구현에 매우 적합하다. 따라서 GF(2$^{m}$ ) 응용을 위해, 본 연구에서 제안된 곱셈기들을 사용하면 최소의 하드웨어 사용으로 최대의 성능을 얻을 수 있다.

피어 투 피어 네트워크에서 스워밍 기법을 위한 보안 프로토콜 (A Security Protocol for Swarming Technique in Peer-to-Peer Networks)

  • 이관섭;이광식;이장호;한승철
    • 한국정보통신학회논문지
    • /
    • 제15권9호
    • /
    • pp.1955-1964
    • /
    • 2011
  • 초고속 통신망의 일반화와 다양한 온라인 서비스의 출현으로 인터넷을 통한 대용량 콘텐츠 배포에 대한 수요가 증가하고 있다. 이에 따라 서버와 네트워크의 부담이 커지자 P2P 네트워크 기반으로의 전환 움직임이 활발해지고 있다. P2P 스워밍 기법은 서버의 역할을 최소화하고, 트래픽을 고르게 분산시켜 네트워크 과부하로 인한 각종 문제들을 해결할 수 있으며, 자원의 유지보수 비용 또한 절감시킬 수 있다. 하지만 P2P 스워밍 기법의 특성상 보안 서비스제공을 위해선 많은 메시지 교환이 필요하다. 본 논문에서는 P2P 스워밍기법에서 기밀성, 인증, 무결성, 접근 제어 등의 보안 서비스를 제공하는 효율적인 보안 프로토콜을 제안한다. 제안된 프로토콜은 안드로이드 스마트폰 플랫폼에서 구현하여 실험을 하였다. 제안된 프로토콜은 스워밍기법을 이용하는 상용시스템에 사용될 수 있을 것으로 기대된다.

Validation of fetus aneuploidy in 221 Korean clinical samples using noninvasive chromosome examination: Clinical laboratory improvement amendments-certified noninvasive prenatal test

  • Kim, Min-Jeong;Kwon, Chang Hyuk;Kim, Dong-In;Im, Hee Su;Park, Sungil;Kim, Ji Ho;Bae, Jin-Sik;Lee, Myunghee;Lee, Min Seob
    • Journal of Genetic Medicine
    • /
    • 제12권2호
    • /
    • pp.79-84
    • /
    • 2015
  • Purpose: We developed and validated a fetal trisomy detection method for use as a noninvasive prenatal test (NIPT) including a Clinical Laboratory Improvement Amendments (CLIA)-certified bioinformatics pipeline on a cloud-based computing system using both Illumina and Life Technology sequencing platforms for 221 Korean clinical samples. We determined the necessary proportions of the fetal fraction in the cell-free DNA (cfDNA) sample for NIPT of trisomies 13, 18, and 21 through a limit of quantification (LOQ) test. Materials and Methods: Next-generation sequencing libraries from 221 clinical samples and three positive controls were generated using Illumina and Life Technology chemistries. Sequencing results were uploaded to a cloud and mapped on the human reference genome (GRCh37/hg19) using bioinformatics tools. Based on Z-scores calculated by normalization of the mapped read counts, final aneuploidy reports were automatically generated for fetal aneuploidy determination. Results: We identified in total 29 aneuploid samples, and additional analytical methods performed to confirm the results showed that one of these was a false-positive. The LOQ test showed that the proportion of fetal fraction in the cfDNA sample would affect the interpretation of the aneuploidy results. Conclusion: Noninvasive chromosome examination (NICE), a CLIA-certified NIPT with a cloud-based bioinformatics platform, showed unambiguous success in fetus aneuploidy detection.

BioSMACK: a linux live CD for genome-wide association analyses

  • Hong, Chang-Bum;Kim, Young-Jin;Moon, Sang-Hoon;Shin, Young-Ah;Go, Min-Jin;Kim, Dong-Joon;Lee, Jong-Young;Cho, Yoon-Shin
    • BMB Reports
    • /
    • 제45권1호
    • /
    • pp.44-46
    • /
    • 2012
  • Recent advances in high-throughput genotyping technologies have enabled us to conduct a genome-wide association study (GWAS) on a large cohort. However, analyzing millions of single nucleotide polymorphisms (SNPs) is still a difficult task for researchers conducting a GWAS. Several difficulties such as compatibilities and dependencies are often encountered by researchers using analytical tools, during the installation of software. This is a huge obstacle to any research institute without computing facilities and specialists. Therefore, a proper research environment is an urgent need for researchers working on GWAS. We developed BioSMACK to provide a research environment for GWAS that requires no configuration and is easy to use. BioSMACK is based on the Ubuntu Live CD that offers a complete Linux-based operating system environment without installation. Moreover, we provide users with a GWAS manual consisting of a series of guidelines for GWAS and useful examples. BioSMACK is freely available at http://ksnp.cdc.go.kr/biosmack.

다단 상호 연결 네트워크를 위한 효율적인 고장 진단에 관한 연구 (A Study on Efficient Fault-Diagnosis for Multistage Interconnection Networks)

  • 배성환;김대익;이상태;전병실
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.73-81
    • /
    • 1996
  • 많은 수의 프로세서와 메모리 소자사이의 연결을 위한 구조들은 다단 상호연결 네트워크를 이용해서 구현할 수 있다. 또한 경제성, 처리능력 및 고장 허용면에서의 발전은 자연스럽게 컴퓨터 시스템 성장에 있어서 가장 중요한 요건이 되었다. 그러나 지금까지의 다단 상호연결 네트워크에서의 고장의 허용방법, 특히 전단에 관한 연구가 미흡하다. 따라서 본 논문에서는 기존의 다단 상호연결 네트워크중에서 generalized cube네트워크를 바탕으로 링크 고착 고장 및 direct와 cross상태에서 스위칭 소자의 고장, 그리고 새로운 broadcast상태에서 고장진단을 포함하는 generalized cube네트워크에 스위칭 소자가 가지는 4가지 상태의 전체적인 진단을 한다. 가정된 고장모델을 검출할 수 있는 테스트 집합을 산출하고 이를 통해서 고장의 검출 및 위치를 결정할 수 있는 효율적인 알고리즘을 제안하고 적용의 예를 보인다.

  • PDF

고속 인터넷 통신망을 위한 스위치 설계에 관한 연구 (A Study on the Design of Switch for High Speed Internet Communication Network)

  • 조삼호
    • 인터넷정보학회논문지
    • /
    • 제3권3호
    • /
    • pp.87-93
    • /
    • 2002
  • 복잡한 통신망과 병렬컴퓨터에서는 효율적인 상호 연결을 위해 스위치가 중요한 영향을 미친다. 이 스위치는 라우팅 정보에 따라서 입력포트와 출력포트 사이에 연결을 해주는 역할을 하게 된다. 따라서 스위치에 성능을 향상시키는 것은 중요한 일이다. 본 논문에서 제안한 스위치는 컴퓨터 시뮬레이션 결과 입력버퍼형 보다 최대처리율이 11%이상 향상되었고, 다른 반얀형 스위치들에 비하여 성능과 하드웨어 양을 비교하여 볼 때 좋은 결과를 얻었다. 따라서 이 스위치는 VLSI 칩으로 구현될 경우 초고속 ATM-LAN 과 병렬컴퓨터를 개발하는데 유용하게 활용될 수 있을 것이다. 제안된 반얀형 스위치는 MAX$+^+$PLUSII, VHDL을 이용하여 설계 및 검증을 하고 시뮬레이션을 하였다

  • PDF

유전체 분석 파이프라인의 I/O 워크로드 분석 (Genome Analysis Pipeline I/O Workload Analysis)

  • 임경열;김동오;김홍연;박기한;최민석;원유집
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.123-130
    • /
    • 2013
  • 최근 유전체 데이터의 급격한 증가로 인해 이를 처리하기 위한 고성능 컴퓨팅 시스템이 필요로 하게 되었으며 대량의 유전체 데이터를 저장 관리할 수 있는 고성능 저장 시스템이 필요하게 되었다. 본 논문에서는 대략 5억 개 정도의 시퀀스 리드 데이터를 분석하는 유전체 분석 파이프라인의 I/O워크로드를 수집 및 분석하였다. 실험은 86시간 동안 수행되었다. 1031.7 GByte 크기의 630개 파일이 생성되었으며 91.4 GByte 크기의 535개의 파일이 삭제되었다. 전체 654개의 파일 중 0.3%인 2개의 파일이 전체 접근 빈도의 80%를 차지하여 전체 파일 중 일부분의 파일이 대부분의 I/O를 발생시킨다는 것을 알 수 있다. 요청 크기 단위로는 읽기에서 주로 512 KByte 크기 이상의 요청이 발생했고 쓰기에서 주로 1 MByte 크기 이상의 요청이 발생했다. 파일이 열려있는 동안의 접근 패턴은 읽기와 쓰기 연산에서 각각 임의와 순차패턴을 보였다. IOPS와 대역폭은 각 단계마다 고유한 패턴을 보였다.

H.264/AVC부호화기용 움직임 보상기의 아키텍처 연구 (A Study on Architecture of Motion Compensator for H.264/AVC Encoder)

  • 김원삼;손승일;강민구
    • 한국정보통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.527-533
    • /
    • 2008
  • 움직임 보상은 고화질의 실시간 비디오 응용에 있어서 언제나 주된 병목을 초래한다. 따라서 실시간 비디오 응용에서는 움직임 보상을 수행하는 고속의 전용 하드웨어를 필요로 한다. 여러 동영상 부호화 방식에서 영상프레임은 픽셀의 블록으로 분할된다. 일반적으로 움직임 보상은 이전 프레임으로부터 움직임을 추정하여 현재의 블록을 예측하게 된다. 움직임 보상에 사용되는 화소 정밀도가 높을수록 보다. 좋은 성능을 갖지만 연산량은 증가하게 된다. 본 논문에서는 1/4 화소 정밀도를 지원하는 H.264/AVC 부호화기에 적합한 움직임 보상기의 아키텍처를 연구하였다. 설계된 움직임 보상기는 전치 배열과 휘도 6-tap 필터 3개를 사용하여 높은 하드웨어 이용률을 갖게 하였으며 내부 메모리의 크기를 감소시켰다. VHDL을 사용하여 기술하였으며, Xilinx ISE툴을 사용하여 합성하고, Modelsim_6.1i를 사용하여 검증하였다. 설계된 움직임 보상기는 단지 3개의 6-tap 필터만을 사용하면서 매크로블록 당 640 클럭 사이클에 수행하였다. 본 논문에서 제안하는 움직임 보상기는 실시간 비디오 처리를 요구하는 분야에 응용 가능할 것으로 사료된다.

오디세우스/Parallel-OOSQL: 오디세우스 정보검색용 밀결합 DBMS를 사용한 병렬 정보 검색 엔진 (Odysseus/Parallel-OOSQL: A Parallel Search Engine using the Odysseus DBMS Tightly-Coupled with IR Capability)

  • 류재준;황규영;이재길;권혁윤;김이른;허준석;이기훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.412-429
    • /
    • 2008
  • 최근 들어 인터넷의 성장으로 인하여 문서의 양이 기하급수적으로 증가함에 따라, 대용량의 문서를 마르게 검색 할 수 있는 병렬 정보 검색 엔진에 대한 중요성이 더욱 대두되고 있다. 병렬 정보 검색 엔진을 구현하기 위하여서는 역 색인을 분할하고, 분할된 역 색인을 통하여 병렬적으로 검색하는 것이 필요하다. 역 색인을 분할하는 기존 방법으로는 1) 문서 식별자 분할 방법과 2) 식별자 분할 방법이 있다. 그러나 각 분할 방법은 다음과 같은 단점들을 가지고 있다. 문서 식별자 분할 방법은 문서의 추가가 용이하고 처리량(throughput)이 높은 반면에 top-k 질의 처리 성능이 좋지 않다. 그리고 식별자 분할 방법은 top-k 질의 처리 성능이 좋은 반면에 문서의 추가가 어렵고 처리량이 낮다. 본 논문에서는 이러한 단점들을 해결하기 위하여 혼합 분할 방법을 제안하고 이를 정보 검색 기능과 밀결합된 DBMS인 오디세우스에 실현한 병렬 정보 검색 엔진을 설계하고 구현한다. 먼저, 제안된 병렬 정보 검색 엔진인 오디세우스/parallel-OOSQL의 아키텍쳐를 설명한다. 그리고 체계적인 실험을 통하여 제안된 시스템의 유용성을 보인다. 실험 결과, 문서 식별자 분할 방법은 질의 처리 시간이 역 색인 분할의 블록의 개수에 근사적으로 역 비례함을 보였으며, 키워드 식별자 분할 방법은 top-k 질의 처리에 좋은 성능을 보였다. 본 논문에서 제안된 병렬 정보 검색 엔진은 세 가지 분할 방법을 모두 제공하기 때문에 응용 환경에 따라 분할 방법을 커스터마이즈함으로써 항상 좋은 성능을 낼 수 있다. 오디세우스/parallel-OOSQL 병렬 정보 검색 엔진은 각 슬레이브 노드 당 1억 건의 웹 문서를, 시스템 전체로는 수십억 건의 웹 문서를 인덱스하여 저장하고 질의를 처리할 수 있다.