• 제목/요약/키워드: 연산 지도

검색결과 4,007건 처리시간 0.027초

GPUDirect RDMA 기반의 고성능 암호 분석 시스템 설계 및 구현 (Design and Implementation of High-Performance Cryptanalysis System Based on GPUDirect RDMA)

  • 이석민;신영주
    • 정보보호학회논문지
    • /
    • 제32권6호
    • /
    • pp.1127-1137
    • /
    • 2022
  • GPU의 병렬 연산을 활용한 암호 분석 및 해독 기술은 암호 분석 시스템의 연산 시간을 단축하는 방향으로 연구되었다. 해당 연구들은 하나의 GPU에서 암호 분석 연산의 속도를 향상시키기 위해 코드를 최적화하거나 또는 단순히 GPU의 수를 늘려 병렬 연산을 강화하는 것에 집중되어 있다. 하지만 다량의 GPU를 데이터 전송에 대한 최적화 없이 사용하는 것은 하나의 GPU를 사용하는 것보다 더 긴 데이터 전송 지연 문제를 발생시키고, 암호 분석 시스템의 전체적인 연산 시간 증가를 야기한다. 이에, 본 논문은 딥러닝 또는 HPC 연구 분야의 GPU Clustering 환경에서 고성능 데이터 처리를 위해 활용되는 GPUDirect RDMA 및 관련 제반 기술들을 조사 및 분석한다. 그리고 해당 기술들을 활용한 고성능 암호 분석 시스템 설계 방법들을 제안한다. 더 나아가, 해당 설계를 기반으로 Password Cracking, GPU Reduction을 활용한 암호 분석 시스템 구현 방법에 대해 제시한다. 최종적으로, GPUDirect RDMA 기술 적용으로 구현된 암호 분석 시스템에 대해서 암호 분석 작업 성능 향상의 실증을 통해 제안한 시스템에 대한 기대효과를 제시한다.

SCAM 기상모델의 성능향상을 위한 LAPACK BLAS 라이브러리의 활용 (Performance Improvements of SCAM Climate Model using LAPACK BLAS Library)

  • 신대영;조예린;정성욱
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권1호
    • /
    • pp.33-40
    • /
    • 2023
  • 슈퍼 컴퓨팅 기술 및 하드웨어 기술의 발달로 수치 연산 방식 또한 고도화되고 있다. 그에 따라 이전 대비 향상된 기상 예측 또한 가능해진다. 본 논문에서는 SCAM(Single-Columns Atmospheric Model, CESM(Community Earth System Model)을 간소화 한 버전)에 포함되어 있으며 대기 연산을 수행하는 적운 모수화 코드, Unicon(A Unified Convection Scheme)의 성능을 향상하기 위하여 소스 코드 내의 선형대수 수치적 연산 부분에 고밀도 선형대수 연산을 위한 라이브러리인 LAPACK(Linear Algebra PACKage) BLAS(Basic Linear Algebra Subprograms)의 level1 함수를 적용할 것을 제안한다. 이를 분석하기 위하여 SCAM의 전체적인 실행 구조도를 제시하고 해당 실행환경에서 테스트를 진행하였다. 기존 소스 코드 대비 SCOPY 함수는 0.4053%, DSCAL 함수는 0.7812%, DDOT 함수는 0.0469%의 성능 향상을 이끌어 내었으며 이를 모두 적용한 결과 기존 소스 코드 대비 0.8537%의 성능 향상을 보였다. 이는 본 논문에서 제안한 고밀도 선형대수 연산을 위한 라이브러리인 LAPACK BLAS 적용 방법이 동일한 CPU 환경에서 추가적인 하드웨어의 개입 없이 성능을 향상시킬 수 있음을 의미한다.

32-bit RISC-V 프로세서 상에서의 경량 블록 암호 SIMECK, SIMON 카운터 운용 모드 최적 구현 (Optimized Implementation of Lightweight Block Cipher SIMECK and SIMON Counter Operation Mode on 32-Bit RISC-V Processors)

  • 심민주;권혁동;오유진;송민호;서화정
    • 정보보호학회논문지
    • /
    • 제33권2호
    • /
    • pp.165-173
    • /
    • 2023
  • 본 논문에서는 32-bit RISC-V 프로세서 상에서 경량 블록 암호인 SIMECK과 SIMON의 카운터 운용 모드에 대한 최적 구현을 제안한다. CTR 운용 모드의 특징을 활용하여 일부 값을 사전 연산하는 라운드 함수 최적화, 단일평문 최적화와 2개의 평문 병렬 최적화를 제안한다. RISC-V 상에서의 SIMECK과 SIMON에 대한 선행 연구 결과가 존재하지 않기 때문에 단일 평문 최적화와 2개의 평문 병렬 최적화 구현물에 대해 사전 연산 기법이 적용된 구현물과 사전 연산이 적용되지 않은 구현물의 성능을 비교하였다. 결과적으로, 사전 연산 기법이 적용된 구현물은 사전 연산이 적용되지 않은 구현물 대비 모두 1%의 성능 향상을 확인하였다.

Gauss Sieve 반복 동작에서의 비효율성 개선 (Improvement in Inefficient Repetition of Gauss Sieve)

  • 천병호;이창원;전찬호;홍석희;김수리
    • 정보보호학회논문지
    • /
    • 제33권2호
    • /
    • pp.223-233
    • /
    • 2023
  • Gauss Sieve는 격자 기반 문제 중 하나인 SVP를 풀기 위한 알고리즘으로 지수 시간 및 공간 복잡도를 필요로 한다. 알고리즘의 종료 조건은 공간 복잡도와 관련이 있는 리스트의 크기 및 충돌 횟수에 의해 결정된다. 여기서 충돌이란 샘플링 된 벡터에 대한 축소 연산 뒤 이미 리스트에 존재하는 벡터와 동일한 벡터가 되는 상황을 의미하며 일정 횟수 이상의 충돌이 발생할 경우 알고리즘은 종료된다. 기존 알고리즘으로부터 제시된 공간 복잡도를 기준으로 실제 실행 결과를 확인하였을 때, 가장 짧은 벡터를 발견한 이후에도 불필요한 연산이 지속되는 것을 확인하였다. 이는 기존의 종료 조건이 필요 이상으로 크게 설정되었음을 의미한다. 따라서 본 논문에서는 불필요한 연산이 반복되는 지점을 파악한 뒤 기존에 필요로 하는 연산의 횟수에 대한 최적화를 진행한다. 종료 조건이 되는 충돌의 임계값과 샘플 벡터가 생성되는 분포를 조정하는 방식으로 실험을 진행하였으며 실험 결과 가장 큰 비중을 차지하는 축소 연산은 62.6% 감소하였으며 이에 따른 공간 및 시간 복잡도는 각각 4.3%, 1.6% 감소하였다.

JPEG 영상 복원을 위한 다중 모드 채도 복원과 연산 재배열 기반의 시간 최적화된 컬러 변환 (Time-optimized Color Conversion based on Multi-mode Chrominance Reconstruction and Operation Rearrangement for JPEG Image Decoding)

  • 김영주
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권1호
    • /
    • pp.135-143
    • /
    • 2009
  • 최근 모바일 장치에서 고해상도 영상의 인코딩 및 디코딩에 대한 요구가 늘어남에 따라 효율적인 영상 코덱 개발의 필요성이 증대되고 있다. 본 논문은 JPEG 디코딩 과정에서 IDCT 변환과 컬러변환 배열간의 선형성을 바탕으로 이들 연산순서를 재배열함으로써 컬러변환 과정에서 요구되는 계산 횟수를 줄이고 재배열된 부동소수점 연산에 정수 맵핑을 적용하여 시간 복잡도를 줄임으로써 실행시간을 크게 단축하는 컬러변환 기법을 제안한다. 또한, 제안된 기법은 연산 재배열 및 정수 맵핑의 양자화오류로 인한 화질 저하를 다중 모드 채도 재구성 기법을 적용하여 보상하도록 한다. 임베디드 시스템 개발 플랫폼에서의 성능평가를 통해 제안 된 기법이 기존의 컬러변환 기법들과 비교하여 복원 영상의 화질 저하를 최소화하면서 실행시간을 크게 단축함을 알 수 있었다.

고성능 잔여 데이터 복호기를 위한 최적화된 하드웨어 설계 (An Optimized Hardware Design for High Performance Residual Data Decoder)

  • 정홍균;류광기
    • 한국산학기술학회논문지
    • /
    • 제13권11호
    • /
    • pp.5389-5396
    • /
    • 2012
  • 본 논문에서는 H.264/AVC의 고성능 잔여 데이터 복호기를 위해 최적화된 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 새로운 역영자화 수식들을 적용한 공통 연산기를 갖는 병렬 역양자화기와 병렬 역변환기를 통합한 하드웨어 구조이다. 새로운 역양자화 수식들은 기존 수식에서 나눗셈 연산을 제거하여 연산량 및 처리시간을 감소시키고 새로운 수식들을 처리하기 위해 곱셈기와 왼쪽 쉬프터로 구성된 하나의 공통 연산기를 사용한다. 역양자화기는 4개의 공통 연산기를 병렬처리하기 때문에 $4{\times}4$ 블록의 역양자화 수행 사이클 수를 1 사이클로 감소시키고, 제안하는 역변환기는 8개의 역변환 연산기를 사용하여 $4{\times}4$ 블록의 역변환 수행 사이클 수를 1 사이클로 감소시킨다. 또한 제안하는 구조는 역양자화 연산과 역변환 연산을 동시에 수행하기 때문에 하나의 $4{\times}4$ 블록을 처리하는 데 1 사이클이 소요되어 수행 사이클 수가 감소한다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하여 합성한 결과 게이트 수는 21.9k, critical path delay는 5.5ns이고, 최대 동작 주파수는 181MHz이다. 최대 동작 주파수에서 제안하는 구조의 throughput은 2.89Gpixels/sec이다. 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조들 대비 88.5% 이상 향상되었다.

MPEG-H 3D 오디오 표준 복호화기 구조 및 연산량 분석 (MPEG-H 3D Audio Decoder Structure and Complexity Analysis)

  • 문현기;박영철;이용주;황영수
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.432-443
    • /
    • 2017
  • MPEG-H 3D 오디오 표준은 UHDTV 등의 초고해상도 방송서비스에 대응하는 실감음향 서비스의 제공을 목표로 한다. 이를 위해 본 표준은 다채널 신호, 객체 신호, 장면 기반 신호의 부호화/복호화 기술과 다양한 재생 환경에서 3차원 오디오 제공을 위한 렌더링 기술, 후처리 기술 등 방대한 기술을 통합하였다. 본 표준의 참조 소프트웨어 복호화기는 여러 모듈들이 결합된 구조로 다양한 모드에서 동작이 가능하며, 각 모듈들이 독립된 실행파일로 순차적으로 실행되어 실시간 처리가 불가능하다. 본 논문에서는 MPEG-H 3D 오디오의 코어 복호화기, 포맷 변환기, 객체 렌더러, 바이노럴 렌더러의 각 함수를 동적 라이브러리화 및 통합하여 프레임 기반 복호화가 가능하도록 하였다. 또한 MPEG-H 3D 오디오의 각 모드별 연산량을 측정하여 다양한 하드웨어 플랫폼에서 적합한 모드를 선택하기 위한 참고 자료를 제공한다. 연산량 분석 결과, 한국 방송 표준에 포함된 저연산량 프로파일은 채널 신호로 렌더링을 할 경우 QMF 합성 연산의 2.8배에서 12.4배의 연산량을 가지며, 바이노럴 렌더링을 할 경우 QMF 합성 연산의 4.1배에서 15.3배의 연산량을 가진다.

병렬 분산 컴퓨팅을 이용한 초다광원 3차원 물체의 홀로그램 고속 생성 (Fast Hologram Generating of 3D Object with Super Multi-Light Source using Parallel Distributed Computing)

  • 송중석;김창섭;박종일
    • 방송공학회논문지
    • /
    • 제20권5호
    • /
    • pp.706-717
    • /
    • 2015
  • 컴퓨터 생성 홀로그램(CGH: computer-generated hologram) 기법은 일반적인 범용 컴퓨터(PC: personal computer)에서도 홀로그램을 쉽게 생성해주는 기술이다. CGH 알고리즘의 연산량은 생성하려는 홀로그램의 해상도 크기와 3D (three-dimensional) 물체의 광원 개수에 따라 결정되기 때문에, 초다광원 물체나 초고해상도 홀로그램을 생성하기 위해서는 방대한 양의 연산이 요구된다. 따라서 CGH 기법을 실용적으로 사용하기 위해서는 CGH 연산량을 줄이거나, 하드웨어의 연산 속도를 높이는 방법이 필요하다. 본 논문에서는 병렬 분산 컴퓨팅을 이용하여 초다광원 3차원 물체의 홀로그램을 고속으로 생성할 수 있는 시스템을 제안한다. 기존의 방법들은 주로 단일 PC를 이용하여 고속으로 CGH를 연산하는 방법을 사용했기 때문에 연산 능력을 증가시키는데 한계가 있었던 반면, 본 논문에서 제안하는 방법은 서버 PC가 일반적인 GPU가 장착되어 있는 다수의 클라이언트 PC들의 연산 능력을 효율적으로 사용하여 초다광원 물체에 대해 고속으로 CGH를 연산할 수 있다. 실험 결과, 제안하는 방법을 사용하면 157,771개의 광원을 갖는 초다광원 3차원 물체에 대해 1,5361,536 해상도를 갖는 홀로그램을 약 121ms로 생성할 수 있음을 확인할 수 있었다. 또한, 클라이언트 PC의 수를 증가시킬수록 디지털 홀로그램을 생성하는 시간이 줄어드는 것을 확인할 수 있었다.

시공간 겹침 조인 연산을 위한 선택도 추정 기법 (Selectivity Estimation for Spatio-Temporal a Overlap Join)

  • 이명술;이종연
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권1호
    • /
    • pp.54-66
    • /
    • 2008
  • 시공간 데이타베이스에서 조인 연산은 매우 많은 비용이 소요되며, 시공간 조인 연산의 효율적인 질의 실행 계획을 세우기 위해 조인 연산에 대한 정확한 선택도 추정은 질의처리 성능에 결정적이다. 주어진 두 이산 데이타집합 $S_1,\;S_2$의 타임스탬프 $t_q$에서 시공간 조인 연산은 타임스탬프 $t_q$에서 서로 교차하는 모든 객체 쌍을 검색하는 것이다. 시공간 조인 연산의 선택도 추정치는 검색된 객체 쌍의 수를 $|S_1{\times}S_2|$로 나눈 값이다. 이 논문은 공간 조인 연산의 선택도 추정 기법인 기하 히스토그램 기법을 확장하여 시공간 조인 선택도 추정을 위한 시공간 히스토그램을 제안한다. 균일 데이타 집합과 편중 데이타 집합 모두를 사용하여 제안된 히스토그램 기법으로 시공간 조인 연산의 선택도를 정확하게 추정할 수 있다는 것을 증명하였다. 본 논문의 기여도는 먼저 이산 데이타 집합에 대한 시공간 조인 선택도 추정 연구의 첫 시도를 하였으며 다음으로 이산 객체의 유효시간 동안의 공간 통계정보를 압축하여 히스토그램을 재구축하는 효율적인 유지기법을 제안하였다.

주변 전경 픽셀 전파 알고리즘 기반 실시간 이동 객체 검출 (A Real-time Motion Object Detection based on Neighbor Foreground Pixel Propagation Algorithm)

  • 응웬탄빈;정선태
    • 대한전자공학회논문지SP
    • /
    • 제47권1호
    • /
    • pp.9-16
    • /
    • 2010
  • 이동 객체 검출은 입력 영상에서 배경과 다른 전경 객체를 찾는 것을 말하는 것으로 지능 영상 감시, HCI, 객체 기반 영상 압축 등의 여러 영상 처리 응용 분야에서 필요한 과정이다. 기존의 이동 객체 검출 알고리즘은 상당한 계산량을 요구하여 다채널 영상 감시 응용, 또는 임베디드 시스템에서의 단일 채널의 실시간 응용에 사용하는 데 애로가 많다. 보다 정확한 이동 객체 검출을 위하여 필요한 과정인 전경 마스크 정정은 보통 열림, 닫힘 등의 모폴로지 연산을 통해 수행된다. 모폴로지 연산은 계산량이 적지 않고 게다가 프로세싱 방법이 달라 이동 객체 검출의 다음 단계인 연결 요소 레이블링 루틴과 동시에 처리되기 어렵다. 본 논문에서는 먼저 모폴로지 연산과는 달리 연결 요소 레이블링 루틴에서 사용되는 주변 픽셀 점검 과정을 활용한 전경 마스크 정정 알고리즘인 "주변 전경 픽셀 전파"을 고안하고, 이를 활용하여 전경 마스크 정정과 연결 요소 레이블링이 동시에 수행될 수 있는 이동 객체 검출 방법을 제안한다. 실험을 통해, 제안된 이동 객체 검출 방법이 기존의 모폴로지 연산을 사용한 방법 보다 정확하게 이동 객체를 검출하였으며, 대상 실험 영상 프레임 및 비디오에 대해서는 최소 4배 이상 신속하게 처리됨을 확인하였다.