• 제목/요약/키워드: 병렬 연산 처리

검색결과 552건 처리시간 0.026초

CUDA기반의 대용량 3차원 의료 영상 처리 (CUDA based 3D medical image processing)

  • 전웅기;손지현;이영승;;최흥국
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.198-200
    • /
    • 2012
  • 최근 3차원 의료기기의 발전으로 대용량의 영상 획득이 가능해짐에 따라 이를 신속하게 처리 하고자 하는 연구가 진행되고 있다. CUDA는 그래픽 연산을 위해 제작된 GPU를 일반 연산에 사용(GPGPU)하고자 나온 툴킷(Toolkit)으로, 이를 사용하면 대용량의 영상 데이터를 병렬로 신속하게 처리할 수 있다. 본 연구에서는 3차원 의료 영상의 개선을 병렬로 신속하게 처리하기 위하여 CUDA를 사용한 방법론을 제안하였다. 또한, GPU Timer를 사용한 시간 측정을 통해 우수성을 증명하고자 한다.

  • PDF

WAVE 시스템에서 행렬 테이블로 연산하기 위한 알고리즘 설계 및 구현 (The Algorithm Design and Implemention for Operation using a Matrix Table in the WAVE system)

  • 이대식;유영모;이상윤;장청룡
    • 한국통신학회논문지
    • /
    • 제37권4A호
    • /
    • pp.189-196
    • /
    • 2012
  • WAVE(Wireless Access for Vehicular Environment) 시스템은 차량용 통신 기술로서, 차량 운전 중 발생 가능한 사고들을 미연에 방지하기 위한 서비스와 차량기능 관리, 시스템 장애를 모니터링하는 각종 서비스를 제공하기 위해 사용된다. 그러나 WAVE 시스템의 스크램블러 비트 연산은 병렬 처리가 불가능하므로 소프트웨어나 하드웨어 설계의 효율성이 떨어지게 된다. 본 논문에서는 스크램블러의 비트 연산 과정으로 행렬 테이블을 구성하는 알고리즘과 입력 데이터와 행렬 테이블을 병렬 연산하는 알고리즘을 제안한다. 본 논문에서 제안한 스크램블러 알고리즘은 입력 데이터의 입력 단위가 8비트, 16비트, 32비트, 64비트냐에 따라 처리 속도가 다르지만 입력 단위에 따라 병렬 처리가 가능하므로 WAVE 시스템의 처리 속도를 더욱 향상시킨다.

Lifting scheme을 이용한 고속 병렬 2D-DWT 하드웨어 구조 (A High Speed 2D-DWT Parallel Hardware Architecture Using the Lifting Scheme)

  • 김종욱;정정화
    • 대한전자공학회논문지SD
    • /
    • 제40권7호
    • /
    • pp.518-525
    • /
    • 2003
  • 본 논문은 리프팅 스킴(lifting scheme)의 분할 방법을 개선하여 고속 병렬 처리가 가능한 2차원 DWT(Discrete Wavelet Transform) 하드웨어 구조를 제안한다. 2차원 DWT 변환은 2차원 입력 데이터 전체에 대하여 연산이 수행되고 순차적으로 2차원 처리가 됨에 따라서 초기 및 전체 지연시간(latency)이 많이 걸린다. 본 논문에서는 처리속도와 지연 시간을 향상시키기 위해 개선된 분할 방법과 새로운 자원 공유 하드웨어 구조를 제안한다. 상호 연관성이 없는 데이터들을 4 개의 데이터 집합으로 분할하여 병렬 처리에 적합하도록 새로운 분할 방법을 제안하였다. 병렬처리 하드웨어 구조는 하드웨어의 자원 공유가 가능하도록 하기 위해 필터연산의 중간 값을 메모리에 저장할 수 있는 파이프라인 구조를 갖도록 설계하였다. 제안된 구조를 효율적으로 동작시킬 수 있도록 하드웨어 자원의 공유를 스케쥴링하여 초기지연과 전체지연 시간을 줄였다. 제안하는 구조는 기존의 병렬 처리 구조에 비해 초기 지연 및 전체 지연 시간을 각각 50%와 66%감소시키는 결과를 얻을 수 있었다.

클라우드 컴퓨팅에서 프라이버시 보호를 지원하는 데이터 필터링 기반 병렬 영역 질의 처리 알고리즘 (Privacy-Preserving Parallel Range Query Processing Algorithm Based on Data Filtering in Cloud Computing)

  • 김형진;장재우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권9호
    • /
    • pp.243-250
    • /
    • 2021
  • 최근 클라우드 컴퓨팅이 발전함에 따라 데이터베이스 아웃소싱에 대한 관심이 증가하고 있다. 그러나 데이터베이스를 아웃소싱하는 경우, 데이터 소유자의 정보가 내부 및 외부 공격자에게 노출되는 문제점을 지닌다. 따라서 본 논문에서는 프라이버시 보호를 지원하는 병렬 영역 질의처리 알고리즘을 제안한다. 제안하는 알고리즘은 Paillier 암호화 시스템을 사용하여 데이터 보호, 질의 보호, 접근 패턴 보호를 지원한다. 또한 기존 알고리즘에서 영역 겹침을 확인하는 프로토콜(SRO)의 연산 비용을 줄이기 위해 garbled 서킷(circuit) 을 통해 SRO 프로토콜의 효율성을 향상시킨다. 제안하는 병렬 영역질의 처리 알고리즘은 크게 2단계로 구성된다. 이는 kd-트리를 병렬적으로 탐색하고 질의를 포함하는 단말 노드의 데이터를 안전하게 추출하는 병렬 kd-트리 탐색 단계와 다수의 thread를 통해 질의 영역에 포함된 데이터를 병렬 탐색하는 병렬 데이터 탐색 단계로 구성된다. 한편, 제안하는 알고리즘은 암호화 연산 프로토콜과 인덱스 탐색의 병렬화를 통해 우수한 질의 처리 성능을 제공한다. 제안하는 병렬 영역 질의 처리 알고리즘은 thread 수에 비례하여 성능이 향상됨을 알 수 있고 10 thread 상에서 기존 기법은 38초, 제안하는 기법은 11초로 약 3.4배의 성능 향상이 있음을 보인다.

핵 물리에서의 QCD 병렬화 (Parallel QCD in Nuclear Physics)

  • 사재원;노병준;김희곤;최동휘;이성주;정용화;박대희;조충호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.118-121
    • /
    • 2014
  • 격자 양자 색역학(Lattice Quantum ChromoDynamics; Lattice QCD)은 자연계에 존재하는 중력, 전자 기력, 약한 핵력, 그리고 강한 핵력 등의 기본적인 상호작용 중 강한 핵력의 상호작용을 이해하기 위한 핵물리 분야의 이론이다. 이 물리 역학은 몬테 카를로(Monte Carlo) 기법을 이용하여 대규모 수치 연산을 필요로 하고, 수행시간 단축을 위하여 병렬처리가 필요하다. 본 논문에서는 격자 양자 색역학에서 요구되는 대규모 수치 연산에 대하여 마이크로프로세서와 성능가속기에 최적의 작업부하 분배를 통한 이기종 병렬처리 방법을 제안하고 성능가속기반을 사용한 방법과 제안 방법의 성능을 비교한다.

병렬 고속 디지털 신호처리시스템의 설계 및 성능분석 (Design and analysis of a parallel high speed DSP system)

  • 박경택;전창호;박성주;이동호;박준석;오원천;한기택
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.503-506
    • /
    • 1998
  • 본 연구에서는 방대한 양의 데이터를 실시간으로 처리하기 위한 병렬 고속 디지털 신호처리시스템을 제안한다. 시스템의 성능을 평가할 수 있는 확률적인 분석방법을 제시하며, FFT 와 같이 보드간 또는 프로세서간 통신부담이 많은 알고리즘과 행렬연산과 같이 통신부담이 적은 알고리즘에 적용하여 본다. 제안한 시스템의 다양한 구성에 대하여 두 가지 알고리듬의 성능을 확률적 방법으로 평가하였으며, 그 결과는 알고리즘 분석에 듸한 성능수치와 근접함을 확인하였다. FFT는 프로세서 개수가 증가해도 보드수가 많아지면 성능이 감소하였으며, 행렬연산은 프로세서 개수에 비례하여 시스템의 성능이 선형적으로 증가함을 확인하였다.

  • PDF

중첩 다중비트 주사기법을 사용하여 레지듀에서 이진수로 변환하는 컨버터 (RNS to Binary Converter Using Overlapped multiple-bit scanning method.)

  • 장상동;김우완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.39-41
    • /
    • 1999
  • 최근의 보편적인 컴퓨터 응용분야인 컴퓨터 그래픽, 패턴인식, 음성 출력 등과 같은 제분야에서는 대용량의 데이터를 실시간으로 처리하는 것이 필수적이다. RNS는 캐리부재, 병렬처리 등의 특징을 가지므로 대용량 데이터의 실시간 처리를 지원하는 장치의 개발에 큰 이점이 있다. 본 논문에서는 RNS에서 웨이티드 수체계로 변환하는 방법을 유도하고 구현한다. 이 방법은 연산의 비트수가 증가하더라도 고정된 연산의 단계를 거치게 되고, 여기에서 이 방법의 효율성이 커진다. 이는 중첩 비트 주사기법을 CRT 변환시에 적용하는 새로운 방법이다. 그리고, 변환식의 유도와 실제 시뮬레이션의 결과를 타 시스템과 비교하여 본 논문의 방법이 타당함을 보여준다. 그 결과, 기존의 승산기보다 많은 하드웨어를 요구하지만, 이는 최근의 반도체 집적기술의 발전으로 인하여 큰 문제가 되지 않고, 반면에 병렬 t행과 캐리 부재의 특성으로 인해 기존의 방법보다 속도를 향상시킬 수 있다.

  • PDF

HomePNA 2.0 프레임 프로세서의 고속 구현 기법 (High Speed Implementation of HomePNA 2.0 Frame Processor)

  • 강민수;이원철;신요안
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 I
    • /
    • pp.533-536
    • /
    • 2003
  • 본 논문에서는 전화선을 이용한 고속 홈네트워크인 HomePNA 2.0 시스템에서 HomePNA 2.0 (H2) 프레임을 만들기 위한 프레임 프로세싱 중, 다항식 나누기 연산을 통한 CRC (Cyclic Redundancy Check) 16비트 생성, HCS (Header Check Sequence) 8비트 생성 및 혼화(Scrambling) 처리에 있어서 입력 8 비트를 동시에 병렬 처리함으로써 기존의 1 비트 입력을 LFSR (Linear Feedback Shift Register)를 사용한 다항식 나누기 연산을 수행했을 때보다 빠른 속도로 H2 프레임을 구현하고자 하는 고속 처리 기법을 제시하고 이의 성능을 검증하였다.

  • PDF

GLSL 4.3을 사용한 파티클 시스템 구현 (Implementation of Particle System Using GLSL 4.3)

  • 최영환;홍민;최유주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.189-191
    • /
    • 2016
  • 실시간 물리 기반 3D 시뮬레이션에서 연산속도는 매우 중요한 요소이다. 객체의 움직임이나 변형과 같은 현상들은 복잡한 연산을 통해서 계산되기 때문에 일반적으로 시뮬레이션의 정확도와 연산속도는 반비례 관계에 있다. 현재 출시되고 있는 대부분의 게임에서는 물체의 움직임을 정확하게 표현하기보다 연산량을 줄이기 위해 물체의 움직임이나 변형을 비슷하게 표현하는데 중점을 두고 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 OpenGL 4.3의 Compute shader를 사용하여 다이내믹 시뮬레이션의 연산 작업을 GPU 병렬처리로 처리하였다. Compute shader에서 파티클의 움직임을 계산하고 Shader storage buffer object에 저장하고 파티클들의 작업량을 적절한 Workgroup의 크기로 나누어 할당하여 최적의 처리속도를 제공하도록 구현하였다. Compute shader에서 파티클의 움직임을 표현하기 위해서 수치해법 중의 하나인 Euler method를 사용하였으며 실험 결과 파티클의 수가 4,194,304개일 때 CPU 방법에 비해 약 182배 빠른 연산속도 결과를 보였다. 추후 Compute shader를 활용하여 연산량이 많은 분야에 적용 가능할 수 있을 것으로 기대한다.

HSS 기반의 고속 LDPC 복호기 FPGA 설계 (A FPGA Design of High Speed LDPC Decoder Based on HSS)

  • 김민혁;박태두;정지원
    • 한국전자파학회논문지
    • /
    • 제23권11호
    • /
    • pp.1248-1255
    • /
    • 2012
  • 본 논문에서는 DVB-S2에 제시된 LDPC 복P호기에 대하여 효율적인 알고리즘을 제안하고 고속화 하여, 이에 따른 FPGA구현 결과를 제시하였다. 고속 LDPC 복호기를 구현하기 위해서는 알고리즘 측면과 구현 측면에서 여러 가지 문제점이 있다. 알고리즘 측면에서는 첫째, LDPC 부호화 방식은 큰 블록 사이즈 및 많은 반복 횟수를 요구하므로 복호 속도를 높이기 위해서는 동일한 성능을 유지하면서 반복 횟수를 줄일 수 있는 알고리즘이 필요하다. 본 논문에서는 이를 위해 체크 노드를 기반으로 하여 복호화 과정을 거치는 horizontal shuffle scheduling(HSS) 알고리즘을 적용하여 기존의 반복 횟수를 줄일 수 있는 방안을 연구 하였다. 구현 측면에서 복호 속도를 높이기 위해서는 데이터의 많은 병렬 처리가 필요하다. 이러한 병렬 처리에 의해 노드 업데이트 연산 역시 병렬 처리가 가능하다. Check Node Update의 경우 look up table(LUT)이 필요하다. 이는 critical path의 주요 원인이 되는 부분으로 LUT 연산을 하지 않고 성능 열화를 최소화 하는 self-correction normalized min sum(SC-NMS) 연산 방식을 제안하였고, 최적의CNU 연산 방식에 따른 복호기 구조를 제안하고 FPGA 구현 결과, 복호 속도가 약 40 % 개선됨을 알 수 있다.