• 제목/요약/키워드: 반복 연산

검색결과 501건 처리시간 0.028초

OpenMP를 이용한 제내지 침수 병렬해석 (Flood Inundation Analysis Using OpenMP Technique)

  • 박재홍
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.74-74
    • /
    • 2016
  • 복잡한 지형에서 컴퓨터를 이용한 물리적 기반 수치모의는 합리적인 시간내에 연산을 완료하기 위해 대개 큰 연산장비 들을 요구한다. 더욱이 모의되는 현상이 시간단계마다 갱신되어지는 동역학적 현상에 기반된 비정상상태일 때 연산성능은 고려되어지는 가장 중요한 주제가 될 수 있다. 연산 시간을 줄이기 위한 가장 널리 이용되는 전략중의 하나는 적절한 수의 프로세서를 이용하는 병렬 기법이다. 최근 들어 연산속도를 가속화하기 위해 다수의 코어를 이용한 OpenMP 와 MPI 기법들이 병렬해석기법으로 대두되었고 그래픽 연산장치를 이용한 병렬처리 해석기법도 소개되고 있다. 본 연구에서는 중앙연산장치를 이용한 병렬 해석기법을 이용하여 제내지 침수해석의 적용성을 검토하고 그 결과을 비교하였다. 본 연구를 위해 OpenMP 병렬기법을 이용하여 확산파 침수해석 프로그램의 원시코드를 재작성하여 가상 및 실제 유역에 적용하였다. 해석결과는 분산메모리 병렬해석 기법인 MPI를 도입한 모형의 결과와 비교되었다. OpenMP를 도입한 모형과 MPI를 도입한 경우 유량 및 수심의 경우 오차 허용 한계내에 수렴되어 만족되었으나 그러나 연산 속도의 경우 두 기법간의 자료의 저장 방법 차이로 인해 차이를 나타내었다. 가상 유역에 적용된 결과로 검토된 각 기법의 증속(speedup) 효과는 MPI의 경우 4 코어를 이용하였을 때 최고 2.62 배 정도에 도달하는 것으로 나타났다. OpenMP 를 적용한 경우 2.87 배 정도로 나타나 OpenMP 를 이용하였을 때 증속효과가 조금 더 뛰어났다. 이는 두 기법의 메모리 저장방식의 차이로 인해 자료의 전송량과 전송 시간이 적은 OpenMP 를 도입한 모형에서 MPI 모형 보다 상대적으로 뛰어난 결과를 나타내었다. 실제 유역의 적용을 위해 상대적으로 우수한 증속결과를 나타낸 OpenMP를 도입한 모형을 Malpasset 댐 붕괴 유역에 적용하였다. 적용된 요소의 수는 각각 45254, 11352 개로 비교적 많은 요소를 가진 하류지역에 적용하여 병렬효과를 극대화하고자 하였다. 적용결과 두 경우 모두 병렬 해석 기법을 도입한 모형에서 유속과 침수심 등은 순차적 모형과 동일한 값을 나타내었으나 증속효과로 인한 연산시간은 순차적 모형에서 8.57 배로 나타나 병렬 모형의 상대적으로 빠른 연산속도를 판단할 있었다. 위의 적용결과를 통해 계산 요소들이 많은 2 차원 해석의 경우 기존의 단일 코어를 이용한 순차적 해석은 장시간에 걸치 연산시간으로 인해 작업효율이 낮아지는 결과를 발생시킬 수 있으며 병렬 해석을 도입할 경우 주어진 컴퓨터 자원를 효율적으로 이용가능하여 합리적인 연산시간으로 연산결과를 얻는 것이 가능하여 반복적 통계 기법/Ensemble 해석 등을 이용한 종합적 해석이 좀 더 실용적으로 이루어 질 수 있을 것이라고 판단되었다.

  • PDF

도시성장모형의 시뮬레이션 자동화에 관한 연구 (Research about Urban Growth Model's Automation)

  • 윤정미;박정우
    • 한국지리정보학회지
    • /
    • 제11권1호
    • /
    • pp.1-9
    • /
    • 2008
  • 최근 토지이용 변화에 관한 다양한 연구가 진행되고 있으며, 그 중에서 셀룰라 오토마타(Cellular Automata, CA)를 이용한 연구방법이 도시성장에 많이 활용되고 있다. CA는 셀 상태가 전이규칙에 따라 새로운 시점의 상태로 변하는 연산을 반복한다. 또한 퍼지-AHP를 이용하여 정보 손실을 최소화하고, 유연한 도시성장 모델링을 유도할 수 있다. 그러나 AHP의 경우 가중치 도출까지 의사수렴 작업이 반복되어야 하는 어려움이 있다. 그리고 셀룰라 오토마타를 이용한 시뮬레이션은 많은 연산 모델링이 필요하고, 도출된 데이터 관리 및 일정 기준 시점마다 일치성을 검증하여야 한다. 이에 본 연구는 변수에 상대적 가중치를 부여하는 AHP 단계부터 셀룰라 오토마타를 이용한 도시성장 및 검증과정을 자동화하여 부산시 도시성장을 분석하고 예측하였다. 이를 통하여 도시성장 모델링의 복잡성과 반복성 문제를 개선할 수 있다. 또한 검증과정 부분을 통해 유용성 높은 모델링을 할 수 있으며, 작성된 모듈을 사용하여 이와 유사한 사례 연구에 적용할 수 있다.

  • PDF

인체 흉부 영상 복원을 위한 행렬 적응 조정 방법의 적용 (Application of Matrix Adaptive Regularization Method for Human Thorax Image Reconstruction)

  • 전민호;김경연
    • 전기전자학회논문지
    • /
    • 제19권1호
    • /
    • pp.33-40
    • /
    • 2015
  • 전기 임피던스 단층촬영법(EIT)에서 역문제는 매우 높은 비정치성이므로 이것을 완화시키기 위해서 사전정보가 사용되고 EIT 역문제를 푸는 과정에서 만족스러운 복원성능을 갖기 위해 조정 기법은 적용된다. 반복적 Gauss-Newton 방법은 정확성과 빠른 수렴속도로 인해서 일반적으로 역문제를 푸는데 사용되지만 항상 좋은 성능을 내는 것은 아니며 조정 인자 선택에 따라 성능이 좌지우지된다. 비록 L-곡선과 같이 조정 인자를 결정하는데 이용할 수 있는 여러 가지 방법들이 존재하지만 이러한 방법들이 모든 경우에 적용할 수 있는 것은 아니다. 게다가 조정 인자는 스칼라이고 반복 연산동안 변하지 않는다. 그러므로 이 논문에서는 복원 성능을 향상시키기 위해서 조정 인자를 결정해주는 새로운 방법을 사용하였다. 각각의 반복 연산과정에서 도전율의 norm을 구하고 이것을 대각 행렬형태인 조정 인자를 구하는데 사용한다. 제안한 방법을 인체 흉부 영상 복원에 적용하였고, 기존의 방법들과 복원 성능을 비교하였다. 모의실험 결과, 기존의 방법들과 비교해서 개선된 성능을 확인할 수 있었다.

SIMD 명령어 기반 HEVC RExt 복호화기 고속화 (SIMD Instruction-based Fast HEVC RExt Decoder)

  • 목정수;안용조;류호찬;심동규
    • 방송공학회논문지
    • /
    • 제20권2호
    • /
    • pp.224-237
    • /
    • 2015
  • 본 논문은 HEVC RExt (High Efficiency Video Coding Range Extension)을 위한 SIMD (Single Instruction Multiple Data) 명령어 기반의 고속 복호화 방법을 소개한다. RExt의 화면 내 예측, 보간필터, 역-양자화, 역-변환, 클리핑 모듈들은 반복적인 산술 연산 혹은 논리 연산을 수행하는 구조로써 SIMD 명령어 집합을 적용하기 적합한 모듈로 분류할 수 있다. 본 논문은 RExt의 증가한 비트 심도를 고려하여 화면 내 예측, 보간필터, 역-양자화, 역-변환, 클리핑 모듈을 SSE (Streaming SIMD Extension) 명령어 집합을 이용하여 연산하는 방법을 소개한다. 또한, 256비트 레지스터를 사용할 수 있는 AVX2 (Advanced Vector eXtension 2) 명령어 집합을 이용하여 보간필터, 역-양자화, 클리핑 모듈의 연산을 효율적으로 연산하는 방법을 제안한다. 본 논문에서 제안하는 SIMD 명령어 기반의 고속 복호화 방법은 HEVC 참조 소프트웨어 HM 16.0을 기반으로 자체 개발한 HEVC RExt 복호화기에서 기존의 순차적 연산 방식 대비 평균 12%의 속도향상을 얻을 수 있었다.

All-One Polynomial에 의해 정의된 유한체 $GF(2^m) $ 상의 새로운 Low-Complexity Bit-Parallel 정규기저 곱셈기 (A New Low-complexity Bit-parallel Normal Basis Multiplier for$GF(2^m) $ Fields Defined by All-one Polynomials)

  • 장용희;권용진
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권1_2호
    • /
    • pp.51-58
    • /
    • 2004
  • 대부분의 공개키 기반 암호시스템은 유한체 $GF(2^m)$ 상의 산술 연산들을 기반으로 구축된다. 이들 연산 중 덧셈을 제외한 다른 연산들은 곱셈 연산을 반복하여 계산되므로, 곱셈 연산의 효율적인 구현은 공개키 기반 암호시스템에서 매우 중요하다. 본 논문에서는 All-One Polynomial에 의해 정의된 $GF(2^m)$ 상의 효율적인 Bit-Parallel 정규기저 곱셈기를 제안한다. 게이트 및 시간적인 면에서 본 곱셈기의 복잡도(complexity)는 이전에 제안된 같은 종류의 곱셈기 보다 낮거나 동일하다. 또한, 본 논문의 곱셈기는 아키텍처가 규칙적(regular)이어서 VLSI 구현에 적합하다.

파이프라인 데이터패스 합성을 위한 점진적 배정가능범위 축소를 이용한 스케줄링 방법 (A Scheduling Approach using Gradual Mobility Reduction for Synthesizing Pipelined Datapaths)

  • 유희진;오주영;이준용;박도순
    • 정보처리학회논문지A
    • /
    • 제9A권3호
    • /
    • pp.379-386
    • /
    • 2002
  • 본 논문은 자원제약 조건에서 파이프라인 데이터패스 합성을 위한 스케줄링 방법이며, 우선순위 함수를 사용하여 스케줄할 연산을 선택하는 방법들과는 달리 연산들의 배정가능범위를 점진적으로 축소하여 스케줄한다. 제안방법은 스케줄링 알고리즘과 자원제약 위반을 검출하는 판단알고리즘으로 구성되며, 연산의 배정 가능한 제어단계의 처음 또는 마지막 단계에 임시로 연산을 배정하여 스케줄링 해가 존재하는지를 평가한다. 만약 해를 발견할 수 없다면 이는 자원제약 위반에 의해 연산을 그 제어단계에 배정하는 것이 불가능함을 의미하기 때문에 그 제어단계를 제거하며, 모든 연산에 대하여 배정가능범위 축소가 없을 때까지 이 과정을 반복한다. 벤치마크에 대한 실험결과는 다른 방법들과 비교해서 개선된 스케줄링 결과를 보인다.

TOF 센서용 3차원 깊이 영상 추출을 위한 차동 CORDIC 기반 고속 위상 연산기 (Differential CORDIC-based High-speed Phase Calculator for 3D Depth Image Extraction from TOF Sensor)

  • 구정윤;신경욱
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.643-650
    • /
    • 2014
  • TOF(Time-Of-Flight) 센서에 의해 획득된 정보로부터 3차원 깊이 영상(depth image)을 추출하기 위한 위상 연산기 하드웨어를 구현한다. 설계된 위상 연산기는 DCORDIC(Differential COordinate Rotation DIgital Computer) 알고리듬의 벡터링 모드를 이용하여 아크탄젠트 연산을 수행하며, 처리량과 속도를 늘리기 위해 잉여 이진 수체계와 파이프라인 구조를 적용하였다. 고정 소수점 MATLAB 시뮬레이션을 통해 검증하고 최적 데이터 비트 수 및 반복 횟수를 결정하였으며, MATLAB/Simulink와 FPGA 연동을 통해 하드웨어 동작을 검증하였다. TSMC $0.18-{\mu}m$ CMOS 공정으로 테스트 칩을 제작하였으며, 테스트 결과 정상 동작함을 확인하였다. 약 82,000 게이트로 구현되었고, 400MHz@1.8V로 동작하여 400 MS/s의 연산 성능을 갖는 것으로 평가되었다.

GPGPU 기반 Convolutional Neural Network의 효율적인 스레드 할당 기법 (Efficient Thread Allocation Method of Convolutional Neural Network based on GPGPU)

  • 김민철;이광엽
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권10호
    • /
    • pp.935-943
    • /
    • 2017
  • 많은 양의 데이터 기반으로 학습하는 neural network 중 이미지 분류나 음성 인식 등에 사용되어 지고 있는 CNN(Convolution neural network)는 현재까지도 우수한 성능을 가진 구조로 계속적으로 발전되고 있다. 제한된 자원을 가진 임베디드 시스템에서 활용하기에는 많은 어려움이 있다. 그래서 미리 학습된 가중치를 사용하지만 여전히 한계점이 있기 때문에 이를 해결하기 위해 GPU의 범용 연산을 위해서 사용하는 GP-GPU(General-Purpose computing on Graphics Processing Units)를 활용하는 추세다. CNN은 단순하고 반복적인 연산을 수행하기 때문에 SIMT(Single Instruction Multiple Thread)기반의 GPGPU에서 스레드 할당과 활용 방법에 따라 연산 속도가 많이 달라진다. 스레드로 Convolution 연산과 Pooling 연산을 수행할 때 쉬어야 하는 스레드가 발생하는 데 이러한 문제를 해결하기 위해 남은 스레드가 다음 피쳐맵과 커널 계산에 활용되는 방법을 사용함으로써 연산 속도를 증가시켰다.

H-ARQ 시스템에서 LDPC 부호의 반복 복호 중단 기법 (New Stopping Criteria for Iterative Decoding of LDPC Codes in H-ARQ Systems)

  • 신범규;김상효;노종선;신동준
    • 한국통신학회논문지
    • /
    • 제33권9C호
    • /
    • pp.683-690
    • /
    • 2008
  • 반복적인 신뢰 전파 알고리듬을 low-density parity-check(LDPC) 부호에 적용하는 경우 패리티-검사를 이용한 기존 복호 중단 기법은 높은 signal-to-noise ratio(SNR) 영역에서 반복 복호 수를 줄이는 것을 가능케 한다. 그러나 재전송 요청이 빈번한 Hybrid-ARQ(H-ARQ) 시스템에서는 낮은 SNR 영역에 적합한 복호 중단 기법이 없기 때문에 복호에 실패하는 경우 많은 양의 불필요한 반복 복호가 수행된다. 본 논문에서는 결국 복호에 실패하게 될 LDPC 부호 블록들을 복호 초기 단계에서 발견하기 위하여 신뢰 전파 복호에서 임시 부호어의 신드롬 무게를 이용한 중단 기법을 제안한다. 제안된 기법은 H-ARQ 시스템을 위한 LDPC 복호기에서 구현 복잡도의 증가와 성능의 열화 없이도 연산량을 70-80% 감소시킨다.

H.264/AVC를 위한 디블록킹 필터의 최적화된 하드웨어 설계 (Optimized Hardware Design of Deblocking Filter for H.264/AVC)

  • 정윤진;류광기
    • 대한전자공학회논문지SD
    • /
    • 제47권1호
    • /
    • pp.20-27
    • /
    • 2010
  • 본 논문에서는 고성능 H.264/AVC 복호기 설계를 위해 디블록킹 필터의 수행시간 단축과 저전력 설계를 위한 필터링 순서 및 효율적인 메모리 구조를 제안하고 5단 파이프라인으로 구성된 필터의 설계에 대해 기술한다. 디블록킹 필터는 블록 경계에서 발생하는 왜곡을 제거하여 영상의 화질을 개선시키지만 하나의 경계에 여러 번 필터링을 수행하여 많은 메모리 접근과 반복되는 연산과정이 수반된다. 따라서 본 논문에서는 메모리 접근과 필터 수행 사이클을 최소화하는 새로운 필터 순서를 제안 하고 반복되는 연산의 효율적 관리를 위해 파이프라인 구조를 적용하였다. 제안하는 디블록킹 필터는 메모리 읽기, 임계값 계산, 전처리 연산, 필터 연산, 메모리 쓰기로 구성된 5단 파이프라인으로 구현되어 순차적인 필터 연산에 병렬적 처리가 가능하며 각 단계에 클록 게이팅을 적용하여 하드웨어 자원에 불필요한 전력을 감소시켰다. 또한, 적은 내부 트랜스포지션 버퍼를 사용하면서 필터링 순서를 효율적으로 개선하여 필터 수행을 위한 메모리 접근과 수행 사이클을 감소시켰다. 제안하는 디블록킹 필터의 하드웨어는 Verilog HDL로 설계 하였으며 기존의 복호기에 통합하여 Modelsim 6.2g 시뮬레이터를 이용해 검증하였다. 입력으로는 표준 참조 소프트웨어 JM9.4 부호기를 통해 압축한 다양한 QCIF영상 샘플을 사용하였다. 기존 필터들과 수행 사이클을 비교한 결과, 제안하는 구조의 설계가 비교적 적은 트랜스포지션 버퍼를 사용했으며 최소 20%의 수행 사이클이 감소함을 확인하였다.