• 제목/요약/키워드: 병렬시스템

검색결과 2,501건 처리시간 0.026초

그레이스케일 영상의 병렬가산 컨볼루션 알고리즘 (Parallel-Addition Convolution Algorithm in Grayscale Image)

  • 최종호
    • 한국정보전자통신기술학회논문지
    • /
    • 제10권4호
    • /
    • pp.288-294
    • /
    • 2017
  • 최근들어 CNN(Convolutional Neural Network)을 이용한 딥러닝 기술이 영상인식 등의 분야에서 널리 활용되고 있다. CNN에서 승산과 가산으로 수행되는 컨볼루션 처리는 단순한 연산이지만 하드웨어로 구현하는 데 문제가 되는 것은 승산을 수행하는데 필요한 계산시간이다. 컴퓨팅 파워의 사용에 문제가 없는 응용분야에서는 문제가 되지 않지만 임베디드용 딥러닝 시스템 등의 구현을 위한 하드웨어 칩설계에서는 많은 제한이 있다. 따라서 본 논문에서는 그레이스케일 영상을 2진영상의 중첩으로 표현한 후, 병렬로 가산만을 이용하여 컨볼루션을 수행하는 병렬가산 알고리즘을 제안하였다. 본 논문에서 새롭게 제안한 알고리즘의 유용성을 확인하기 위한 실험을 통해 처리시간의 감소가 가능한 병렬가산 방식으로 컨볼루션을 수행할 수 있음을 확인하였다.

LASOB 상에서 계산 트리 형식을 생성하기 위한 최적 병렬 알고리즘 (An Optimal Parallel Algorithm for Generating Computation Tree Form on Linear Array with Slotted Optical Buses)

  • 김영학
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권5호
    • /
    • pp.475-484
    • /
    • 2000
  • 최근에 전자 버스 대신에 광 버스를 사용하여 버스의 대역폭을 늘리고 하드웨어의 복잡도를 줄이기 위한 처리기 배열의 구조가 다수의 문헌에서 제안되었다. 본 논문에서는 먼저 슬롯된 광 버스를 갖는 선형 처리기 배열(LASOB) 상에서 괄호 매칭 문제에 대한 상수 시간 알고리즘을 제안한다. 다음에 이 알고리즘을 사용하여 길이 n의 대수 식이 주어지면 n개의 처리기를 갖는 LASOB 상에서 상수 시간에 계산 트리 형식을 생성하는 비용이 최적인 병렬 알고리즘을 제안한다. 아직 임의의 병렬 컴퓨터 모델에서 이 문제에 대한 상수 시간에 수행되는 비용 최적인 병렬 알고리즘은 알려지지 않고 있다.

  • PDF

Unregulated Power Bus 시스템 적용을 위한 컨버터 모듈화 연구

  • 박성우;장성수;장진백;이상곤
    • 항공우주기술
    • /
    • 제2권1호
    • /
    • pp.89-95
    • /
    • 2003
  • 본 연구에서는 전력 컨버터를 병렬 사용하는 여러 가지 모듈화 방법과 전류제어 방법, 컨버터를 병렬 사용할 경우 발생하는 모듈 간 전류 불균형(current unbalance)의 원인과 해결 방법에 대해서 알아보며, 각각의 모듈화 방법의 장단점과 전류 제어방법의 특성을 해석한다. 기존의 모듈화 및 전류 제어방법에서 unregulated bus 방식을 사용하는 위성의 solar power regulator용 컨버터의 모듈화에 적용 가능한 응용 방법을 검토한다. 마지막으로 적용 가능한 응용방법을 2-병렬 모듈 컨버터에 적용하여 시뮬레이션과 prototype 제작을 통한 실험으로 적용 가능성을 확인한다.

  • PDF

CELL 프로세서를 이용한 SEED 블록 암호화 알고리즘의 효율적인 병렬화 기법 (An Efficient Parallelized Algorithm of SEED Block Cipher on Cell BE)

  • 김덕호;이재영;노원우
    • 정보처리학회논문지A
    • /
    • 제17A권6호
    • /
    • pp.275-280
    • /
    • 2010
  • 본 논문에서는 Cell BE 프로세서를 사용한 효율적인 병렬 블록 암호화 알고리즘을 제시한다. 제안하는 알고리즘은, 이종 프로세서인 Cell BE의 특성을 효율적으로 활용하기 위하여 PPE와 SPE에 서로 다른 부호화/복호화 방식을 적용하여 그 성능을 개선하였다. 본 논문에 제시된 구현 방식을 바탕으로 검증된 결과에 따르면, 제안하는 알고리즘은 고성능 네트워크 시스템을 지원할 수 있는 2.59Gbps의 성능을 보여준다. 이는, 다른 다중 코어 프로세서의 병렬 구현 방식과 비교할 때, 1.34배 증가된 성능의 부호화/복호화 속도를 제공한다.

프리캐스트 병렬 전단벽의 연성도 해석 (Ductility Demand of Precast Coupled Shear Wall)

  • 홍성걸;김영욱
    • 한국지진공학회논문집
    • /
    • 제3권2호
    • /
    • pp.29-40
    • /
    • 1999
  • 본 연구는 초기 내진설계단에서 프리캐스트 병렬전단벽의 연결보의 필요한 연성도의 간단한 계산방법을 제시한다 프리캐스트 병렬 전단벽의 최상층 변위는 연속체 접근 방법으로 구한 부부과 구한 부분과 분절적으로 나타나는 수평접합부의 개폐로 인한 소성변위의 합으로 나타난다. 이러한 계산을 통해 시스템 레벨의 연성도와 부재 레벨의 연성도의 관계를 구한다 여기서 제안되 연성도 관계식으로부터 연결보의 강성이 증가하거나 강도가 벽체에 비해 작은 경우에는 연결보의 과다한 연성도가 필요하 것으로 나타난다 또한 이러한 연성도는 해당 층의 수평접합부의 개폐정도에 비례함을 보여준다 그러나 고층부의 연결보는 수평접합부 개폐정도에 관계가 적음을 보여준다.

  • PDF

고속 병렬처리 기법을 활용한 주파수 도약 신호 분석 (Frequency Hopping Signal Analysis Using High-Speed Parallel Processing)

  • 이광용;윤현철;이현휘
    • 한국전자파학회논문지
    • /
    • 제25권2호
    • /
    • pp.251-254
    • /
    • 2014
  • 본 논문에서는 주파수 도약 신호를 고속 병렬처리 구조로 설계하여 추출하는 기법에 대해 연구하였다. 주파수 도약 시스템은 반송파 주파수를 무작위한 것으로 보이는 패턴으로 변형시키기 때문에 고정 신호와는 달리 신호를 탐지하기 어렵고, 분석에 많은 시간이 소요되는 특성을 가진다. 이를 해결하기 위해 주파수 도약 신호를 분석하는 방법을 고속병렬처리 기법을 적용하여 설계하였다. 병렬처리를 위해 GPU를 사용하는 CUDA를 사용하였고, 단일처리 사용 결과와의 성능 평가 결과를 비교하였다. 그 결과, 단일처리 대비 연산 수행 속도 면에서 약 8.53배 성능이 향상됨을 확인하였다.

멀티코어 프로세서 상에서 에너지 효율을 고려한 실시간 병렬 작업들의 결함 포용 스케쥴링 (Fault-tolerant Scheduling of Real-time Parallel Tasks with Energy Efficiency on Multicore Processors)

  • 이관우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권6호
    • /
    • pp.173-178
    • /
    • 2014
  • 제시된 스케줄링 기법은 병렬처리 기법을 활용하여 실시간 작업들의 데드라인 제약과 결함 포용 제약을 만족하면서 멀티코어 프로세서의 에너지 소모 효율성을 향상시켰다. 최소 에너지 소모량 스케줄을 찾는 것은 NP-hard 문제이므로, 제시된 기법은 다항식의 시간 내에 최소 에너지 소모량에 근접하는 스케줄을 찾는다. 제시된 기법은 연관된 최신 기법과 비교하여 높은 병렬처리 속도는 물론 낮은 병렬처리 속도에서도 에너지 소모량이 현격하게 낮았으며, 에너지 소모량을 최대 86% 줄였다.

투기적 병렬 그래프 감축을 위한 대치과정이 지연된 람다 연산식 (Deferred Substitution Form of Lamba Expression for Speculative Paralle Graph Reduction)

  • 이용학;전서현
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권1호
    • /
    • pp.9-23
    • /
    • 1999
  • 병렬 그래프 감축 모델에 있어서 투기적 연산(speculative evaluation)모델은 병렬성을 증가시키지만 불필요한 연산으로 인해 자원을 낭비할 수 있다. 투기적 태스크가 람다 연산식을 WHNF(Weak Head Normal Form)로 감축할 때, 대치과정은 그래프를 증가시킬 수 있고, 많은 복사과정을 요구할 수 있다. 이러한 투기적 태스크는 나중에 불필요한 연산이 될 수있고 이 경우 이러한 투기적 태스크에서 발생한 다른 모든 투기적 태스크들을 종료해야 하는 부담이 있다. 또한 불필요하게 된 복사과정으로 인한 기억 공간을 재사용이 가능한 상태로 만들어 주어야 한다. 본 논문은 WHNF 또는 HNF 로 감축할 대 발생할수 있는 불필요한 대치과정으로 인한 오버헤드를 줄이기 위해 대치과정이 지연된 람다 연산식 형태 (DSF : Deferred Substitution Form)를 제안한다. 이 형태는 대치과정을 필수적 태스크(mandatory task)가 수행될 때 까지 지연시키기 위한 람다 연산식 형태이다. 대치과정이 지연된 람다 연산식 형태로의 감축을 수행하는 투기적 태스크에서 , 대치과정이 존재하지 않기 때문에 그래프의 크기가 증가하지 않고 또한 복사과정을 요구하지 않는다. 따라서 연산식에 대한 대치과정이 지연된 람다 연산식 형태로의 감축이 불필요하게 된 경우 부담이 줄어들게 된다. 아울러 병렬성을 증가시키기 위한 연산모델을 제안한다.

매니코어 프로세서를 이용한 SIFT 알고리즘 병렬구현 및 성능분석 (Parallel Implementation and Performance Evaluation of the SIFT Algorithm Using a Many-Core Processor)

  • 김재영;손동구;김종면;전희성
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권9호
    • /
    • pp.1-10
    • /
    • 2013
  • 본 논문에서는 대표적인 특징점 추출 알고리즘인 SIFT(Scale-Invariant Feature Transform)를 매니코어 프로세서를 이용하여 병렬 구현하고, 이를 실행 시간, 시스템 이용률, 에너지 효율 및 시스템 면적 효율 측면에서 분석하였다. 또한 기존의 고성능 CPU와 GPU(Graphics Processing Unit)와의 성능 비교를 통해 제안하는 매니코어의 잠재가능성을 입증하였다. 모의실험 결과, 매니코어를 이용한 SIFT 알고리즘 구현 결과는 기존의 OpenCV 구현 결과와 정확도면에서 동일하였고, 매니코어 구현은 고성능 CPU 및 GPU 구현보다 실행시간 측면에서 우수하였다. 또한 본 논문에서는 SIFT알고리즘의 옥타브 크기에 따른 에너지 효율 및 시스템 면적 효율을 분석하여 최적의 모델을 제시하였다.

A synchronous/asynchronous hybrid parallel method for some eigenvalue problems on distributed systems

  • 박필성
    • 한국전산응용수학회:학술대회논문집
    • /
    • 한국전산응용수학회 2003년도 KSCAM 학술발표회 프로그램 및 초록집
    • /
    • pp.11-11
    • /
    • 2003
  • 오늘날 단일 슈퍼컴퓨터로는 처리가 불가능한 거대한 문제들의 해법이 시도되고 있는데, 이들은 지리적으로 분산된 슈퍼컴퓨터, 데이터베이스, 과학장비 및 디스플레이 장치 등을 초고속 통신망으로 연결한 GRID 환경에서 효과적으로 실행시킬 수 있다. GRID는 1990년대 중반 과학 및 공학용 분산 컴퓨팅의 연구 과정에서 등장한 것으로, 점차 응용분야가 넓어지고 있다. 그러나 GRID 같은 분산 환경은 기존의 단일 병렬 시스템과는 많은 점에서 다르며 이전의 기술들을 그대로 적용하기에는 무리가 있다. 기존 병렬 시스템에서는 주로 동기 알고리즘(synchronous algorithm)이 사용되는데, 직렬 연산과 같은 결과를 얻기 위해 동기화(synchronization)가 필요하며, 부하 균형이 필수적이다. 그러나 부하 균형은 이질 클러스터(heterogeneous cluster)처럼 프로세서들의 성능이 서로 다르거나, 지리적으로 분산된 계산자원을 사용하는 GRID 환경에서는 이기종의 문제뿐 아니라 네트워크를 통한 메시지의 전송 지연 등으로 유휴시간이 길어질 수밖에 없다. 이처럼 동기화의 필요성에 의한 연산의 지연을 해결하는 하나의 방안으로 비동기 반복법(asynchronous iteration)이 나왔으며, 지금도 활발히 연구되고 있다. 이는 알고리즘의 동기점을 가능한 한 제거함으로써 빠른 프로세서의 유휴 시간을 줄이는 것이 목적이다. 즉 비동기 알고리즘에서는, 각 프로세서는 다른 프로세서로부터 갱신된 데이터가 올 때까지 기다리지 않고 계속 다음 작업을 수행해 나간다. 따라서 동시에 갱신된 데이터를 교환한 후 다음 단계로 진행하는 동기 알고리즘에 비해, 미처 갱신되지 않은 데이터를 사용하는 경우가 많으므로 전체적으로는 연산량 대비의 수렴 속도는 느릴 수 있다 그러나 각 프로세서는 거의 유휴 시간이 없이 연산을 수행하므로 wall clock time은 동기 알고리즘보다 적게 걸리며, 때로는 50%까지 빠른 결과도 보고되고 있다 그러나 현재까지의 연구는 모두 어떤 수렴조건을 만족하는 선형 시스템의 해법에 국한되어 있으며 비교적 구현하기 쉬운 공유 메모리 시스템에서의 연구만 보고되어 있다. 본 연구에서는 행렬의 주요 고유쌍을 구하는 데 있어 비동기 반복법의 적용 가능성을 타진하기 위해 우선 이론적으로 단순한 멱승법을 사용하여 실험하였고 그 결과 순수한 비동기 반복법은 수렴하기 어렵다는 결론을 얻었다 그리하여 동기 알고리즘에 비동기적 요소를 추가한 혼합 병렬 알고리즘을 제안하고, MPI(Message Passing Interface)를 사용하여 수원대학교의 Hydra cluster에서 구현하였다. 그 결과 특정 노드의 성능이 다른 것에 비해 현저하게 떨어질 때 전체적인 알고리즘의 수렴 속도가 떨어지는 것을 상당히 완화할 수 있음이 밝혀졌다.

  • PDF