• 제목/요약/키워드: pipelining

검색결과 141건 처리시간 0.023초

부하 균형 유지를 고려한 파이프라인 해시 조인 방법 (A Pipelined Hash Join Method for Load Balancing)

  • 문진규;박노상;김평중;진성일
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.755-768
    • /
    • 2002
  • 다중 조인 연산의 파이프라인 방식 처리에서 조인 어트리뷰트의 자료 불균형(data skew)이 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 라운드-로빈 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 적응적으로 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인의 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. 파이프라인 해시 조인 알고리즘이 자료 불균형을 대비한 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프 라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

3G+ CDMA망에서의 기술 진화: 응용 서비스 QoS 성능 연구 (3G+ CDMA Wireless Network Technology Evolution: Application service QoS Performance Study)

  • 김재현
    • 대한전자공학회논문지TC
    • /
    • 제41권10호
    • /
    • pp.1-9
    • /
    • 2004
  • CDMA 2000 서비스의 주요 성공여부는 사용자 측면에서 응용서비스의 성능에 좌우한다고 할 수 있다. 본 논문에서는 CDMA 네트워크에서의 단대단 성능을 평가하기 위하여 단대단 시뮬레이션 모델을 개발하고 이를 사용하여 음성과 데이터 서비스의 사용자 측면에서 응용서비스의 성능을 분석하였다. 시뮬레이션 성능분석 모델들은 응용서비스 트래픽 특성 모델, 네트워크 구조 (architecture) 모델, 네트워크 구성요소 모델, 각 계층별 프로토콜 모델들을 포함한다. 다양한 전송계층의 구조에 따른 사용자 측면의 응용계층 성능을 평가하기 위하여 액세스망(RAN: Radio Access Network)과 코어망(CN: Core Network)에서 ATM 과 IP 전송방식을 고려하였다. 음성 서비스 분석 결과로 보코터 바이패스를 사용하는 경우 다른 방식에 비하여 30%의 성능 개선을 보이는 것을 알 수 있었다. 데이터 서비스 성능(웹 서비스)의 경우, 연속적 TCP연결 (persistent TCP connection)과 파이프라이닝 효과에 기인하여 HTTP v.1.1이 HTTP v.1.0에 비하여 성능이 우수하였다. 또한, RAN 구조에서 웹 브라우징 서비스의 경우 IP 전송기술이 ATM 에 비하여 데이터 패킷에 대한 패킷 오버헤드가 상대적으로 적어 우수함을 보였으며, 패킷크기가 작은 음성 서비스의 경우 반대의 효과를 볼 수 있었다. 비록 시뮬레이션 결과를 통하여 3G-lX EV 시스템이 3G-lX RTT에 비하여 우수한 패킷지연 성능을 보여주었지만, 기술적 진화의 모든 단계에서 단대단 사용자 단계의 성능에 영향을 주는 다양한 네트워크의 구성요소 및 계층에 대하여 고려하여야 할 것이다.

Field Programmable Stateful Logic Array 패브릭 매핑 및 배치 (Fabric Mapping and Placement of Field Programmable Stateful Logic Array)

  • 김교선
    • 전자공학회논문지
    • /
    • 제49권12호
    • /
    • pp.209-218
    • /
    • 2012
  • 최근 무어의 법칙을 연장시킬 시스템 집적 기술로서 Field Programmable Stateful Logic Array (FPSLA)가 제안되었다. 본 논문은 FPSLA의 설계 자동화 절차를 확립하고 논리 합성, 동기화, 물리적 매핑, 자동 배치 등의 접근 방법을 최초로 제시한다. 특히, 동기화를 통해 배치를 1차원 문제로 축소한 후 비선형 최적화 기법을 개량한 개략 배치 모델 및 하향식 계층적 2분법을 이용한 배치 적법화 알고리즘을 제안하였다. 또한, 제안된 모델 및 알고리즘을 소프트웨어로 구현하여 ACM/SIGDA 벤치 마크 예제에 적용함으로써 그 유효성을 입증하였다. 이 소프트웨어에는 Fanout 수만큼 출력 상태를 같은 단의 멤리스터성 스위치에 복사해야 하는 FPSLA의 특성을 고려하여 최적화 단계 별로 넷을 하이퍼에지로 통합했다가 다시 에지로 분리하는 기법이 제안되었으며 약 18.4%의 추가적 최적화를 이룩했다. FPSLA의 출력 상태 복사는 논리 단 일부에 셀 밀도가 집중되는 문제를 노출했으며 단위 논리 게이트의 Fanin을 제한하는 기법으로 18.5% 감소 효과를 얻었다. FPSLA의 실용성 확보를 위해서는 우선 논리 합성 시 Fanin의 수가 일부 단에 집중되지 않도록 제약하는 방안을 개발하여야 한다. 또한, FPSLA 패브릭 구조를 이식하기 위해 대칭성이 감소된 나노와이어 크로스바가 형성하는 복잡한 그래프 상에서 수행되어야 하는 자동 배선의 효율성 연구도 필요하다. 이러한 툴 개발은 설계 자동화 자체뿐만 아니라 FPSLA의 패브릭 구조 개선에 필요한 실험에 유용한 평가 도구로서도 큰 역할을 할 것이다.

JPEG2000 이산웨이블릿변환의 컨볼루션기반 non-cascaded 아키텍처를 위한 pipelined parallel 최적화 설계 (A Pipelined Parallel Optimized Design for Convolution-based Non-Cascaded Architecture of JPEG2000 DWT)

  • 이승권;공진흥
    • 대한전자공학회논문지SD
    • /
    • 제46권7호
    • /
    • pp.29-38
    • /
    • 2009
  • 본 연구에서는 실시간 이산웨이블릿변환을 위한 컨볼루션기반 non-cascaded 구조를 구현하고자 병렬곱셈기-중간버퍼-병렬누적기의 고성능 병렬파이프라인 연산회로를 설계하였다. 이산웨이블릿변환의 컨볼루션 곱셈연산은 필터계수의 대칭성과 업/다운 샘플링이 고려된 최적화를 통해서 1/4정도로 감소시킬 수 있으며, 화상데이터와 다수 필터계수들 간의 곱셈과정을 LUT기반의 병렬계수 DA 곱셈기 구조로 구현하면 3$\sim$5배 고속연산처리가 가능하게 된다. 또한 컨볼루션의 곱셈결과를 중간버퍼에 저장하여 누적가산 과정에서 재사용하면 전체 곱셈연산량을 1/2로 감소시켜 연산전력을 절약시킬 수 있다. 중간버퍼는 화상데이터와 필터계수들의 곱셈결과값들을 컨볼루션의 누적가산 과정을 위해 정렬시켜 저장하게 되는데, 이때 병렬누적가산기의 고속 순차검색을 위해 정렬된 병렬저장이 이루어지도록 버퍼관리 구조를 설계한다. 컨볼루션의 병렬곱셈기와 병렬누적가산기는 중간버퍼를 이용한 파이프라인을 구성하게 되는데, 파이프라인 연산처리 효율을 높이기 위해 병렬곱셈기의 연산처리 성능에 맞추어 누적가산기 및 중간버퍼의 병렬화 구조가 결정된다. 설계된 고성능 이산웨이블릿변환기의 성능을 검증하기 위해서 0.18um 라이브러리를 이용한 후반부 설계를 하였으며, 90MHz에서 SVGA(800$\sim$600)영상을 30fps로 실시간 처리함을 확인하였다.

VLIW 기반 고성능 DSP에서의 SAD 알고리즘 최적화 스케줄링 (Optimal Scheduling of SAD Algorithm on VLIW-Based High Performance DSP)

  • 유희재;정수환;정선태
    • 한국콘텐츠학회논문지
    • /
    • 제7권12호
    • /
    • pp.262-272
    • /
    • 2007
  • SAD(Sum of Absolute Difference) 알고리즘은 동영상 인코더에서 가장 많은 시간이 소용되는 것으로 잘 알려진 움직임 추정에서 가장 자주 계산이 수행되는 알고리즘으로, 동영상 인코딩 수행시간을 줄이기 위해서 우선적으로 최적화 구현되어야 하는 알고리즘이다. 본 논문에서는 VLIW 기반 고성능 DSP 프로세서에서의 조건 분기를 갖는 SAD 알고리즘의 최적 스케줄링 구현 방법을 제안한다. 제안 방법은 먼저 조건 분기를 갖는 중첩 루프를 VLIW 구조가 제공하는 ILP(Instruction Level Parallelism) 능력을 잘 활용할 수 있도록 충분한 크기의 루프 몸체를 가지며 또한 빨리 루프를 탈출 할 수 있는 조건 분기를 갖는 단일 루프로 변환한 후에, 모듈로 스케줄링 기법을 적용하여 VLIW 기반 프로세서에서 최적화 스케줄링 구현을 한다. 제안된 구현 방안을 TMS320C6713에서 구현하고, 코드 크기 및 수행 시간에 대한 성능 분석을 하였다. 구현된 최적화 SAD 루틴은 코드 크기도 크지 않아 임베디드 응용에 적합하며, 이 SAD 구현을 사용한 H.263 인코더가 그렇지 않은 H.263 인코더보다 훨씬 좋은 성능을 보임을 실험을 통해 확인하였다.

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

6LoWPAN상에서 원격 업데이트를 위한 효율적인 코드 전파 기법 (An Efficient Dissemination Protocol for Remote Update in 6LoWPAN Sensor Network)

  • 김일휴;차정우;김창훈;남인길;이채욱
    • 융합신호처리학회논문지
    • /
    • 제12권2호
    • /
    • pp.133-138
    • /
    • 2011
  • IP기반 무선 센서네트워크 기술은 센서 노드를 인터넷망과 연동하여 다양한 정보를 수집/관리할 수 있음에도 불구하고 주로 제한된 환경에 설치되기 때문에 노드의 오작동이나 성능 개선이 필요한 경우 인위적인 소프트웨어 업데이트 및 업데이트된 노드의 상태를 파악하고 관리할 필요성이 있다. 소프트웨어 업데이트를 위해 필요한 코드 전파 기법은 매우 중요한 기술 중 하나로서, 본 논문에서는 6LoWPAN 프로토콜에서 제공하는 단편 패킷 전송 기법에 네트워크 코딩 기법을 적용한 새로운 업데이트 코드 전파 기법을 제안한다. 제안된 기법은 기존 단편 패킷 전송방식과 비교하여 패킷 전송의 횟수가 감소되었을 뿐만 아니라, 업데이트 코드 전파를 위한 신뢰성 보장, 전체 네트워크에서 전송에 따른 오버헤드 감소 효과를 보인다. 따라서 본 논문에서 제안한 6LoWPAN 프로토콜 상에서 코드 업데이트 전파 기법을 적용할 경우 속도, 에너지, 네트워크 혼잡도 측변에서 효율적인 업데이트를 수행할 수 있다. 뿐만 아니라 네트워크 코딩의 overhearing 문제점인 원본 데이터의 분실이나 데이터의 미 수신시 발생하는 디코딩 문제를 미리 정의된 메시지를 이용, 방지함으로써 신뢰성 있는 데이터 전송이 가능하다.

CRT를 이용한 하이래딕스 RSA 모듈로 멱승 처리기의 구현 (Implementation of High-radix Modular Exponentiator for RSA using CRT)

  • 이석용;김성두;정용진
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.81-93
    • /
    • 2000
  • 본 논문에서는 RSA 암호 시스템의 핵심 연산인 모듈로 멱승의 처리속도를 향상시키기 위한 방법으로 하이래딕스 (High-Radix) 연산 방식과 CRT(Chinese Remainder Theorem)를 적용한 새로운 하드웨어 구조를 제안한다. 모듈로 멱승의 기본 연산인 모듈로 곱셈은 16진 연산 방법을 사용하여 PE(Processing Element)의 개수를 1/4고 줄임으로써, 기존의 이 진 연산 방식에 비해 클럭 수차 파이프라이닝 플립플롭의 지연시간을 1/4로 줄였다. 복호화시에는 합성수인 계수 N 의 인수, p, q를 알고 있는 점을 이용하여 속도를 향상시키는 일반적인 방법인 CRT 알고리즘을 적용하였다. 즉, s비트 의 키에 대해, s/2비트 모듈로 곱셈기 두 개를 병렬로 동시 수행함으로써 처리 속도를 CRT를 사용하지 않을 때보다 4 배정도 향상시켰다. 암호화의 경우는 두 개의 s/2비트 모듈로 곱셈기를 직렬로 연결하여 s/비트에 대한 연산이 가능하도록 하였으며 공개키는 E는 17비트까지의 지수를 허용하여 빠른 속도를 유지하였다. 모듈로 곱셈은 몽고메리 알고리즘을 변형하여 사용하였으며, 그 내부 계산 구조를 보여주는 데이터 종속 그래프(Dependence Graph)를 수평으로 매핑하여 1차원 선형 어레이 구조로 구성하였다. 그 결과 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 근거로 산출한 때, 1024 비트 RSA 연산에 대해서 160Mhz의 클럭 주파수로 암호화 시에 15Mbps, 복호화 시에 1.22Mbs의 성능을 가질 것으로 예측되며, 이러한 성능은 지금가지 발표된 국내의의 어느 논문보다도 빠른 RSA 처리 시간이다.

확장 유클리드 알고리즘을 이용한 파이프라인 구조의 타원곡선 암호용 스칼라 곱셈기 구현 (Implementation of a pipelined Scalar Multiplier using Extended Euclid Algorithm for Elliptic Curve Cryptography(ECC))

  • 김종만;김영필;정용진
    • 정보보호학회논문지
    • /
    • 제11권5호
    • /
    • pp.17-30
    • /
    • 2001
  • 본 논문에서는 타원곡선 암호시스템에 필요한 스칼라 곱셈기를 $GF(2^{163})$의 standard basis상에서 구현하였다. 스칼라 곱셈기는 래딕스-16 유한체 직렬 곱셈기와 유한체 역수기로 구성되어 있다. 스칼라 곱셈을 계산하기 위해서는 유한체 곱셈, 덧셈과 역수의 계산이 필요하지만, 기존의 스칼라 곱셈기는 이러한 스칼라 곱셈을 유한체 곱셈기만으로 계산하였으므로 역수를 계산하는데 많은 시간을 소모하였다. 따라서, 본 논문의 중요한 특징은 가장 많은 연산시간을 필요로 하는 역수 연산을 빠르게 계산하기 위해 유한체 역수기를 추가 사용한 것이다. 유한체 역수기는 기존의 많은 구현 사례 중 두 번의 곱셈 시간이 소요되는 확장 유클리드 알고리즘(Extended Euclid Algorithm)을 이용하였다. 본 논문에서 구현한 유한필드 곱셈기와 역수기는 하드웨어 구조가 규칙적이어서 확장성이 용이하고, 파이프라인 구조와 하드웨어 리소스의 재활용을 이용해 계산과정에서 100%의 효율(throughput)을 발휘할 수 있는 구조를 가지고 있다. 스칼라 곱셈기는 현대전자 0.6$\mu\textrm{m}$ CMOS 공정 라이브러리인 IDEC-C631을 이용하여 예측한 결과 최대 140MHz까지 동작이 가능하며, 이때 데이터 처리속도는 64Kbps로 163bit 프레임당 2.53ms 걸린다. 이러한 성능의 스칼라 곱셈기는 전자서명(Digital Signature), 암호화 및 복호화(encryption & decryption) 그리고 키 교환(key exchange)등에 효율적으로 사용될 수 있을 것으로 여겨진다.

나눗셈 체인을 이용한 RSA 모듈로 멱승기의 구현 (Implementation of RSA modular exponentiator using Division Chain)

  • 김성두;정용진
    • 정보보호학회논문지
    • /
    • 제12권2호
    • /
    • pp.21-34
    • /
    • 2002
  • 본 논문에서는 최근 발표된 멱승방법인 나눗셈 체인을 적용한 새로운 모듈로 멱승기의 하드웨어 구조를 제안하였다. 나눗셈 체인은 제수(divisor) d=2 또는 $d=2^I +1$ 과 그에 따른 나머지(remainder) r을 이용하여 지수 I를 새롭게 변형하는 방법으로 전체 멱승 연산이 평균 약 1.4$log_2$E 번의 곱셈으로 가능한 알고리즘이다. 이것은 Binary Method가 하드웨어 구현 시 항상 worst case인 $2log_2$E의 계산량이 필요한 것과 비교할 때 상당한 성능개선을 의미한다. 전체 구조는 파이프라인 동작이 가능한 선형 시스톨릭 어레이 구조로 설계하였으며, DG(Dependence Graph)를 수평으로 매핑하여 k비트의 키 사이즈에 대해 두 개의 k 비트 프레임이 k/2+3 개의 PE(Processing Element)로 구성된 두 개의 곱셈기 모듈을 통해 병렬로 동시에 처리되어 100% 처리율을 이루게 하였다. 또한, 규칙적인 데이터 패스를 가질 수 있도록 나눗셈체인을 새롭게 코딩하는 방법을 제안하였다. ASIC 구현을 위해 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 이용해 합성한 결과 최장 지연 패스는 4.24ns로 200MHz의 클럭이 가능하며, 1024비트 데이터 프레임에 대해 약 140kbps의 처리속도를 나타낸다. 복호화 시에는 CRT(Chinese Remainder Theorem)를 적용하여 처리속도를 560kbps로 향상시켰다. 전자서명의 검증과정으로 사용되기도 하는 암호화 과정을 수행할 때 공개키 E는 3,17 혹은 $2^{16} +1$의 사용이 권장된다는 점을 이용하여 E를 17 비트로 제한할 경우 7.3Mbps의 빠른 처리속도를 가질 수 있다.