• 제목/요약/키워드: log processor

검색결과 30건 처리시간 0.023초

Effective Partitioning of Static Global Buses for Small Processor Arrays

  • Matsumae, Susumu
    • Journal of Information Processing Systems
    • /
    • 제7권1호
    • /
    • pp.85-92
    • /
    • 2011
  • This paper shows an effective partitioning of static global row/column buses for tightly coupled 2D mesh-connected small processor arrays ("mesh", for short). With additional O(n/m (n/m + log m)) time slowdown, it enables the mesh of size $m{\times}m$ with static row/column buses to simulate the mesh of the larger size $n{\times}n$ with reconfigurable row/column buses ($m{\leq}n$). This means that if a problem can be solved in O(T) time by the mesh of size $n{\times}n$ with reconfigurable buses, then the same problem can be solved in O(Tn/m (n/m + log m)) time on the mesh of a smaller size $m{\times}m$ without a reconfigurable function. This time-cost is optimal when the relation $n{\geq}m$ log m holds (e.g., m = $n^{1-\varepsilon}$ for $\varepsilon$ > 0).

다중 시그니처 비교를 통한 트랜잭셔널 메모리의 충돌해소 정책의 성능향상 (Multiple Signature Comparison of LogTM-SE for Fast Conflict Detection)

  • 김덕호;오두환;노원우
    • 정보처리학회논문지A
    • /
    • 제18A권1호
    • /
    • pp.19-24
    • /
    • 2011
  • 다중 코어 프로세서가 널리 보급되면서 멀티 쓰레디드 프로그램 상의 동기화를 용이하게 구현할 수 있는 해결 방안으로 트랜잭셔널 메모리가 각광을 받고 있다. 이를 위해 고성능의 하드웨어 트랜잭셔널 메모리에 관한 연구가 활발히 진행되고 있으며, 대표적인 연구결과로 UTM, VTM, FastTM, LogTM, LogTM-SE 등이 소개되었다. 특히, 충돌 감지 정책으로 시그니처를 사용한 LogTM-SE는 효율적인 메모리 관리와 쓰레드 스케쥴링을 통해 고성능의 트랜잭셔널 메모리를 구현하였다. 하지만, 이 방식은 프로세서 내부의 코어 수가 증가하는 것에 비례하여 한 코어가 비교해야 하는 시그니처의 수가 증가하는 문제점을 갖고 있다. 이는 시그니처 처리 과정에서 병목현상을 야기하여 전체 성능을 저해하는 요인이 될 수 있다. 본 논문에서는 시그니처 비교 과정에서 나타날 수 있는 이러한 병목 현상을 개선하여 전체 트랜잭셔널 메모리의 성능 향상을 이루고자 다중 시그니처 비교 방식의 새로운 구조를 제안한다.

3차원 그래픽프로세서용 특수 목적 연산장치의 하드웨어 설계 (Hardware Design of Special-Purpose Arithmetic Unit for 3-Dimensional Graphics Processor)

  • 최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.140-142
    • /
    • 2011
  • 본 논문에서는 모바일 그래픽프로세용 특수목적 연산 회로를 설계하였다. 특수목적 연산회로(SFU)는 6개의 연산, 즉, $1/{\chi}$, $\frac{1}{{\sqrt{x}}$, $log_2x$, $2^x$, $sin(x)$, $cos(x)$를 지원한다. 특수목적 연산 회로는 높은 정밀도 조건을 만족하기 위해 IEEE 표준 부동 소수점 형식을 사용하는 2차 다항식 minimax 알고리즘을 사용하였으며, 높은 연산 성능을 위해 5-단 파이프라인 구조를 갖고 있다. 설계한 특수목적 연산회로 는 65nm 삼성 CMOS 표준셀 공정 조건에서 약 23,000개의 게이트로 구성되며, 약 400 Mhz의 동작 주파수를 가진다. 설계된 회로는 파이프라인 구조로 동작하므로 약 400 MOPS(Million Operations Per Second)의 연산 성능을 갖고 있어서, 고성능 3차원 그래픽 프로세서에 적용이 가능하다.

  • PDF

웹마이닝 시스템을 위한 페이지 로깅 시스템 (Page Logging System for Web Mining Systems)

  • 윤선희;오해석
    • 정보처리학회논문지C
    • /
    • 제8C권6호
    • /
    • pp.847-854
    • /
    • 2001
  • 웹은 그 양적인 면이나 복잡도에 있어 현재 놀라운 속도로 급성장학고 있다. 이와함께 웹사이트 설계나 웹서버나 설계와 같은 작업은 물론 단순희 웹사이트를 검색하는 작업에 있어서도 그 복잡도가 크게 증가했다. 이러한 설계 작업들에 있어서 중요한 입력 요소로는 웹사이트가 어떻게 사용되고 이TSms가에 대한 정확한 데이터가 필수적으로 요구된다. 본 연구에서는 웹 마이닝 시스템에서 요구되는 사용자의 웹페이지 이용정보 즉 사용자 세션(user sessions)을 효과적으로 획득할수 있는 페이지 로깅 시스템(Page Logging System:PLS)을 제안한다. 페이지 로깅 시스템은 사용자의 웹페이지 탐색 정보를 획득하는 페이지 로깅(page logger)와 획득한 데이처를 이용하여 사용자 세션 파일을 생성하는 로그 처리기(log processor)그리고웹 사이트의 HTML 페이지에 페이지 로거 애플릿을 삽입하는 코드로 구성된다. 제안한 PLS는 기존의 웹 마이닝 시스템에서 많은 시간과 비용을 수반했던 데이터 전처리 작업의 일부를 제거한다. 특히 사용자가 각 페이지를 탐색한 시간 (access length)을 직접 획득함으로서 트랜잭션 구분 단계를 단순화시킨다. 또한 PLS는 기존의 웹서버 로그로부터 사용자 세션을 획득함에 있어 가장 문제가 되었던 로컬 캐쉬(local cache)및 ISP가 제공하는 프록시 서버 사용으로 인하여 야기되는 문제등을 해결한다.

  • PDF

An Efficient DVS Algorithm for Pinwheel Task Schedules

  • Chen, Da-Ren;Chen, You-Shyang
    • Journal of Information Processing Systems
    • /
    • 제7권4호
    • /
    • pp.613-626
    • /
    • 2011
  • In this paper, we focus on the pinwheel task model with a variable voltage processor with d discrete voltage/speed levels. We propose an intra-task DVS algorithm, which constructs a minimum energy schedule for k tasks in O(d+k log k) time We also give an inter-task DVS algorithm with O(d+n log n) time, where n denotes the number of jobs. Previous approaches solve this problem by generating a canonical schedule beforehand and adjusting the tasks' speed in O(dn log n) or O($n^3$) time. However, the length of a canonical schedule depends on the hyper period of those task periods and is of exponential length in general. In our approach, the tasks with arbitrary periods are first transformed into harmonic periods and then profile their key features. Afterward, an optimal discrete voltage schedule can be computed directly from those features.

공유 메모리 병렬 컴퓨터 환경에서 Bitonic Sorting 알고리즘 설계와 효율적인 통신의 구현 (Designing a Bitonic Sorting Algorithm for Shared-Memory Parallel Computers and an Efficient Implementation of its Communication)

  • 이재동;권경희;박용범
    • 한국정보처리학회논문지
    • /
    • 제4권11호
    • /
    • pp.2690-2700
    • /
    • 1997
  • 본 연구에서는 공유메모리 병렬 컴퓨터 환경에서 N개의 key를 $O(log^2N)$ 시간에 정렬 할 수 있는 병 알고리즘인 SARED-MEMORY-BS와 REDUCED-BS를 설계하였다. REDICED-BS 알고리즘은 각각 로세서에 있는 local memory를 효율적으로 사용할 수 있도록 제안한 parity전략을 사용하였다. 각각의 프로세서에 있는 local memo교를 효율적으로 사용함으로써 REDUCED-BS 알고리즘은 SHARED-MEMORY-BS 알고리즘에 비햐여 통신의 빈도수가 약 1/2정도 감소된 것으로 나타났다. 결과적으로 REDUCED-BS 알고리즘은 병렬 정렬시 통신을 감소시킴으로써 컴퓨터의 사용 효율을 향상시킬 수 있다.

  • PDF

시그니처 기반 이거 하드웨어 트랜잭셔널 메모리에서의 캐시 접근 이력을 이용한 거짓 충돌 감소 (Using Cache Access History for Reducing False Conflicts in Signature-Based Eager Hardware Transactional Memory)

  • 강진구;이인환
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.442-450
    • /
    • 2015
  • 본 논문에서는 시그니처 기반의 이거 하드웨어 트랜잭셔널 메모리(eager HTM)에서 발생하는 거짓 충돌을 줄이기 위한 방법을 제안한다. 이 방법에서는 각 트랜잭션이 실행 중에 접근하는 캐시 블록들을 추적한다. 그리고 다른 코어로부터의 요청에 대해 충돌이 없다는 증거를 추적한 정보가 제공하면, 시그니처 서브시스템이 충돌이라고 선언하더라도 그것을 무시하도록 조치한다. 따라서 제안한 방법을 사용하면 거짓 충돌에 의한 트랜잭션의 멈춤 또는 취소를 줄일 수 있다. 이 방법은 시그니처 기반의 이거 HTM을 구현하는 멀티코어 프로세서의 성능을 향상시키기 위해 사용할 수 있다. 16개의 코어로 구성된 LogTM-SE 시스템에서 스탠포드 대학에서 개발한 STAMP 벤치마크를 사용하여 실험한 결과, 제안한 방법을 사용할 경우 시스템의 성능은 평균 20.6% 만큼 향상되었다.

타원곡선 암호프로세서의 재구성형 하드웨어 구현을 위한 GF(2$^{m}$)상의 새로운 연산기 (A Novel Arithmetic Unit Over GF(2$^{m}$) for Reconfigurable Hardware Implementation of the Elliptic Curve Cryptographic Processor)

  • 김창훈;권순학;홍춘표;유기영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권8호
    • /
    • pp.453-464
    • /
    • 2004
  • In order to solve the well-known drawback of reduced flexibility that is associate with ASIC implementations, this paper proposes a novel arithmetic unit over GF(2$^{m}$ ) for field programmable gate arrays (FPGAs) implementations of elliptic curve cryptographic processor. The proposed arithmetic unit is based on the binary extended GCD algorithm and the MSB-first multiplication scheme, and designed as systolic architecture to remove global signals broadcasting. The proposed architecture can perform both division and multiplication in GF(2$^{m}$ ). In other word, when input data come in continuously, it produces division results at a rate of one per m clock cycles after an initial delay of 5m-2 in division mode and multiplication results at a rate of one per m clock cycles after an initial delay of 3m in multiplication mode respectively. Analysis shows that while previously proposed dividers have area complexity of Ο(m$^2$) or Ο(mㆍ(log$_2$$^{m}$ )), the Proposed architecture has area complexity of Ο(m), In addition, the proposed architecture has significantly less computational delay time compared with the divider which has area complexity of Ο(mㆍ(log$_2$$^{m}$ )). FPGA implementation results of the proposed arithmetic unit, in which Altera's EP2A70F1508C-7 was used as the target device, show that it ran at maximum 121MHz and utilized 52% of the chip area in GF(2$^{571}$ ). Therefore, when elliptic curve cryptographic processor is implemented on FPGAs, the proposed arithmetic unit is well suited for both division and multiplication circuit.

MasPar 머쉰상의 병렬 힙 병합 알고리즘 (A Parallel Algorithm for Merging Heaps on MasPar Machine)

  • 민용식
    • 한국정보처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.554-560
    • /
    • 1995
  • 본 논문은 크기가 n와 k인 nheap과 kheap을 병합시키기 위한 병렬 알고리즘을 제 시함과 동시에 그들을 MasPar상에 실제로 구현하고자 하는데 그 주된 목적이 있다. 이때, EREW-PRAM(Exclusive-Read Exclusive-Write Parallel Random Acess Machin)상에 서 max(2$^{-1}$, $\ulcorner$(m+1)/4$\lrcorner$개의 프로세서를 이용해서 본 논문에 제시된 알고리즘 의 시간 복잡도가 O(log(n/k)*log(n))임을 제시하였다. 여기서 i는 heap의 height를 뜻하며, m은 크기 n과 k의 합으로 구성된 것이다. 또한 이것을 MasPar 컴퓨터에 적용 을 시켰을 때, 테이타의 양이 8백만개이고, 64개의 프로세서를 이용한 경우의 speedup 을 33.934를 얻었다. 이때 적용된 데이타의 형태는 불완전 힙상에서 크기가 k〈n를 지 니는 경우의 처리이다. 그리고 이같이 제시된 알고리즘의 EPU(Effective Processor Utilization)을 계산하면 1인 최적의 speedup율을 나타냄을 알 수가 있다.

  • PDF

Algorithm and Design of Double-base Log Encoder for Flash A/D Converters

  • Son, Nguyen-Minh;Kim, In-Soo;Choi, Jae-Ha;Kim, Jong-Soo
    • 융합신호처리학회논문지
    • /
    • 제10권4호
    • /
    • pp.289-293
    • /
    • 2009
  • This study proposes a novel double-base log encoder (DBLE) for flash Analog-to-Digital converters (ADCs). Analog inputs of flash ADCs are represented in logarithmic number systems with bases of 2 and 3 at the outputs of DBLE. A look up table stores the sets of exponents of base 2 and 3 values. This algorithm improves the performance of a DSP (Digital Signal Processor) system that takes outputs of a flash ADC, since the double-base log number representation does multiplication operation easily within negligible error range in ADC. We have designed and implemented 6 bits DBLE implemented with ROM (Read-Only Memory) architecture in a $0.18\;{\mu}m$ CMOS technology. The power consumption and speed of DBLE are better than the FAT tree and binary ROM encoders at the cost of more chip area. The DBLE can be implemented into SoC architecture with DSP to improve the processing speed.

  • PDF