• 제목/요약/키워드: pipelining

검색결과 141건 처리시간 0.125초

High Throughput Implementation of RLS Algorithm Using Fewer Processing Elements

  • Niki, Takeo;Yamada, Rikita;Nishikawa, Kiyoshi;Kiya, Hitoshi
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -1
    • /
    • pp.406-409
    • /
    • 2000
  • This paper proposes a method that enables us to implement the recursive least squares (RLS) algorithm at, high throughput rate using fewer processing elements (PEs). It is known that the pipeline processing can provide a high throughput rate. But, pipelining is effective only when enough number of PEs are available. The proposed method achieves high throughput rate using a few PEs. The effectiveness of the proposed method is verified through simulations on programmable digital signal processors (in the following, DSP processors).

  • PDF

문자인식 시스템을 위한 고속 세선화 장치 (A High-Speed Thinning Processor for Character Recognition System)

  • 김용섭;김민석;주양성;김수원
    • 한국통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.153-158
    • /
    • 1992
  • 본 논문에서는 새로운 세선화 알고리즘을 제안하고 실험결과를 통해 알고리즘의 효율성을 증명하였다. 새로운 세선화 알고리즘에서는 기존의 one-pass 알고리즘에서 드러난 불연속점과 끝점 감소의 문제점을 해결하였다. 특히 본 알고리즘은 하드웨어 구현에 보다 적합하며 고속 동작이 가능하도록 설계되었다.구현된 하드웨어 장치는 가변하는 입력 이미지 너비(25~40 bits)에 선택적으로 대응할 수 있는 실용적인 측면이 있으며 파이프라인 방식으로 고속 동작한다. 본 세선화 장치는 가변 이미지 크기에 대한 융통성과 고속동작의 특성을 가지므로 문자 인식 시스템을 포함한 다양한 이미지 처리 분야에서 매우 실용적으로 적용할 수 있다.

  • PDF

PICAM에서의 최적 파이프라인 구조 (The Optimal pipelining architecture for PICAM)

  • 안희일;조태원
    • 한국통신학회논문지
    • /
    • 제26권6A호
    • /
    • pp.1107-1116
    • /
    • 2001
  • 고속 IP 주소 룩업(lookup)은 고속 인터넷 라우터의 성능을 좌우하는 주요 요소이다. LPM(longest prefix matching) 탐색은 IP 주소 룩업에서 가장 시간이 많이 걸리는 부분이다. PICAM은 고속 LPM 탐색을 위한 파이프라인 CAM 구조로서, 기존 CAM(content addressable memory, 내용 주수화 메모리)을 이용한 방법보다 룩업 테이블의 갱신속도가 빠르면서도 LPM 탐색율이 높은 CAM 구조이다. PICAM은 3단계의 파이프라인으로 구성된다. 단계 1 및 단계 2의 키필드분할수 및 매칭점의 분포에 따라 파이프라인의 성능이 좌우되며, LPM 탐색율이 달라질 수 있다. 본 논문에서는 PICAM의 파이프라인 성능모델을 제시하고, 이산사건 시뮬레이션(discrete event simulation)을 수행하여, 최적의 PICAM 구조를 도출하였다. IP version 4인 경우 키필드분할수를 8로 하고, 부하가 많이 걸리는 키필드블록을 중복 설치하는 것이 최적구조이며, IP version 6인 경우 키필드블록의 개수를 16으로 하는 것이 최적구조다.

  • PDF

VLIW 기반 DSP에서의 개선된 블록매칭 알고리즘 구현 (An Improved Implementation of Block Matching Algorithm on a VLIW-based DSP)

  • 유희재;정선태;정수환
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.225-226
    • /
    • 2007
  • In this paper, we present our study about the optimization of the block matching algorithm on a VLIW based DSP. The block matching algorithm is well known for its computational burden in motion picture encoding. As supposed to the previous researches where the optimization is achieved by optimizing SAD, the most heavy routine of the block matching, we optimize the block matching algorithm by applying software pipelining technique to the whole routine of the algorithm. Through experiments, the efficiency of the proposed optimization is verified.

  • PDF

WiBro 시스템을 위한 효율적인 구조의 채널 복호화기 구현 (Implementation of Efficient Channel Decoder for WiBro System)

  • 김장훈;한철희
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.177-178
    • /
    • 2007
  • WiBro system provides reliable broadband communication services for mobile and portable subcribers. It allows interference-free reception under the conditions of multipath propagation and transmission errors. Thus, powerful channel-error correction ability Is required. CC/CTC Decoder which Is mandatory for WiBro system needs lots of computations for real-time operation. So, it is desired to design a CC/CTC Decoder having highly optimized hardware scheme for low latency operation under high data rates. This paper proposes an efficient CC/CTC Decoder structure for high data rate WiBro system. Particularly, the proposed CTC Decoder architecture reduces decoding delay by applying pipelining and multiple decoding blocks. Simulation results show that reduction of about 80% of processing time is enabled with the proposed CC/CTC Decoder despite of increase in are.

  • PDF

A Fuzzy Microprocessor for Real-time Control Applications

  • Katashiro, Takeshi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.1394-1397
    • /
    • 1993
  • A Fuzzy Microprocessor(FMP) is presented, which is suitable for real-time control applications. The features include high speed inference of maximum 114K FLIPS at 20MHz system clocks, capability of up to 128-rule construction, and handing of 8 input variables with 8-bit resolution. In order to realize these features, the fuzzifier circuit and the processing element(PE) are well optimized for LSI implementation. The chip fabricated in 1.2$\mu\textrm{m}$ CMOS technology contains 71K transistors in 82.8 $\textrm{mm}^2$ die size and is packaged in 100-pin plastic QFP.

  • PDF

자원제약하에서의 지연 스케쥴링 (Delayed Scheduling under Resource Constrains)

  • 신인수;이근만
    • 한국정보처리학회논문지
    • /
    • 제4권10호
    • /
    • pp.2571-2580
    • /
    • 1997
  • 본 연구에서는 자원의 수가 한정된 상태에서 동작 알고리즘의 수행을 마치기 위한 자원제약 스케쥴링 방법을 다루었다. 특히, 제한된 자원제약하에서 연산이 할당되는 제어스텝의 최하한값을 구하기 위한 지연 스케쥴링 방법을 제안하였다. 스케쥴링 문제에 대하여 연산의 멀티싸이클과 기능적 파이프라이닝을 고려하였으며 스케쥴링 문제에 대한 최적의 결과를 얻기 위해 선형정수계획법을 이용하였다. 5차 디지털 웨이브 필터 DFG를 실험 대상으로 하여 본 연구의 효용성을 입증하였다.

  • PDF

JPEG 인코더를 위한 고성능 병렬 프로세서 하드웨어 설계 및 검증 (Design and Verification of High-Performance Parallel Processor Hardware for JPEG Encoder)

  • 김용민;김종면
    • 대한임베디드공학회논문지
    • /
    • 제6권2호
    • /
    • pp.100-107
    • /
    • 2011
  • As the use of mobile multimedia devices is increasing in the recent year, the needs for high-performance multimedia processors are increasing. In this regard, we propose a SIMD (Single Instruction Multiple Data) based parallel processor that supports high-performance multimedia applications with low energy consumption. The proposed parallel processor consists of 16 processing elements(PEs) and operates on a 3-stage pipelining. Experimental results for the JPEG encoding algorithm indicate that the proposed parallel processor outperforms conventional parallel processors in terms of performance and energy efficiency. In addition, the proposed parallel processor architecture was developed and verified with verilog HDL and a FPGA prototype system.

소프트웨어 파이프라이닝에서 레지스터 변경을 통한 성능 개선 (Improving Software Pipelining Performance Using a Register Renaming Technique)

  • 조두산
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1642-1643
    • /
    • 2010
  • 멀티미디어 도메인의 응용 프로그램에는 풍부한 병렬성이 내재하기 때문에 VLIW (Very Long Instruction Word) 형식의 신호처리 프로세서가 많이 사용되고 있다. VLIW 프로세서를 구성하는 복수의 연산처리유닛 (processing unit, PU)의 사용률은 컴파일러의 명령어 스케쥴러의 성능에 의하여 결정된다. 명령어들 사이의 병렬성을 분석하여 동시 수행가능한 명령어들을 각기 다른 PU 에서 수행되도록 프로그램 코드를 최적화한다. 하지만 기존의 명령어 스케쥴러는 복잡한 데이터 디펜던스 그래프 (data dependence graph, DDG)를 구성하여 복수의 PU 를 충분히 사용하도록 하지 못하는 문제점을 내재하고 있다. 이는 명령어 스케쥴러가 각 레지스터 사용시간을 별도로 고려하지 않기 때문에 실제로 내재된 데이터 디펜던스 보다 복잡성이 높은 디펜던스 그래프를 구성하게 되어 스케쥴러가 올바르게 최적화된 코드 스케쥴링 결과를 제공하지 못하기 때문이다. 본 연구에서는 레지스터의 라이프타임을 다른 레지스터를 이용하여 적절히 끊어주는 것으로 데이터 디펜던스 복잡도 완화하여 시스템 성능 향상의 가능성을 보이고 있다.

MPTCP기반 Globus 서비스 적용을 위한 병렬 전송성능 모니터링 (Monitoring of Parallel Transfer Performance for MPTCP-based Globus Service)

  • 홍원택
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.354-356
    • /
    • 2021
  • 대용량 데이터의 공유 및 신속한 전송을 요구하는 과학응용 분야에서는 전송 성능을 높이기 위해 Globus/GridFTP와 같은 전송 어플리케이션에서의 병행성, 병렬성, 파이프라이닝 기법 등을 통한 성능 향상을 추구해 오고 있다. 본 논문에서는 비슷한 맥락에서 전송 프로토콜 계층에서 다중 경로 지원할 수 있는 Mptcp를 도입할 경우 기대할 수 있는 인터페이스 수의 증가 및 전송 스트림들의 병렬성 확장에 따른 전송성능 향상을 에뮬레이션 환경에서 실험하고 결과를 제시한다.

  • PDF