• 제목/요약/키워드: Software Pipelining

검색결과 23건 처리시간 0.023초

DSP 67x 기반 음성인식 시스템의 가우시안 확률 계산 최적화 구현 (Optimization of Gaussian Mixture Computation of ASR on DSP 67x)

  • 최태일;김태윤;고한석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.53-56
    • /
    • 2004
  • 본 논문은 HMM 기반 임베디드 음성인식 시스템 구현에 관한 몇 가지 주제들을 설명한다. 임베디드 환경은 한정된 자원을 가지고 있고 그러한 가운데 타당한 인식률과 향상된 인식 속도를 얻기 위해서 몇가지 방법들을 이 논문에서 설명한다. 구현 환경은 DSP6711 기반에서 이루어졌다. 가우시안 mixture 계산 루틴을 부동소수점 연산에서 고정소수점 연산 및 software pipelining을 적용하였다. 고정소수점 변환 전과 후 비슷한 인식률을 얻었고 고정소수점 변환과 software pipelining 적용 후 연산 속도의 향상을 얻었다.

  • PDF

FPGA 상에서 은닉층 뉴런에 최적화된 MLP의 설계 방법 (MLP Design Method Optimized for Hidden Neurons on FPGA)

  • 경동욱;정기철
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.429-438
    • /
    • 2006
  • 일반적으로 신경망은 비선형성 문제를 해결하기 위해서 소프트웨어로 많이 구현되었지만, 영상처리 및 패턴인식과 같은 실시간 처리가 요구되는 응용에서는 빠른 처리가 가능한 하드웨어로 구현되고 있다. 다양한 종류의 신경망 중에서 다층 신경망(MLP: multi-layer perceptron)의 하드웨어 설계는 빠른 처리속도와 적은 면적 그리고 구현의 용이성으로 고정소수점 연산을 많이 사용하였다. 하지만 고정소수점 연산을 사용하는 하드웨어 설계는 높은 정확도의 부동소수점 연산을 많이 사용하는 소프트웨어 MLP를 쉽게 적용할 수 없는 문제점을 가진다. 본 논문에서는 높은 정확도와 높은 유연성을 가지는 부동소수점 연산을 사용하면서도 은닉층 뉴런수를 주기(cycle)로 빠르게 수행하는 MLP의 완전 파이프라이닝(fully-pipelining) 설계방법을 제안한다. MLP는 주어진 문제에 의해서 자연스럽게 입력층과 출력층의 구조가 결정되지만, 은닉층 구조는 사용자에 의해서 결정된다. 그러므로 제안된 설계방법은 많은 반복수행이 요구되는 영상처리 및 패턴인식 등의 분야에서 은닉층 뉴런수를 최적화 하여 쉽게 성능 향상을 이룰 수 있다.

파이프라이닝 기법을 적용한 USN 물류관리 시스템 효율성 향상에 관한 연구 (A Study on Efficiency Improvement of USN Logistics Management System applied Pipelining Techniques)

  • 김석수;정성모
    • 한국산학기술학회논문지
    • /
    • 제10권6호
    • /
    • pp.1214-1219
    • /
    • 2009
  • USN(Ubiquitous Sensor Network) 기술이 발전하면서 다양한 분야에서 이를 활용하기 위한 연구들이 활발하게 진행되고 있다. 특히 물류관리 분야에서의 연구가 활발히 진행되고, 세계적인 대형마트 및 대형 물류 창고 등과 연계되어 실제 적용되고 있다. 이렇게 활용도가 높아지고 있는 USN 기술이지만, 완벽하게 실시간으로 데이터처리를 하기란 쉽지 않다. 수천, 수만 개의 센서를 사용하는 초대형 물류창고와 같이 대량의 데이터 값이 오차 없이 수집되어야 하는 분야의 경우, 기존의 데이터처리 방식으로는 실시간 데이터를 수집의 효율성이 낮을 수밖에 없다. 이와 맞물려 하드웨어의 고속화는 이루어졌지만, 소프트웨어적 구현이 미미한 현재, 이러한 문제점을 해결하기 위하여 파이프라인 기법을 통한 소프트웨어 고속화를 실현 시키는 것이 관건이다. 따라서 본 논문에서는 파이프라이닝 기법을 적용하여 물류관리 시스템의 실시간 데이터 수집의 효율성을 높이고 값의 오차를 줄일 수 있는 USN 물류관리 시스템을 제안하였다.

목적 코드 레벨에서의 벡터화 기법 (A Vectorization Technique at Object Code Level)

  • 이동호;김기창
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1172-1184
    • /
    • 1998
  • 명령어 재배치는 ILP(Instruction Level Parallelism) 프로세서의 병렬성을 활용하는 주요한 코드 최적화 기법이다. 명령어 재배치 알고리즘을 루프(loop)에 적용하면서 서로 다른 반복(iteration) 사이의 동시 수행 가능한 명령어들이 인접한 위치로 모여지는 소프트웨어 파이프라인(software pipeline)된 루프가 얻어진다. 그러나 루프로부터 병렬성을 추출하는 소프트웨어 파이프라인 방법은 주로 명령어사이의 자료 종속성에 근거하여 스케줄링을 수행하므로 그 자체에 무한한 병렬성을 가지고 있는 벡터 루프의 경우 그 병렬성을 충분히 드러내지 못한다는 문제점을 안고 있다. 본 논문에서는 이러한 벡터루프에 대해 프로그램의 목적 코드 레벨에서 행해질 수 있는 새로운 벡터 스케줄링 방법을 제안한다. 벡터 스케줄링 방법은 프로그램의 목적 코드 레벨에서 루프의 구조나 반복 조건, 그리고 자료 종속성 등에 대한 전체적인 정보에 기반하여 스케줄링을 수행함으로써 소프트웨어 파이프라인 방법보다 프로그램의 수행속도를 향상시킬 수 있다. 본 논문에서는 벡터 스케줄링을 수행한 결과를 전통적인 소프트웨어 파이프라인 방법에 대해 생산된 병렬 루프의 결과와 수행속도 측면에서 비교한다.

  • PDF

하드웨어-소프트웨어 통합설계에서의 새로운 분할 방법 (New Partitioning Techniques in Hrdware-Software Codesign)

  • 김남훈;신현철
    • 전자공학회논문지C
    • /
    • 제35C권5호
    • /
    • pp.1-10
    • /
    • 1998
  • In this paper, a new hardware-software patitioning algorithm is presented, in which the system behavioral description containing a mixture of hardware and softwae components is partitioned into the hardware part and the software part. In this research, new techniques to optimally partition a mixed system under certain specified constaints such as performance, area, and delay, have been developed. During the partitioning process, the overhead due to the communication between the hardware and software parts are considered. New featues have been added to adjust the hierarchical level of partitioning. Power consumption, memory cost, and the effect of pipelining can also be considered during partitioning. Another new feature is the ability to partition a DSP system under throughput constraints. This feature is important for real time processing. The developed partitioning system can also be used to evaluate various design alternatives and architectures.

  • PDF

파이프라인 기반 워크플로우의 우선 데이터 처리 방안 (Priority Data Handling in Pipeline-based Workflow)

  • 전원표;허대영;황선태
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권12호
    • /
    • pp.691-697
    • /
    • 2017
  • 백두산 및 한반도 주변의 화산재해에 의한 피해는 화산재에 의한 것으로 예상된다. 따라서 기 상장 상황에 따른 화산재 확산 상황을 컴퓨터 시뮬레이션을 통해서 예측하는데 정해진 시간 안에 계산을 끝내야 하므로 계산에 사용되는 소프트웨어들을 파이프라인 방식으로 병렬화하는 워크플로우가 제안되었다. 또한 화산재해의 특성 상 화산 폭발이 발생한 순간에도 시뮬레이션을 위한 정확한 파라미터 값이 정해지지 않으므로 여러 가지 가능한 조건의 시뮬레이션을 모두 수행해야 한다. 만일 이 중에 가장 가능성이 높은 조건의 계산을 먼저 수행할 수 있으면 화산재해에 대해 이를 토대로 일단 대응하고 후속 계산 결과에 의해 추후 보완하는 것이 가능해질 것이다. 그런데 이런 계산 들은 화산재해 피해예측 시스템의 제한된 성능의 계산 서버에서 수행되므로 계산 자원을 적절히 분배하는 일이 필요하다. 이를 위해서 기존에 제안되었던 파이프라인 기반의 워크플로우에 특정 데이터를 먼저 생성하는 기능을 추가하는 방안을 제안한다.

고속 퓨리어 변환 연산용 VLSI 시스토릭 어레이 아키텍춰 (A VLSI Architecture of Systolic Array for FET Computation)

  • 신경욱;최병윤;이문기
    • 대한전자공학회논문지
    • /
    • 제25권9호
    • /
    • pp.1115-1124
    • /
    • 1988
  • A two-dimensional systolic array for fast Fourier transform, which has a regular and recursive VLSI architecture is presented. The array is constructed with identical processing elements (PE) in mesh type, and due to its modularity, it can be expanded to an arbitrary size. A processing element consists of two data routing units, a butterfly arithmetic unit and a simple control unit. The array computes FFT through three procedures` I/O pipelining, data shuffling and butterfly arithmetic. By utilizing parallelism, pipelining and local communication geometry during data movement, the two-dimensional systolic array eliminates global and irregular commutation problems, which have been a limiting factor in VLSI implementation of FFT processor. The systolic array executes a half butterfly arithmetic based on a distributed arithmetic that can carry out multiplication with only adders. Also, the systolic array provides 100% PE activity, i.e., none of the PEs are idle at any time. A chip for half butterfly arithmetic, which consists of two BLC adders and registers, has been fabricated using a 3-um single metal P-well CMOS technology. With the half butterfly arithmetic execution time of about 500 ns which has been obtained b critical path delay simulation, totla FFT execution time for 1024 points is estimated about 16.6 us at clock frequency of 20MHz. A one-PE chip expnsible to anly size of array is being fabricated using a 2-um, double metal, P-well CMOS process. The chip was layouted using standard cell library and macrocell of BLC adder with the aid of auto-routing software. It consists of around 6000 transistors and 68 I/O pads on 3.4x2.8mm\ulcornerarea. A built-i self-testing circuit, BILBO (Built-In Logic Block Observation), was employed at the expense of 3% hardware overhead.

  • PDF

Client/Server구조를 이용한 PDA기반의 문자 추출 시스템 (PDA-based Text Extraction System using Client/Server Architecture)

  • 박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.85-98
    • /
    • 2005
  • 최근, PDA를 이용한 모바일 비젼 시스템에 관한 많은 연구가 진행되고 있다. 대부분의 PDA에서 사용하는 CPU는 실수 연산 구성요소(floating-computation component)가 없는 정수(integer)형 CPU를 사용하므로, 실수 연산이 많은 영상 처리 및 비젼 시스템에서는 많은 시간이 소요되는 단점이 있다 본 논문에서는 이를 해결하기 위해 무선 랜(LAN)으로 연결된 Client(PDA)/server(PC)구조론 이용한 시스템을 제안하며, 연속 영상에서 Client(PDA)와 Server(PC) 각각의 CPU를 이용하여 파이프라이닝 형식으로 시스템을 구축함으로써 수행 시간을 단축한다. Client(PDA)는 에지 밀도(edge density)론 이용하여 대략적인 문자 영역을 추출하며, Server(PC)는 Client(PDA)에서 대략적으로 검출된 견과를 바탕으로 정밀한 문자 영역을 추출하기 위해, MLP(multi-layer perceptron) 기반의 텍스춰 분류 방법과 연결 성분(connected component: CC) 기반의 필터링 방법을 이용한다. 본 실험에서 제안한 방법은 MLP와 CC를 이용함으로써 효과적인 문자 추출 결과를 보였으며, 파이프라이닝 형식의 Client(PDA)/server(PC)구조를 이용함으로써 빠른 수행 시간을 보였다.

고성능 디지털 신호 처리 프로세서상에서 효율적인 모듈로 스케쥴링을 위한 전처리 기법 (Preprocessing Methods for Effective Modulo Scheduling on High Performance DSPs)

  • 조두산;백윤흥
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권5호
    • /
    • pp.487-501
    • /
    • 2007
  • 고성능 다중 이슈 DSP의 하드웨어 리소스 사용률을 높이기 위해서, 제공되는 상용 컴파일러는 일반적으로 반복 모듈로 스케쥴링(Iterative Modulo Scheduling)을 포함하고 있다. 하지만, 통신 및 미디어 처리 응용의 루프에 존재하는 과도한 순환 데이타 의존관계는 모듈로 스케쥴링 자유도를 제한하고 있다. 결과적으로, 멀티 이슈를 위한 DSP의 병렬 기능 유닛들은 완전히 사용되고 있지 못하다. 이러한 하드웨어 리소스 저사용 문제를 해결하기 위하여, 이 논문은 효율적인 모듈로 스케쥴링을 위한 새로운 컴파일러 전처리 기법을 기술하고 있다. 제안하는 전처리 기법은 두 가지로서 클로닝과 디스맨틀링으로 불리우며, 이 두가지 기법들은 StarCore SC140 DSP 컴파일러에 구현하여 검증하였다.

IA-64를 위한 향상된 소프트웨어 파이프라인 명령어 스케줄링 (Enhanced Pipeline Scheduling for IA-64)

  • 이재목;문수묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.826-828
    • /
    • 2005
  • 인텔의 IA-64 프로세서는 명령어 수준의 병렬수행을 지원하는 EPIC (Explicitly Parallel Instruction Computing) 구조를 채택하고 있으며 컴파일러가 순차적 코드에서 병렬 수행이 가능한 독립적인 명령어들을 스케줄링 하도록 되어있다. 본 논문에서는 IA-64 스케줄링을 위해 향상된 파이프라인 스케줄링 (Enhanced Pipeline Scheduling, EPS) 기법[1]을 적용한 결과를 소개한다. EPS는 루프수준의 병렬화를 위한 소프트웨어 파이프라이닝 (software pipelining)기법으로 전역 스케줄링 (global Scheduling) 기법을 기반으로 하고 있다. 우리는 IA-64 프로세서를 위한 공개소스 컴파일러인 ORC (Open Research Compiler)에 EPS를 구현하고 실제 프로세서인 Itanium에서 실험을 수행하였다. 상용 프로세서와 컴파일러에 구현과 튜닝을 하는 과정에서 얻은 경험을 소개하고 기존의 ORC 컴파일러와 비교하여 얻은 성능 향상을 보고하고 분석한다.

  • PDF