• 제목/요약/키워드: 특화 프로세서 구조

검색결과 7건 처리시간 0.021초

IXP1200 네트워크 프로세서를 이용한 IPv4 라우터의 구현 (The Implementation of the IPv4 Router on IXP1200 Network Processor)

  • 정영환;박우진;황광섭;배국동;안순신
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (C)
    • /
    • pp.340-342
    • /
    • 2003
  • 인터넷의 급격한 성장으로 요구되는 고속의 데이터 처리 능력과 시장의 급격한 변화에 빠르게 대응하기 위하여 기존의 범용 프로세서를 사용한 방법과 주문형 반도체를 이용한 네트워크 라우터/스위치 시스템의 단점을 보완하고, 두 방식의 장점만을 취합한 네트워크 프로세서가 개발되었다. 네트워크 프로세서는 네트워크 관련 기능에 특화된 구조를 채택하면서 프로그램이 가능하여 고속의 데이터 처리와 동시에 다양한 응용 프로그램의 개발을 가능하게 한다. 본 논문에서는 인텔사의 IXP1200 네트워크 프로세서를 이용하여 IPv4 라우터를 구현하여 네트워크 프로세서가 가지는 특징을 평가해 본다.

  • PDF

문자클래스 매칭을 지원하는 정규표현식 매칭 프로세서 구조 (Regular Expression Matching Processor Architecture Supporting Character Class Matching)

  • 윤상균
    • 정보과학회 논문지
    • /
    • 제42권10호
    • /
    • pp.1280-1285
    • /
    • 2015
  • 고속 정규표현식 매칭을 수행하기 위한 여러 종류의 정규표현식 매칭 하드웨어 구조가 연구되었다. 특히 프로그램과 같이 패턴의 갱신이 쉽도록 범용 프로세서와 유사한 방식으로 정규표현식 매칭을 수행하는 ReCPU와 SMPU와 같은 정규표현식 프로세서가 연구되었다. 그렇지만 기존의 정규표현식 프로세서들은 문자클래스 매칭을 위한 별도의 기능을 제공하지 않아서 문자클래스 처리에 비효율적이다. 본 논문에서는 문자클래스 매칭을 지원하는 정규표현식 매칭 프로세서의 명령어 집합을 제시하고, 이에 대한 프로세서 구조를 설계 구현한다. 제시된 프로세서는 문자클래스, 문자 범위와 부정 문자클래스 처리 기능을 포함하고 있어서 문자클래스 매칭을 매우 효율적으로 처리할 수 있다.

운영체제의 이식성 향상을 위한 하드웨어 추상화 계층 구조 설계 (A Structure of Hardware Abstraction Layer for Improving OS Portability)

  • 이동주;김지민;유민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.3-6
    • /
    • 2012
  • 최근 응용 특화된 다양한 구조의 프로세서가 확산됨에 따라 기존 운영체제를 다른 구조의 플랫폼으로 이식하는 비용이 증가하고 있다. 기존 운영체제에서는 소스 코드 수준에서 하드웨어 의존적인 부분을 HAL(hardware abstraction layer)로 구분하여 관리함으로써 이기종 플랫폼간의 이식성을 높이고자 하였다. 그러나 기존 HAL 구조는 대부분 하드웨어의 물리적인 구조만을 고려하여 설계되어 체계적인 이식 작업이 어렵다는 문제점을 가지고 있다. 이를 위해 본 논문에서는 하드웨어의 물리적인 구조와 운영체제의 기능적인 요소를 함께 고려한 HAL 구조를 제안한다. 제안하는 HAL 구조의 효용성은 S3C2410 에서 실행하는 운영체제를 Cell BE 플랫폼으로 이식하는 사례 연구를 통해 검증하였다.

복소수 데이터 처리가 가능한 멀티미디어 프로세서용 고성능 연산회로의 하드웨어 설계 (Hardware Design of High Performance Arithmetic Unit with Processing of Complex Data for Multimedia Processor)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.123-130
    • /
    • 2016
  • 본 논문에서는 멀티미디어용 알고리즘을 고속으로 처리하기 위한 고성능 연산 회로를 설계하였다. 3단 파이프라인 구조로 동작하는 연산회로는 4개의 16-비트${\times}$16-비트 곱셈기의 효율적인 구성, 캐리 보존 형식 데이터에 대한 새로운 부호 확장 기법과 다수 개의 부분 곱셈 결과의 통합과정에 부호 확장을 제거하는 교정 상수 기법을 사용하여 복소수 데이터와 가변 길이 고정 소수점 데이터에 대한 38개의 연산을 처리할 수 있다. 설계한 프로세서는 45nm CMOS 공정에서 최대 동작 속도는 300 MHz이며 약 37,000 게이트로 구성되며 300 MCOPS의 연산 성능을 갖는다. 연산 프로세서는 높은 연산 속도와 응용 분야에 특화된 다양한 연산 지원으로 멀티미디어 프로세서에 효율적으로 응용 가능하다.

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.

범용 그래픽 처리 장치의 메모리 설계를 위한 그래픽 처리 장치의 메모리 특성 분석 (Analysis on Memory Characteristics of Graphics Processing Units for Designing Memory System of General-Purpose Computing on Graphics Processing Units)

  • 최홍준;김철홍
    • 스마트미디어저널
    • /
    • 제3권1호
    • /
    • pp.33-38
    • /
    • 2014
  • 소비전력 증가와 같은 문제점들로 인하여, 마이크로프로세서만으로는 컴퓨팅 시스템의 성능을 향상시키기 점점 어려워지고 있다. 이와 같은 상황에서, 대용량 병렬 연산에 특화된 그래픽 처리 장치를 활용하여 중앙 처리 장치가 담당하던 범용 작업을 수행하게 하는 범용 그래픽 처리 장치 기술이 컴퓨터 시스템의 성능을 개선시킬 수 있는 방안으로 주목을 받고 있다. 하지만, 그래픽스 관련 응용프로그램과 범용 응용프로그램의 특징은 매우 상이하기 때문에, 그래픽 처리 장치가 범용 응용프로그램을 수행하는 경우에는 많은 제약 사항으로 인하여 자신의 뛰어난 연산 자원을 활용하지 못하는 실정이다. 일반적으로 그래픽스 관련 응용프로그램에 비해 범용 응용프로그램은 메모리를 매우 많이 요청하기 때문에 범용 그래픽 처리 장치 기술을 효율적으로 활용하기 위해서는 메모리 설계가 매우 중요하다. 특히, 긴 접근 시간을 요구하는 외부 메모리 요청은 성능에 큰 오버헤드이다. 그러므로 외부 메모리로의 접근 횟수를 줄일 수 있는 다중 레벨 캐쉬 구조를 효율적으로 활용할 수 있다면, GPU의 성능은 크게 향상 될 것이 분명하다. 본 논문에서는 다중 레벨 캐쉬 구조에 따른 그래픽 처리 장치의 성능을 다양한 벤치마크 프로그램을 통하여 정량적으로 분석하고자 한다.

SDR(Software Defined Radio)에 적합한 네트워크 코프로세서 구조의 설계 (The Design of a Structure of Network Co-processor for SDR(Software Defined Radio))

  • 김현필;정하영;함동현;이용석
    • 한국통신학회논문지
    • /
    • 제32권2A호
    • /
    • pp.188-194
    • /
    • 2007
  • 디지털 컨버전스가 이루어지면서 무선기기들 간의 호환성은 단말기의 중요한 특성이 되었고, SDR은 가장 필요한 기술이고 표준이다. 하지만 통신 프로토콜이 다른 무선 환경에서 호환성을 갖는 단말기를 하드웨어만을 이용한 ASIC이나 SoC로 만들기는 어려운 실정이다. 그래서 본 논문은 여러 통신 프로토콜을 가속화 시킬 수 있는 코프로세서의 구조를 제안하였다. 메인 프로세서와 쉽게 연동이 되고, 네트워크의 PHY 레이어에 특화된 코프로세서가 바로 그것이다. 통신 시스템에서 가장 많이 사용하는 변조 방식인 OFDM과 CDM을 사용하는 무선 랜 표준 IEEE802.11a와 IEEE802.11b를 모델링한 C 프로그램을 ARM cross 컴파일러를 이용해 컴파일 하였고, Simplescalar-Arm 버전을 이용해 시뮬레이션 및 프로파일을 수행하였다. 프로파일 결과 비터비 연산과 부동 소수점 복소수 연산이 가장 많은 연산을 차지하였다. 프로파일 결과를 바탕으로 비터비 연산과 부동 소수점 복소수 연산을 가속화 할 수 있는 코프로세서를 제안하여 명령어를 추가했으며, 추가된 명령어는 Simplescalar-Arm 버전을 이용해 시뮬레이션 하였다. 시뮬레이션 결과 ARM 코어 하나만 사용 했을 때보다 비터비 연산은 약 4.5배, 부동 소수점 복소수 연산은 약 2배의 성능 향상을 보였다. IEEE802.11a에서는 일반 ARM 코어보다 약 3배의 성능 향상을 보였고, IEEE802.11b에서는 약 1.5배의 성능 향상의 보였다.