• Title/Summary/Keyword: Parallel processor

검색결과 482건 처리시간 0.032초

OpenRISC 기반 멀티미디어 SoC 플랫폼의 ASIC 설계 (ASIC Design of OpenRISC-based Multimedia SoC Platform)

  • 김선철;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.281-284
    • /
    • 2008
  • 본 논문에서는 멀티미디어 SoC 플랫폼의 ASIC 설계에 대해 기술한다. 구현된 플랫폼은 32비트 OpenRISC1200 마이크로프로세서, WISHBONE 온 칩 버스, VGA 제어기, 디버그 인터페이스, SRAM 인터페이스 및 UART로 구성된다. 32 비트 OpenRISC1200 프로세서는 명령어 버스와 데이터 버스가 분리된 하버드 구조와 5단 파이프라인 구조를 가지고 VGA 제어기는 메모리로부터 읽은 이미지 파일에 대한 데이터를 RGB 값으로 CRT 혹은 LCD에 출력한다. 디버그 인터페이스는 플랫폼에 대한 디버깅 기능을 지원하고 SRAM 인터페이스는 18비트 어드레스 버스와 32비트 데이터 버스를 지원한다. UART는 RS232 프로토콜을 지원하는 시리얼 통신 기능을 제공한다. 본 플랫폼은 Xilinx VIRTEX-4 XC4VLX80 FPGA에 설계 및 검증되었다. 테스트 코드는 크로스 컴파일러로 생성되었고 JTAG 유틸리티 소프트웨어와 gdb를 이용하여 패러럴 케이블을 통해 FPGA 보드로 다운로드 하였다. 이 플랫폼은 최종적으로 Chartered 0.18um 공정을 이용하여 단일 ASIC 칩으로 구현 되었으며 100MHz 클록에서 동작함을 확인하였다.

  • PDF

SPAX를 위한 OSF/1 AD3 기반의 마이크로 커널 초기화 설계 및 구현 (The Design and Implementation of OSF/1 AD3 Based-Microkernel Initialization for SPAX)

  • 김정녀;조일연;이재경;김해진
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1333-1344
    • /
    • 1998
  • 마이크로 커널 기반 운영체제는 종래의 통합커널에 비해 비교적 속도가 늦지만 운영체제 모듈성, 이식성 측면에서 장점이 있어 다중컴퓨터 시스템에 적합하다. 다중컴퓨터 시스템용 운영체제가 시스템의 기능을 원활하게 수행할 수 있도록 하기 위해서는 부트 시의 정보를 이용하여 처리기의 각 장치 및 메모리를 시스템에 알맞게 초기화하여야 할 것이다. 본 논문에서는 OSF/1 AD3를 기반으로 한 운영체제인 고속병렬컴퓨터의 OSF/1 AD3 MISIX 마이크로 커널 초기화에 대해 기술한다. 클러스터링 기반 고속병렬처리 시스템인 고속병렬컴퓨터의 초기화를 부트, 하드웨어 관련 초기화, 메모리 주소공간 구축 등의 관점에서 기능을 소개하고, 이를 시험한 내용을 시험 환경을 바탕으로 기술한다. 구현된 마이크로 커널은 운영체제 이식 작업의 일부로 4개의 처리기를 갖는 단일노드 시스템에서 시험이 이루어졌다.

  • PDF

가상 심장 시뮬레이션에서 CPU와 GPU 병렬처리의 계산 성능 비교 (Computing Performance Comparison of CPU and GPU Parallelization for Virtual Heart Simulation)

  • 김상희;정다운;;임기무
    • 대한의용생체공학회:의공학회지
    • /
    • 제41권3호
    • /
    • pp.128-137
    • /
    • 2020
  • Cardiac electrophysiology studies often use simulation to predict how cardiac will behave under various conditions. To observe the cardiac tissue movement, it needs to use the high--resolution heart mesh with a sophisticated and large number of nodes. The higher resolution mesh is, the more computation time is needed. To improve computation speed and performance, parallel processing using multi-core processes and network computing resources is performed. In this study, we compared the computational speeds of CPU parallelization and GPU parallelization in virtual heart simulation for efficiently calculating a series of ordinary differential equations (ODE) and partial differential equations (PDE) and determined the optimal CPU and GPU parallelization architecture. We used 2D tissue model and 3D ventricular model to compared the computation performance. Then, we measured the time required to the calculation of ODEs and PDEs, respectively. In conclusion, for the most efficient computation, using GPU parallelization rather than CPU parallelization can improve performance by 4.3 times and 2.3 times in calculations of ODEs and PDE, respectively. In CPU parallelization, it is best to use the number of processors just before the communication cost between each processor is incurred.

FPGA based HW/SW co-design for vision based real-time position measurement of an UAV

  • Kim, Young Sik;Kim, Jeong Ho;Han, Dong In;Lee, Mi Hyun;Park, Ji Hoon;Lee, Dae Woo
    • International Journal of Aeronautical and Space Sciences
    • /
    • 제17권2호
    • /
    • pp.232-239
    • /
    • 2016
  • Recently, in order to increase the efficiency and mission success rate of UAVs (Unmanned Aerial Vehicles), the necessity for formation flights is increased. In general, GPS (Global Positioning System) is used to obtain the relative position of leader with respect to follower in formation flight. However, it can't be utilized in environment where GPS jamming may occur or communication is impossible. Therefore, in this study, monocular vision is used for measuring relative position. General PC-based vision processing systems has larger size than embedded systems and is hard to install on small vehicles. Thus FPGA-based processing board is used to make our system small and compact. The processing system is divided into two blocks, PL(Programmable Logic) and PS(Processing system). PL is consisted of many parallel logic arrays and it can handle large amount of data fast, and it is designed in hardware-wise. PS is consisted of conventional processing unit like ARM processor in hardware-wise and sequential processing algorithm is installed on it. Consequentially HW/SW co-designed FPGA system is used for processing input images and measuring a relative 3D position of the leader, and this system showed RMSE accuracy of 0.42 cm ~ 0.51 cm.

두 개의 Fabry-Perot 광섬유 센서 배열을 이용한 횡방향 음압 감지 특성 연구 (Investigation of the Lateral Acoustic Signal Detection Using by Two Fabry-Perot Fiber Optic Sensor Array)

  • 이종길
    • 대한공업교육학회지
    • /
    • 제31권1호
    • /
    • pp.185-199
    • /
    • 2006
  • 본 연구에서는 구조물이 횡방향으로 음압을 받을 경우 이를 감지하기 위하여 Fabry-Perot형 광섬유 배열 센서를 제작하고 실험하였다. 이는 한 개의 광원으로 두 개의 센서가 병렬로 연결되고 센서의 출력신호를 보기 위한 별도의 신호처리기가 필요 없는 구조이다. 횡방향 음압을 임의의 음원 주파수인 100Hz, 200Hz 및 655Hz의 주파수를 무지향성 스피커에 인가하였으며 $60cm{\times}60cm{\times}60cm$의 격자 구조물에 부착된 두 개의 배열 센서가 잡은 신호를 분석하였다. 시간 영역에서 두 개의 센서 신호는 진폭에 약간의 차이는 있으나 음원 주파수를 잘 감지함을 확인 하였다. 센서가 실제로 양단이 지지된 구조의 배열 센서를 모델링하고 그 해를 실험결과와 비교하였다. 2kHz의 음원을 배열 센서에 인가하였더니 이론 해석과 비교적 잘 일치하는 측정 결과를 얻었다.

캐시 주소의 태그 이력을 활용한 에너지 효율적 고성능 데이터 캐시 구조 (An Energy Efficient and High Performance Data Cache Structure Utilizing Tag History of Cache Addresses)

  • 문현주;지승현
    • 정보처리학회논문지A
    • /
    • 제14A권1호
    • /
    • pp.55-62
    • /
    • 2007
  • 모바일 기기와 같이 배터리에 의존적인 시스템에서 사용되는 임베디드 프로세서는 총 소모 전력의 많은 부분을 캐시에서 소모한다. 본 논문에서는 임베디드 프로세서용 고성능 선인출 데이터캐시의 저전력화 방안을 연구하였다. 고성능 선인출 데이터캐시에서 메모리 참조명령의 수행에 앞서 참조예측의 결과로 발생하는 선인출 명령은 캐시 적중률을 높여 메모리 참조 시간을 단축하는 반면 선인출 명령의 수에 비례하여 전력 소모가 증가한다. 본 논문에서는 선인출 데이터캐시에 태그이력표(tag history table)를 구비하여 병렬태그탐색을 최소화함으로써 전력 소모를 줄이는 캐시 구조를 제안하였다. 실험을 통해 확인한 결과 제안한 데이터캐시 구조가 기존 데이터캐시 구조에 비하여 수행 시간과 전력 소모를 모두 줄일 수 있음을 확인하였다.

IMT-2000 비동기식 단말기용 ASIC을 위한 적응형 다중 비트율 (AMR) 보코더의 구현 (Implementation of Adaptive Multi Rate (AMR) Vocoder for the Asynchronous IMT-2000 Mobile ASIC)

  • 변경진;최민석;한민수;김경수
    • 한국음향학회지
    • /
    • 제20권1호
    • /
    • pp.56-61
    • /
    • 2001
  • 본 논문은 비동기 방식의 IMT-2000 단말기용 ASIC (주문형 집적회로)에 포함되는 음성부호화기 알고리즘인 AMR(Adaptive Multi Rate) 보코더의 실시간 구현에 관한 것이다. 구현된 AMR 보코더는 12.2kbps에서 4.75kbps까지 8가지의 다중 비트율을 가지고 있으며, 인코더와 디코더 기능 외에 VAD (Voice Activity Detection) 블록과 SCR (Source Controlled Rate operation) 블록 등의 부가기능 및 시스템과의 접속 처리를 위한 프레임 구성 기능도 구현되어 있다. AMR 보코더를 구현하기 위하여 설계된 DSP (디지털 신호처리기)는 TeakLite 코어를 기반으로 하여 메모리 블록, 직렬접속 블록, CPU와의 접속을 위한 레지스터 파일 블록, 인터럽트 제어회로 등으로 구성된 16비트 고정 소수점형 DSP이다. 실시간 구현 방법에서는 메모리의 효율적인 관리를 통하여 계산량을 최적화하여 최대 동작 계산량을 약 24MIPS로 줄였으며, 구현된 AMR 보코더는 3GPP의 표준 시험 벡터를 모두 통과하여 검증을 완료하고, 실시간 보드 시험에서도 안정적으로 동작하는 것이 확인되었다.

  • PDF

메쉬 부류 네트워크를 피터슨-토러스(PT) 네트워크에 임베딩 (Embedding Mesh-Like Networks into Petersen-Torus(PT) Networks)

  • 서정현;이형옥;장문석
    • 정보처리학회논문지A
    • /
    • 제15A권4호
    • /
    • pp.189-198
    • /
    • 2008
  • 본 논문은 분지수가 상수인 네트워크들을 피터슨-토러스(PT) 네트워크에 임베딩 가능함을 보인다. 상호연결망 G가 H에 임베딩 되면 G에서 설계된 병렬 알고리즘을 상호연결망 H에 적용할 수 있다. 토러스(메쉬)를 PT에 연장율 5, 밀집율 5 그리고 확장율 1에 일대일 임베딩 하였고, 허니컴브 메쉬를 PT에 연장율 5, 밀집율 2 그리고 확장율 5/3에 일대일 임베딩 하였다. 추가로 평균 연장율을 분석하였다. 널리 알려진 토러스 와 허니컴브 메쉬 네트워크를 연장율과 밀집율을 5이하에 PT에 임베딩 함으로써 웜홀 라우팅 방식과 store-and-forward 방식 모두에서 임베딩 알고리즘이 사용 가능하고, 일대일 임베딩을 함으로써 시뮬레이션시 프로세서 작업 처리량을 최소화 하였다.

멀티채널 LiDAR 센서 기반 차량 검출 플랫폼을 위한 효율적인 저전력 신호처리 기법 (Efficiency Low-Power Signal Processing for Multi-Channel LiDAR Sensor-Based Vehicle Detection Platform)

  • 정태원;박대진
    • 한국정보통신학회논문지
    • /
    • 제25권7호
    • /
    • pp.977-985
    • /
    • 2021
  • 자율주행 차량이 주목받게 되면서 LiDAR 센서가 대두되었다. LiDAR 센서는 LASER를 이용하여 범위 내에서 특정 지점까지 측정된 거리 값을 3차원 정보로 제공한다. 3차원 거리 값인 만큼 방대한 데이터를 전송하게 되고, 차량의 메인 프로세서 등에서 다른 데이터와 같이 이를 실시간으로 처리하기에는 무리가 있다. 이러한 이슈를 해결하기 위해 통합처리 시스템을 개발하고자 한다. 시스템은 센서로부터 데이터를 받아 처리하는 client와 각 client로부터 데이터를 취합하여 이를 외부로 전송하는 server 프로세스로 구성된다. 각 프로세스의 데이터 수신 및 처리 방법, 프로세스 구동 방법을 변화시켜가며 시스템의 실시간성 확보를 위한 테스트를 진행하였다. 실험 결과, 4대의 LiDAR 센서로 데이터를 수신 받도록 하였으며, background 나 multi-core processing을 적용하여 프로세스를 동작시켰을 때, 각 client는 약 13.2 ms, server는 약 12.6 ms의 응답시간을 확인할 수 있었다.

저가 microcontoller unit을 이용한 효율적인 다채널 능동 소음 제어기 구현 (The efficient implementation of the multi-channel active noise controller using a low-cost microcontroller unit)

  • 정익주
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.9-22
    • /
    • 2019
  • 본 논문에서는 저가 MCU(Microcontoller Unit)를 이용하여 다채널 능동 소음 제어기를 효율적으로 구현할 수 있는 방안을 제안하였다. 다채널 능동 소음 제어 알고리즘으로 사용된 정규화된 MFxLMS(Modified Filtered-x Least Mean Square) 알고리즘은 많은 연산량을 요구하며, 저가 MCU로 구현하기에는 어려움이 있었다. 본 연구에서는 MCU의 특성을 잘 활용하여 소프트웨어를 최적화함으로써 효율적으로 다채널 능동 소음 제어기를 구현할 수 있었다. CPU(Central Processing Unit)가 지원하는 단일 싸이클 MAC(Multiply- Accumulate) 연산을 극대화하고, 지연 메모리 연산을 최소화함으로써 3배 이상의 연산 최적화를 달성하였다. 또한 MCU가 지원하는 보조 프로세서를 이용하여 병렬 처리함으로써 4배 이상의 연산 최적화를 이루었다. 더불어 MCU에 내장된 주변 장치를 최대한 활용함으써, 추가적인 부품의 사용을 최소화하였다.