• Title/Summary/Keyword: low-latency processing

Search Result 105, Processing Time 0.03 seconds

FPGA 상에서 에너지 효율이 높은 병렬 신호처리 기법 (Energy-Efficient Signal Processing Using FPGAs)

  • 장주욱;황윤일
    • 정보처리학회논문지A
    • /
    • 제12A권4호
    • /
    • pp.305-312
    • /
    • 2005
  • 본 논문은 알고리즘 레벨에서 FPGA를 이용하여 에너지 효율이 높은 기법을 제안한다. 제안한 기법을 기반으로 FPGA와 행렬곱셈용 신호처리응용을 위한 고효율 설계 기술을 제안한다. 또한 이러한 신호처리응용 수행시 지연시간과 에너지 효율 측면에서의 FPGA 성능을 분석한다. Xilinx Virtex-II를 대상으로 Virtex-II Pro와 Texas Instrument TMS320C6415에 내장되는 Power PC 코어에서 구동되는 Xilinx library와 기존 알고리즘을 본 논문 기법과의 성능 비교를 수행한다. 성능 비교는 high-level에서 에너지와 지연 시간에 대한 유도 공식을 통한 추정치와 low-level 시뮬레이션을 통해 평가하였다. FFT에 대해 본 논문에서 제안한 기법은 Xilinx library와 DSP에 비해 각각 $60\%,\;56\%$ 적은 에너지를 소모한다는 결과를 얻었다. 또한 임베디드 프로세서와 비교해 EAT지수에서 10배의 개선을 보여준다. 위와 같은 결과는 FPGA가 DSP나 임베디드 프로세서에 비해 월등한 성능을 보여준다는 견해에 결정적인 단서가 된다 또한, 이는 FPGA가 앞의 두 종류의 디바이스에 비해 더 적은 전력을 소모하면서 동시에 더 나은 성능을 보인다는 사실을 보여준다.

WANProxy의 성능 분석 및 개선 (Performance Analysis and Improvement of WANProxy)

  • 김하늘;지승규;정규식
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권3호
    • /
    • pp.45-58
    • /
    • 2020
  • 클라우드 서비스와 모바일 기기의 대중화로 네트워크 트래픽이 계속 증가하고 있는 현재 추세에 LAN 대역폭에 비해 WAN 대역폭이 아주 낮다. WAN 환경에서는 전송 프로토콜, 패킷 손실, 네트워크 대역폭 한계 때문에 생기는 성능 문제를 극복하는 WAN 최적화기가 필요하다. 본 논문에서는 오픈소스 WAN 최적화기인 WANProxy의 데이터 중복제거 알고리즘을 분석하고 성능을 네트워크 대기시간 및 WAN 대역폭 관점에서 평가한다. 또한, WANProxy에 추가로 zstd를 적용하는 2단계 압축을 적용할 경우의 성능을 평가한다. 또한, WANProxy의 데이터 중복 제거 방법을 개선한 새로운 방법을 제안하고 성능 개선 효과를 평가한다. 데이터 세그먼트 크기를 2048바이트로 하고 Silesia의 12개 데이터 파일을 이용한 성능 실험을 수행한다. 실험 결과에 의하면, WANProxy에 의한 평균 압축률이 150.6이고 네트워크 대기시간 평균 감소율은 10 Mbps WAN 환경에서는 95.2%, 100 Mbps WAN 환경에서는 60.7%가 된다. WANProxy에 추가로 zstd를 적용하는 방법은 WANProxy를 적용하는 경우와 비교할 때 압축률이 평균 33% 증가하지만 네트워크 대기시간이 10 Mbps WAN 환경에서는 평균 2.1%, 100 Mbps WAN 환경에서는 평균 5.2% 각각 증가한다. 본 논문에서 제안한 개선 방법을 WANProxy에 적용한 경우는 기존의 WANProxy와 비교할 때 압축률이 평균 34.8% 증가하고 네트워크 대기시간이 10 Mbps WAN 환경에서는 평균 13.8%, 100 Mbps WAN 환경에서는 평균 12.9% 각각 감소한다. 성능 분석 결과에 의하면, WAN 대역폭이 10 Mbps 이하인 환경에서 WANProxy를 적용할 경우 네트워크 대기시간과 WAN 대역폭 관점에서 성능 개선 효과가 아주 우수하고 WAN 대역폭이 100 Mbps 환경에서도 우수하다.

수 평형 이진트리를 이용한 디렉토리 캐쉬 일관성 유지 기법 (Directory Cache Coherence Scheme using the Number-Balanced Binary Tree)

  • 서대화
    • 한국정보처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.821-830
    • /
    • 1997
  • 디렉토리 기반의 캐쉬 일관성 유지 기법은 대규모 공유메모리 다중처리기에서 캐쉬 일관성 문제를 해결하기 위한 방법이다. 이제까지 기존 기법들은 디렉토리기 위해서 많은 메모리 요구와 긴 무효화 시간, 네트웍 통신량의 집중, 그리고 낮은 확장성 등의 문제점들을 가지고 있다. 본 논문에서는 이런 문제점을 해결하면서 확장성을 가진 새로운 디렉토리 기반의 캐쉬 일관성 유지 기법을 제안하였다. 이 기법에서는 새롭게 제안한 수 평형 이진 트리를 사용하였다. 수 평형 이진 트리는 디렉토리에 있는 노드 수에 따라모양이 일정하고, 최대 깊이가[log$_2$n]이며, 같은 노드 개수를 가진 이진 트리 중에서 가장 작은 단말 노드 수는 가지는 특성이 있다 이러한 특성은 캐쉬 디렉 토리의 메모리량, 무효화 시간 및 네트웍 통신량을 최소로 해 주고, 다중처리기의 높은 확정성을 보장해 준다.

  • PDF

대용량 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법 (Approximate Top-k Subgraph Matching Scheme Considering Data Reuse in Large Graph Stream Environments)

  • 최도진;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제20권8호
    • /
    • pp.42-53
    • /
    • 2020
  • 소셜 네트워크 서비스의 발전과 함께 다양한 응용에서 객체 간의 관계를 표현하기 위한 그래프 자료구조가 자주 활용되고 있다. 최근에는 실시간 그래프 스트림에서 서브 그래프 매칭의 요구가 늘어나고 있다. 따라서 실시간 그래프 스트림에서 높은 응답성을 위한 효율적인 근사 Top-k 매칭 기술이 필요하다. 본 논문에서는 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 대용량 스트림을 효율적으로 처리하기 위해서 기존 분산 스트림 처리 플랫폼인 스톰을 활용하고 스트림 처리 비용을 감소시키기 위한 기존 데이터 재사용 방법을 활용한다. Top-k 결과 생성을 위해서 거리 기반의 요약 색인 기법을 제안한다. 제안하는 요약 색인은 사전에 선택된 정점 간의 거리 값만을 저장하기 때문에 색인의 부하가 적다. 제안하는 요약 색인에서의 근사 Top-k를 수행하여 사용자에게 근사한 k개의 결과를 제공한다. 제안하는 기법의 우수성을 입증하기 위해 다양한 실세계 그래프 데이터 집합에서의 성능 평가를 수행한다.

공유 버스를 사용한 멀티캐스트 Cut-through 스위치의 설계 (Design of Multicast Cut-through Switch using Shared Bus)

  • 백정민;김성천
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권3호
    • /
    • pp.277-286
    • /
    • 2000
  • 스위치 형식의 네트워크이 많은 주목을 받고 있다. 그것은 높은 네트워크 성능을 요구하는 환경에 매우 적합하기 때문이다. 일반적인 공유매체 지역 네트워크는 만족할 만한 처리율과 지연시간을 제공하지 못한다. 특히 멀티미디어 어플리케이션이 증가하면서 통신 성능이 보다 중요시 되고 있다. 이러한 환경에서 스위치 형식의 네트워크는 우수한 성능을 보인다.스위치 형식의 네트워크는 높은 대역폭과 낮은 처리 시간을 얻을 수 있다. 따라서 스위치 형식의 지역네트워크를 구성할 때 고속(high-speed)의 스위치가 중요하다. 효율적인 스위치 디자인이 스위치 형식의 네트워크 성능을 향상시키는 중요한 요소인 것이다. 또한 멀티캐스트 메시지 처리의 중요성이 높아지면서, 효과적인 멀티캐스트를 지원하는 스위치의 설계가 필요하다. 기존의 컷-스루(cut-through) 스위칭 기술(switching technique)에서는 스위치 원소(switch element)의 구조를 변경시켜 데드락을 피하면서 멀티캐스팅이 가능하게 하였다. 그러나 처리율의 저하와 스위치 크기의 증가의 문제를 안고 있다. 따라서 하드웨어적으로 유니캐스트와 멀티캐스트를 분리함으로써 효율적인 멀티캐스팅을 가능하게 한다. 본 논문에서는 이러한 구조를 통해 멀티캐스팅에 있어서 성능 향상을 보이는 스위치 구조를 제안한다.

  • PDF

The Implementation of a Lift Emergency Video Call System based on WebRTC using OpenAPI

  • Woon-Yong Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.155-161
    • /
    • 2023
  • 본 논문에서는 승강기 비상통화 장치의 활용성과 안정성을 높이기 위해 상시 모니터링 환경의 서비스 체계를 구축하는 WebRTC 기반의 비상 화상통화 시스템 구조를 제시한다. 제시된 시스템은 비상상황 시 승강기 내의 비상 호출 시스템과 유지보수 담당자들 간의 원활한 통화 환경을 제공하고 대상 승강기의 모니터링을 통해 승강기 비상 호출에 대한 신속한 응답 처리를 수행하고 승강기의 물리적 공간에서 발생할 수 있는 화상통화에 필요한 제약환경을 극복하여 음성과 영상의 저지연 실시간 화상통화 서비스를 구현할 수 있는 환경을 구축하고자 한다. 이를 위해 현재 다양한 분야에서 활용되고 그 성능이 검증된 OpenAPI를 기반으로 서비스 환경을 구축하고 실시간 화상통화 및 저지연 통화 품질 제공, 그리고 신속한 메시징 방식의 비상상황 전파 방식을 통해 비상 화상통화 장치의 성능 및 활용성을 높이고자 한다. 제시된 시스템 구조는 승강기 제어반 및 다양한 장치와의 결합을 통해 다양한 기능 확장 및 신뢰성 있는 서비스 환경을 통해 승강기 시스템에 대한 지능적 모델을 구성할 수 있는 기반을 제공할 수 있을 것이다.

New Two-Level L1 Data Cache Bypassing Technique for High Performance GPUs

  • Kim, Gwang Bok;Kim, Cheol Hong
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.51-62
    • /
    • 2021
  • On-chip caches of graphics processing units (GPUs) have contributed to improved GPU performance by reducing long memory access latency. However, cache efficiency remains low despite the facts that recent GPUs have considerably mitigated the bottleneck problem of L1 data cache. Although the cache miss rate is a reasonable metric for cache efficiency, it is not necessarily proportional to GPU performance. In this study, we introduce a second key determinant to overcome the problem of predicting the performance gains from L1 data cache based on the assumption that miss rate only is not accurate. The proposed technique estimates the benefits of the cache by measuring the balance between cache efficiency and throughput. The throughput of the cache is predicted based on the warp occupancy information in the warp pool. Then, the warp occupancy is used for a second bypass phase when workloads show an ambiguous miss rate. In our proposed architecture, the L1 data cache is turned off for a long period when the warp occupancy is not high. Our two-level bypassing technique can be applied to recent GPU models and improves the performance by 6% on average compared to the architecture without bypassing. Moreover, it outperforms the conventional bottleneck-based bypassing techniques.

처리 프레임의 재구성을 통한 효율적인 MCTF 구조 (An Efficient MCTF Architecture using Processing Frame Re-configuration)

  • 서영호;최현준;김영현;김동욱
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.335-338
    • /
    • 2005
  • In this paper, we proposed a new MCTF (Motion Compensated Temporal Filtering) technique and its hardware (H/W) architecture for SVC (Scalable Video Coding). Since the proposed MCTF Kernel has a extensible architecture, it executes temporal filtering using (5,3) and (3,1) lifting operation. Also it has the same output data rate as the input, and it can continuously produce filtered frames after some latency time. Since the proposed architecture has simpler architecture than previous ones, it is easily mapped into H/W and has optimized memory usage rate and low cost.

  • PDF

WiBro 시스템을 위한 효율적인 구조의 채널 복호화기 구현 (Implementation of Efficient Channel Decoder for WiBro System)

  • 김장훈;한철희
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.177-178
    • /
    • 2007
  • WiBro system provides reliable broadband communication services for mobile and portable subcribers. It allows interference-free reception under the conditions of multipath propagation and transmission errors. Thus, powerful channel-error correction ability Is required. CC/CTC Decoder which Is mandatory for WiBro system needs lots of computations for real-time operation. So, it is desired to design a CC/CTC Decoder having highly optimized hardware scheme for low latency operation under high data rates. This paper proposes an efficient CC/CTC Decoder structure for high data rate WiBro system. Particularly, the proposed CTC Decoder architecture reduces decoding delay by applying pipelining and multiple decoding blocks. Simulation results show that reduction of about 80% of processing time is enabled with the proposed CC/CTC Decoder despite of increase in are.

  • PDF

포그 컴퓨팅 환경에서 기회적 포그 컴퓨팅 노드들을 고려한 서비스 요구사항 기반 테스크 분배 방법 (Task Distribution Scheme based on Service Requirements Considering Opportunistic Fog Computing Nodes in Fog Computing Environments)

  • 경연웅
    • 한국멀티미디어학회논문지
    • /
    • 제24권1호
    • /
    • pp.51-57
    • /
    • 2021
  • In this paper, we propose a task distribution scheme in fog computing environment considering opportunistic fog computing nodes. As latency is one of the important performance metric for IoT(Internet of Things) applications, there have been lots of researches on the fog computing system. However, since the load can be concentrated to the specific fog computing nodes due to the spatial and temporal IoT characteristics, the load distribution should be considered to prevent the performance degradation. Therefore, this paper proposes a task distribution scheme which considers the static as well as opportunistic fog computing nodes according to their mobility feature. Especially, based on the task requirements, the proposed scheme supports the delay sensitive task processing at the static fog node and delay in-sensitive tasks by means of the opportunistic fog nodes for the task distribution. Based on the performance evaluation, the proposed scheme shows low service response time compared to the conventional schemes.