• 제목/요약/키워드: memory bottleneck

검색결과 90건 처리시간 0.025초

화상회의 시스템에서의 데이터 입출력 설계 및 평가 (Design and Evaluation of Data Input/output for Video Conference System)

  • 김현기
    • 한국산업정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.38-44
    • /
    • 2003
  • 본 논문에서는 화상회의 시스템의 구조 및 입출력 모델의 분석을 통하여 시스템 버스의 병목현상을 개선하기 위해서 멀티미디어 데이터가 네트워크 접속장치로부터 주 기억 장치 및 멀티미디어 처리장치에 동시에 전송될 수 있는 방법을 제안한다. 제안한 방법은 화상회의 시스템에서 시스템 버스의 사용횟수, 버스 사이클, 데이터의 전송시간 및 비디오 데이터의 압축비를 줄일 수 있다. 본 논문에서 제안한 방법을 다자간 화상회의 시스템에 적용하여 기존의 방법과 성능을 비교하였다. 시뮬레이션 결과, 제안한 방법이 기존의 방법보다 멀티미디어 데이터의 전송 시간을 감소시킬 수 있음을 확인하였다.

  • PDF

H.264/AVC용 가변 블록 크기를 지원하는 움직임 추정 부호기의 연구 (A Study on Motion Estimation Encoder Supporting Variable Block Size for H.264/AVC)

  • 김원삼;손승일
    • 한국정보통신학회논문지
    • /
    • 제12권10호
    • /
    • pp.1845-1852
    • /
    • 2008
  • 인터 예측의 핵심 요소는 ME와 MC이다. ME는 SAD(Sum of Absolute Difference)와 같은 정합기준을 사용하는 것뿐만 아니라 비트스트림의 최종 비트수에 따라서 최적의 움직임 벡터를 찾는다. 인터 예측부호화는 고화질의 실시간 비디오 응용에 있어서 언제나 주된 병목을 초래한다. 따라서 실시간 비디오 응용에서는 인터 예측을 수행하는 고속의 전용 하드웨어를 필요로 한다. 본 논문에서는 H.264/AVC의 움직임 추정기를 연구하였다. 설계된 움직임 추정기는 2-D 시스토릭 배열 기반으로 기본 처리기 요소를 병렬로 연결하여 SAD 값을 빠르게 계산한다. 참조데이터를 상위영역과 하위영역으로 나누어 각각의 연결선을 두고 입력 시퀀스를 조절하여 파이프라인 중지 없이 연속적인 연산을 수행한다. 데이터 재사용 기법을 통하여 메모리 엑세스를 줄였고 특별한 지연 없이 최소의 SAD를 갖는 파티션을 찾아내어 움직임 벡터를 생성하게 하였다. 설계된 움직임 추정기는 가변 블록 크기를 지원하며 하나의 매크로블록의 연산을 하는데 328 사이클이 소요된다. 논문 [6]이 로컬메모리를 사용하는 것과 달리, 본 논문은 로컬메모리를 사용하지 않는다.

SSD 스토리지 시스템을 위한 효율적인 DRAM 버퍼 액세스 스케줄링 기법 (Efficient DRAM Buffer Access Scheduling Techniques for SSD Storage System)

  • 박준수;황용중;한태희
    • 대한전자공학회논문지SD
    • /
    • 제48권7호
    • /
    • pp.48-56
    • /
    • 2011
  • 최근 NAND 플래시 메모리를 이용한 새로운 저장매체인 SSD(Solid State Disk)가 모바일 기기를 중심으로 HDD(Hard Disk Drive)를 대체하면서 가격대비 성능을 향상시키려는 연구가 다양한 접근 방식을 통해 진행 중이다. 병렬처리를 통한 NAND 플래시 대역폭 향상을 위해 채널수를 확장하면서 호스트(PC)와 NAND 플래시 간의 버퍼 캐시의 역할을 하는 DRAM 버퍼가 SSD 성능 개선의 bottleneck으로 작용하게 되었다. 이 문제를 해소하기 위해 본 논문에서는 DRAM Multi-bank를 활용한 스케줄링 기법을 통해 DRAM 버퍼 대역폭을 개선함으로써 저비용으로 SSD의 성능을 향상시키는 효과적인 방안을 제안한다. 호스트와 NAND 플래시 다중 채널이 동시에 DRAM 버퍼의 접근을 요청하는 경우, 이들의 목적지를 확인하여 DRAM 특성을 고려한 스케줄링 기법을 적용함으로써 bank 활성화 시간과 row latency에 대한 overhead를 감소시키고 결과적으로 DRAM 버퍼 대역폭 활용을 최적화할 수 있다. 제안한 기법을 적용하여 실험한 결과, 무시할만한 수준의 하드웨어 변경 및 증가만으로 기존의 SSD 시스템과 비교하여 SSD의 읽기 성능은 최대 47.4%, 쓰기 성능은 최대 47.7% 향상됨을 확인하였다.

클러스터 컴퓨팅 환경에서 병렬루프 처리를 위한 재구성 가능한 부하 및 성능 균형 방법 (A Reconfigurable Load and Performance Balancing Scheme for Parallel Loops in a Clustered Computing Environment)

  • 김태형
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권1호
    • /
    • pp.49-56
    • /
    • 2004
  • 부하 불균형은 병렬처리에 있어서 좋은 성능을 얻기 위한 주요한 방해 요소 중의 하나이다. 전역(全域) 부하균형 기법은 하나의 응용에서 발생된 병렬 태스크를 취급하는데 적절하지 않다. 동적 루프 스케줄링 기법은 공유 메모리 멀티프로세서 병렬구조에서 병렬 루프의 부하균형에 효과적인 것으로 알려져있다. 하지만 이 기법의 중앙집중적 특성은 워크스테이션 클러스터 환경에서 프로세서 수가 상대적으로 많지 않은 경우에도 병목현상을 일으킬 수 있는 요인이 된다. 워크스테이션 클러스터 환경에서의 통신 오버헤드는 공유 메모리 멀티프로세서 병렬 구조와 비교할 때 수십배의 차이가 생기기 때문이다. 더구나 병렬 루프에서 발생하는 단위 태스크가 불규칙적인 작업량을 갖는 경우에는 기본 루프 스케줄링 기법의 단점을 보완한 개선된 방법들을 적용할 수가 없다. 본 논문에서는 이러한 불규칙적인 작업량을 갖는 병렬루프를 서로 다른 성능을 갖는 워크스테이션들의 네트워크 환경에서 효율적으로 부하를 분배하기 위한 재구성 가능한 분산 부하 균형 기법을 제시한다. 이러한 재구성 가능한 기법은 전통적인 부하균형 방법과 함께 성능균형을 가능하게 함으로써 전체수행시간을 최소화할 수 있음을 보였다.

UTrustDisk: An Efficient Data Protection Scheme for Building Trusted USB Flash Disk

  • Cheng, Yong;Ma, Jun;Ren, Jiangchun;Mei, Songzhu;Wang, Zhiying
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권4호
    • /
    • pp.2276-2291
    • /
    • 2017
  • Data protection of removable storage devices is an important issue in information security. Unfortunately, most existing data protection mechanisms are aimed at protecting computer platform which is not suitable for ultra-low-power devices. To protect the flash disk appropriately and efficiently, we propose a trust based USB flash disk, named UTrustDisk. The data protection technologies in UTrustDisk include data authentication protocol, data confidentiality protection and data leakage prevention. Usually, the data integrity protection scheme is the bottleneck in the whole system and we accelerate it by WH universal hash function and speculative caching. The speculative caching will cache the potential hot chunks for reducing the memory bandwidth pollution. We adopt the symmetric encryption algorithm to protect data confidentiality. Before mounting the UTrustDisk, we will run a trusted virtual domain based lightweight virtual machine for preventing information leakage. Besides, we prove formally that UTrustDisk can prevent sensitive data from leaking out. Experimental results show that our scheme's average writing throughput is 44.8% higher than that of NH scheme, and 316% higher than that of SHA-1 scheme. And the success rate of speculative caching mechanism is up to 94.5% since the access pattern is usually sequential.

능동적 트라이 압축을 이용한 고속 IP 검색 (A Fast IP Lookups using Dynamic Trie Compression)

  • 오승현
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.453-462
    • /
    • 2003
  • 리우터의 IP 주소검색은 라우터에 도착한 IP 패킷의 목적지 주소를 이용하여 적절한 출력링크를 검색하고 결정하는 것이다. IP 주소검색은 라우터 성능의 병목지점 중의 하나로써 고속 백본망에 필요한 초고속 라우터 개발에 필수적인 부분이다. 본 논문은 보통의 펜티엄 CPU에서 능동적인 트라이(Trie) 압축기법을 이용하여 작은 메모리만으로 기가비트급 IP 주소검색을 실시할 수 있는 동적 트라이 압축(Dynamic Trie Compression) 자료구조를 소개한다. DTC 자료구조는 트라이를 압축하여 포워딩 테이블을 만들 때 테이블의 크기와 검색속도의 상관관계를 고려하여 능동적으로 테이블의 크기를 선태할 수 있다. 또한 트라이를 압축할 때 트라이의 구조를 반영하여 자료구조의 크기를 최소화함으로써 포워딩 테이블에 대한 IP 주소검색이 고속의 SRAM 캐시 검색이 되도록 한다. 실험결과에서 DTC 자료구조는 다양한 라우팅 테이블에 대해 능동적으로 최적의 압축을 제공함으로써 보통의 펜티엄 CPU에서 최대 $12.5{\times}10^5$ LPS(Lookup per second)를 기록하였다.

네트워크 프로세서의 성능 예측을 위한 고속 이더넷 제어기의 상위 레벨 모델 검증 (Model Validation of a Fast Ethernet Controller for Performance Evaluation of Network Processors)

  • 이명진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권1호
    • /
    • pp.92-99
    • /
    • 2005
  • 본 논문에서는 SystemC를 이용하여 네트웍 SOC에 적용이 가능한 상위 계층 설계 방법을 제안한다. 본 방식은 실제 양산되고 있는 네트웍 SOC를 기준 플랫폼으로 하여 NAT 라우터에서 보다 높은 변환율을 얻기 위한 최적의 하드웨어 계수 결정을 목표로 한다. 네트웍 SOC에 내장된 고속 이더넷 MAC, 전용 I)MA, 시스템 모듈들은 트랜잭션 레벨에서 SystemC를 이용하여 모델링되었다. 고속 이더넷 제어기 모델은 실제 Verilog RTL의 동작을 사이클 단위로 측정한 결과를 토대로 동작이 세부 조정되었다. SystemC 환경의 NAT 변환율은 기준 플랫폼 검증 보드상의 측정 결과와 비교하여 $\pm$10% 이내의 오차를 보였고, RTL 시뮬레이션보다 100배 이상의 속도 이득을 보였다. 본 모델은 NAT 라우터에서 성능 저하의 원인을 찾는 SOC 구조 탐색을 위해 사용될 수 있다.

고속 라우터를 위한 향상된 비트맵 룩업 알고리즘 (Enhanced Bitmap Lookup Algorithm for High-Speed Routers)

  • 이강우;안종석
    • 정보처리학회논문지A
    • /
    • 제11A권2호
    • /
    • pp.129-142
    • /
    • 2004
  • 인터넷 회선의 고속화에 따라 패킷을 초당 기가비트 이상의 속도로 전송하는 라우터에 대한 연구가 활발하다. 본 논문에서는 라우터의 병목인 최장 프리픽스 검색(LPM : longest prefix matching)을 효율적으로 수행하기 위해 제안된 비트맵 트라이(Bitmap Trie) 알고리즘을 혁신적으로 향상시킨 방법을 제시한다. 이 방법은 검색시간을 단축하기 위하여 다음과 같은 세 가지 기법을 적용하였다. 첫째, 카운트 테이블을 추가하여 기존 알고리즘에서의 과도한 시프트 연산을 제거하여 프로세서 내의 처리시간을 단축했다. 두 번째는 트랜스퍼 테이블내의 중복된 포워딩 정보를 제거하여 메모리 효율을 증가시켰으며, 마지막으로, 포워딩 정보에 대한 접근빈도에 따라 검색범위를 다원화하여 데이터 접근을 최적화하였다. 또한, 신뢰도가 가장 놀은 실행-구동 시뮬레이션 방법을 채택함으로써 검색의 지연요소를 발생 원인별로 세분하여 알고리즘이 실행되는 과정을 면밀하게 분석할 수 있었다. 실험 결과는 실제 시스템으로부터 실측한 결과와 비교하는 검증과정을 거쳤으며, 그 결과 기존 알고리즘에 비해 검색 수행시간을 약 82% 단축한 알고리즘을 개발하였다.

H.264/AVC부호화기용 움직임 보상기의 아키텍처 연구 (A Study on Architecture of Motion Compensator for H.264/AVC Encoder)

  • 김원삼;손승일;강민구
    • 한국정보통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.527-533
    • /
    • 2008
  • 움직임 보상은 고화질의 실시간 비디오 응용에 있어서 언제나 주된 병목을 초래한다. 따라서 실시간 비디오 응용에서는 움직임 보상을 수행하는 고속의 전용 하드웨어를 필요로 한다. 여러 동영상 부호화 방식에서 영상프레임은 픽셀의 블록으로 분할된다. 일반적으로 움직임 보상은 이전 프레임으로부터 움직임을 추정하여 현재의 블록을 예측하게 된다. 움직임 보상에 사용되는 화소 정밀도가 높을수록 보다. 좋은 성능을 갖지만 연산량은 증가하게 된다. 본 논문에서는 1/4 화소 정밀도를 지원하는 H.264/AVC 부호화기에 적합한 움직임 보상기의 아키텍처를 연구하였다. 설계된 움직임 보상기는 전치 배열과 휘도 6-tap 필터 3개를 사용하여 높은 하드웨어 이용률을 갖게 하였으며 내부 메모리의 크기를 감소시켰다. VHDL을 사용하여 기술하였으며, Xilinx ISE툴을 사용하여 합성하고, Modelsim_6.1i를 사용하여 검증하였다. 설계된 움직임 보상기는 단지 3개의 6-tap 필터만을 사용하면서 매크로블록 당 640 클럭 사이클에 수행하였다. 본 논문에서 제안하는 움직임 보상기는 실시간 비디오 처리를 요구하는 분야에 응용 가능할 것으로 사료된다.

상세 자원 이용률에 기반한 병렬 가속기용 스레드 블록 스케줄링 (Thread Block Scheduling for GPGPU based on Fine-Grained Resource Utilization)

  • 반효경;조경운
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.49-54
    • /
    • 2022
  • 최근 클라우드 시스템에서 병렬가속기를 사용하는 사례가 늘면서 가속기 내에서 멀티태스킹을 통해 자원 이용률을 높이는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 병렬가속기 내 자원 사용 패턴을 컴퓨팅 중심과 메모리 중심으로 분류하여 워크로드를 배치하는 방식이 자원 이용률 측면에서 충분한 효과를 나타내지 못함을 보이고, 워크로드별 상세 자원 이용률에 기반한 새로운 스레드 블록 스케줄링 기법을 제안한다. 제안한 기법은 기존 방식과 달리 프로파일링과 스케줄링을 분리하여 스케줄링시의 오버헤드를 줄이고 병목 자원이 일치하지 않는 워크로드들을 최대한 중복 배치하여 자원 이용률을 높인다. 다양한 가상머신 시나리오에 대한 시뮬레이션 실험을 통해 제안한 기법이 병렬가속기의 처리량을 평균 130.6%, 최대 161.4%까지 개선함을 보인다.