• Title/Summary/Keyword: 코드 캐시

검색결과 22건 처리시간 0.033초

부영역 기반 코드워드 인덱스 캐시를 사용한 고속 벡터 양자화 (A Fast Vector Quantization using Subregion-based Caches of Codeword Indexes)

  • 김용하;김대진;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권4호
    • /
    • pp.369-379
    • /
    • 2001
  • 본 논문은 부영역 분할과 코드워드 인텍스의 캐시 개념을 이용하여 벡터 양자화를 위한 고속코드북 생성 및 부호화 방법을 제안한다. 제안한 방법은 인접한 입력 벡터는 대개 코드북내 특정 코드워드에 의해 나타내어지는 국부성에 바탕을 두고 있다. 초기에 모든 학습 벡터가 거리에 기반한 근접성을 이용하여 정해진 수의 부영역으로 분할된다. 각 부영역에 하나의 코드워드 인덱스 캐시가 할당되는데 이 캐시는 학습 초기에는 전체 코드북 크기에 대응하는 코드워드 인덱스를 갖는다. 학습이 진행되면서 입력 벡터가 갖는 국부성 때문에 각 부영역내 캐시중 사용되지 않는 코드워드 인덱스가 점차 발생하게 되므로 이들은 LRU(Least Recently Used) 삭제 알고리즘에 의해 제거된다. 학습이 진행됨에 따라 부영역 캐시에는 주어진 입력 벡터에 의해 참조되는 코드워드 인덱스만이 남게 되므로 한 학습 주기 동한 필요한 학습 시간이 점차 짧아지게 되어 전체적으로 코드북 생성 시간을 크게 줄일 수 있게 된다. 제안한 방법은 매 학습주기마다, 코드워드 인덱스 삭제 후보 중 주어진 부영역 중심으로부터 거리에 의해 멀리 떨어진 것부터 반만을 제거함에 따라. 복원된 영상의 화질 열화가 거의 없다. 시뮬레이션 결과 제안한 방법은 기존의 LBG 방법에 비해 화질 열화는 거의 없지만 코드북 생성 (또는 부호화) 속도를 2.6-5.4배 (또는3.7-18.8배) 향상시킨다.

  • PDF

내장형 자바 시스템을 위한 클라이언트 선행 컴파일 기법을 이용한 코드 캐시 확장 (Expanding Code Caches for Embedded Java Systems using Client Ahead-Of-Time Compilation)

  • 홍성현;김진철;신진우;권진우;이주환;문수묵
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권8호
    • /
    • pp.868-872
    • /
    • 2010
  • 많은 내장형 자바 시스템들이 제한된 메모리를 가지고 있으므로 JITC를 위해 충분한 코드 캐시가 주어지지 않아 자바의 수행 성능이 떨어질 수 있다. 본 논문에서는 이를 극복하고자 수행 중에 코드 캐시 공간이 부족하면 일부 메소드의 머신 코드를 영구적 메모리의 파일 시스템에 저장해 두었다가 재호출 때에 다시 코드 캐시로 읽어와서 재활용하는 코드 캐시를 확장하는 수행 방식을 제안한다. 이는 기존의 클라이언트 선행 컴파일 기법을 수행 중에 코드 캐시 확장을 위해 적용한 것이다. 우리가 제안한 자바 수행 구조는 코드 캐시가 반으로 줄었을 때의 일반적인 자바 수행 방식보다 1.6배 좋은 성능을 보여주고 있다.

동적 XIP(eXecute In Place)를 위한 비용 인식 캐시 알고리즘 설계 (Cost-Aware Cache Algorithm for Dynamic XIP (eXecute In Place))

  • 김도훈;박찬익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.820-823
    • /
    • 2008
  • 본 논문은 기존의 XIP 기법에서 발생할 수 있는 메모리 접근 성능저하를 해결하기 위한 동적 XIP 기법을 제안하였다. 동적 XIP 기법은 상대적으로 성능저하가 적을 것으로 예상되는 코드 페이지들을 동적으로 선택하여 XIP 영역으로 설정하고, 성능저하가 크게 나타날 것으로 예상되는 코드 페이지들을 램 캐시에 캐싱하여 성능을 향상시킨다. 본 논문은 램 캐시를 관리하기 위해 MIN 캐시 알고리즘 및 메모리 접근 비용을 고려한 오프라인 캐시 알고리즘과, 페이지 접근에 대한 최신성(Recency) 및 슬라이딩 윈도우에 저장된 페이지 접근 기록에 기반하여 메모리 접근 비용을 예측하는 온라인 캐시 알고리즘, 온라인 캐시 알고리즘의 램 캐싱 판단의 정확성을 높이는 기법을 제안하였다. 본 논문은 온·오프라인 알고리즘의 성능비교를 위해 시뮬레이터를 통해 성능을 평가하였고, 유용성을 시험하기 위해 온라인 알고리즘을 리눅스를 기반으로 구현하여 성능을 평가하였다. 본 논문에서 제안한 동적 XIP는 실제 구현한 환경에서 실험한 결과, 작은 크기의 캐시를 사용하고도 수행시간에서는 최대 27%, 에너지 소모량에서는 최대 24%의 성능이 향상됨을 보였다.

액티브 네트워크 환경에서 실행 코드 교체를 위한 효율적인 캐싱 기법 (Efficient Caching Technique for Replacement of Execution Code on Active Network Environment)

  • 조정희;김동혁;장창복;조성훈;최의인
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.438-441
    • /
    • 2004
  • 인터넷의 급속한 발전과 컴퓨터 성능의 발달로 많은 사용자들은 네트워크를 통해 정보를 획득하고 이용하고 있다. 이에 따라 사용자의 요구도 빠르게 증가하고 있으며, 이러한 사용자 요구를 해결하기 위해 액티브 네트워크와 같은 기술들이 활발하게 연구되고 있다. 액티브 네트워크란 라우터나 스위치가 프로그램 실행 능력을 가지고 있어서 프로그램을 포함하고 있거나 중간 노드의 프로그램을 실행하도록 하는 패킷을 다양하고 유동적으로 처리할 수 있는 환경을 말한다. 이러한 액티브 네트워크의 중간 노드(Active Node)는 단순한 패킷 전달(forwarding) 기능 이외에 사용자의 실행 코드를 저장하고, 처리할 수 있는 기능을 가지고 있다. 따라서 액티브 노드에서 패킷을 실행하기 위해서는 각 패킷을 처리하는데 필요한 실행 코드가 요구되고, 이러한 실행 코드는 이전의 액티브 노드나 코드 서버에 요청함으로써 얻을 수 있다. 하지만 이러한 실행 코드를 이전 액티브 노드나 코드 서버에서 가져오게 되면 실행코드가 전달될 때까지의 시간지연이 발생하므로 사용되었던 실행 코드를 액티브 노드의 캐시에 저장하여 코드의 실행 속도를 증가 시킬 필요가 있다. 따라서 본 논문에서는 액티브 노드 상에 실행 코드를 효율적으로 캐시 함으로써 실행코드 요청의 횟수를 줄이고 패킷 처리 속도를 향상시킬 수 있는 캐싱 기법을 제안하였다.

  • PDF

대규모 병렬 시스템에서 캐시와 공유메모리를 이용한 유한 차분법 성능 (Performance of the Finite Difference Method Using Cache and Shared Memory for Massively Parallel Systems)

  • 김현규;이효종
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.108-116
    • /
    • 2013
  • 최근 GPU 시스템과 같은 수백 개의 프로세서로 구성된 대규모 병렬 시스템을 이용하여 성능을 향상시키는 방법들이 많이 개발 되었다. 대표적으로 GPU에서 캐싱(Caching)과 유사한 개념으로 공유 메모리가 사용되었다. 출력 값을 얻기 위해서 이웃 값을 참조하는 이미지 필터와 같은 알고리즘들의 경우 이웃 값의 참조가 빈번하게 발생되므로 공유 메모리를 사용할 경우 성능이 향상되었다. 그러나 공유 메모리를 사용하기 위해서는 기존 코드를 재 구현해야만 하고 이는 코드의 복잡도를 증가시키는 원인이 된다. 최근 GPU 시스템에서는 공유 메모리 뿐 아니라 L1과 L2 캐시 메모리를 지원하도록 하였다. L1 캐시 메모리는 공유 메모리와 동일한 하드웨어에 위치하여 캐시의 사용이 성능향상을 도와줄 것으로 예측된다. 따라서 본 논문에서는 캐시 메모리와 공유 메모리의 성능을 비교하였다. 연구결과 성능 면에서 캐시 메모리를 사용한 알고리즘과 공유메모리를 사용한 알고리즘은 유사하였다. 특히 캐시 메모리를 사용하는 경우 공유메모리 사용 프로그래밍에서 나타나는 코드 복잡도의 증가 문제도 동시에 해결할 수 있었다.

실행 코드 영역 프로파일링을 통한 MFU 기반 페이지 컬러링 기법 (MFU-based Page Coloring Scheme through Application Code Profiles)

  • 김정훈;김인혁;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.246-249
    • /
    • 2011
  • 페이징을 이용한 가상 메모리 환경에서는 프로세스가 사용하는 가상 페이지가 임의의 물리 페이지로 매핑이 되므로 캐시 인덱스 충돌로 인한 캐시 미스율이 증가한다. 이를 하드웨어의 지원 없이 해결하기 위해 페이지 컬러링 기술은 처음 연구되기 시작하였고, 지금까지도 꾸준히 연구되고 있다. 이러한 페이지 컬러링 기술은 컬러링 정책을 먼저 정해놓고 컬러링을 하는 정적 페이지 컬러링, 그리고 동적프로파일링을 통해 프로세스의 데이터 영역 접근 패턴을 파악하고 이를 통해 실시간 컬러링을 하는 동적 페이지 컬러링으로 나눌 수 있다. 하지만 두 가지 방법 모두 다음과 같은 단점이 존재한다. 먼저 정적 페이지 컬러링은 프로세스의 동작을 프로파일링 할 수 없기 때문에 컬러링으로 인한 효율을 극대화시킬 수 없고, 동적 페이지 컬러링은 동적 프로파일링을 하고 이를 통해 재컬러링(recoloring) 하는 오버헤드가 존재한다. 이러한 문제를 해결하기 위해서, 본 논문에서는 실행 코드 영역 프로파일링을 통한 MFU(Most Frequently Used) 기반 페이지 컬러링 기법을 제안한다. 이 기법은 동적으로 프로세스 코드 영역을 프로파일링 하여 실행 점유율이 높은 영역을 알아낸 뒤, 이를 기반으로 정적 페이지 컬러링을 하는 방식이다. 따라서 본 논문에서 제안한 기법은 기존의 기법들이 가진 단점을 해결하고, 캐시 성능을 향상시킬 것으로 기대된다.

명령어 캐시미스중에서도 파이프라인의 고착을 피할 수 있는 VLIW 구조의 성능향상 (Performance Improvement of a VLIW ARchitecture without Pipeline-Stall during Instruction Cache Miss)

  • 지승현;박노광;김석일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권3호
    • /
    • pp.301-312
    • /
    • 1999
  • 본 논문에서는 명령어 수준의 병렬성을 다루는 세 가지 프로세서 모델을 정의하고 각 모델별로 명령어 파이프라인을 운용하는 방법에 다른 실행사이클의 변화를 연구하였다. 본 논문에서 고려한 세가지 모델은1) 긴 명령어 인출시 캐시미스가 발생하면 명령어 파이프라인이 정지되는 전통적인 VLIW 구조, 2) 전통적인 VLIW 구조와 같이 긴 명령어 인출시 캐시미스가 발생하면 명령어 파이프라인이 정지되나 실시간에 긴 명령어를 실행 유니트로 스케줄링할 수있으므로 목적 코드에서 LNOP를 제거할 수 있는 구조 및 3)2)의 구조에서 긴 명령어를 인출하는 과정에서 캐시미스가 발생하더라도 LNOP을 분석 유니트로 제공하여 명령어 파이프라인을 계속 진행시키는 구조의 세 가지이다. 연구결과, 세 번째 구조에서 발생되는 LNOP 의 수는 첫 번째 구조와 두 번째 구조에 비하여 적어서 동일한 응용 프로그램을 처리하는데 필요한 실행사이클의 수가 가장 짧았다. 여러 가지 벤치 마크들에 대한 모의 실험에서도 세 번째 구조가 다른 구조의 프로세서에 비하여 실행사이클의 수가 가장 짧음을 확인할 수 있었다.

압축블록의 압축률 분포를 고려해 설계한 내장캐시 및 주 메모리 압축시스템 (An On-chip Cache and Main Memory Compression System Optimized by Considering the Compression rate Distribution of Compressed Blocks)

  • 임근수;이장수;홍인표;김지홍;김신덕;이용석;고건
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권1_2호
    • /
    • pp.125-134
    • /
    • 2004
  • 최근에 프로세서-메모리간 성능격차 문제를 완화하기 위하여 내장캐시의 접근실패율을 낮추고 메모리 대역폭을 확장하는 내장캐시 압축시스템이 제안되었다. 내장캐시 압축시스템은 데이타를 압축해 저장함으로써 내장캐시의 실질적 저장공간을 확장하고, 메모리 버스에서 데이타를 압축해 전송함으로써 실질적 메모리 대역폭을 확장한다. 본 논문에서는 이와 같은 내장캐시 압축시스템을 확장해 기존의 주 메모리 압축시스템과 병합해 설계한 이종 메모리 압축시스템을 제안한다. 주 메모리의 기억공간을 효율적으로 확장하고, 내장캐시의 접근실패율을 낮추고, 메모리 대역폭을 확장하고, 압축캐시의 복원시간을 줄이고, 설계 복잡도를 낮추기 위하여 몇 가지 새로운 기법들을 제시한다. 제안하는 시스템과 비교대상 시스템의 성능은 슈퍼스칼라 구조의 마이크로프로세서 시뮬레이터를 수정하여 실행기반 시뮬레이션을 통해 검증한다. 본 논문에서 사용한 실험방법은 기존의 트레이스기반 시뮬레이션과 비교해 보다 높은 정확도를 갖는다. 실험결과 주 메모리 확장에 따른 이득을 고려하지 않은 경우에 제안하는 시스템은 일반 메모리시스템에 비하여 수행시간을 내장캐시의 크기에 따라 최대 4-23%가량 단축한다. 제안하는 시스템의 데이타 메모리와 코드 메모리의 확장비율은 각각 57-120%와 27-36%이다.

SVLIW 프로세서와 VLIW 프로세서의 명령어 캐싱에 따른 성능 분석 (Performance Analysis of Caching Instructions on SVLIW Processor and VLIW Processor)

  • 지승현;박노광;김석일
    • 전기전자학회논문지
    • /
    • 제1권1호
    • /
    • pp.101-110
    • /
    • 1997
  • 실시간에 VLIW 명령어를 스케줄링하는 SVLIW 프로세서 구조는 실행 중 LNOP(긴 NOP 명령어)를 삽입하여 자원 충돌이나 자료 종속 문제를 스스로 해결할 수 있다. 따라서 SVLIW 프로세서에서는 메모리나 캐시에 적재되는 목적 코드로부터 LNOP 명령어를 제거할 수 있다. 그러므로 SVLIW 프로세서에서는 같은 크기의 캐시를 가진 VLIW 프로세서에 비하여 프로그램의 실행 도중에 발생하는 캐시 미스의 발생 빈도가 적어진다. 캐시 미스가 적게 발생하면 결국 평균 메모리 참조 시간이 짧아지므로 프로그램을 수행하는데 걸리는 실행 사이클의 수가 적어지게 된다. 이러한 특징은 한편 명령어 파이프라인 단계를 늘림으로 인한 영향을 상쇄할 수 있기 때문에 전체적으로 성능을 향상시킬 수 있다. 본 논문에서는 두 가지 프로세서 구조에서 어떤 응용 프로그램을 수행할 때 소요되는 실행 사이클을 예측하는 모델을 확립하고 이를 비교하였다. 또한, 시뮬레이션 결과로부터 캐시 미스가 발생하였을 때 메모리를 참조하는데 걸리는 시간이 길어질수록 SVLIW 프로세서에서의 실행 사이클이 VLIW 프로세서의 경우에 비하여 짧아지는 것을 확인할 수 있었다.

  • PDF

V8 자바스크립트 엔진 적시 컴파일러의 함수 호출 코드 생성 최적화 (Call Optimization on Just-in-Time Compiler of V8 JavaScript Engine)

  • 정원기;문수묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.135-138
    • /
    • 2011
  • 자바스크립트 언어는 클라이언트 사이드 웹 언어로서 지금까지 널리 사용되어 왔다. 그러나 최근에서야 내장형 시스템에서의 웹 브라우징이 보급되면서 그 성능이 이슈가 되고 있는데, 이를 위해 여러 오픈 소스 진영에서 적시 컴파일러를 탑재한 고성능의 자바스크립트 엔진이개발되고 있다. 그 중 V8 자바스크립트 엔진이 현재는 성능이 가장 좋은 것으로 알려져 있으나, 자바스크립트 언어의 극도로 동적인 특성으로 인하여 아직 성능의 최적화 여지가 많이 남아 있다. 본 논문에서는 V8 자바스크립트 엔진의 적시 컴파일러에서 함수 호출 코드 생성에 관한 최적화를 적용 하였다. 두 개의 명령어와 하나의 상수 풀을 사용하던 기존의 함수 호출 코드에서 하나의 명령어만으로 함수 호출을 하도록 구현함으로써 성능이 1.5% 개선되었고, 네이티브 캐시 사용량이 7.7% 감소하였다.