• 제목/요약/키워드: memory bottleneck

검색결과 90건 처리시간 0.023초

MP3 장치용 플래시 메모리의 오류 검출을 위한 음원 비교 기법 (An Audio Comparison Technique for Verifying Flash Memories Mounted on MP3 Devices)

  • 김광중;박창현
    • 전자공학회논문지CI
    • /
    • 제47권5호
    • /
    • pp.41-49
    • /
    • 2010
  • 휴대용 정보기기와 엔터테인먼트기기 등의 사용이 대중화 되면서 플래쉬 메모리의 수요도 급격히 증가하였다. 일반적으로 플래시 메모리는 장착되는 장치에 따라 다양한 형태의 오류 패턴을 가지며, 메모리 생산자들은 최종적인 생산과정에서 실제 장착되는 기기와 동일한 환경에서 전기적/물리적 테스트를 수행한다. 이 과정을 메모리의 응용기기 실장 테스트라고 하며, 여기에서 사용되는 장비를 메모리 실장기라 한다. 현재 여러 가지 종류의 실장기들이 제작되어 메모리 생산 환경에서 사용되고 있으나 대부분이 검수자의 청각이나 시각 등의 감각에 의존하여 메모리의 오류를 판단하고 있다. MP3 실장기의 경우 음원의 재생 기능을 이용하여 메모리 오류를 판단하는데 적절한 자동 검수 기법이 존재하지 않아 검수자가 실장기에서 재생되는 음원을 직접 듣고 오류를 판단한다. 이런 과정은 실장환경의 자동화에 있어 큰 걸림돌이 되고 있으며 인력 활용 측면에서도 비효율적이다. 본 논문에서는 MP3 장치용 플래시 메모리의 효과적인 오류 검증을 위한 음원 비교 기법을 제안한다. 제안하는 방법은 원본 파일과 MP3 장치에서 재생되는 샘플값의 분산을 활용함으로써 메모리 오류 발생 여부를 판단한다.

비균등 메모리 접근 구조에서의 효율적인 그룹화 집단 연산의 처리 (Efficient Processing of Grouped Aggregation on Non-Uniformed Memory Access Architecture)

  • 최성준;민준기
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.14-27
    • /
    • 2018
  • 최근, 대칭형 다중 처리 (SMP: Symmetric Multiprocessing) 구조에서 발생하는 메모리 병목 현상을 보완하기 위하여 비균등 메모리 접근 구조 (NUMA: Non-Uniform Memory Access) 구조가 제시되었다. 또한, 집단 연산자는 데이터의 특성 및 요약 정보를 제공하는 주요 연산자로써, 집단 연산자의 효율성은 전체 시스템의 성능에 매우 큰 영향을 미친다. 따라서, 본 논문에서는 NUMA 구조에서 효율적으로 집단 연산을 처리할 수 있는 기법을 제안한다. 제안 기법은 분할 단계와 합병 단계로 구성되며, 분할 단계에서 그룹 속성에 따라서 대상 릴레이션을 부분 릴레이션들로 분할한다. 따라서, 각 쓰레드가 독립적으로 부분 릴레이션에 대하여 집단 연산을 수행할 수 있으므로 합병 단계에서 원격 메모리 접속이 발생하지 않도록 하였다. 또한, 합병 단계에서는 각 쓰레드가 지역 해시 테이블을 이용하여 집단 연산을 수행하도록 하고 쓰레드들이 생성한 집단 연산 결과들을 하나로 병합하는데 잠금 경쟁이 발생하지 않도록 하여 처리 성능을 향상하였다.

저 전력 8+T SRAM을 이용한 인 메모리 컴퓨팅 가산기 설계 (Design of In-Memory Computing Adder Using Low-Power 8+T SRAM)

  • 홍창기;김정범
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.291-298
    • /
    • 2023
  • SRAM 기반 인 메모리 컴퓨팅은 폰 노이만 구조의 병목 현상을 해결하는 기술 중 하나이다. SRAM 기반의 인 메모리 컴퓨팅을 구현하기 위해서는 효율적인 SRAM 비트 셀 설계가 필수적이다. 본 논문에서는 전력 소모를 감소시키고 회로 성능을 개선시키는 저 전력 차동 감지 8+T SRAM 비트 셀을 제안한다. 제안하는 8+T SRAM 비트 셀은 SRAM 읽기와 비트 연산을 동시에 수행하고 각 논리 연산을 병렬로 수행하는 리플 캐리 가산기에 적용한다. 제안하는 8+T SRAM 기반 리플 캐리 가산기는 기존 구조와 비교 하여 전력 소모는 11.53% 감소하였지만, 전파 지연 시간은 6.36% 증가하였다. 또한 이 가산기는 PDP(: Power Delay Product)가 5.90% 감소, EDP(: Energy Delay Product)가 0.08% 증가하였다. 제안한 회로는 TSMC 65nm CMOS 공정을 이용하여 설계하였으며, SPECTRE 시뮬레이션을 통해 타당성을 검증하였다.

압축블록의 압축률 분포를 고려해 설계한 내장캐시 및 주 메모리 압축시스템 (An On-chip Cache and Main Memory Compression System Optimized by Considering the Compression rate Distribution of Compressed Blocks)

  • 임근수;이장수;홍인표;김지홍;김신덕;이용석;고건
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권1_2호
    • /
    • pp.125-134
    • /
    • 2004
  • 최근에 프로세서-메모리간 성능격차 문제를 완화하기 위하여 내장캐시의 접근실패율을 낮추고 메모리 대역폭을 확장하는 내장캐시 압축시스템이 제안되었다. 내장캐시 압축시스템은 데이타를 압축해 저장함으로써 내장캐시의 실질적 저장공간을 확장하고, 메모리 버스에서 데이타를 압축해 전송함으로써 실질적 메모리 대역폭을 확장한다. 본 논문에서는 이와 같은 내장캐시 압축시스템을 확장해 기존의 주 메모리 압축시스템과 병합해 설계한 이종 메모리 압축시스템을 제안한다. 주 메모리의 기억공간을 효율적으로 확장하고, 내장캐시의 접근실패율을 낮추고, 메모리 대역폭을 확장하고, 압축캐시의 복원시간을 줄이고, 설계 복잡도를 낮추기 위하여 몇 가지 새로운 기법들을 제시한다. 제안하는 시스템과 비교대상 시스템의 성능은 슈퍼스칼라 구조의 마이크로프로세서 시뮬레이터를 수정하여 실행기반 시뮬레이션을 통해 검증한다. 본 논문에서 사용한 실험방법은 기존의 트레이스기반 시뮬레이션과 비교해 보다 높은 정확도를 갖는다. 실험결과 주 메모리 확장에 따른 이득을 고려하지 않은 경우에 제안하는 시스템은 일반 메모리시스템에 비하여 수행시간을 내장캐시의 크기에 따라 최대 4-23%가량 단축한다. 제안하는 시스템의 데이타 메모리와 코드 메모리의 확장비율은 각각 57-120%와 27-36%이다.

링 구조 NUMA 시스템에서 적응형 다중 그레인 원격 캐쉬 설계 (Application Behavior-oriented Adaptive Remote Access Cache in Ring based NUMA System)

  • 곽종욱;장성태;전주식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권9호
    • /
    • pp.461-476
    • /
    • 2003
  • 메모리 병목현상의 완화와 구현상의 용이함으로 인해 NUMA 시스템이 지난 수년 동안 전형적인 다중 프로세서 시스템으로 자리를 잡아 왔다. 하지만 NUMA 시스템은 그 구조의 특성상 원격 메모리로의 접근 비율이 커질수록 응답 속도의 지연이 심화되므로, NUMA 시스템의 구현에 있어서 원격 캐쉬의 효율적인 설계를 요구한다. 본 논문에서는 보다 효율적인 원격 캐쉬의 설계를 목표로 하여, 원격 캐쉬 상에서 실제 응용 프로그램의 공유 단위(Granularity of Sharing)의 패턴을 분석하여 원격 캐쉬의 라인 사이즈를 실행 시간에 가상적으로 변화시킬 수 있는“다중 그레인 원격 캐쉬”방식을 제안한다. 그리고 이를 MINT를 통해 모델링한 후 시뮬레이션을 수행하고 그 결과를 분석한다. 시뮬레이션에서는 먼저 Profile-Based 방식을 이용하여 각 응용 프로그램별 최적의 원격 캐쉬 라인 사이즈를 찾아내고, 이를 이용하여 기존의 일반적인 NUMA 시스템에서의 원격 캐쉬와 본 논문에서 제안한 다중 그레인 원격 캐쉬와의 상호 비교를 통해 성능상의 차이점을 비교, 분석한다. 그 후 다중 그레인 원격 캐쉬가 시스템과 응용 프로그램간의 다양한 관계 속에서도 항상 최악의 경우를 피하면서 최적의 경우와 유사한 결과를 가짐을 보인다.

소형셀 네트워크 전송용량 향상을 위한 분산 파일저장 및 커버리지 확장 기법 (Distributed File Placement and Coverage Expansion Techniques for Network Throughput Enhancement in Small-cell Network)

  • 홍준표
    • 한국정보통신학회논문지
    • /
    • 제22권1호
    • /
    • pp.183-189
    • /
    • 2018
  • 본 논문은 제한된 백홀 용량으로 발생하는 소형셀 네트워크에서의 트래픽 병목현상을 완화하기 위한 분산 파일저장 기술과 커버리지 확장 기술을 제안하였다. 제안 기법은 한정된 메모리 용량으로 백홀 망의 부하를 최소화하기 위해 파일의 인기도와 기지국의 메모리 용량에 따라 기지국의 커버리지와 파일 저장방법을 결정한다. 즉, 메모리 공간이 작거나 이용자들로부터 요청되는 파일이 다양할 경우 개별 기지국에 저장된 파일로 이용자를 서비스할 수 있는 확률이 낮아지므로 커버리지를 확장하고 기지국 사이 저장 파일의 중복을 줄여 커버리지 중첩지역에 있는 이용자가 다수의 기지국에 저장된 다양한 파일로 서비스 받을 수 있게 한다. 시뮬레이션을 통한 기존 배타적인 커버리지를 갖는 소형셀 네트워크에서의 파일저장 기법과의 전송용량 비교를 통해 제안 기법이 메모리 공간이 작거나 이용자들로 부터 요청되는 파일이 다양한 상황에서 높은 성능 이득을 가짐을 보였다.

부분키 기법과 압축 기법을 혼용한 주기억장치 상주형 다차원 색인 구조 (A Main Memory-resident Multi-dimensional Index Structure Employing Partial-key and Compression Schemes)

  • 심정민;민영수;송석일;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권4호
    • /
    • pp.384-394
    • /
    • 2004
  • 최근 중앙처리장치와 주기억장치간의 병목 현상에 의한 성능 저하를 극복하기 위해 캐시를 고려한 색인 구조들이 제안되었다. 이런 색인 구조들의 궁극적인 목표는 엔트리 크기를 줄여 팬-아웃(fan-out)을 증가시키고, 캐시 접근 실패를 최소화하여 시스템의 성능을 높이는 것이다. 엔트리의 크기를 줄이는 기법에 따라 기존의 색인 구조들을 두 가지로 구분할 수 있다. 하나는 좌표 값을 고정된 비트로 양자화 함으로써, MBR 키를 압축하는 것이다. 또 다른 하나는 MBR들의 각 좌표 값 중에 그들의 부모 MBR과 같지 않은 좌표 값만을 저장하는 것이다. 우선, 본 논문에서는 두 기법의 특성들을 적절히 조합한 새로운 색인 구조를 제안하고, 기존에 제시된 두 접근법을 따르는 주기억장치 상주형 다차원 색인 구조를 다양한 환경에서 성능 평가한다. 또한, 기존의 색인 구조와 비교를 통해 제안하는 색인 구조의 우수성을 보인다.

64-비트 프로세서에서 AES 고속 구현 (High Speed AES Implementation on 64 bits Processors)

  • 정창호;박일환
    • 정보보호학회논문지
    • /
    • 제18권6A호
    • /
    • pp.51-61
    • /
    • 2008
  • 본 논문은 최근 많이 사용되는 64-비트 프로세서인 Intel Core2 프로세서와 AMD Athlon64 프로세서에서 AES 알고리즘을 고속 구현하는 기법을 제시한다. 먼저 EM64T 아키텍처의 Core2 프로세서는 메모리 접근 명령어 처리 효율이 연산 명령어 처리 효율보다 떨어진다. 때문에 메모리 접근 명령어의 비율이 높게 구성된 기존 AES 구현기법은 메모리 병목현상이 발생된다. 이에 메모리 접근 명령어 비율을 낮춘 부분 라운드키 기법을 제시한다. ECB 모드로 구현한 결과 Core2Duo 3.0 Ghz 프로세서에서 185 cycles/block, 2.0 Gbps의 성능을 보여주었다. 이 결과는 가장 빠르다고 알려진 bernstein 코드보다 35 cycles/block 빠르다. 한편 AMD64 아키텍처의 Athlon64 프로세서에서는 명령어 디코딩 과정에서 발생하는 병목현상을 제거하므로써 속도를 향상시켰다. 그 결과 Athlon64 프로세서에서 170 cycles/block의 성능을 나타났다. 이는 가장 빠르다고 알려진 Matsui의 비공개 코드와 성능이 동일하다.

범위질의 검색을 위한 캐시적응 T-트리 주기억장치 색인구조 (Cache Sensitive T-tree Main Memory Index for Range Query Search)

  • 최상준;이종학
    • 한국멀티미디어학회논문지
    • /
    • 제12권10호
    • /
    • pp.1374-1385
    • /
    • 2009
  • 최근 CPU의 속도는 메모리의 속도에 비해 훨씬 빠르게 향상되었다. 따라서 주기억 장치의 접근이 주기억장치 데이터베이스 시스템의 성능에서 병목현상으로 나타나고 있다. 기억장치 접근 속도를 줄이기 위해 캐시메모리를 이용하지만, 캐시메모리는 요구되는 데이터가 캐시에서 찾을 수 있는 경우에만 기억장치 접근속도를 줄일 수 있다. 본 논문에서는 $CST^*$-트리라는 범위질의를 위한 새로운 캐시 적응 T-트리 색인구조를 제안한다. $CST^*$-트리는 색인 엔트리를 저장하지 않는 축소된 내부노드들을 캐시메모리에 올려 사용함으로써 캐시메모리의 활용도를 높인다. 그리고 인접한 단말노드들과 내부 색인노드들을 링크포인터를 통해 서로 연결함으로써 색인 엔트리들의 순차적 접근을 가능하도록 한다. 본 논문에서는 성능평가를 위한 비용 모델을 개발하고, 이를 이용하여 캐시미스 발생 횟수를 평가하였다. 그 결과 단일키 값 검색에서는 기존의 캐시만을 고려한 CST-트리에 비해 약 20~30%의 캐시미스 발생 횟수가 감소하였고, 범위질의에서는 기존의 범위질의만을 고려한 색인구조인 $T^*$-트리에 비해 약 10~20%의 캐시미스 발생 횟수가 감소하였다.

  • PDF

Atomic Write를 활용한 SQLite 최적화 (SQLite Optimization with Atomic Write)

  • 김형득
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.107-110
    • /
    • 2017
  • 여러 연구에 따르면 임베디드 디바이스에서 프로세서 및 네트워크의 속도는 사용자의 요구사항을 충족시킬 만큼 빠른데 반해 IO 속도가 성능의 주요 병목으로 밝혀진 바 있다. 또한 이런 IO 병목 현상의 70% 이상이 SQLite 데이터베이스와 관련된 현상으로 밝혀졌다. 이를 해결하기 위한 SQLite 성능 최적화 관련 연구들은 쓰기 IO에 최적화된 저널 방식인 WAL 방식 중심의 연구들이 다수를 이루고 있다. 본 논문에서는 Android와 Tizen에서 주로 사용되는 Rollback 저널 방식 환경 하에서 성능 문제 해결을 위한 SQLite Atomic Write 기법을 제안한다. 제안한 기법을 통해 파일 쓰기, 동기화 작업을 줄임으로써 쓰기 성능(300%)과 메모리 사용량(80%)이 향상 된 것을 확인할 수 있었고 JOJ(저널링 파일에 대한 저널링) 현상을 막고 플래시 메모리의 수명을 늘릴 수 있다.

  • PDF