Abstract
The column-oriented database storage is a very advanced model for large-volume data analysis systems because of its superior I/O performance. Traditional data storages exploit row-oriented storage where the attributes of a record are placed contiguously in hard disk for fast write operations. However, for search-mostly datawarehouse systems, column-oriented storage has become a more proper model because of its superior read performance. Recently, solid state drive using MLC flash memory is largely recognized as the preferred storage media for high-speed data analysis systems. In this paper, we introduce fast column-oriented data storage model and then propose a new storage management scheme using a cross compressed replication for the high-speed column-oriented datawarehouse system. Our storage management scheme which is based on two MLC SSD achieves superior performance and reliability by the cross replication of the uncompressed segment and the compressed segment under high workloads of CPU and I/O. Based on the results of the performance evaluation, we conclude that our storage management scheme outperforms the traditional scheme in the respect of update throughput and response time of the column segments.
컬럼-기반 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 분석 시스템을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 MLC 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 본 논문에서는 고속 컬럼-지향 데이터 저장소 모델을 도입하고, 고속 컬럼-지향 데이터웨어하우스 시스템을 위한 교차 압축 이중화를 활용하는 새로운 저장소 관리 기법을 제안한다. 본 저장소 관리 기법은 두 개의 MLC SSD에 기반하며, 압축과 비압축된 세그먼트의 교차 이중화를 통하여 높은 CPU 및 입출력 부하에서도 우수한 저장 성능과 안정성을 얻는다. 성능 평가 결과를 통하여 본 저장소 관리 기법이 기존 기법보다 컬럼 세그먼트 갱신 처리치 및 그 응답시간 측면에서 더 우수함을 확인하였다.