• 제목/요약/키워드: Column-oriented Storage

검색결과 10건 처리시간 0.032초

고속 데이터베이스 시스템을 위한 컬럼-인지 양분화 기법 (Column-aware Polarization Scheme for High-Speed Database Systems)

  • 변시우
    • 인터넷정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.83-91
    • /
    • 2012
  • 최근 컬럼-기반 저장 장치는 우수한 입출력 성능으로 고속 데이터베이스 시스템의 진보적인 중요 모델이 되었다. 본 논문에서는, 기존의 가로-기반 저장 모델과 비교 분석하고, 고속 컬럼-기반 데이터베이스 시스템의 유효 성능을 향상시키기 위하여, 플래시 메모리와 어시스트 드라이브를 활용한 새로운 컬럼-인지 스토리지 관리 모델을 제안한다. 컬럼-인지 폴라라이징이라고 하는 본 스토리지 관리 기법은 테이블 컬럼을 활성-컬럼과 비활성-컬럼으로 양분하여 압축 저장하며, 고부하시에 어시스트 드라이브를 활용하여 적체된 저장 연산을 리벨런싱한다. 실험 결과는 본 제안 기법이 컬럼-기반 스토리지의 초당 저장 연산 처리치를 19% 개선하였고, 그 응답 성능도 49%개선되었음을 보였다.

대용량 컬럼 저장소를 위한 교차 압축 이중화 기법 (Cross Compressed Replication Scheme for Large-Volume Column Storages)

  • 변시우
    • 한국산학기술학회논문지
    • /
    • 제14권5호
    • /
    • pp.2449-2456
    • /
    • 2013
  • 컬럼-기반 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 분석 시스템을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 MLC 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 본 논문에서는 고속 컬럼-지향 데이터 저장소 모델을 도입하고, 고속 컬럼-지향 데이터웨어하우스 시스템을 위한 교차 압축 이중화를 활용하는 새로운 저장소 관리 기법을 제안한다. 본 저장소 관리 기법은 두 개의 MLC SSD에 기반하며, 압축과 비압축된 세그먼트의 교차 이중화를 통하여 높은 CPU 및 입출력 부하에서도 우수한 저장 성능과 안정성을 얻는다. 성능 평가 결과를 통하여 본 저장소 관리 기법이 기존 기법보다 컬럼 세그먼트 갱신 처리치 및 그 응답시간 측면에서 더 우수함을 확인하였다.

A Column-Aware Index Management Using Flash Memory for Read-Intensive Databases

  • Byun, Si-Woo;Jang, Seok-Woo
    • Journal of Information Processing Systems
    • /
    • 제11권3호
    • /
    • pp.389-405
    • /
    • 2015
  • Most traditional database systems exploit a record-oriented model where the attributes of a record are placed contiguously in a hard disk to achieve high performance writes. However, for read-mostly data warehouse systems, the column-oriented database has become a proper model because of its superior read performance. Today, flash memory is largely recognized as the preferred storage media for high-speed database systems. In this paper, we introduce a column-oriented database model based on flash memory and then propose a new column-aware flash indexing scheme for the high-speed column-oriented data warehouse systems. Our index management scheme, which uses an enhanced $B^+$-Tree, achieves superior search performance by indexing an embedded segment and packing an unused space in internal and leaf nodes. Based on the performance results of two test databases, we concluded that the column-aware flash index management outperforms the traditional scheme in the respect of the mixed operation throughput and its response time.

분할된 압축 인덱스를 이용한 컬럼-지향 플래시 스토리지의 검색 성능 개선 (Search Performance Improvement of Column-oriented Flash Storages using Segmented Compression Index)

  • 변시우
    • 한국산학기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.393-401
    • /
    • 2013
  • 대부분의 기존 데이터베이스들은 빠른 저장 성능을 얻기 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치하는 레코드-지향 저장 모델을 사용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템에는 월등한 읽기 성능 때문에 컬럼-지향 저장 방식이 적합한 모델이 되고 있다. 또한, 현재 플래시 메모리가 고속 데이터베이스 시스템을 위한 선호 저장 매체로 인정되고 있다. 본 논문에서는 고속 컬럼-지향 데이터베이스 모델을 도입하고, 고속 컬럼-지향 데이터웨어하우스 시스템을 위한 컬럼-인지 인덱스 관리 기법을 제안한다. 본 인덱스 관리 기법은 개선된 B트리에 기반하며, 중간 노드와 리프노드에서 내장 플래시 인덱스와 빈공간 압축을 통하여 높은 검색 성능을 얻는다. 성능 평가 결과를 기반으로 본 인덱스 관리 기법이 기존 기법보다 검색 처리 및 응답 시간 측면에서 더 우수함을 확인하였다.

컬럼-기반 데이터베이스를 위한 그림자 복구 (Shadow Recovery for Column-based Databases)

  • 변시우
    • 한국산학기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.2784-2790
    • /
    • 2015
  • 컬럼-기반 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 트랜잭션을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 본 연구에서는 플래시 미디어 파일 시스템을 기반으로 하는 컬럼-기반 데이터베이스 환경을 위한 새로운 트랜잭션 회복기법(CoSR)을 제안한다. 제안 기법은 기존의 쉐도우 페이징 기법을 개선하여 플래시 파일 시스템에서 새로운 블록에 데이터를 저장할 경우 무효화되어 폐기되는 이전 데이터 블록을 재활용하였다. 이를 위하여 제안된 컬럼-기반 쉐도우 복구 기법에 재활용 쉐도우 리스트 구조를 활용하였다. 제안 기법은 기존 쉐도우 페이징기법의 최대 단점인 쉐도우 페이지 관련 추가 저장공간의 부담을 최소화하고, 기존 복구 기법에서 컬럼 데이터 압축에 기인한 입출력 성능저하를 최소화 할 수 있다. 실험 분석결과를 통하여 CoSR기법이 기존 기법보다 17% 더 우수함을 확인하였다.

컬럼-지향 데이터베이스를 위한 컬럼-인지 트랜잭션 관리 기법 (Column-aware Transaction Management Scheme for Column-Oriented Databases)

  • 변시우
    • 인터넷정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.125-133
    • /
    • 2014
  • 컬럼-지향 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 분석 시스템을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 이제 플래시 메모리는 비휘발성, 낮은 전력소모, 빠른 데이터 접근 속도 등의 특징으로 최신 데이터베이스 서버의 핵심 저장 요소로 충분한 기반이 되었다. 하지만 컬럼 압축의 느린 특성과 일반 RAM 메모리에 비하여 상대적으로 느린 플래시 메모리 연산 특성을 고려하여 기존의 트랜잭션 처리 기법을 개선할 필요가 있다. 본 연구에서는 효율적인 트랜잭션 처리를 위하여 컬럼-인지 다중 버전로킹(CaMVL) 기법을 제안한다. CaMVL은 로크 관리 과정에서 플래시의 느린 쓰기 연산과 지우기 연산을 효과적으로 제어하기 위하여 멀티 버전 읽기를 허용하고 압축 로크를 허용하여 트랜잭션 처리 성능을 높인다. 또한 성능 검증을 위하여 시뮬레이션 모델을 제안하였으며 실험 결과 분석을 통하여 CaMVL이 기존의 트랜잭션 처리 기법보다 우수함을 확인하였다.

하드디스크와 플래시SSD상에서 열-지향 저장 모델 고찰 (A Study of Column-oriented Storage Method on Harddisks and Flash SSDs)

  • 박지영;강운학;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1121-1124
    • /
    • 2012
  • 열-지향 데이터베이스 시스템인 C-Store는 많은 상용 데이터베이스 시스템과는 달리 데이터를 행(row) 위주가 아닌 열(column) 위주로 저장을 하여, 데이터 웨어하우스와 같이 주로 읽기 IO를 유발하는 환경에서 데이터의 전송량을 줄임으로써, 높은 성능을 보였다. 본 논문에서는 대표적인 열 지향 저장 DBMS인 C-Store와 행 위주의 저장구조를 사용하는 기존 DBMS와의 차이점을 알아보고, C-Store의 저장장치로 하드디스크와 차세대 저장장치로 주목받고 있는 플래시 SSD(Solid State Disk)를 사용하였을 때, 발생할 수 있는 장단점에 대해 분석하였다.

시맨틱 웹에서 RDF 데이터 저장구조들의 성능비교 (Comparison of Storage Structures for RDF Data in Semantic Web.)

  • 김경호;백우현;손지은;김경창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.881-884
    • /
    • 2013
  • RDF(Resource Description Framework)는 시맨틱 웹의 기초로서 웹 사용자에게 정보를 보다 정확하고 효율적으로 접근하는 표준이다. RDF 데이터를 효율적으로 저장하고 접근하는 필요성이 날로 증가하고 있다. RDF 데이터를 저장하고 검색하는 기본 저장 구조는 관계형 데이터베이스를 이용하는 것이다. 최근에는 RDF 데이터가 엄청나게 증가하고 있는 시점에 대용량 database의 질의(단순 조회)에 최적화된 칼럼-지향(column-oriented) 데이터베이스가 대안으로 제안되었다. 본 논문에서는 RDF 데이터의 저장 구조로서 관계형 데이터베이스와 칼럼-기반 데이터베이스를 비교분석 하고자 한다. Berlin SPARQL Benchmark 를 이용한 성능분석 결과 RDF data 의 저장 구조로서 칼럼-기반 데이터베이스의 효율성을 입증하였다.

A Low Cost IBM PC/AT Based Image Processing System for Satellite Image Analysis: A New Analytical Tool for the Resource Managers

  • Yang, Young-Kyu;Cho, Seong-Ik;Lee, Hyun-Woo;Miller, Lee-D.
    • 대한원격탐사학회지
    • /
    • 제4권1호
    • /
    • pp.31-40
    • /
    • 1988
  • Low-cost microcomputer systems can be assembled which possess computing power, color display, memory, and storage capacity approximately equal to graphic workstactions. A low-cost, flexible, and user-friendly IBM/PC/XT/AT based image processing system has been developed and named as KMIPS(KAIST (Korea Advanced Institute of Science & Technology) Map and Image Processing Station). It can be easily utilized by the resource managers who are not computer specialists. This system can: * directly access Landsat MSS and TM, SPOT, NOAA AVHRR, MOS-1 satellite imagery and other imagery from different sources via magnetic tape drive connected with IBM/PC; * extract image up to 1024 line by 1024 column and display it up to 480 line by 672 column with 512 colors simultaneously available; * digitize photographs using a frame grabber subsystem(512 by 512 picture elements); * perform a variety of image analyses, GIS and terrain analyses, and display functions; and * generate map and hard copies to the various scales. All raster data input to the microcomputer system is geographically referenced to the topographic map series in any rater cell size selected by the user. This map oriented, georeferenced approach of this system enables user to create a very accurately registered(.+-.1 picture element), multivariable, multitemporal data sets which can be subsequently subsequently subjected to various analyses and display functions.

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.