• 제목/요약/키워드: 큐브 관리

검색결과 33건 처리시간 0.035초

데이타 웨어하우스에서 데이타 큐브를 위한 효율적인 점진적 관리 기법 (An Efficient Incremental Maintenance Method for Data Cubes in Data Warehouses)

  • 이기용;박창섭;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.175-187
    • /
    • 2006
  • 데이타 큐브는 차원 애트리뷰트의 모든 가능한 조합에 대해 데이타를 집단화하는 연산자이다. 차원 애트리뷰트의 수가 n일 때, 데이타 큐브는 $2^n$개의 group-by를 계산한다. 데이타 큐브에 포함된 각각의 group-by를 큐보이드(cuboid)라 부른다. 데이타 큐브는 흔히 미리 계산되어 형태 뷰(materialized view)의 형태로 데이타 웨어하우스에 저장된다. 이러한 데이타 큐브는 소스 릴레이션이 변경되면 이를 반영하기 위해 갱신되어야 한다. 데이타 큐브의 점진적 관리는 데이타 큐브의 변경될 내용만을 계산하여 이를 데이타 큐브에 반영하는 방법을 의미한다. $2^n$개의 큐보이드로 이루어진 큐브의 변경될 내용을 계산하기 위하여, 기존의 방법들은 데이타 큐브와 동일한 개수의 큐보이드를 가지는 변경 큐브를 계산한다. 따라서, 차원 애트리뷰트의 수가 증가할수록 변경 큐브를 계산하는 비용이 매우 커지게 된다. 변경 큐브에 포함된 각 큐보이드들을 변경 큐보이드(delta cuboid)라 부른다. 본 논문에서는 $2^n$개의 변경 큐보이드 대신 $_nC_{{\lceil}n/2{\rceil}}$개의 변경 큐보이드만을 사용하여 데이타 큐브를 갱신하는 방법을 제안한다. 이에 따라 제안하는 방법은 변경 큐브를 계산하는 비용을 크게 줄일 수 있다. 성능 평가 결과는 제안하는 방법이 기존의 방법에 비해 더 좋은 성능을 가지고 있음을 보여준다.

데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법 (Efficient Creation of Data Cube Using Hash Table in Data Warehouse)

  • 김형선;유병섭;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.211-213
    • /
    • 2005
  • 데이터 웨어하우스는 축적된 대량의 데이터를 분석하여 의사결정을 지원하는 시스템이다. 의사결정을 위한 대량의 데이터 분석은 많은 비용을 요구하므로, 질의 처리 성능을 높이고 의사 결정자에게 빠른 응답을 제공하는 효율적인 데이터 큐브 생성 기법이 연구되었다. 기존 기법으로는 Multiway Array 기법과 H-Cubing 기법이 있다. Multiway Array 기법은 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하는 것으로 데이터의 양이 많아질수록 메모리 사용이 증가한다. H-Cubing 기법은 Hyper-Tree를 기반으로 튜플을 트리로 구축하므로 모든 튜플을 트리로 구축해야 하는 비용이 증가한다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법을 제안한다. 제안 기법은 데이터 큐브 생성 시 필드 해쉬 테이블과 레코드 해쉬 테이블을 사용한다. 필드 해쉬 테이블은 저장될 레코드 순서 계산을 위하여 각 필드에 대해 레벨 값을 해쉬 테이블로 관리한다. 레코드 해쉬 테이블은 데이터 큐브 테이블에 저장될 레코드의 순서와 데이터 큐브 테이블에 저장하기 위한 임시 레코드의 위치를 관리한다. 필드 해쉬 테이블을 이용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장함으로서 데이터 큐브의 생성속도가 향상된다. 또한 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 따라서 해쉬 테이블의 사용으로 데이터의 빠른 검색과 데이터 큐브 생성 요청에 빠른 응답이 가능하다.

  • PDF

다차원 개념 계층을 지원하는 공간 데이터 큐브의 점진적 일괄 갱신 기법 (Incremental Batch Update of Spatial Data Cube with Multi-dimensional Concept Hierarchies)

  • 옥근형;이동욱;유병섭;이재동;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권11호
    • /
    • pp.1395-1409
    • /
    • 2006
  • 공간 데이터 웨어하우스에서는 OLAP(On-Line Analytical Processing) 연산을 제공하기 위해 다차원 데이터를 공간 데이터 큐브의 형태로 관리한다. 개념 계층을 지원하는 공간 데이터 큐브의 크기는 삽입되는 데이터에 비해 방대하기 때문에 구축된 큐브의 구조를 최대한 유지하면서 새로 삽입되는 데이터를 반영시킬 수 있는 점진적 갱신 기법이 연구되어 왔다. 하지만 접두 및 접미의 중복을 제거하여 데이터를 압축 저장하는 큐브에서는 병합된 경로 간의 충돌로 인해 큐브 갱신 시 갱신 내용과 상관없는 셀까지 동시에 갱신되어 갱신이상 현상이 발생한다. 본 논문에서는 공간 데이터 큐브의 점진적 일괄 갱신 기법을 제안한다. 제안 기법은 갱신에 필요한 노드 복사본을 관리하는 자료 구조 및 재귀 탐색을 이용하여, 경로 간의 충돌이 발생할 경우 해당 노드의 복사본을 생성한 후 이를 갱신함으로써 갱신이상 현상을 방지한다. 이를 통해 다차원 개념 계층이 포함된 공간 데이터 큐브를 효율적으로 갱신할 수 있다. 성능 평가를 통해 기존 갱신 기법에 비해 제안 기법의 갱신 속도가 향상되었음을 보인다.

  • PDF

공간 데이터 웨어하우스에서 개념 계층을 지원하는 공간 데이터 큐브 (A Spatial Data Cubes with Concept Hierarchy on Spatial Data Warehouse)

  • 옥근형;이동욱;유병섭;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.35-38
    • /
    • 2006
  • 데이터 웨어하우스에서는 OLAP(On-Line Analytical Processing) 연산을 제공하기 위해 다차원 데이터를 큐브의 형태로 관리한다. 특히, 공간 차원과 같이 데이터 큐브의 차원에 개념 계층이 존재하는 경우 사용자는 특정 계층에 대한 집계 결과를 요구한다. 기조의 데이터 큐브의 구조들은 차원의 개념 계층을 지원하지 못하거나 지원하더라도 시간이나 공간적 비용에 대해 비효율적이다. 본 논문에서는 공간 데이터 웨어하우스에서 공간 개념 계층을 이용하여 효율적인 계층별 영역 집계연산을 지원하는 공간 데이터 큐브를 제안한다. 이는 개념 계층을 DAG(Directed Acyclic Graph) 형태로 표현하여 구성된 여러 개의 차원들을 공간차원의 지역성을 기준으로 연결한 구조이다. 이러한 구조를 갖는 큐브를 이용하면, 데이터 검색 시 상위 계층부터 아래 방향으로 탐색하기 때문에 각 차원에 대한 효율적인 검색이 가능하다. 특히, 공간 개념 계층에 대한 DAG를 이용하면, 공간적 지역성에 따른 영역 검색을 지원할 수 있다. 성능평가에서 개념 계층이 적용된 질의에 대한 실험을 통해 제안 기법이 기존 기법들에 비해 저장 공간 효율성 및 질의 응답 성능이 우수함을 증명한다.

  • PDF

데이타 스트림에서 동적 데이타 큐브 (Dynamic Data Cubes Over Data Streams)

  • 서대홍;양우석;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.319-332
    • /
    • 2008
  • OLAP의 다차원 데이타 모델인 데이타 큐브는 많은 다차원 데이타 분석에 성공적으로 적용되었으며, 데이타 스트림 분석에도 적용하려는 많은 연구가 진행되고 있다. 데이타 스트림은 실시간에 지속적으로 방대하게 생성되며, 데이타의 분포적 특성이 빠르게 변한다는 특징을 가지며, 제한된 메모리 및 처리능력 때문에 한번만 검사하여 처리하는 것을 기본으로 한다. 때문에 데이타 스트림을 메모리에 모두 저장하는 것은 불가능하다. 또한 사용자는 모든 속성 값에 대하여 관심을 두기보다는 일정 지지율 이상을 가진 속성 값에 더욱 관심을 가지게 된다. 본 논문에서는 이러한 데이타 스트림 환경에서 데이타 큐브를 효과적으로 적용하기 위한 동적 데이타 큐브를 제안한다. 동적 데이타 큐브는 속성 값의 지지율에 따라 사용자 관심 영역을 지정하고, 속성 값을 동적으로 그룹화하여 관리한다. 이를 통해 메모리 및 처리시간을 절약하게 된다. 또한 동적으로 지지율이 높은 속성에 대한 분석 상세도를 높여주기 때문에 사용자의 관심영역을 효과적으로 보여준다. 마지막으로 실험을 통하여 제한된 메모리에서 동적 데이타 큐브가 효율적으로 동작함을 검증하였다.

공간 데이터 웨어하우스에서 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법 (The Extended Cube Tree for Distribution Area Query Processing in Spatial Data Warehouses)

  • 최준호;유병섭;박순영;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.76-78
    • /
    • 2004
  • 최근 원격 탐사 시스템 등이 발전함에 따라 축적된 공간 데이터의 양이 증가했고 이를 공간 데이터 웨어하우스 분야에서 의사 결정에 활용하는 방안이 중요한 이슈가 되고 있다. 기존의 활용 방법은 주어진 영역을 기준으로 공간 범위-집계를 검색하는 형태였지만, 최근 특정 성향 분석을 위해 분포 질의를 요청하고 그 결과 지역에 대한 공간 분석을 통한 의사결정의 필요성이 대두되었다. 하지만 기존의 처리 방법으로 비공간 질의를 처리하기 위해서는 모든 데이터를 검색해야 하므로 분포 질의를 처리하기 위한 비용이 증가하게 된다. 본 논문에서는 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법을 제안한다. 제안하는 기법은 분석하고자 하는 사실 테이블의 비공간 속성을 큐브 트리의 키로 사용하고, 이 속성과 관련된 공간 데이터의 포인터 집합을 관리한다. 본 논문의 제안 기법을 공간 데이터 웨어하우스에 적용함으로써 비공간 속성 질의를 통해 공간 객체를 결과로 요청하는 형태의 질의를 지원할 수 있게 되며 사실 컬럼을 계층화시킴으로서 사용자에게 좀 더 다각적인 분석을 지원할 수 있다.

  • PDF

데이터 스트림 정보 요약 기법 (A Summarization Method for Data Streams)

  • 한상길;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.657-660
    • /
    • 2006
  • 최근까지 데이터웨어하우스와 OLAP 에 관한 연구와 더불어 데이터 큐브(data cube)는 많은 다차원 데이터웨어하우스에서 데이터 분석과 의사 결정 지원을 위해 빠르게 OLAP 연산을 처리하기 위한 중요한 역할을 수행해 왔다. 최근에는 빠른 속도로 생성됨과 동시에 지속적으로 발생되는 연속적인 데이터로 구성된 데이터 스트림이 네트워크 트래픽 모니터링, 증권, 날씨, 콜 센터 등과 같은 많은 분야에서 생성된다. 데이터 스트림은 무한의 집합이기 때문에 기존의 데이터 큐브 방법은 처리시간과 저장공간의 문제 때문에 데이터 스트림에 적용하기 어렵다. 이에 본 논문에서는 기존의 데이터 큐브와 같은 데이터의 요약 정보를 데이터 스트림 환경에서 제한된 메모리를 이용하여 관리 할 수 있는 전원트리를 이용한 데이터 스트림 요약 기법을 제안하고, 실험을 통해 본 논문에서 제안한 방법이 데이터 스트림 환경에서 적응적으로 동작함을 증명한다.

  • PDF

계층적 시각화 기법을 활용한 데이터 큐브의 탐색 방안 (An Approach to Navigating Data Cubes with a Hierarchical Visualization Technique)

  • 오미화;황만모;최정우;최인수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.289-305
    • /
    • 2011
  • 다량의 복잡한 데이터를 잘 분석하고자 하는 의도로 최종 사용자가 데이터 큐브 내에 있는 여러 데이터 뷰 중에서 바라는 데이터 뷰를 시각적으로 탐색하게끔 해주는 기능을 OLAP 시스템에서는 계속 마련하고 있다. 본 연구에서는 자신의 스키마가 현 OLAP 시스템에서는 구현될 수 없는 배타적 대칭 계층과 같은 것이 되는 그런 데이터 큐브 만 대상으로 하고자 한다. 본 연구에서는 추상 계층의 개념적 분류를 하였고, 본 연구에서 개발한 계층적 시각화기법을 활용하여 데이터 큐브를 탐색해 나가는 방안을 제시하고 있다. 계층적 시각화 기법은 이항 추이폐포 개념을 활용하여 개발하였다. 국가자격관리 영역을 예로 들어 이 방안을 설명하고 있다.

대용량 시계열 데이터 분석 시스템에서 효과적인 데이터 큐브의 관리 (Efficient Maintenance of Data Cubes for Large-scale, Timeseries Data Analysis Systems)

  • 양해미;손지훈;정연돈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.13-15
    • /
    • 2012
  • 최근 다양한 서비스가 등장하면서 폭발적으로 증가하는 데이터로 인해 이를 처리하고 분석하기 위한 대용량 처리 및 분석 시스템이 제안되고 있다. 본 논문에서는 이러한 시스템에서 효율적인 데이터 큐브관리 방법을 제안한다. 실험을 통해 제안한 방법이 대용량 시계열 데이터 처리 및 분석 시스템에서 중요한 질의 처리 시간을 단축시키는 것을 보였다.

공간 데이터웨어하우스에서 통합된 다차원 개념 계층 지원을 위한 데이터 큐브 색인 (Data Cude Index to Support Integrated Multi-dimensional Concept Hierarchies in Spatial Data Warehouse)

  • 이동욱;백성하;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제12권10호
    • /
    • pp.1386-1396
    • /
    • 2009
  • 공간 데이터 웨어하우스에서 의사 결정 지원을 위한 공간 데이터 큐브는 크기가 방대하기 때문에 이를 효율적으로 관리하고 질의 처리의 수행 속도를 높이기 위한 공간 데이터 큐브 색인 기법이 요구된다. 제안된 데이터 큐브 색인 기법들 중 Hierarchical Dwarf는 사실 테이블의 튜플 필드 값의 중복을 이용하여 큐브를 압축하여 저장 비용과 질의응답 속도 면에서는 우수하지만 공간 차원을 지원하지 않으며, OLAP-favored Search 기법은 R-tree기반으로 공간 차원에 대한 계층적 집계 값을 제공하고 공간 OLAP 연산을 지원하지만 공간 및 비공간 차원들을 통합한 의사결정을 지원하지 못한다. 본 논문에서는 통합된 다차원 개념 계층지원을 위한 데이터 큐브 색인을 제안한다. 이는 개념 계층에 대한 정보와 사실 테이블에 지장된 튜플들을 참조하여 각각의 차원에 대해 생성된 개념 계층 트리들이 연결되어 통합된 색인이다. 이 때, 중복되는 개념계층 트리가 존재할 경우 이를 공유함으로써 저장 비용을 줄인다. 특히 제안 기법은 공간 및 비공간 차원이 통합된 개념 계층 트리들을 사용하므로, 공간 및 비공간 차원에 대한 OLAP 연산 비용이 감소한다.

  • PDF