• 제목/요약/키워드: 데이터큐브

검색결과 130건 처리시간 0.026초

데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법 (Efficient Creation of Data Cube Using Hash Table in Data Warehouse)

  • 김형선;유병섭;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.211-213
    • /
    • 2005
  • 데이터 웨어하우스는 축적된 대량의 데이터를 분석하여 의사결정을 지원하는 시스템이다. 의사결정을 위한 대량의 데이터 분석은 많은 비용을 요구하므로, 질의 처리 성능을 높이고 의사 결정자에게 빠른 응답을 제공하는 효율적인 데이터 큐브 생성 기법이 연구되었다. 기존 기법으로는 Multiway Array 기법과 H-Cubing 기법이 있다. Multiway Array 기법은 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하는 것으로 데이터의 양이 많아질수록 메모리 사용이 증가한다. H-Cubing 기법은 Hyper-Tree를 기반으로 튜플을 트리로 구축하므로 모든 튜플을 트리로 구축해야 하는 비용이 증가한다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법을 제안한다. 제안 기법은 데이터 큐브 생성 시 필드 해쉬 테이블과 레코드 해쉬 테이블을 사용한다. 필드 해쉬 테이블은 저장될 레코드 순서 계산을 위하여 각 필드에 대해 레벨 값을 해쉬 테이블로 관리한다. 레코드 해쉬 테이블은 데이터 큐브 테이블에 저장될 레코드의 순서와 데이터 큐브 테이블에 저장하기 위한 임시 레코드의 위치를 관리한다. 필드 해쉬 테이블을 이용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장함으로서 데이터 큐브의 생성속도가 향상된다. 또한 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 따라서 해쉬 테이블의 사용으로 데이터의 빠른 검색과 데이터 큐브 생성 요청에 빠른 응답이 가능하다.

  • PDF

다차원 데이터큐브를 이용한 멀티미디어 데이터 마이닝 연구 (A Study on the MultiMedia Data Mining using Multi-dimensional DataCube)

  • 김진옥;황대준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.151-153
    • /
    • 2001
  • 멀티미디어 데이터의 증가와 마이닝 기술의 발전으로 인해 멀티미디어 마이닝에 대한 관심이 증가하고 있다. 본 논문에서는 내용기반의 정보검색 기술과 다차원 다중 데이터큐브 구축기술을 통해 멀터미디어데이타의 마이닝을 구현하는 시스템에 대해 제안한다. 제안 시스템은 멀티미디어 데이터에 내용기반의 정보추출 시스템을 적용하여 성분백터를 추출하고 이를 메타데이타로 한 데이스베이스를 구축한다. 그리고 데이타베이스로부터 지식을 마이닝할 수 있도록 다차원 데이터큐브를 구축하여 빠른 데이터검색과 마이닝결과을 이용자에게 보여주는 모듈로 구성된다. 다차원 데이터큐브는 다중 어레이 구조로써 다차원 데이터를 저장하고, 저장된 여러 데이터 레벨 정보에서 가장 중요한 주제를 통합 생성하여 효율적으로 처리하므로 멀티미디어 데이터를 마이닝하는데 효과적인 방법이다. 또만 다차원데이타큐브를 다중으로 생성하는 방법은 데이터 마이닝 속도를 높이는데 효율적이다.

  • PDF

다차원 개념 계층을 지원하는 공간 데이터 큐브의 점진적 일괄 갱신 기법 (Incremental Batch Update of Spatial Data Cube with Multi-dimensional Concept Hierarchies)

  • 옥근형;이동욱;유병섭;이재동;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권11호
    • /
    • pp.1395-1409
    • /
    • 2006
  • 공간 데이터 웨어하우스에서는 OLAP(On-Line Analytical Processing) 연산을 제공하기 위해 다차원 데이터를 공간 데이터 큐브의 형태로 관리한다. 개념 계층을 지원하는 공간 데이터 큐브의 크기는 삽입되는 데이터에 비해 방대하기 때문에 구축된 큐브의 구조를 최대한 유지하면서 새로 삽입되는 데이터를 반영시킬 수 있는 점진적 갱신 기법이 연구되어 왔다. 하지만 접두 및 접미의 중복을 제거하여 데이터를 압축 저장하는 큐브에서는 병합된 경로 간의 충돌로 인해 큐브 갱신 시 갱신 내용과 상관없는 셀까지 동시에 갱신되어 갱신이상 현상이 발생한다. 본 논문에서는 공간 데이터 큐브의 점진적 일괄 갱신 기법을 제안한다. 제안 기법은 갱신에 필요한 노드 복사본을 관리하는 자료 구조 및 재귀 탐색을 이용하여, 경로 간의 충돌이 발생할 경우 해당 노드의 복사본을 생성한 후 이를 갱신함으로써 갱신이상 현상을 방지한다. 이를 통해 다차원 개념 계층이 포함된 공간 데이터 큐브를 효율적으로 갱신할 수 있다. 성능 평가를 통해 기존 갱신 기법에 비해 제안 기법의 갱신 속도가 향상되었음을 보인다.

  • PDF

집계큐브리트리 :효율적인 범위-집계 질의의 수행을 위한 큐브트리 (Aggregate Cubetree : Cubetree for Efficient Execution of Range-Aggregate Query)

  • 홍석진;송병호;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.163-165
    • /
    • 2001
  • 데이터웨어하우스 환경에서는 범위-집계 질의를 효율적으로 수행하기 위해 데이터큐브로 저장뷰를 구성한다. 큐브트리란 이러한 저장뷰를 R-Tree형태로 구성하는 기법으로, 효율적인 데이터 접근성을 제공하지만 범위-집계 질의 범위 내의 모든노드를 접근해야 하는 단점이 있다. 이 논문에서는 중간노드의 MBR에 자식 노드 레코드들의 집단함수 값을 저장하여, 질의 범위에 포함되는 중간노드의 경우 단말노드를 접근하지 않고 효율적으로 범위-집계 질의를 수행할 수 있는 집계큐브트리를 제안하였다. 집계큐브트리는 기존의 큐브트리에 비해, 항상 적은 수의 노드 접근으로 질의를 수행하며 질의 범위의 크기가 커질수록 좋은 성능을 보인다.

  • PDF

공간 데이터 웨어하우스에서 해쉬 테이블을 이용한 데이터큐브의 생성 기법 (Data Cube Generation Method Using Hash Table in Spatial Data Warehouse)

  • 이연;김형선;유병섭;이재동;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권11호
    • /
    • pp.1381-1394
    • /
    • 2006
  • 축적된 데이터를 기반으로 의사결정을 지원하는 데이터 웨어하우스에서 빠른 응답을 제공하기 위하여 데이터큐브 생성기법에 대한 많은 연구가 진행되었다. 대표적으로 다차원 배열을 사용한 기법과 hyper-tree를 기반으로 하는 H-cubing 기법이 연구되었다. 하지만 전자는 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하여 데이터의 양이 많아질수록 메모리 사용이 증가하였으며 후자는 hyper-tree를 기반으로 모든 튜플을 트리로 구축하여 트리 구축비용이 증가하였다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터큐브 생성 기법을 제안한다. 제안 기법은 데이터큐브 생성 시 가중치 맵핑 테이블과 레코드 해쉬 테이블을 사용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장한다. 따라서 데이터큐브의 생성속도가 향상되며 해쉬 테이블 만을 유지하여 메모리 사용량이 감소한다. 이는 성능평가를 통해 기존 기법보다 데이터의 빠른 검색과 데이터큐브 생성 요청에 빠른 응답을 보였다.

  • PDF

H*-tree/H*-cubing: 데이터 스트림의 OLAP를 위한 향상된 데이터 큐브 구조 및 큐빙 기법 (H*-tree/H*-cubing-cubing: Improved Data Cube Structure and Cubing Method for OLAP on Data Stream)

  • 심상예;이연;이동욱;김경배;배해영
    • 정보처리학회논문지D
    • /
    • 제16D권4호
    • /
    • pp.475-486
    • /
    • 2009
  • 데이터 큐브는 다차원 데이터 분석 및 멀티레벨 데이터 분석에 많이 사용되고 있는 중요한 데이터 구조이다. 최근 데이터 스트림의 온라인 분석에 대한 수요가 증가하면서 스트림 큐브, Flow 큐브, S-큐브 등의 다양한 데이터 큐브 구조와 기법이 제안되었다. 그러나 기존 기법들은 데이터 큐브 생성 시 고비용이 요구되는 단점을 가지고 있어 효과적인 데이터 구조, 질의 방법 및 알고리즘에 대한 연구가 필요하다. 스트림 큐브 기법에서는 H-큐빙 기법을 사용하여 큐보이드를 선택하고, 계산된 셀들을 인기 패스에 있는 큐보이드들로 구성된 H-트리에 저장한다. 그러나 스트림 큐브 기법에서는 H-트리에 데이터를 비순차적으로 삽입하기 때문에 H-큐빙 기법을 사용하여 질의를 처리할 때 제한성을 갖고 있다. 본 논문에서는 데이터의 트리 구조의 각 층에 대한 인덱스를 구축하여 스트림 데이터에 대한 빠른 삽입 연산을 지원하는 $H^*$-tree 구조와, popular-path에 존재하지 않는 큐보이드를 빨리 계산하여 스트림 데이터에 대한 빠른 애드 혹 질의 응답을 지원하는 $H^*$-cubing 기법을 제안한다. 성능평가를 통하여 제안한 $H^*$-tree 기법은 보다 적은 큐브 구축 시간을 지원하며, $H^*$-cubing 기법이 stream cube 기법보다 빠른 애드 혹질의 응답 시간을 소요하며, 보다 적은메모리를 사용함을 보여준다.

데이터 웨어하우스의 성장에 따른 문제 해결을 위한 개선된 메타데이타 모델 (Enhanced Metadata Model for Growing Data)

  • 박석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.386-388
    • /
    • 1998
  • 본 논문에서는 필드의 추가, 삭제에 의해 데이터 큐브의 확장과 서로 다른 시간구간의 뷰가 존재함을 밝히고 이에 따른 두 가지 문제점을 제안한다. 첫째 새로 추가된 필드에 따라 이전 데이터를 변화할 것인가\ulcorner 둘째 필드의 추가로 불필요해진 실체화된 뷰를 계속 유지할 것인가\ulcorner 이를 해결하기 위해 메타데이타를 통하여 데이터 큐브의 재구성이나 불필요한 뷰의 실체와 없이 다른 시간구간의 실체화된 뷰를 효과적으로 사용하는 기법을 제안한다. 본 논문에서 제안한 기법은 시간 축을 고려함으로써 데이터 큐브의 격자구조를 따라 의존관계의 뷰들을 부분적으로 사용하고 결과를 결합하는 방식이다. 성능평가를 통하여 데이터 웨어하우스의 변화 시 기존의 기법보다 좋은 질의처리 성능을 가짐을 보인다. 보다 빠른 질의처리를 위하여 데이터 큐브를 사용하고, 큐브를 구성하는 뷰들을 실체화 한다. 하지만 새로운 필드의 추가나 삭제와 같은 데이터 웨어하우스의 변화, 성장에 의해 구조변화 등의 문제가 발생하고, 이에 대하여 적절해 대응할 필요가 있다.

공간 데이터 웨어하우스에서 개념 계층을 지원하는 공간 데이터 큐브 (A Spatial Data Cubes with Concept Hierarchy on Spatial Data Warehouse)

  • 옥근형;이동욱;유병섭;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.35-38
    • /
    • 2006
  • 데이터 웨어하우스에서는 OLAP(On-Line Analytical Processing) 연산을 제공하기 위해 다차원 데이터를 큐브의 형태로 관리한다. 특히, 공간 차원과 같이 데이터 큐브의 차원에 개념 계층이 존재하는 경우 사용자는 특정 계층에 대한 집계 결과를 요구한다. 기조의 데이터 큐브의 구조들은 차원의 개념 계층을 지원하지 못하거나 지원하더라도 시간이나 공간적 비용에 대해 비효율적이다. 본 논문에서는 공간 데이터 웨어하우스에서 공간 개념 계층을 이용하여 효율적인 계층별 영역 집계연산을 지원하는 공간 데이터 큐브를 제안한다. 이는 개념 계층을 DAG(Directed Acyclic Graph) 형태로 표현하여 구성된 여러 개의 차원들을 공간차원의 지역성을 기준으로 연결한 구조이다. 이러한 구조를 갖는 큐브를 이용하면, 데이터 검색 시 상위 계층부터 아래 방향으로 탐색하기 때문에 각 차원에 대한 효율적인 검색이 가능하다. 특히, 공간 개념 계층에 대한 DAG를 이용하면, 공간적 지역성에 따른 영역 검색을 지원할 수 있다. 성능평가에서 개념 계층이 적용된 질의에 대한 실험을 통해 제안 기법이 기존 기법들에 비해 저장 공간 효율성 및 질의 응답 성능이 우수함을 증명한다.

  • PDF

웹 서비스 기반의 웹 OLAP 큐브 브라우저 (A Web Services-based Web OLAP Cube Browser)

  • 배은주;김명미;김명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1819-1822
    • /
    • 2002
  • OLAP(On-line Analytical Processing)은 데이터를 다차원적으로 집계하여 그 결과를 온라인으로 사용자에게 제공함으로써 고부가가치 창출에 사용되는 비즈니스 인텔리젼스 기술 중의 하나이다. 질의 처리 시간 제약 조건을 만족하기 위해 OLAP 시스템들은 다차원적 집계 결과를 미리 계산하여 저장해 둔다. 이 때 저장되는 데이터를 OLAP 큐브(cube)라고 하며, 데이터의 분석은 주로 큐브를 브라우징하면서 이루어진다. 본 연구에서는 웹 서비스를 통해 큐브를 브라우징할 수 있는 ‘웹 OLAP 큐브 브라우저(WOCB)'를 개발하였다. WOCB는 본 연구팀이 개발한 웹 서비스 기반의 OLAP API인 XMLMD를 사용하여 개발되었으며, 웹 서비스를 통해 전송되는 OLAP 큐브 데이터를 XML, HTML, 엑셀, 그래프 등의 다양한 형태로 검색할 수 있는 기능을 제공한다. 본 연구 결과는 이기종 플랫폼 환경에 분산되어 있는 OLAP 서버들을 통합할 때 하나의 컴포넌트로 사용될 수 있다는 장점을 갖는다.

  • PDF

큐브 생성 기법에 대한 비교 평가 : 네트워크 트래픽 로그 분석 시스템 사례 중심 (Comparison of Cube generation methods : A case study on a network traffic log analysis system)

  • 임병남;손지훈;정연돈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.107-109
    • /
    • 2012
  • 데이터 큐브는 다차원 데이터 분석에 널리 사용되는 방법이다. 이 큐브 분석 방법을 사용하기 위해서는 먼저 데이터 큐브를 생성해야 한다. 이 데이터 큐브를 생성하기 위한 여러가지 방법들이 존재한다. 본 논문에서는 네트워크 트래픽 로그를 분석하는 시스템에서 다양한 큐브 생성 방법에 대하여 비교 평가한 사례를 제시한다.