• Title/Summary/Keyword: 집계 질의

Search Result 95, Processing Time 0.024 seconds

A Bitmap Index for Multi-Dimensional Data Analysis (다차원 데이터 분석을 위한 비트맵 인덱스)

  • Im, Yoon-Sun;Park, Young-Sun;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.298-300
    • /
    • 2002
  • 다차원 데이터를 배열에 저장하는 Multidimensional OLAP (MOLAP) 시스템은 배열내의 위치 정보를 통해 데이터를 신속하게 엑세스할 수 있는 장점을 갖는다. 그러나 실생활의 다차원 데이터는 대체로 희박하여 저장될 때 압축되고, 데이터가 검색될 때는 원래의 위치 정보를 찾기 위해 인덱스를 필요로 하게 된다. 다양한 종류의 다차원 인덱스가 테이블 형태의 데이터를 대상으로 개발되어 있으나, 이들은 데이터의 삽입과 삭제에 유연하게 대처할 수 있도록 하기 위해서 인덱스 공간과 데이터 검색 시간에 약간의 낭비를 초래한다. 본 연구에서는 OLAP 데이터가 주기적으로 갱신되며, 분석에 필요한 집계 데이터도 점진적으로 갱신되기보다 실제로는 새로 생성되고 있다는 점을 고려하여, 읽기 전용 MOLAP 데이터를 위한 인덱스 구조를 제안한다. 데이터는 청크들로 나뉜 후 압축 저장되며, 각 청크는 위치 정보를 유지하면서 비트로 표현되어 인덱스에 저장되도록 하였다. 제안한 비트맵 인덱스는 높은 압축률을 보이며, 범위 질의(range query)를 포함한 OLAP 주요 연산들 처리에 특히 효율적이다.

  • PDF

Iceberg Query Evaluation Technical Using a Cuboid Prefix Tree (큐보이드 전위트리를 이용한 빙산질의 처리)

  • Han, Sang-Gil;Yang, Woo-Sock;Lee, Won-Suk
    • Journal of KIISE:Databases
    • /
    • v.36 no.3
    • /
    • pp.226-234
    • /
    • 2009
  • A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. Due to the characteristics of a data stream, it is impossible to save all the data elements of a data stream. Therefore it is necessary to define a new synopsis structure to store the summary information of a data stream. For this purpose, this paper proposes a cuboid prefix tree that can be effectively employed in evaluating an iceberg query over data streams. A cuboid prefix tree only stores those itemsets that consist of grouping attributes used in GROUP BY query. In addition, a cuboid prefix tree can compute multiple iceberg queries simultaneously by sharing their common sub-expressions. A cuboid prefix tree evaluates an iceberg query over an infinitely generated data stream while efficiently reducing memory usage and processing time, which is verified by a series of experiments.

An Efficient Search Space Generation Technique for Optimal Materialized Views Selection in Data Warehouse Environment (데이타 웨어하우스 환경에서 최적 실체뷰 구성을 위한 효율적인 탐색공간 생성 기법)

  • Lee Tae-Hee;Chang Jae-young;Lee Sang-goo
    • Journal of KIISE:Databases
    • /
    • v.31 no.6
    • /
    • pp.585-595
    • /
    • 2004
  • A query processing is a critical issue in data warehouse environment since queries on data warehouses often involve hundreds of complex operations over large volumes of data. Data warehouses therefore build a large number of materialized views to increase the system performance. Which views to materialized is an important factor on the view maintenance cost as well as the query performance. The goal of materialized view selection problem is to select an optimal set of views that minimizes total query response time in addition to the view maintenance cost. In this paper, we present an efficient solution for the materialized view selection problem. Although the optimal selection of materialized views is NP-hard problem, we developed a feasible solution by utilizing the characteristics of relational operators such as join, selection, and grouping.

Efficient Creation of Data Cube Using Hash Table in Data Warehouse (데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법)

  • Kim Hyungsun;You Byeongseob;Lee JaeDong;Bae Haeyoung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.211-213
    • /
    • 2005
  • 데이터 웨어하우스는 축적된 대량의 데이터를 분석하여 의사결정을 지원하는 시스템이다. 의사결정을 위한 대량의 데이터 분석은 많은 비용을 요구하므로, 질의 처리 성능을 높이고 의사 결정자에게 빠른 응답을 제공하는 효율적인 데이터 큐브 생성 기법이 연구되었다. 기존 기법으로는 Multiway Array 기법과 H-Cubing 기법이 있다. Multiway Array 기법은 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하는 것으로 데이터의 양이 많아질수록 메모리 사용이 증가한다. H-Cubing 기법은 Hyper-Tree를 기반으로 튜플을 트리로 구축하므로 모든 튜플을 트리로 구축해야 하는 비용이 증가한다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법을 제안한다. 제안 기법은 데이터 큐브 생성 시 필드 해쉬 테이블과 레코드 해쉬 테이블을 사용한다. 필드 해쉬 테이블은 저장될 레코드 순서 계산을 위하여 각 필드에 대해 레벨 값을 해쉬 테이블로 관리한다. 레코드 해쉬 테이블은 데이터 큐브 테이블에 저장될 레코드의 순서와 데이터 큐브 테이블에 저장하기 위한 임시 레코드의 위치를 관리한다. 필드 해쉬 테이블을 이용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장함으로서 데이터 큐브의 생성속도가 향상된다. 또한 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 따라서 해쉬 테이블의 사용으로 데이터의 빠른 검색과 데이터 큐브 생성 요청에 빠른 응답이 가능하다.

  • PDF

OLAP System and Performance Evaluation for Analyzing Web Log Data (웹 로그 분석을 위한 OLAP 시스템 및 성능 평가)

  • 김지현;용환승
    • Journal of Korea Multimedia Society
    • /
    • v.6 no.5
    • /
    • pp.909-920
    • /
    • 2003
  • Nowadays, IT for CRM has been growing and developed rapidly. Typical techniques are statistical analysis tools, on-line multidimensional analytical processing (OLAP) tools, and data mining algorithms (such neural networks, decision trees, and association rules). Among customer data, web log data is very important and to use these data efficiently, applying OLAP technology to analyze multi-dimensionally. To make OLAP cube, we have to precalculate multidimensional summary results in order to get fast response. But as the number of dimensions and sparse cells increases, data explosion occurs seriously and the performance of OLAP decreases. In this paper, we presented why the web log data sparsity occurs and then what kinds of sparsity patterns generate in the two and t.he three dimensions for OLAP. Based on this research, we set up the multidimensional data models and query models for benchmark with each sparsity patterns. Finally, we evaluated the performance of three OLAP systems (MS SQL 2000 Analysis Service, Oracle Express and C-MOLAP).

  • PDF

Development of a Wire and Wireless Server Based on the Wireless Internet (무선인터넷기반의 유.무선통합서버 개발)

  • Kim, Sang-Il;Kang, Min-Goo;Hong, Sung-Chan;Song, Kyan-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1443-1446
    • /
    • 2001
  • 본 논문에서는 5개 이동통신 사업자 식별을 위한 사용자 에이전트와 개인휴대전화를 이용한 유 무선인터넷 통합서버에 의해 각 이동통신사업자를 경유한 유선 포털사이트 또는 특정 사이트(URL 접속)에 직접 접속하여 WAP 또는 ME를 동시에 지원할 수 있는 NT 또는 LINUX 통합서버를 구축한다. 이로서 휴대전화를 이용한 입학관리시스템, 휴대전화를 이용한 만성질환자의 원격 진료시스템, 휴대전화를 이용한 방송 순위집계 시스템과 사용자 참여방법, 시청률 및 여론조사, 무선성경 검색 등의 다양한 컨텐츠의 개발이 용이하고, LINUX/UNIX, NT 서버구축이 단순함으로서 이동전화의 장점인 휴대성으로 시간과 공간의 제약을 벗어나 다양한 무선 인터넷 검색이 가능해 질 것이다.

  • PDF

Data Mining Technology for Application in Humanistic Computing (인문전산학 활용을 위한 데이터마이닝기법)

  • Kwak, Ho-Hyung;Bang, Hye-Ja
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.593-596
    • /
    • 2005
  • 데이터마이닝은 대량의 실제 데이터로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 정보를 추출하는 작업으로, 본 논문은 최근 인문학 정보 자료가 전산화되고 있는 가운데 대량의 정보와 특정 체계를 갖춘 ‘조선왕조실록’ 전산자료를 분석하고 기존의 단순한 정보 검색이 아닌 데이터마이닝 기법을 적용한 상세하고 예측가능 한 정보자료 추출법을 제시한다. 먼저 텍스트화 되어 있는 컨텐츠를 형태소분석기법을 사용하여 색인어를 추출하고 집계를 낸다. 질의어와 유관한 색인어의 군집정도와 출현시점을 분석하는데, 사용된 마이닝 기법은 연관규칙분석과 클러스터링 분석기법이다. 최종 결과치는 기존의 인문학연구 결과물과 비교하여 그 정확도를 분석해 보인다.

  • PDF

A Storage Scheme of Health Data Stream for Multidimensional Analysis (건강 스트림 데이터의 다차원적 분석을 위한 저장 구조)

  • Shin, Hea-Won;Lim, Yoon-Sun;Kim, Myung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.81-84
    • /
    • 2005
  • 유비쿼터스 의료 기술이 본격화되면서 센서 네트워크를 통해 환자의 건강 관련 데이터 스트림을 수집하여 위험상황을 탐지하고 지속적인 건강 상태를 모니터링할 수 있게 되었다. 그러나 방대한 양의 스트림 데이터로부터 의미 있는 데이터를 효과적으로 찾아내기 위해서는 실시간으로 데이터의 갱신과 집계 연산이 가능해야 하고 데이터의 압축이 효율적으로 처리 될 수 있는 다차원 저장구조가 필요하다. 기존의 다차원 데이터 분석 도구인 OLAP 큐브 저장구조는 실시간 업데이트가 힘들고, 스트림 데이터 저장 구조인 DSMS들은 다차원 데이터 분석이 용이하지 않다. 이에 본 연구에서는 건강 스트림 데이터의 특징과 질의를 분석하고, 이러한 스트림 데이터에 적합한 저장구조의 요건을 제시하였다. 또한 점진적 갱신이 가능하고, 대용량 데이터를 시간 차원으로 압축, 삭제하기 용이하며 실시간에 분석 데이터 구축이 가능한 저장구조를 제안하고 그 효율성을 보였다.

  • PDF

Multi-Dimensional Record Scan with SIMD Vector Instructions (SIMD 벡터 명령어를 이용한 다차원 레코드 스캔)

  • Cho, Sung-Ryong;Han, Hwan-Soo;Lee, Sang-Won
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.6
    • /
    • pp.732-736
    • /
    • 2010
  • Processing a large amount of data becomes more important than ever. Particularly, the information queries which require multi-dimensional record scan can be efficiently implemented with SIMD instruction sets. In this article, we present a SIMD record scan technique which employs row-based scanning. Our technique is different from existing SIMD techniques for predicate processes and aggregate operations. Those techniques apply SIMD instructions to the attributes in the same column of the database, exploiting the column-based record organization of the in-memory database systems. Whereas, our SIMD technique is useful for multi-dimensional record scanning. As the sizes of registers and the memory become larger, our row-based SIMD scan can have bigger impact on the performance. Moreover, since our technique is orthogonal to the parallelization techniques for multi-core processors, it can be applied to both uni-processors and multi-core processors without too many changes in the software architectures.

Design of Spark SQL Based Framework for Advanced Analytics (Spark SQL 기반 고도 분석 지원 프레임워크 설계)

  • Chung, Jaehwa
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.10
    • /
    • pp.477-482
    • /
    • 2016
  • As being the advanced analytics indispensable on big data for agile decision-making and tactical planning in enterprises, distributed processing platforms, such as Hadoop and Spark which distribute and handle the large volume of data on multiple nodes, receive great attention in the field. In Spark platform stack, Spark SQL unveiled recently to make Spark able to support distributed processing framework based on SQL. However, Spark SQL cannot effectively handle advanced analytics that involves machine learning and graph processing in terms of iterative tasks and task allocations. Motivated by these issues, this paper proposes the design of SQL-based big data optimal processing engine and processing framework to support advanced analytics in Spark environments. Big data optimal processing engines copes with complex SQL queries that involves multiple parameters and join, aggregation and sorting operations in distributed/parallel manner and the proposing framework optimizes machine learning process in terms of relational operations.