• Title/Summary/Keyword: 다차원 데이터 생성

Search Result 105, Processing Time 0.029 seconds

A Study on The Grid File Construction Method based on MapReduce for Multidimensional Data Processing (다차원 데이터 처리를 위한 맵리듀스 기반의 그리드 파일 생성기법에 관한 연구)

  • Jung, Joo-Hyuk;Lee, Sang-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.77-80
    • /
    • 2014
  • 최근 컴퓨터와 인터넷 이용의 확산, 스마트폰을 포함한 스마트 기기의 보급과 소셜 네트워크 이용의 확대, 위치 기반의 다양한 서비스 확대 등으로 처리해야 할 데이터 크기가 증가하는 추세이다. 이에 따라 대용량 데이터에 대한 처리가 큰 이슈로 떠오르고 있다. 그로 인해 대용량 데이터 처리를 위한 큰 규모의 분산 컴퓨팅 환경을 지원하는 프레임워크인 하둡이 개발되었으며 많은 기업에서 이를 활용하고 있는 추세이다. 하지만 대용량 데이터 중 영상, 의료, 센서 데이터 등 다차원 데이터 처리에 관한 연구는 미비한 상태이다. 기존의 다차원 데이터 처리를 위해 다양한 다차원 인덱스가 제안되었지만, 대용량 다차원 데이터 처리는 단일머신에서는 비효율적인 단점이 있다. 본 논문에서는 다차원 인덱스 기법인 그리드 파일을 하둡의 분산 병렬 처리 모델인 맵리듀스를 기반으로 생성하는 기법을 제안한다. 또한 앞서 생성된 그리드 파일을 가지고 맵리듀스를 이용한 질의처리 방법을 제안 한다. 이로 인해 단일머신에서의 그리드 파일 생성을 병렬처리 함으로써 생성 시간을 단축시키고 질의 처리 또한 맵리듀스를 이용하여 병렬 처리 함으로써 질의 시간 단축을 예상한다.

A Study on the MultiMedia Data Mining using Multi-dimensional DataCube (다차원 데이터큐브를 이용한 멀티미디어 데이터 마이닝 연구)

  • 김진옥;황대준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.151-153
    • /
    • 2001
  • 멀티미디어 데이터의 증가와 마이닝 기술의 발전으로 인해 멀티미디어 마이닝에 대한 관심이 증가하고 있다. 본 논문에서는 내용기반의 정보검색 기술과 다차원 다중 데이터큐브 구축기술을 통해 멀터미디어데이타의 마이닝을 구현하는 시스템에 대해 제안한다. 제안 시스템은 멀티미디어 데이터에 내용기반의 정보추출 시스템을 적용하여 성분백터를 추출하고 이를 메타데이타로 한 데이스베이스를 구축한다. 그리고 데이타베이스로부터 지식을 마이닝할 수 있도록 다차원 데이터큐브를 구축하여 빠른 데이터검색과 마이닝결과을 이용자에게 보여주는 모듈로 구성된다. 다차원 데이터큐브는 다중 어레이 구조로써 다차원 데이터를 저장하고, 저장된 여러 데이터 레벨 정보에서 가장 중요한 주제를 통합 생성하여 효율적으로 처리하므로 멀티미디어 데이터를 마이닝하는데 효과적인 방법이다. 또만 다차원데이타큐브를 다중으로 생성하는 방법은 데이터 마이닝 속도를 높이는데 효율적이다.

  • PDF

XML2Star Algorithm Creating Star Schema from Source Data in XML (XML 소스 데이터로부터 스타 스키마를 생성하기 위한 XML2Star 알고리즘)

  • 최은하;김진호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.190-192
    • /
    • 2002
  • 데이터 웨어하우스는 기업의 의사 결정을 지원하기 위해 기업의 운영 데이터베이스로부터 추출한 데이터의 집합으로써 OLAP 분석에 이용된다. OLAP은 데이터에 대한 다양한 분석을 위해 이들 데이터를 다차원 데이터 모델로 표현하고 이를 활용하여 복잡한 질의 처리 및 다차원 데이터 분석에 이용한다. 이러한 OLAP의 다차원 데이터를 관계형 데이터베이스에서 표현하기 위해 스타 스키마가 널리 사용된다. 지금까지의 데이터 웨어하우스는 일반적으로 ER 도형으로 설계된 소스 데이터로부터 스타 스키마를 설계하고 구축하였다. 하지만, 최근 인터넷의 급성장으로 인해 차세대 웹 문서의 표준인 XML을 통한 인터넷 상의 문서 전송 및 정보 교환이 활발해 지고 있으며, XML 문서에 대한 다차원적인 분석이 요구됨에 따라 데이터 웨어하우스는 XML 문서로부터의 스타 스키마 설계 및 저장이 필요하게 되었다. 따라서 본 논문에서는 XML DTD로부터 애트리뷰트 트리를 생성하여 스타 스키마를 설계하고 이 DTD를 따르는 XML 문서에서 스타 스키마의 인스턴스를 추출하여 관계형 데이터베이스에 저장하기 위한 XML2Star 알고리즘을 개발하였다. 이것을 통해 기업 및 사용자는 OLAP에서 XML 기반의 스타 스키마를 이용한 다차원적인 분석이 가능하게 된다.

  • PDF

An Index Structure for Efficiently Handling Dynamic User Preferences and Multidimensional Data (다차원 데이터 및 동적 이용자 선호도를 위한 색인 구조의 연구)

  • Choi, Jong-Hyeok;Yoo, Kwan-Hee;Nasridinov, Aziz
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.7 no.7
    • /
    • pp.925-934
    • /
    • 2017
  • R-tree is index structure which is frequently used for handling spatial data. However, if the number of dimensions increases, or if only partial dimensions are used for searching the certain data according to user preference, the time for indexing is greatly increased and the efficiency of the generated R-tree is greatly reduced. Hence, it is not suitable for the multidimensional data, where dimensions are continuously increasing. In this paper, we propose a multidimensional hash index, a new multidimensional index structure based on a hash index. The multidimensional hash index classifies data into buckets of euclidean space through a hash function, and then, when an actual search is requested, generates a hash search tree for effective searching. The generated hash search tree is able to handle user preferences in selected dimensional space. Experimental results show that the proposed method has better indexing performance than R-tree, while maintaining the similar search performance.

Korea Electric Power Research Institute, Ewha Womans University (OLAP시스템에서 희박 데이터의 패턴 분류 및 성능 평가)

  • 강주영;이봉재;송재주;신진호;용환승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.178-180
    • /
    • 2004
  • OLAP(On-Line Analytical Processing)은 데이터 웨어하우스 내의 방대한 양의 데이터에 대해 사용자와의 상호 작용이 가능하도록 질의에 대하여 빠른 응답성능을 보장해야 한다. 이를 위해 OLAP 시스템은 데이터에 대한 다량의 다차원 집계 연산을 수행해야 하기 때문에, 일반적으로 사전 연산 결과를 저장하여 직접적인 집계 연산을 줄임으로써 응답 성능을 놓이는 방법을 사용하고 있다 OLAP 다차원 데이터의 희박성은 이러한 사전 연산 시 데이터 폭발 현상을 일으켜 도리어 성능을 저하시키는 요인으로 작용할 수 있다. 본 논문에서는 데이터의 희박성과 성능 문제에 대해 고찰하고 OLAP 응용에서 발생할 수 있는 다차원 데이터의 희박성 패턴에 대해 정의하였다. 또한 정의된 패턴에 따라 희박 데이터를 생성하는 데이터 생성기를 구현하고 이를 이용하여 생성된 데이터를 기반으로 MS SQL Server Analysis Services와 Pilot DSS의 두 OLAP 제품의 성능을 평가하고 결과를 비교하였다.

  • PDF

Algorithm Generating Item Response Data Based on Multidimensional Item Response Theory (다차원 문항반응이론에 기반한 문항 응답 데이터 생성 알고리즘)

  • Kim, ByoungWook;Lee, WonGyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.526-528
    • /
    • 2014
  • 본 논문은 다차원 문항반응이론 모델에 기반하여 시뮬레이션을 위한 피험자들의 문항 응답 데이터를 생성하는 알고리즘을 개발하는 것이 목적으로 하였다. 본 알고리즘은 시험지를 구성하고 있는 문항들의 모수를 읽고, 각각의 차원에 대해 피험자들의 능력 수준을 나타내는 정규 분포 확률 변수를 생성한다. 본 알고리즘은 다차원 문항반응이론 모델에 기반하여 피험자들이 각 문항에 대해 정답으로 응답할 확률을 계산한다. 피험자들의 문항 응답을 결정하는 균일 분포 난수와 비교한다. 만약 확률이 난수보다 크면 피험자는 올바른 답을 한 것으로 보고 그렇지 않을 경우 틀리게 답할 것으로 한다. 본 프로그램은 피험자 수, 문항 수를 조절할 수 있다. 본 알고리즘을 통해 교육 측정 분야에서 다차원 문항반응 이론을 이용하여 학습자들의 문항 응답 데이터를 이용한 시뮬레이션 연구에 기여할 수 있을 것으로 기대한다.

Data Cube Generation Method Using Hash Table in Spatial Data Warehouse (공간 데이터 웨어하우스에서 해쉬 테이블을 이용한 데이터큐브의 생성 기법)

  • Li, Yan;Kim, Hyung-Sun;You, Byeong-Seob;Lee, Jae-Dong;Bae, Hae-Young
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.11
    • /
    • pp.1381-1394
    • /
    • 2006
  • Generation methods of data cube have been studied for many years in data warehouse which supports decision making using stored data. There are two previous studies, one is multi-way array algorithm and the other is H-cubing algorithm which is based on the hyper-tree. The multi-way array algorithm stores all aggregation data in arrays, so if the base data is increased, the size of memory is also grow. The H-cubing algorithm which is based on the hyper-tree stores all tuples in one tree so the construction cost is increased. In this paper, we present an efficient data cube generation method based on hash table using weight mapping table and record hash table. Because the proposed method uses a hash table, the generation cost of data cube is decreased and the memory usage is also decreased. In the performance study, we shows that the proposed method provides faster search operation time and make data cube generation operate more efficiently.

  • PDF

Efficient Creation of Data Cube Using Hash Table in Data Warehouse (데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법)

  • Kim Hyungsun;You Byeongseob;Lee JaeDong;Bae Haeyoung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.211-213
    • /
    • 2005
  • 데이터 웨어하우스는 축적된 대량의 데이터를 분석하여 의사결정을 지원하는 시스템이다. 의사결정을 위한 대량의 데이터 분석은 많은 비용을 요구하므로, 질의 처리 성능을 높이고 의사 결정자에게 빠른 응답을 제공하는 효율적인 데이터 큐브 생성 기법이 연구되었다. 기존 기법으로는 Multiway Array 기법과 H-Cubing 기법이 있다. Multiway Array 기법은 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하는 것으로 데이터의 양이 많아질수록 메모리 사용이 증가한다. H-Cubing 기법은 Hyper-Tree를 기반으로 튜플을 트리로 구축하므로 모든 튜플을 트리로 구축해야 하는 비용이 증가한다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법을 제안한다. 제안 기법은 데이터 큐브 생성 시 필드 해쉬 테이블과 레코드 해쉬 테이블을 사용한다. 필드 해쉬 테이블은 저장될 레코드 순서 계산을 위하여 각 필드에 대해 레벨 값을 해쉬 테이블로 관리한다. 레코드 해쉬 테이블은 데이터 큐브 테이블에 저장될 레코드의 순서와 데이터 큐브 테이블에 저장하기 위한 임시 레코드의 위치를 관리한다. 필드 해쉬 테이블을 이용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장함으로서 데이터 큐브의 생성속도가 향상된다. 또한 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 따라서 해쉬 테이블의 사용으로 데이터의 빠른 검색과 데이터 큐브 생성 요청에 빠른 응답이 가능하다.

  • PDF

A Bitmap Index for Multi-Dimensional Data Analysis (다차원 데이터 분석을 위한 비트맵 인덱스)

  • Im, Yoon-Sun;Park, Young-Sun;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.298-300
    • /
    • 2002
  • 다차원 데이터를 배열에 저장하는 Multidimensional OLAP (MOLAP) 시스템은 배열내의 위치 정보를 통해 데이터를 신속하게 엑세스할 수 있는 장점을 갖는다. 그러나 실생활의 다차원 데이터는 대체로 희박하여 저장될 때 압축되고, 데이터가 검색될 때는 원래의 위치 정보를 찾기 위해 인덱스를 필요로 하게 된다. 다양한 종류의 다차원 인덱스가 테이블 형태의 데이터를 대상으로 개발되어 있으나, 이들은 데이터의 삽입과 삭제에 유연하게 대처할 수 있도록 하기 위해서 인덱스 공간과 데이터 검색 시간에 약간의 낭비를 초래한다. 본 연구에서는 OLAP 데이터가 주기적으로 갱신되며, 분석에 필요한 집계 데이터도 점진적으로 갱신되기보다 실제로는 새로 생성되고 있다는 점을 고려하여, 읽기 전용 MOLAP 데이터를 위한 인덱스 구조를 제안한다. 데이터는 청크들로 나뉜 후 압축 저장되며, 각 청크는 위치 정보를 유지하면서 비트로 표현되어 인덱스에 저장되도록 하였다. 제안한 비트맵 인덱스는 높은 압축률을 보이며, 범위 질의(range query)를 포함한 OLAP 주요 연산들 처리에 특히 효율적이다.

  • PDF

Learning Multidimensional Sequential Patterns Using Hellinger Entropy Function (Hellinger 엔트로피를 이용한 다차원 연속패턴의 생성방법)

  • Lee, Chang-Hwan
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.477-484
    • /
    • 2004
  • The technique of sequential pattern mining means generating a set of inter-transaction patterns residing in time-dependent data. This paper proposes a new method for generating sequential patterns with the use of Hellinger measure. While the current methods are generating single dimensional sequential patterns within a single attribute, the proposed method is able to detect multi-dimensional patterns among different attributes. A number of heuristics, based on the characteristics of Hellinger measure, are proposed to reduce the computational complexity of the sequential pattern systems. Some experimental results are presented.