• Title/Summary/Keyword: 다차원 데이터분석

Search Result 300, Processing Time 0.024 seconds

Translation of Star Schema into Entity-Relationship Diagrams for Data Warehouse Conceptual Design (데이터 웨어하우스의 개념적 설계를 위한 스타 스키마에서 ER 도형으로의 변환 기법)

  • 최은하;김진호;옥수호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.142-144
    • /
    • 2002
  • 데이터 웨어하우스는 기업의 의사 결정을 지원하기 위해 기업의 운영 데이터베이스로부터 추출한 데이터의 집합으로써 OLAP 분석에 이용된다. OLAP은 이들 데이터를 다양하게 분석할 수 있도록 다차원 데이터로 표현하고 이를 활용하여 복잡한 분석 질의 처리 및 다차원 데이터 분석에 활용한다. 이러한 OLAP의 다차원 데이터를 관계형 데이터베이스에서 표현하기 위해 스타 스키마가 널리 사용된다. 또한 다차원 데이터와 데이터 웨어하우스는 방대한 분량를 갖는 전체 기업의 데이터를 표현하고 있어 이를 설계하는 것이 매우 복잡하고 많은 노력이 소요된다. 따라서 이를 설계하기 위한 체계적인 설계 방법론이 필요하다. 데이터 웨어하우스의 원천 데이터가 되는 운영 데이터베이스는 현재 ER 도형을 이용하여 개념적인 방법으로 널리 설계되고 있다. 따라서 이 논문에서는 ER 도형으로 설계된 운영 데이터베이스로부터 데이터 웨어하우스를 설계하는 개념적인 방법론을 제시한다. 이에 따라 OLAP 분석을 위해 사용할 수 있는 다양한 유형의 스타 스키마에 대해 ER 도형으로 표현/변환하는 방법을 제시한다. 이를 통해 자신이 원하는 다차원 데이터를 얻기 위해 유지해야 할 데이터 웨어하우스를 ER 도형을 이용하여 개념적으로 편리하게 설계하는 방법/지침을 제공하며, 나아가 해당 유형의 스타 스키마가 갖는 의미를 개념적으로 쉽게 전달할 수 있도록 하였다.

  • PDF

XML2Star Algorithm Creating Star Schema from Source Data in XML (XML 소스 데이터로부터 스타 스키마를 생성하기 위한 XML2Star 알고리즘)

  • 최은하;김진호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.190-192
    • /
    • 2002
  • 데이터 웨어하우스는 기업의 의사 결정을 지원하기 위해 기업의 운영 데이터베이스로부터 추출한 데이터의 집합으로써 OLAP 분석에 이용된다. OLAP은 데이터에 대한 다양한 분석을 위해 이들 데이터를 다차원 데이터 모델로 표현하고 이를 활용하여 복잡한 질의 처리 및 다차원 데이터 분석에 이용한다. 이러한 OLAP의 다차원 데이터를 관계형 데이터베이스에서 표현하기 위해 스타 스키마가 널리 사용된다. 지금까지의 데이터 웨어하우스는 일반적으로 ER 도형으로 설계된 소스 데이터로부터 스타 스키마를 설계하고 구축하였다. 하지만, 최근 인터넷의 급성장으로 인해 차세대 웹 문서의 표준인 XML을 통한 인터넷 상의 문서 전송 및 정보 교환이 활발해 지고 있으며, XML 문서에 대한 다차원적인 분석이 요구됨에 따라 데이터 웨어하우스는 XML 문서로부터의 스타 스키마 설계 및 저장이 필요하게 되었다. 따라서 본 논문에서는 XML DTD로부터 애트리뷰트 트리를 생성하여 스타 스키마를 설계하고 이 DTD를 따르는 XML 문서에서 스타 스키마의 인스턴스를 추출하여 관계형 데이터베이스에 저장하기 위한 XML2Star 알고리즘을 개발하였다. 이것을 통해 기업 및 사용자는 OLAP에서 XML 기반의 스타 스키마를 이용한 다차원적인 분석이 가능하게 된다.

  • PDF

A Storage Scheme of Health Data Stream for Multidimensional Analysis (건강 스트림 데이터의 다차원적 분석을 위한 저장 구조)

  • Shin, Hea-Won;Lim, Yoon-Sun;Kim, Myung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.81-84
    • /
    • 2005
  • 유비쿼터스 의료 기술이 본격화되면서 센서 네트워크를 통해 환자의 건강 관련 데이터 스트림을 수집하여 위험상황을 탐지하고 지속적인 건강 상태를 모니터링할 수 있게 되었다. 그러나 방대한 양의 스트림 데이터로부터 의미 있는 데이터를 효과적으로 찾아내기 위해서는 실시간으로 데이터의 갱신과 집계 연산이 가능해야 하고 데이터의 압축이 효율적으로 처리 될 수 있는 다차원 저장구조가 필요하다. 기존의 다차원 데이터 분석 도구인 OLAP 큐브 저장구조는 실시간 업데이트가 힘들고, 스트림 데이터 저장 구조인 DSMS들은 다차원 데이터 분석이 용이하지 않다. 이에 본 연구에서는 건강 스트림 데이터의 특징과 질의를 분석하고, 이러한 스트림 데이터에 적합한 저장구조의 요건을 제시하였다. 또한 점진적 갱신이 가능하고, 대용량 데이터를 시간 차원으로 압축, 삭제하기 용이하며 실시간에 분석 데이터 구축이 가능한 저장구조를 제안하고 그 효율성을 보였다.

  • PDF

Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes (다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석)

  • Kim, Namsoo;Lee, Suan;Jo, Sunhwa;Kim, Jinho
    • Journal of Information Technology and Architecture
    • /
    • v.11 no.1
    • /
    • pp.63-73
    • /
    • 2014
  • As the advance of WWW, unstructured data including texts are taking users' interests more and more. These unstructured data created by WWW users represent users' subjective opinions thus we can get very useful information such as users' personal tastes or perspectives from them if we analyze appropriately. In this paper, we provide various analysis efficiently for unstructured text documents by taking advantage of OLAP (On-Line Analytical Processing) multidimensional cube technology. OLAP cubes have been widely used for the multidimensional analysis for structured data such as simple alphabetic and numberic data but they didn't have used for unstructured data consisting of long texts. In order to provide multidimensional analysis for unstructured text data, however, Text Cube model has been proposed precently. It incorporates term frequency and inverted index as measurements to search and analyze text databases which play key roles in information retrieval. The primary goal of this paper is to apply this text cube model to a real data set from in an Internet site sharing hotel information and to provide multidimensional analysis for users' reviews on hotels written in texts. To achieve this goal, we first build text cubes for the hotel review data. By using the text cubes, we design and implement the system which provides multidimensional keyword search features to search and to analyze review texts on various dimensions. This system will be able to help users to get valuable guest-subjective summary information easily. Furthermore, this paper evaluats the proposed systems through various experiments and it reveals the effectiveness of the system.

A Study on Synchronization Effect of A Multi-dimensional Event Database for Big Data Information Sharing (빅 데이터 분석정보 공유를 위한 다차원 이벤트 데이터베이스의 동기화 효과 연구)

  • Lee, Choon Y.
    • Journal of Digital Convergence
    • /
    • v.15 no.10
    • /
    • pp.243-251
    • /
    • 2017
  • As external data have become important corporate information resources, there are growing needs to combine them with internal data. This paper proposes an ontology-based scheme to combine external data with multi-dimensional databases, which shall be called multi-dimensional event ontology. In the ontology, external data are represented as events. Event characteristics such as actors, places, times, targets are linked to dimensions of a multi-dimensional database. By mapping event characteristics to database dimensions, external event data are shared via multi-dimensional hierarchies. This paper proposes rules to synchronize information sharing in multi-dimensional event ontology such as upward event information sharing, downward event information sharing and complex event information sharing. These rules are implemented using Protege. This study has a value in suggesting Big Data information sharing processes using an event database framework.

A Bitmap Index for Multi-Dimensional Data Analysis (다차원 데이터 분석을 위한 비트맵 인덱스)

  • Im, Yoon-Sun;Park, Young-Sun;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.298-300
    • /
    • 2002
  • 다차원 데이터를 배열에 저장하는 Multidimensional OLAP (MOLAP) 시스템은 배열내의 위치 정보를 통해 데이터를 신속하게 엑세스할 수 있는 장점을 갖는다. 그러나 실생활의 다차원 데이터는 대체로 희박하여 저장될 때 압축되고, 데이터가 검색될 때는 원래의 위치 정보를 찾기 위해 인덱스를 필요로 하게 된다. 다양한 종류의 다차원 인덱스가 테이블 형태의 데이터를 대상으로 개발되어 있으나, 이들은 데이터의 삽입과 삭제에 유연하게 대처할 수 있도록 하기 위해서 인덱스 공간과 데이터 검색 시간에 약간의 낭비를 초래한다. 본 연구에서는 OLAP 데이터가 주기적으로 갱신되며, 분석에 필요한 집계 데이터도 점진적으로 갱신되기보다 실제로는 새로 생성되고 있다는 점을 고려하여, 읽기 전용 MOLAP 데이터를 위한 인덱스 구조를 제안한다. 데이터는 청크들로 나뉜 후 압축 저장되며, 각 청크는 위치 정보를 유지하면서 비트로 표현되어 인덱스에 저장되도록 하였다. 제안한 비트맵 인덱스는 높은 압축률을 보이며, 범위 질의(range query)를 포함한 OLAP 주요 연산들 처리에 특히 효율적이다.

  • PDF

SQL Extensions for Handling Spreadsheets and PIVOT tables in OLAP Environment (OLAP 환경에서 스프레드시트와 피벗 테이블을 다루기 위한 SQL의 확장)

  • Shin, Sung-Hyun;Kim, Jin-Ho;Moon, Yang-Sae;Kim, Sang-Wook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.21-25
    • /
    • 2008
  • 온라인 분석 처리(On-Line Analytical Processing: OLAP)은 데이터 웨어하우스로부터 다차원 데이터를 분석하거나 의사 결정을 위한 유용한 정보를 제공하고 있다. 데이터 분석을 위해, OLAP에서는 다차원 데이터를 표현한 스프레드시트(spreadsheet) 또는 피벗 테이블(PIVOT table)을 널리 사용하고 있다. 스프레드시트와 피벗 테이블은 서로 유사한 형태로써 분석의 기준이 되는 애트리뷰트들이 많은 구조이다. 사용자들은 흔히 사용되고 있는 SQL 구문을 이용하여 스프레드시트 또는 피벗 테이블에서 손쉬운 데이터 분석을 요구한다. 그러나, RDBMS에서 제공하는 SQL 구문의 사용으로, 이는 다차원 데이터를 효과적으로 분석할 수 없다. 그 이유는 SQL 구문이 다양한 데이터 분석의 목적으로 사용되거나, 요약된 집계 정보를 도출하는 데 한계가 있기 때문이다. 따라서, 본 연구에서는 SQL 구문을 확장하여 다차원 데이터를 표현한 스프레드시트를 손쉽게 조작하고, 요약된 집계를 계산하는 셀(cell) 구문을 제안한다. 이 방법은 스프레드시트와 피벗 테이블에서 행과 열이 교차하는 좌표(coordinate)를 이용하여, 특정 셀의 조작 및 선택한 부분/전체 영역에 대한 집계 정보를 계산하는 방법이다. 결과적으로, RDBMS에서 사용되는 SQL 구문이 친숙한 사용자들이 제안한 셀 구문을 이용하면, 다양한 관점에 따라 손쉽게 스프레드시트와 피벗 테이블을 다룰 수 있을 것으로 사료된다.

  • PDF

GPS 데이터를 이용한 이동객체의 이동패턴 분석

  • Jo, Jae-Hui;Seo, Il-Jeong;Lee, Deok-Gyu;Ha, Byeong-Guk
    • 한국경영정보학회:학술대회논문집
    • /
    • 2007.06a
    • /
    • pp.603-607
    • /
    • 2007
  • GPS 수신기의 지속적인 가격 하락과 GPS 기반의 다양한 위치기반서비스 개발로 인하여 개인 휴대용 GPS 수신기의 보급이 확대되고 있다. 이동객체의 위치 및 시간 정보를 포함하고 있는 GPS 데이터를 분석하면 이전에는 불가능했던 이동패턴을 파악하고 이해하는 것이 가능해진다. 이동객체 데이터의 저장과 분석에 관한 연구들이 진행되고 있지만, 이동객체의 속성에 따른 다차원적 이동패턴 분석에 관한 연구는 찾아보기 힘들다. 본 연구는 개인 휴대용 GPS 수신기를 통해 수집된 이동 데이터와 이동객체의 속성 데이터를 통합하여 이동객체의 시공간적 특성을 다차원적으로 분석할 수 있는 데이터마트를 구현하고 시각적으로 표현하였다. 이러한 과정을 통해 GPS 데이터를 이용한 이동패턴 분석의 유용성과 문제점을 탐색적으로 살펴보았다.

  • PDF

DEhBT:A Multidimensional Data Partitioning Scheme using hB-tree (DEhBT: hB-tree를 이용한 다차원 데이타 분할 기법)

  • Kim, Dong-Yeon;O, Yeong-Bae;Choe, Dong-Hun;Han, Sang-Yeong;Lee, Sang-Gu
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.1
    • /
    • pp.16-24
    • /
    • 1999
  • 본 논문에서는 병렬 DBMS를 사용하는 데이터 웨어하우스의 성능을 개선하기 위한 새로운 다차원 데이터 분할 기법을 제안한다. 데이터 웨어하우스는 많은 양의 데이터를 저장하는 대용량 데이터베이스이며 분석적인 정보를 얻기 위한 다차원 범위 질의가 대부분을 차지한다. 단일 차원분할 기법으로는 다차원 질의를 효과적으로 처리하기 어렵고 기존의 다차원 분할 기법은 임의의 알 수 없는 분포를 가진 데이터에 대해 균등한 분할을 보장하기 어렵다. 본 논문에서는 hB-tree 구조를 이용하여 균등한 분할을 보장하는 다차원 분할 기법을 제안하고 그 성능을 측정하기 위한 시뮬레이터 결과를 보인다. 시뮬레이션에서 hB-tree 분할 기법은 균등 분포뿐만 아니라 비균등 분포 데이터 집합에 대해서도 균등한 분할을 보인다.

Service Level Evaluation Through Measurement Indicators for Public Open Data (공공데이터 개방 평가지표 개발을 통한 현황분석 및 가시화)

  • Kim, Ji-Hye;Cho, Sang-Woo;Lee, Kyung-hee;Cho, Wan-Sup
    • The Journal of Bigdata
    • /
    • v.1 no.1
    • /
    • pp.53-60
    • /
    • 2016
  • Data of central government and local government was collected automatically from the public data portal. And we did the multidimensional analysis based on various perspective like file format and present condition of public data. To complete this work, we constructed Data Warehouse based on the other countries' evaluation index case. Finally, the result from service level evaluation by using multidimensional analysis was used to display each area, establishment, fields.

  • PDF