• Title/Summary/Keyword: 데이터웨어하우스

Search Result 294, Processing Time 0.024 seconds

The solution of integrating Database & modeling Data Warehouse for Local Governments (지방자치단체의 통합 데이터베이스 및 데이터웨어하우스 구축 모델링)

  • Seong, Dong-Hyeon;Lee, Eun-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1449-1452
    • /
    • 2003
  • 국내에서 지방자치단체의 정보화 추진은 정보화의 변화 추세에 따라 업무별로 자료를 구축하여 활용되고 있으나 통합적으로 연결된 형태의 자료구축이 이루어지지 않고 있어 현 정보시스템의 활용 효율을 높이고 의사결정지원을 위한 정보시스템의 구축이 필요하다. 이에 지방자치단체에서 업무적으로 연결된 통합 DB(Database)와 DW(Data Warehouse)를 구축하여 업무 편리성을 높이고 의사결정에 활용할 수 있는 모델을 제시한다.

  • PDF

Performance Evaluation on Materialized View Management using Differential Files (부가파일을 이용한 실체 뷰 관리 기법의 성능평가)

  • 정웅교;김진호;이우기
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.268-270
    • /
    • 2001
  • 데이터웨어하우스내에서 실체뷰는 소스 데이터에서 갱신이 발생하였을 경우 질의에 정확한 결과를 제공하기 위하여 릴레이션의 변경사항과 동일하게 갱신되어야 한다. 이 뷰를 갱신할 때 전체 릴레이션이 아닌 갱신된 부분만 이용하여 점진적으로 뷰를 관리하는 것이 효과적이다. 뷰의 점진적인 갱신 방법중에서 부가화일을 이용한 방법은 부가적으로 유지하는 정보의 양이 적고 뷰 관리 비용이 적게 든다는 장점이 있다. 이 논문에서는 이 방법에 의해 뷰를 관리할 때의성능을 평가하기 위하여 이 방법의 비용 모델을 분석적으로 제시하였으며, 이 모델을 기반으로 성능을 비교, 분석하여 부가 파일을 이용한 방법이 다른 기존의 방법보다 성능이 우수함을 보였다.

  • PDF

A Cache Manager for Enhancing the Performance of Query Evaluation in Data Warehousing Environment (데이타웨어하우스 환경에서의 질의 처리 성능 향상을 위한 캐시 관리자)

  • 심준호
    • Journal of KIISE:Databases
    • /
    • v.30 no.4
    • /
    • pp.408-419
    • /
    • 2003
  • Data warehouses are usually dedicated to the processing of quires issued by decision support system(DSS). The response time of DSS queries is typically several orders of magnitude higher than the one of OLTP queries. Since DSS queries are often submitted interactively, techniques for reducing their response time are important. The caching of query results is one such technique particularly well suited to the DSS environment. In this paper, we present a cache manager for such an environment. Specifically, we define a canonical form of query. The cache manager looks up a query based on the exact query match or using a suggested query split process if the query is found is non-canonical form or in canonical form, respectively. It dynamically maintains the cache content by employing a profit function which reflects in an integrated manner the query execution cost, the size of query result, the reference rate, the maintenance cost of each result due to updates of their base tables, and the frequency of such updates. We performed the experimental evaluation and it positively shows the performance benefit of our cache manager.

Search Performance Improvement of Column-oriented Flash Storages using Segmented Compression Index (분할된 압축 인덱스를 이용한 컬럼-지향 플래시 스토리지의 검색 성능 개선)

  • Byun, Siwoo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.14 no.1
    • /
    • pp.393-401
    • /
    • 2013
  • Most traditional databases exploit record-oriented storage model where the attributes of a record are placed contiguously in hard disk to achieve high performance writes. However, for search-mostly datawarehouse systems, column-oriented storage has become a proper model because of its superior read performance. Today, flash memory is largely recognized as the preferred storage media for high-speed database systems. In this paper, we introduce fast column-oriented database model and then propose a new column-aware index management scheme for the high-speed column-oriented datawarehouse system. Our index management scheme which is based on enhanced $B^+$-Tree achieves high search performance by embedded flash index and unused space compression in internal and leaf nodes. Based on the results of the performance evaluation, we conclude that our index management scheme outperforms the traditional scheme in the respect of the search throughput and response time.

Service Level Evaluation Through Measurement Indicators for Public Open Data (공공데이터 개방 평가지표 개발을 통한 현황분석 및 가시화)

  • Kim, Ji-Hye;Cho, Sang-Woo;Lee, Kyung-hee;Cho, Wan-Sup
    • The Journal of Bigdata
    • /
    • v.1 no.1
    • /
    • pp.53-60
    • /
    • 2016
  • Data of central government and local government was collected automatically from the public data portal. And we did the multidimensional analysis based on various perspective like file format and present condition of public data. To complete this work, we constructed Data Warehouse based on the other countries' evaluation index case. Finally, the result from service level evaluation by using multidimensional analysis was used to display each area, establishment, fields.

  • PDF

Korea Electric Power Research Institute, Ewha Womans University (OLAP시스템에서 희박 데이터의 패턴 분류 및 성능 평가)

  • 강주영;이봉재;송재주;신진호;용환승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.178-180
    • /
    • 2004
  • OLAP(On-Line Analytical Processing)은 데이터 웨어하우스 내의 방대한 양의 데이터에 대해 사용자와의 상호 작용이 가능하도록 질의에 대하여 빠른 응답성능을 보장해야 한다. 이를 위해 OLAP 시스템은 데이터에 대한 다량의 다차원 집계 연산을 수행해야 하기 때문에, 일반적으로 사전 연산 결과를 저장하여 직접적인 집계 연산을 줄임으로써 응답 성능을 놓이는 방법을 사용하고 있다 OLAP 다차원 데이터의 희박성은 이러한 사전 연산 시 데이터 폭발 현상을 일으켜 도리어 성능을 저하시키는 요인으로 작용할 수 있다. 본 논문에서는 데이터의 희박성과 성능 문제에 대해 고찰하고 OLAP 응용에서 발생할 수 있는 다차원 데이터의 희박성 패턴에 대해 정의하였다. 또한 정의된 패턴에 따라 희박 데이터를 생성하는 데이터 생성기를 구현하고 이를 이용하여 생성된 데이터를 기반으로 MS SQL Server Analysis Services와 Pilot DSS의 두 OLAP 제품의 성능을 평가하고 결과를 비교하였다.

  • PDF

A Naive Bayesian Learning of Clustering for Medical Datamining (의료데이터마이닝에서 클러스터링 기반의 나이브 베이지안 학습)

  • Han, Song-Yi;Jung, Young-Gyu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.410-413
    • /
    • 2010
  • 병원정보시스템의 전세계적인 보급과 데이터웨어하우스의 도입으로 인해서 병원내의 의료데이터가 기하 급수적인 증가추세를 보이고 있다. 환자에 대한 임상적인 특징을 다수 포함하고 있는 의료데이터는 유용한 임상지식의 보고로서 그 가치가 매우 유용하다. 따라서 데이터에 숨겨진 지식을 발견하여 구조화시킴으로써 새로운 지식을 창조하는 데이터마이닝은 임상부분에 적합한 기술이라 말할 수 있다. 본 연구에서는 급성염증을 가진 환자들의 의료데이터를 기반으로 특징을 추출하고, 추출된 특징을 바탕으로 병명을 판단하기 위한 학습을 수행한다. 학습 방법은 클러스터링을 이용한 나이브 베이지안으로 진행한다. 기존의 나이브 베이지안 학습은 대량의 데이터를 처리하는데 효과적이며 성능 또한 우수하지만, 속성별 독립을 가정하기 때문에 의료데이터를 분석에는 잘 사용되지 않는다. 따라서 높은 신뢰도를 구현하기 위해 나이브 베이지안 학습 전에 클러스터링을 선행하여, 기존 데이터에 클러스터링 클래스를 추가한다. 이를 통해 급성염증의 증상을 보이는 환자데이터를 바탕으로 자동적으로 방광염과 결석으로 인한 신장염을 효과적으로 진단해낸다.

  • PDF

A Study of Data Mining Application in Information Management Field (정보관리분야의 데이터 마이닝 기법 적용에 대한 연구)

  • Choi, Hee-Yoon
    • Journal of Information Management
    • /
    • v.31 no.3
    • /
    • pp.1-20
    • /
    • 2000
  • A variety of trials selecting necessary and valuable information from rapidly increasing volume of data are made, and as one of them, data mining methods is an interest. This methodology is increasingly appzied to information management field which consists of efficient processing and systemizing increasing digital documents for user service. This article analyzes theoletical background and empirical case studies of data mining, and predicts the possibility of its application to information management area.

  • PDF

A MOLAP Cube Storage Scheme for Fast Query Processing (고속 질의처리를 위한 MOLAP 큐브 저장구조)

  • Lim, Yoon-Sun;Yang, Hye-Yeong;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.127-129
    • /
    • 2001
  • 데이터 웨어하우스의 데이터를 다차원적으로 분석하여 그 결과를 온라인으로 사용자에게 제공하는 것을 OLAP 이라고 하고, 이 때 데이터를 큐브라고 불리는 배열에 저장해 두고 데이터를 위치정보를 통해 엑세스하는 시스템을 MOLAP 시스템이라고 한다. OLAP 연산 도중에 디스크로부터 읽어야 하는 데이터의 양을 감소시키기 위해 큐브를 압축된 청크 단위로 저장하는 방안이 이미 제안되고 있으나, 큐브의 데이터 분포, 청크와 디스크 블록의 크기 관계 등을 고려하여 디스크 엑세스를 줄이는 방안에 관한 연구는 아직 소개된 바가 없다. 본 연구에서는 청크들을 밀도를 기준으로하여 군집화 하고, 큐브내의 인접 청크들을 가능한 한 동일한 디스크 블록에 속하게 함으로써, OLAP의 주요 연산인 슬라이스, 다이스와 같은 연산의 속도를 향상시키는 방안을 제시한다. 제안한 저장구조는 실험을 통해 그 효율성을 증명하였다.

  • PDF

Table Clustering Using Inter-schema Association (스키마간 연관성을 이용한 테이블 군집화 기법)

  • 조순이;이도헌
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.85-87
    • /
    • 2001
  • 업무 데이터 분석을 통한 종합적인 의사결정을 지원할 수 있도록 데이터웨어하우스, OLAP, 데이터마이닝을 적용하려는 기업의 요구가 많아졌다. 그래서 기초 데이터의 이해, 선별, 수집, 가공, 정제가 매우 중요한 과정이나 테이블명 및 속성명이 표준화되어있지 않고 코드나 시스템 카탈로그와 같은 기본 데이터는 부정확하고 부족하다. 본 논문에서는 거의 스키마 정보에만 의존하여 테이블의 의미적 연관성에 근거한 유사한 특성을 가진 집단끼리 분류하는 대략적인 군집분석 방법을 제안한다. 질의 수행시 사용자가 설정한 임계 거리에 ㄸ라 관련된 군집만 검색함으로써 신속한 응답시간을 보장하고, 분석시점에서 다양한 질의에 유연하게 대처할 수 있다는 장점이 있다. 또한 실제 데이터에 본 연구를 적용하여 산출한 군집결과와 사람이 매뉴얼하게 그룹핑한 군집결과와 비교한다.

  • PDF