Non Duplicated Extract Method of Heterogeneous Data Sources for Efficient Spatial Data Load in Spatial Data Warehouse

공간 데이터웨어하우스에서 효율적인 공간 데이터 적재를 위한 이기종 데이터 소스의 비중복 추출기법

  • Published : 2009.06.30

Abstract

Spatial data warehouses are a system managing manufactured data through ETL step with extracted spatial data from spatial DBMS or various data sources. In load period, duplicated spatial data in the same subject are not useful in extracted spatial data dislike aspatial data and waste the storage space by the feature of spatial data. Also, in case of extracting source data on heterogeneous system, as those have different spatial type and schema, the spatial extract method is required for them. Processing a step matching address about extracted spatial data using a standard Geocoding DB, the exiting methods load formal data set. However, the methods cause the comparison operation of extracted data with Geocoding DB, and according to integrate spatial data by subject it has problems which do not consider duplicated data among heterogeneous spatial DBMS. This paper proposes efficient extracting method to integrate update query extracted from heterogeneous source systems in data warehouse constructer. The method eliminates unnecessary extracting operation cost to choose related update queries like insertion or deletion on queries generated from loading to current point. Also, we eliminate and integrate extracted spatial data using update query in source spatial DBMS. The proposed method can reduce wasting storage space caused by duplicate storage and support rapidly analyzing spatial data by loading integrated data per loading point.

공간 데이터웨어하우스는 공간 DBMS 또는 다양한 소스데이터로부터 시간에 따라 추출된 공간데이터를 ETL 과정을 통해 가공된 데이터를 관리하는 시스템이다. 적재 주기 마다 추출된 공간데이터는 비공간 데이터와 달리 같은 주제의 중복된 공간 정보가 유용하지 않으며, 공간 데이터의 특징으로 저장 공간의 낭비가 크다. 또한 이기종간의 시스템에서 소스 데이터를 추출할 경우 서로 다른 공간데이터 타입 및 스키마를 가지고 있어 이를 위한 공간데이터 추출 기법이 요구된다. 기존 기법에서는 기준이 되는 Geocoding DB를 이용하여 추출된 공간데이터에 대한 주소 매칭과정을 수행함으로써, 정형화된 데이터 셋을 적재한다. 하지만 이 기법은 추출 데이터를 매번 Geocoding DB와 비교 연산이 발생하며, 주제별로 공간 데이터를 통합 관리함에 따라 이 기종 공간 DBMS 사이에 중복된 데이터를 고려하지 않는 문제점이 있다. 본 논문에서는 공간 데이터웨어하우스 구축기 내에서 이 기종의 소스 시스템으로부터 추출된 갱신질의 통합을 이용한 효율적 추출 기법을 제안한다. 이는 이 기종의 공간 DBMS로부터 발생한 과거 적재 시점부터 현재까지 발생한 질의 중 삽입이나 삭제 등의 업데이트 관련 질의만을 추출하여 공간데이터의 불필요한 추출 연산 비용을 제거한다. 또한 소스 공간 데이터베이스 관리시스템의 업데이트 질의를 이용하여 추출된 공간 데이터를 주제별로 중복 제거 및 통합 한다. 제안 기법은 데이터 중복 저장에 의한 저장 공간의 낭비를 줄이고, 적재시점 별 통합된 데이터를 적재함으로써 빠른 공간데이터 분석을 지원할 수 있다.

Keywords

References

  1. S. Chaudhuri, U. Dayal, “An Overview of Data Warehousing and OLAP Technology,” Proceedings of ACM International Conference on Management of data, ACM SIGMOD, Vol. 26, No. 1, 1997, pp. 65-74.
  2. W. H. Inmon, “Building the Data Warehouse,” 2nd Ed. John Wiley & Sons. Inc, 1996
  3. E. Sperley, “The EnterpriseData Warehouse: Planning, Building and Implementation,” Prentice Hall PTR, 1999, pp. 88-15.
  4. L. Savary, K. Zeitouni, “Spatial Data Warehouse – A Prototype,” A Proceedings of the EGOV2003, 2003, pp. 335-340.
  5. ESRI, “Spatial Data Warehousing for Hospital Organizations,” An ESRI White Paper, 1998. http://esri.com/library/whitepapers/pdfs/sdwho.pdf
  6. ESRI, “Spatial Data Warehousing,” An ESRI White Paper, 1998. http://www.geoweb.dnv.org/Education/whitepapers/ SpatialWarehousing.pdf
  7. Oracle, “Oracle Spatial,” An Oracle White Paper, 2003. http://www.oracle.com/technology/products/ spatial/pdf/spatial_best_practices. pdf
  8. 전병윤, 이동욱, 유병섭, 배해영, “공간 데이터웨어하우스에서 GML데이터의 효율적인 적재를 위한 데이터 통합기법,” 한국정보처리학회 2006년 춘계학술대회, Vol. 13, No. 1, 2006, pp. 27-30.
  9. 유병섭, 김경배, 이순조, 배해영, “공간 데이터 웨어하우스에서 공간 분석을 위한 공간 집계 연산,” 한국공간정보시스템학회 논문지, Vol. 9, No. 3, 2007, pp. 1-16.
  10. L. Stoimenov, S. Djordjevic, D. Stojanovic, “Integration of GIS Data Sources over the Internet Using Mediator and Wrapper Technology,” Proceedings of the 10th Mediterranean Electrotechnical Conference, Vol. 1, 2000, pp. 334-336.
  11. ESRI, “Spatial Data Standards and GIS Interoperability,” An ESRI White Paper, 2003. http://esri.com/library/whitepapers/pdfs/spatialdata- standards.pdf
  12. M. Howard, O. Dreza, “Combining Heterogeneous Spatial Data From Distributed Sources,” Proceedings of the 11thInternational Symposium on Spatial Data Handling, 2005, pp. 59-70.
  13. A. Simitsis, P. Vassiliadis, T. Sellis, “Optimizing ETL Process in Data Warehouse,” Proc. Of the 21st International Conference on Data Engineering, 2005, pp. 564-575.
  14. C. Squire, “Data extraction and transformation for the data warehouse,” A Proceedings of the ACM SIGMOD Internationalconference on Management of data, 1995, pp. 446-447.
  15. Oracle, “Integrated ETL and Modeling,” An Oracle White Paper, 2003. http://www.oracle.com/technology/prodcts/warehouse/pdf/OWB_WhitePaper.pdf
  16. 박동선, 배해영, “다차원 지리정보시스템을 위한 저장기법 및 분리된 저장구조,” 한국정보처리학회 논문지, Vol. 7, No. 1, 2000, pp 1-11.
  17. 전치수, 이동욱, 유병섭, 이순조, 배해영, “공간 데이터웨어하우스에서 시공간 분석 지원을 위한 비 중복적재기법,” 한국공간정보시스템학회 논문지, Vol. 9, No. 2, 2007, pp. 81-91.
  18. D. Skoutas, A. Simitsis, “Designing ETL processes using semantic web technologies,” Proceedings Of the 9th ACM International workshop on Data warehousing and OLAP, 2006, pp. 67-74.
  19. X. CHEN, Z. CHI, X. CAO, “Applying DP to ETL of Spatial Data Warehouse,” 3rd Inter- national Conference on Machine Learning and Cybernetics, Vol.3, 2004, pp. 1616-1619.
  20. TIGER/Line Files, 2000 Technical Documentatio n, U.S. Bureau of Census, California, accessiblevi a, http://arodate.esri.com/data/tiger2000/tiger_stat e-layer.cfm?stips=06