부분매칭 경로질의를 위한 포스트픽스 공유에 기반한 스트리밍 XML 데이타 필터링 기법

A Filtering Technique of Streaming XML Data based Postfix Sharing for Partial matching Path Queries

  • 박석 (서강대학교 컴퓨터학과) ;
  • 김영수 (삼성전자 정보통신총괄)
  • 발행 : 2006.02.01

초록

센서 네트워크나 유비쿼터스 환경이 보급되면서 최근에는 저장되어 있는 데이타가 아닌 계속적으로 빠르게 지나가는 스트리밍 데이타에 대한 연구가 활발하게 이루어지고 있다. 기존의 Publish-Subscribe 시스템도 인터넷의 발달로 데이타가 실시간으로 빠르게 들어오는 스트리밍 데이터의 형태를 가지게 되면서 스트리밍 데이타 연구에 관심을 가지게 되었고 이 중에서도 웹 환경의 표준으로 많이 사용되는 XML에 관심을 가지게 되었다. Publish-Subscribe 시스템에서 서버에 들어오는 스트리밍 XML 데이타에 대해서 질의에 빠르게 매치(match)되는 것을 찾기 위한 스트리밍 XML 데이타 필터링 기법이 오토마타를 이용해서 연구되었으며, 이중에서 비결정적 오토마타를 사용한 방법이 YFilter이다. 비결 정적 오토마타를 사용하는 YFilter의 경우 질의 앞부분의 공통된 오퍼레이터를 한번에 계산하기 위해서 XPath 질의의 공통된 앞부분을 공유하고 질의의 루트부터 처리하는 하향식 방식을 사용하고 있다. 하지만, 부분매칭 경로질의의 경우에는 질의의 앞부분 공유를 방해하고 질의를 루트에서부터 처리할 필요가 없기 때문에 YFilter에서 부분매칭 경로질의가 증가하면 처리량이 떨어지는 문제가 발생한다. 본 논문에서는 이 문제 대해 XPath 질의의 공통된 뒷부분 공유에 기반한 상향식 방식을 사용하는 PoSFilter를 한가지 해결책으로 제시한다. 그리고 YFilter와 PoSFilter의 처리량을 비교를 통해서 PoSFilter의 경우 부분매칭 경로질의가 증가할 때 YFilter보다 좋은 처리량을 나타내는 것을 검증한다.

As the environment with sensor network and ubiquitous computing is emerged, there are many demands of handling continuous, fast data such as streaming data. As work about streaming data has begun, work about management of streaming data in Publish-Subscribe system is started. The recent emergence of XML as a standard for information exchange on Internet has led to more interest in Publish - Subscribe system. A filtering technique of streaming XML data in the existing Publish- Subscribe system is using some schemes based on automata and YFilter, which is one of filtering techniques, is very popular. YFilter exploits commonality among path queries by sharing the common prefixes of the paths so that they are processed at most one and that is using the top-down approach. However, because partial matching path queries interrupt the common prefix sharing and don't calculate from root, throughput of YFilter decreases. So we use sharing of commonality among path queries with the common postfixes of the paths and use the bottom-up approach instead of the top-down approach. This filtering technique is called as PoSFilter. And we verify this technique through comparing with YFilter about throughput.

키워드

참고문헌

  1. B. Babcock, S. Babu, M. Datar, R. MotWani, J. Widom, 'Models and Issues In Data Stream Systems,' In Proceeding of the PODS, 2002, pp.1-16 https://doi.org/10.1145/543613.543615
  2. Mehmet Altinel, Michael J. Franklin, 'Efficient Filtering of XML Documents for selective Dissemination of Information,' In Proceeding of the VLDB, 2000, pp.53-64
  3. Yanlei Diao, Michael J. Franklin, 'High-Performance XML Filtering: an overview of YFilter,' Bulletin of the IEEE, 2003, pp.1-8
  4. Yanlei Diao, Peter Fischer, Michael J. Franklin, Raymond To, 'YFilter: Efficient and scalable Filtering of XML Documents,' In Proceeding of the ICDE, 2002 https://doi.org/10.1109/ICDE.2002.994748
  5. Yanlei Diao, Mehmet Altinel, Michael J. Franklin, Hao Zhang, Peter Fischer, 'Path Sharing and Predicate Evaluation for High-Performance XML Filtering,' ACM Transcations on Database Systems, 2003, pp. 467-516 https://doi.org/10.1145/958942.958947
  6. Todd J. Green, Gerome Miklau, Makoto Onizuka, and Dan Suciu, 'Processing XML Streams with Deterministic Automata,' In Proceeding of the LNCS, 2003, pp. 173-189
  7. Todd J. Green, Gerome Miklau, Makoto Onizuka, and Dan Suciu, 'Processing XML Streams with Deterministic Automata and Stream Indexes,' In Proceeding of the TODS, 2004
  8. Albrecht Schmidt, Florian Waas, Martin Kersten, Michael J. Carey, Ioana Manolescu, Ralph Busse, 'XMark: A Benchmark for XMl Data Management,' In Proceeding of the VLDB, 2002, pp.974-985
  9. Tim Furche, 'Optimizing multiple queries against XML streams,' http://www.pms.ifi.lmu. de/publikationen/diplomarbeiten/Tim.Furche/mqspex.pdf
  10. Chin-Wan Chung, Jun-Ki Min, Kyuseok Shim, 'APEX: An Adaptive Path Index for XML data,' In Proceeding of the SIGMOD, 2002, pp.121-132 https://doi.org/10.1145/564691.564706
  11. S. Babu and J. Widom, 'Continuous Queries over data Streams,' In Proceeding of the SIGMOD, 2001, pp.109-120 https://doi.org/10.1145/543613.543615
  12. Jianjun Chen, David J. DeWitt, Feng Tian, Yuan Wang, 'NiagaraCQ: A Scalable Continuous Query System for Internet databases,' In Proceeding of the SIGMOD, 2000, pp.379-390 https://doi.org/10.1145/342009.335432
  13. P.Th. Eugster, P.Felber, R. Guerraoui, A. M. Kermarrec, 'The Many Faces of Publish/ Subscribe,' ACM Computing Serveys, 2003, pp.114-131 https://doi.org/10.1145/857076.857078