J-Tree: An Efficient Index using User Searching Patterns for Large Scale Data

J-tree : 사용자의 검색패턴을 이용한 대용량 데이타를 위한 효율적인 색인

  • 장수민 (충북대학교 정보통신공학과) ;
  • 서광석 (충북대학교 정보통신공학과) ;
  • 유재수 (충북대학교 정보통신공학과)
  • Published : 2009.02.15

Abstract

In recent years, with the development of portable terminals, various searching services on large data have been provided in portable terminals. In order to search large data, most applications for information retrieval use indexes such as B-trees or R-trees. However, only a small portion of the data set is accessed by users, and the access frequencies of each data are not uniform. The existing indexes such as B-trees or R-trees do not consider the properties of the skewed access patterns. And a cache stores the frequently accessed data for fast access in memory. But the size of memory used in the cache is restricted. In this paper, we propose a new index based on disk, called J-tree, which considers user's search patterns. The proposed index is a balanced tree which guarantees uniform searching time on all data. It also supports fast searching time on the frequently accessed data. Our experiments show the effectiveness of our proposed index under various settings.

최근에 휴대용 단말기들의 발전으로, 대용량 데이타에 대한 다양한 검색 서비스들이 휴대용 단말기에 제공되고 있다. 정보 검색을 위한 대부분 응용프로그램들은 대용량 데이타를 검색하기 위하여 B-tree나 R-tree와 같은 색인을 사용한다. 그러나 전체 데이타의 매우 적은 부분이 사용자에 의하여 접근된다. 또한, 각 데이타에 대한 접근 빈도수들은 다양하다. 그러나 B-tree나 R-tree와 같은 색인들은 편향적 접근 패턴의 특성을 고려하지 않는다. 그리고 캐쉬는 빠른 접근을 위해서 반복적으로 접근되는 데이타를 메모리에 저장한다. 그러나 캐쉬에서 사용하는 메모리의 크기는 제한적이다. 본 논문에서는 사용자의 검색패턴들을 고려한 디스크 기반의 새로운 색인구조, J-tree를 제안한다. 제안된 색인은 모든 데이터에 대한 일정한 검색속도를 보장하는 균형트리이다. 그리고 자주 접근된 데이타에 대해서는 빠른 검색속도를 제공한다. 성능평가는 다양한 실험환경에서 제안된 색인의 효율성을 보여준다.

Keywords

References

  1. Narayanan Shivakumar, Suresh Venkatasubramanian, 'Energy Efficient indexing for Information Dissemination In Wireless Systems,' in ACM, Journal of Wireless and Nomadic Application, 1996
  2. Ryen W. White, Dan Morris, 'Investigating the querying and browsing behavior of advanced search engine users,' Proc, ACM SIGIR, July, 2007 https://doi.org/10.1145/1277741.1277787
  3. Yabo Xu, Ke Wang, Benyu Zhang, Zheng Chen,'Privacy-enhancing personalized web search,' Proceedings of the 16th international conference on World Wide Web, May, 2007
  4. S. Lo and A. Chen, 'Optimal Index and Data Allocation in Multiple Broadcast Channels,' In proceedings. 16th international conference on Data Engineering, 2000 https://doi.org/10.1109/ICDE.2000.839421
  5. L. Fan, P. Cao, J. Almeida, and A. Broder, 'Summary Cache: A Scalable Wide Area Web Cache Sharing Protocol,' Proc. ACM SIGCOMM, pp. 254-265, 1998 https://doi.org/10.1145/285237.285287
  6. K. Wu and P. Yu, 'Latency-Sensitive Hashing for Collaborative Web Caching,' Proc. World Wide Web Conf., pp. 633-644, 2000 https://doi.org/10.1016/S1389-1286(00)00042-6
  7. Glen Jeh, Jennifer Widom, 'Scaling personalized web search,' Proceedings of the 12th international conference on World Wide Web, 2003 https://doi.org/10.1145/775152.775191
  8. Kathleen R. McKeown, Noemie Elhadad, Vasileios Hatzivassiloglou, 'Leveraging a common representaion for personalized search and summarization in a medical digital library,' Proceedings of the 3rd ACMlIEEE-CS joint conference on Digital libraries, 2003 https://doi.org/10.1109/JCDL.2003.1204856