DOI QR코드

DOI QR Code

Dynamic Management of Equi-Join Results for Multi-Keyword Searches

다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법

  • 임성채 (동덕여자대학교 컴퓨터학과)
  • Received : 2010.04.26
  • Accepted : 2010.06.24
  • Published : 2010.10.31

Abstract

With an increasing number of documents in the Internet or enterprises, it becomes crucial to efficiently support users' queries on those documents. In that situation, the full-text search technique is accepted in general, because it can answer uncontrolled ad-hoc queries by automatically indexing all the keywords found in the documents. The size of index files made for full-text searches grows with the increasing number of indexed documents, and thus the disk cost may be too large to process multi-keyword queries against those enlarged index files. To solve the problem, we propose both of the index file structure and its management scheme suitable to the processing of multi-keyword queries against a large volume of index files. For this, we adopt the structure of inverted-files, which are widely used in the multi-keyword searches, as a basic index structure and modify it to a hierarchical structure for join operations and ranking operations performed during the query processing. In order to save disk costs based on that index structure, we dynamically store in the main memory the results of join operations between two keywords, if they are highly expected to be entered in users' queries. We also do performance comparisons using a cost model of the disk to show the performance advantage of the proposed scheme.

인터넷이나 기업체 안에서 생성되는 문서의 수가 빠르게 증가하고 있고 이에 따라 효율적인 문서 검색 서비스의 중요성도 함께 커지고 있다. 이런 검색 환경에서 사용자의 검색 질의를 미리 예측할 수 없기 때문에 문서 내의 키워드를 자동 추출하여 색인어로 사용하는 전문검색(full-text search)이 일반적으로 적용된다. 전문검색을 위해 생성된 색인 파일의 크기는 문서 수 증가로 대용량화 되고, 이런 대용량 색인에 대한 다중 키워드 질의 처리에는 과도한 디스크 비용이 초래될 수 있다. 논문에서는 이런 비용 문제를 해결하기 위해 대용량 문서의 전문검색 시스템에서 다중 키워드 질의를 효율적으로 처리할 수 있게 하는 색인 파일 구조 및 관리 기법을 제안한다. 제안된 방법은 다중 키워드 검색에 적합한 것으로 알려진 역파일을 기본 색인 구조로 하며, 질의 처리의 조인 연산과 랭킹 연산에 적합하도록 색인 파일을 계층화한다. 이를 바탕으로 다중 키워드 질의를 구성할 확률이 높은 키워드 쌍에 대한 조인 연산 결과를 주기억장치 공간에 동적으로 저장함으로써 디스크 사용량을 크게 줄일 수 있다. 논문에서는 제안된 기법의 우수성을 보이기 위해 디스크 비용 모델에 기반한 성능 비교도 수행한다.

Keywords

References

  1. 이주남, Google과 함께 떠오르는 검색엔진, 소프트웨어진흥원 시장 이슈 보고서, 2004.
  2. Steve Lawrence, C. Lee Giles, and Kurt Bollacker, “Digital Libraries and Autonomous Citation Indexing,” IEEE Computer, Vol.32, No.6, pp.67-71, 1999. https://doi.org/10.1109/2.769447
  3. Arvind Arasu, et al., “Searching the Web,” ACM Trans. on Internet Technology, Vol.1, No.1, pp.2-43, August, 2001. https://doi.org/10.1145/383034.383035
  4. Search Engine Report, Http://www.searchenginewatch.com, 2010.
  5. Sergey Brin, Lawrence Page, “The Anatomy of a Large-Scale Hypertextual Web Search Engine,” Computer Networks and ISDN Systems, Vol.30, Issue 1-7, pp.107-117, 1998. https://doi.org/10.1016/S0169-7552(98)00110-X
  6. 임성채, “계층적 캐시 기법을 이용한 대용량 웹 검색 질의 처리 시스템의 구현”, 정보과학회논문지 : 컴퓨팅의 실제 및 레터, Vol.14, No.7, pp.669-679, 2008.
  7. Maxim Lifantsev and Tzi-cker Chiueh, “I/O-Conscious Data Preparation for Large-Scale Web Search Engines,” In Proc. the VLDB Conf., Hong Kong, 2002.
  8. Sergey Melnik, Sriram Raghavan, Beverly Yang, and Hector Garcia-Molina. “Building a Distributed Full-text Index for the Web,” In Proc. of the 10th International World Wide Web Conference, pp.396-406, 2001. https://doi.org/10.1145/371920.372095
  9. Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung, “The Google File System,” 19th ACM Symposium on Operating Systems Principles, October, 2003. https://doi.org/10.1145/945445.945450
  10. Soyeon Park, Joon Ho Lee, and Hee Jin Bae, “End user searching : A Web log analysis of NAVER, a Korean Web search engine,” Vol.27, No.2, pp.203-221, 2005. https://doi.org/10.1016/j.lisr.2005.01.013
  11. Maxim Lifantsev and Tzicker Chiueh, “Implementation of a Modern Web Search Engine Cluster,” In Proc. of the USENIX Annual Technical Conference, Texas, 2003.
  12. BoostingCraig Silverstein, Hannes Marais, Monika Henzinger, and Michael Moricz, “Analysis of a very large web search engine query log,” ACM SIGIR Forum, Vol.33(1), pp.6-12, 1999. https://doi.org/10.1145/331403.331405
  13. Tiziano Fagni, Raffaele Perego, Fabrizio Silvestri, and Salvatore Orlando, “Boosting the performance of Web Search Engines: Caching and Prefetching Query Results by Exploiting Historical usage Data,” ACM Trans. on Information Systems, Vol.24(1), pp.51-78, 2006. https://doi.org/10.1145/1125857.1125859
  14. Ronny Lempel and Shlomo Moran, “Predictive Caching and Prefetching of Query Results in Search Engines,” In Proc. of the 12th International Conf. on World Wide Web, pp.19-28, New York, 2003. https://doi.org/10.1145/775152.775156
  15. Hao Yan, Shuai Ding, and Torsten Suel, “Inverted Index Compression and Query Processing with Optimized Document Ordering,” In Proc. of the WWW Conference, pp.401-410, 2009. https://doi.org/10.1145/1526709.1526764
  16. Vo Ngoc Anh and Alistair Moffat, “Inverted Index Compression Using Word-Aligned Binary Codes,” Information Retrieval, Vol.8, No.1, pp.151-166, 2005. https://doi.org/10.1023/B:INRT.0000048490.99518.5c
  17. Sung-Ryul Kim, Inbok Lee, and Kunsoo Park, “A fast algorithm for the generalized k-keyword proximity problem given keyword offsets,” Information Processing Letters, Vol.91, No.3, pp.115-120, 2004. https://doi.org/10.1016/j.ipl.2004.03.017
  18. C. Ruemmler and J. Wikes, “An Introduction to Disk Modeling,” IEEE Computer, Vol.17, No.3, pp.17-28, 1994. https://doi.org/10.1109/2.268881