An Efficient Boolean Query Processing in Information Retrieval

효율적인 부울 질의 연산에 관한 연구

  • Published : 1996.06.01

Abstract

In this paper, we propose four optimizing methods for effectively processing queries in the Booleam information retrieval system ; (i) the short-circuit evaluation scheme used for optimizing logical expressions in programming lan-guages is applied to Boolean queries.(II) use the difference of the number of index word frequencies appearing in the related documents. (IIi) reduce the number of operators in the queries by applying the distribution law in the set theory. (iv) evaluate only once for the repeated expressions in the query. These methods have been implemented and tested in KRISTAL-II system on the UNIX workstation environment.

본 논문에서는 부울검색시스템에서 사용자로부터 입력되는 부울 질의를 효율적으로 연산하기 위한 부울 질의 최적화 방법 4가지를 기술한다. 첫째, 프로그래밍 언어에서 논리식의 계산에 사용되는 단거리계산 방법을 적용한다. 둘째, AND, NOT과 같은 특정 연산자를 효율적으로 연산하기 위하여 색인어 출현 빈도의 차이를 이용한다. 세째, 분배법칙이 적용된 질의를 원래의 식으로 변환하여 연산의 수를 감소시킨다. 마지막으로 반복되는 식을 포함하는 질의에 대하여 중복 연산을 회피한다. 또한 위의 4가지 방법들을 UNIX환경에서 개발된 KRISTAL-II 시스템에 구현하여, 제시된 방법들이 특정 경우에 검색 속도를 향상시킬 수 있음을 검증하였다.

Keywords

References

  1. Scta informative v.26 no.5 Expected Behavior of B+-Trees under Random insertions Baeza-Yates, R.
  2. ACM transactions on database Systems v.2 no.1 Prefix B-Tree Bayer,R.;K.Unterauef
  3. Technical Report OED-88-02 Efficient Searching of Text and Pictures(extended abstract) Gonner,G.
  4. Concepts Of Programming Languages Sebesta,R.W.
  5. Information Retrieval Experiment Sparck-Jones, K.
  6. Algorithms in C. Sedgewick,R.
  7. Information Retrieval Van Rijsbergen,C.J.
  8. Managing Gigabytes-Compressing and Indexing Documents and Images Witten,I.H.;Slistari,M.;Bell,T.C.
  9. Research Research Report CS-86-87 Baeza-Yates, R.