Collection Fusion Algorithm in Distributed Multimedia Databases

분산 멀티미디어 데이터베이스에 대한 수집 융합 알고리즘

  • 김덕환 (한국과학기술원 정보및 통신공학과) ;
  • 이주흥 (한국과학기술원 정보및 통신공학과) ;
  • 이석룡 (한국과학기술원 정보및 통신공학과) ;
  • 정진완 (한국과학기술원 전산학과)
  • Published : 2001.09.01

Abstract

With the advances in multimedia databases on the World Wide Web, it becomes more important to provide users with the search capability of distributed multimedia data. While there have been many studies about the database selection and the collection fusion for text databases. The multimedia databases on the Web have autonomous and heterogeneous properties and they use mainly the content based retrieval. The collection fusion problem of multimedia databases is concerned with the merging of results retrieved by content based retrieval from heterogeneous multimedia databases on the Web. This problem is crucial for the search in distributed multimedia databases, however, it has not been studied yet. This paper provides novel algorithms for processing the collection fusion of heterogeneous multimedia databases on the Web. We propose two heuristic algorithms for estimating the number of objects to be retrieved from local databases and an algorithm using the linear regression. Extensive experiments show the effectiveness and efficiency of these algorithms. These algorithms can provide the basis for the distributed content based retrieval algorithms for multimedia databases on the Web.

웹에서의 멀티미디어 데이터베이스가 발달함에 따라 분산 멀티미디어 데이터에 대한 검색 기능의 필요성이 높아지고 있다. 그러나 지금까지는 주로 웹상에 분산된 텍스트 데이터베이스를 선택하고 선택된 텍스트 데이터베이스에 대해소 질의 결과를 결합하는 연구가 이루어졌을 뿐 멀티미디어 데이터베이스에 대해서는 연구가 미진하였다. 웹상의 멀티미디어 데이터베이스는 자율적이고 이질적인 특성을 가지고 있고 주로 내용 기반으로 검색된다. 멀티미디어 데이터베이스에서의 수집 융합 문제는 웹상의 이질적인 멀티미디어 데이터베이스에서 내용 기반 검색으로 검색된 경과를 병합하는 것을 다룬다. 이 문제는 분산 멀티미디어 데이터베이스의 검색에 매우 중요하지만 아직까지 연구된 바가 없다. 본 논문은 웹상에서 이질적인 멀티미디어 데이터베이스의 수집 융합을 처리하는 새로운 알고리즘을 제안한다. 본 논문은 데이터베이스에서 검색할 객체의 개수를 추정하는 휴리스틱 방법과 선형 회귀분석을 이용한 알고리즘을 사용한다. 그리고 실험에 의해서 이 알고리즘들의 효율성을 보였다. 이 알고리즘들은 향후 웹상의 멀티미디어 데이터베이스들에 대한 분산 내용 기반 검색 알고리즘들의 기본이 될 수 있다.

Keywords

References

  1. W. Chang, G. Sheikholeslami, J. Wang, A. Zhang. Data Resource Selection in Distributed Visual Information Systems. IEEE Transactions on Knowledge and Data Engineering, Vol.10, No.6, pages 926-946, November 1998 https://doi.org/10.1109/69.738358
  2. L. Gravano, Y. Papakonstantinou. Mediating and Metaserarching on the Internet. Bulletin of the IEEE Computer Society Technical Committe on Data Engineering, Vol.21 No.2, pages 28-36, June 1998
  3. M. Flickner, H. Sawhney, W. Niblack et al. Query by image and video content: The QBIC system. IEEE Computer, Vol.28, No.9, pages 23-32, September 1995 https://doi.org/10.1109/2.410146
  4. M. Ortega, K. Chakrababarti, K. Porkaew, S. Mehrotra. Supporting Ranked Boolean Similarity Queries in MARS. IEEE Transactions on Knowledge and Data Engineering, Vol.10, No.6, pp.905 925, November/December 1998 https://doi.org/10.1109/69.738357
  5. J. R. Bach, C. Fuller, A. Gupta, A. Hampapur, B.Horowitz, R.Humphrey, R.Jain and C. Shu. The virage image search engine: An open framework for image management. SPIE Storage and Retrieval for Still Image and Video Databases IV, pages 76-87, 1996 https://doi.org/10.1117/12.234785
  6. J. Callan, Z. Lu, and W. Croft. Searching Distributed Collection with Inference Networks. Proceedings of the Eighteenth Annual Int'l ACM/SIGIR Conference, pages 21-28, 1995 https://doi.org/10.1145/215206.215328
  7. L. Gravano, H. Garcia-Molina. Merging Ranks from Heterogeneous Internet Sources. Proceedings of Twenty-third Int'l Conference on Very Large Data Bases, pages 14-25, August 1997
  8. W. Meng, K. L. Liu, C. Yu, X. Wang, Y. Chang, N. Rishe, Determining Text Databases to Search in the Internet. Proceedings of Int'l Conference on Very Large Data Bases, pages 14-25, August 1998
  9. E. Voorhees, N. Gupta, and B. Johnson-Laird. The Collection Fusion Problem. Proceedings of Third Text Retrieval Conference(TREC-3), pages 95-104, 1994
  10. A. Zhang, W. Chang, G. Sheikholeslami, and T. Syeda-Mahmood. NetView: Integrating Large-Scale Distributed Visual Databases. IEEE Multimedia, pages 47-59, September 1998 https://doi.org/10.1109/93.713304
  11. T. Seidl, H. Kriegel. Optimal Multi-Step k-Nearest Neighbor Search. Proceedings of the ACM SIGMOD Int'l Conference on Management of Data, pages 154-165, June 1998 https://doi.org/10.1145/276305.276319
  12. J. H. Lee, D. H. Kim, C. W. Chung. Multidimensional Selectivity Estimation Using Compressed Histogram Information. Proceedings of ACM SIGMOD Int'l Conference on Management of Data, pages 205-214, June 1999 https://doi.org/10.1145/304182.304200
  13. R. V. Hogg, E. A. Tanis. Probability & Statistical Inference. MacMillan Publishing Co., 1977
  14. F. Hillier, G. Lieberman. Introduction to Operations Research. McGraw-Hill, pp.755-762, 1977