An Efficient Parallel Information Retrieval System using Document Clustering

문서 클러스터링에 의한 효율적인 병렬 정보검색 시스템

  • Published : 2001.02.01

Abstract

본 논문은 고품질의 정보를 신속하게 제공할 수 있으면서 가격대 성능비가 우수한 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 문서 라이브러리를 여러 개의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당함으로써 작업 단위를 적절한 규모로 하였을 뿐만 아니라, 문서의 점수 계산 시 프로세서 간 통신이 전혀 필요치 않게 하였다. 검색은 1차로 클러스터 레벨에서 관련 클러스터들을 찾는 것으로 시작하여 2차로 관련 클러스터 내에서 실제 문서를 찾는 방식으로 이루어진다. 이러한 계층적인 검색 구조로 인하여 1차 검색 후 여과가 가능하므로 전체적인 검색의 부하를 줄일 수 있다. 또한 문서의 클러스터가 가능한 한 유사한 문서군이 되도록 함으로써 불필요한 클러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 다중 트랜스퓨터 시스템에서 구현되었으며, 실험 결과 무작위적으로 클러스터링한 경우에 비해 유사 문서군으로 클러스터링한 접근 방법이 우수함을 확인하였다.

Keywords

References

  1. Cahoon, B. and McKinly, K. S., 'Performance Evaluation of a Distributed Architecture for Information Retrieval,' Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1996 https://doi.org/10.1145/243199.243238
  2. Cohen, W. W. and Singer, Y., 'Context-Sensitive Learning Methods for Text Categorization,' Proceedings of The Nineteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 307-315, Zurich, Switzerland, 1996 https://doi.org/10.1145/243199.243278
  3. Dietterich, T. G., Machine Learning Research: Four Current Directions, Artificial Intelligence, pp 1- 64, 1997
  4. Fox, E. A., 'Extending the Boolean and Vector Space Models of Information Retrieval with P-norm Queries and Multiple Concept Tyes,' Ph D. dissertation, Cornell University, 1983
  5. Kira, K. and Rendell, L. A., 'A practical approach to feature selection,' Proceedings of The Ninth International Conference on Machine Learning, pp. 249-256 San Francisco, CA. Morgan Kauffman, 1992
  6. Kononenko, I., 'Estimating attributes: Analysis and extensions of relief,' Proceedings of The 1994 European Conference on Machine Learning, pp.171-182 Amsterdam. Springer Verlag, 1994
  7. Liere, R. and Tadepalli, P., 'Active Learning with Committees for Text Categorization,' Proceedings of The Fourteenth National Conference on Artificial Intelligence, pp. 591-597, Providence, Rhode Island, 1997
  8. Nigam, K, McCallum, A., Thrun, S., and Mitchell, T., 'Learning to Classify Text from Labeled and Unlabeled Documents,' Proceedings of The Fifteenth National Conference on Artificial Intelligence, pp.792-799, Madison, Wisconsin, 1998
  9. Quinlan, J.R., C4.5 Programs for Machine Learning, Morgan Kaufmann Publishers, San Mateo, California, 1993
  10. Rabiner, L. R., and Juang, B. H., Fundamentals of Speech Recognition, Prentice- Hall, Englewood Cliffs, New Jersey, 1993
  11. Sahami, M., Yusufali, S., and Baldonado, M. Q. W., 'Real-time Full-text Clustering of Networked Documents,' Proceedings of The Fourteenth National Conference on Artificial Intelligence, pp.845, Providence, Rhode Island, 1997
  12. Saltan, G. and Buckley, C, 'Improving Retrieval Performance by Relevance Feedback,' Journal of the American society for Information Science, pp. 88-297, 1990
  13. Sang-Hwa Chung, Soo-Cheol Oh, Kwang Ryel Ryu, Soo-Hee Park, Parallel Information Retrieval on a Distributed Memory Multiprocessor system, Proceedings of the Third International Conference on Algorithms and Architectures for Parallel Proceeding(ICA3PP-97), pp. 163-176, Melbourne, Australia, 1997
  14. Schutze, H., & Silverstein, C. 'Projections for Efficient Document Clustering,' Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in information Retrieval, pp. 74-81, 1997 https://doi.org/10.1145/258525.258539
  15. Sharma, R., 'A Generic Machine for Parallel Information Retrieval,' Information Proceeding and Management, Vol. 25, No. 3, pp. 223-235, 1989 https://doi.org/10.1016/0306-4573(89)90041-1
  16. Smith, M.E., 'Aspects of the p-norm model of information retrieval : syntactic query generation, efficiency, and theoretical properties,' PhD. thesis, Cornell University, 1990
  17. Stanfill, C. and Thau, R., 'Information Retrieval on the Connection Machine : 1 to 8192 Gigabytes,' Information Processing & Management, pp.285-310, 1991 https://doi.org/10.1016/0306-4573(91)90085-Z
  18. Wettschereck, D. and Aha, D. W., 'Weighting Features,' First International Conference on Case-Based Reasoning, 1995
  19. 박수희, 정상화, 류광렬, 병렬 정보검색 시스렘에서의 부하평준화 기법, 한국정보과학회 '97 가을학술발표 논문집 (IV), Vol. 24, No.2, pp. 385-387, 1997
  20. 박태완, 류광렬, 정상화, 동적문서할당 기법을 적용한 벙렬 정보검색, 정보과학회논문지 C 제4권 제2호, pp. 219-227. 1998