효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법

Term Clustering and Duplicate Distribution for Efficient Parallel Information Retrieval

  • 강재호 (동아대하교 지능형통합항만관리연구센터) ;
  • 양재완 (온빛시스템 정보기술연구원) ;
  • 정성원 (온빛시스템 정보기술연구원) ;
  • 류광렬 (부산대학교 정보컴퓨터공학부) ;
  • 권혁철 (부산대학교 정보컴퓨터공학부) ;
  • 정상화 (부산대학교 정보컴퓨터공학부)
  • 발행 : 2003.02.01

초록

인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형컴퓨터를 주로 활용하여 왔으나. 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분배함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 또한 일부 PC의 결함 또는 유지보수 등의 원인에 의한 서비스 중지상황에도 적극적으로 대처하기 위하여 색인어 역파일을 중복되게 분산저장하는 기법을 제안한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산 및 중복저장기법이 충분한 효율성과 실용성이 있음을 확인하였다.

The PC cluster architecture is considered as a cost-effective alternative to the existing supercomputers for realizing a high-performance information retrieval (IR) system. To implement an efficient IR system on a PC cluster, it is essential to achieve maximum parallelism by having the data appropriately distributed to the local hard disks of the PCs in such a way that the disk I/O and the subsequent computation are distributed as evenly as possible to all the PCs. If the terms in the inverted index file can be classified to closely related clusters, the parallelism can be maximized by distributing them to the PCs in an interleaved manner. One of the goals of this research is the development of methods for automatically clustering the terms based on the likelihood of the terms' co-occurrence in the same query. Also, in this paper, we propose a method for duplicate distribution of inverted index records among the PCs to achieve fault-tolerance as well as dynamic load balancing. Experiments with a large corpus revealed the efficiency and effectiveness of our method.

키워드

참고문헌

  1. Lin, Z. and Zhou, S., 'Parallelizing I/O intensive applications for a workstation cluster: a case study,' Computer Architecture News 21, 5, pp.15-22, 1993 https://doi.org/10.1145/165660.165664
  2. Samanta, R., Zheng, J., Funkhouser, T., Li, K. and Singh, J.P., 'Load Balancing for Multi-Projector Rendering Systems,' SIGGRAPH/Eurographics Workshop on Graphics Hardware, August, 1999 https://doi.org/10.1145/311534.311584
  3. Stanfill, C. and Thau, R., 'Information Retrieval on the Connection Machine : 1 to 8192 Gigabytes,' Information Processing & Management, pp.285-310, 1991 https://doi.org/10.1016/0306-4573(91)90085-Z
  4. Jeong, B. and Omiecinski, E., 'Inverted File Partitioning Schemes in Multiple Disk Sysrems,' IEEE Transactions on Parallel and Distributed Systems, 6(2):142-153, 1995 https://doi.org/10.1109/71.342125
  5. Sornil, O. and Fox, E. A,, 'Hybrid partitioned inverted indices for large-scale digital libraries,' Proceedings of The 4th International Conference of Asian Digital Library, Bangalore, India, Dec. 10-12, 2001
  6. 강유경, 류광렬, 정상화, '문서 클러스터링에 의한 효율적인 병렬 정보검색 시스템,' 정보과학회논문지 : 소프트웨어 및 응용, 제28권 제2호, pp.157-167, 2001
  7. Chung, S-H., Kwon, H-C., Ryu, K. R., Jang, H-K., Kim, J-H and Choi, C-A., 'Parallel Information Retrieval on an SCI-Based PC-NOW,' Lecture Notes in Computer Science, Vol. 1800, (IPDPS-2000 Workshops, Cancun, Mexico) pp.81-90, 2000
  8. Schutze, H. and Silverstein, C., 'Projections for Efficient Document Clustering,' Proceedings of The 20th Annual International ACM SIGIR Conference on Research and Development in Information Retieval, pp.74-81, 1997
  9. Silberstein, C. and Pedersen, J. O., 'Almost-Constant-Time Clustering of Arbitrary Corpus Subsets,' Proceedings of The 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrival, pp.60-66, Philadelphia, Pennsylvania, 1997
  10. Wolfson, O., Jajodia, S. and Huang, Y., 'An Adaptive Data Replication Algorithm,' ACM Transactions on Database Systems, vol. 22, no.2, pp.255-314, 1997 https://doi.org/10.1145/249978.249982
  11. Gray, J., Helland, P., O'Neil, P. and Shasha, D., 'The dangers of replication and a solution,' Proceedings of ACM SIGMOD '96, pp.173-182, 1996 https://doi.org/10.1145/233269.233330
  12. Salton, G. and Buckely, C., 'Improving retrieval performance by relevance feedback,' Journal of the American Society for Information Science, 41, pp.288-297, 1990 https://doi.org/10.1002/(SICI)1097-4571(199006)41:4<288::AID-ASI8>3.0.CO;2-H