DOI QR코드

DOI QR Code

Grid-based Biological Data Mining using Dynamic Load Balancing

동적 로드 밸런싱을 이용한 그리드 기반의 생물학 데이터 마이닝

  • 마용범 (인하대학교 정보공학과) ;
  • 김태영 (인하대학교 정보공학과) ;
  • 이종식 (인하대학교 정보공학과)
  • Received : 2010.01.26
  • Accepted : 2010.03.31
  • Published : 2010.06.30

Abstract

Biological data mining has been noticed as an issue as the volume of biological data is increasing extremely. Grid technology can share and utilize computing data and resources. In this paper, we propose a hybrid system that combines biological data mining with grid technology. Especially, we propose a decision range adjustment algorithm for processing efficiency of biological data mining. We obtain a reliable data mining recognition rate automatically and rapidly through this algorithm. And communication loads and resource allocation are key issues in grid environment because the resources are geographically distributed and interacted with themselves. Therefore, we propose a dynamic load balancing algorithm and apply it to the grid-based biological data mining method. For performance evaluation, we measure average processing time, average communication time, and average resource utilization. Experimental results show that this method provides many advantages in aspects of processing time and cost.

생물학 데이터 마이닝은 생물학 데이터의 볼륨이 급격하게 증가함에 따라 최근 주목받고 있다. 그리드 기술은 계산 자원과 데이터 공유와 활용을 가능하게 한다. 이 논문에서는 생물학 데이터 마이닝과 그리드 기술을 결합한 혼합형 시스템을 제안한다. 특히, 생물학 데이터 마이닝의 처리 효율성을 위해 결정 범위 조정 알고리즘을 사용한다. 우리는 이 알고리즘을 통해 빠르고 자동으로 신뢰할 만한 데이터 마이닝 인식률을 얻는다. 게다가 그리드 환경에서는 지리적으로 분산된 자원들을 연동하기 때문에 통신량과 자원 할당이 이슈가 된다. 우리는 동적 로드 밸런싱을 제안하고 그리드 기반 생물학 데이터 마이닝 기법에 적용한 다. 성능 평가를 위해 우리는 평균 처리 시간, 평균 통신 시간, 평균 자원 활용도를 측정한다. 측정 실험의 결과는 제안된 두 알고리즘을 적용한 우리의 기법이 처리 시간과 비용 측면에서 이점을 제공한다는 것을 보여준다.

Keywords

References

  1. Berman, F., G. Fox and T. Hey, Grid Computing: Making the Global Infrastructure a Reality, J. Wiley, New Jersey, 2003.
  2. Department of Defense, High Level Architecture Run-Time Infrastructure Programmer's Guide 1.3 Version 5, 1998.
  3. Foster, I. and C. Kesselman, The Grid: Blueprint for a New Computing Infrastructure, Morgan Kaufmann, San Francisco, 1998.
  4. Kim, C. and H. Kameda, "An Algorithm for Optimal Load Balancing in Distributed Computer Systems", IEEE Transactions on Computers, Vol. 41, No. 3, pp. 381-384, 1990.
  5. Kumar V., A. Grama, A. Gupta and G. Karypis, Introduction to Parallel Computing: Design and Analysis of Algorithms, The Benjamin/Cummings Publishing Company, San Francisco, 1994.
  6. Kumar, V., A. Grama and V. N. Rao, "Scalable Load Balancing Techniques for Parallel Computers", Journal of Distributed Computing, Vol. 7, 1994.
  7. Rajagopalan, A., S. Hariri, "An agent based dynamic load balancing system", Proceedings of the International Workshop on Autonomous Decentralized Systems, pp. 164-171, 2000.
  8. Sureswaran, R., M. Samaka and J. Knaggs, "LOADIST:a distributed processing environment based on load sharing", IEEE SICON/ICIE '95 International Conference on Networks and Information Engineering, pp. 518-522, 1995.
  9. Tzanis, G., C. Berberidis and I. Vlahavas, "Data Mining in Biological Data", Encyclopedia of Database Technologies and Applications, IDEA Group Publishing, 2005.
  10. Wang, J. T. L., M. J. Zaki, H. T. T. Toivonen and D. Shasha, Data Mining in Bioinformatics, Springer, Berlin, 2005.
  11. Watson, S. and S. Arkinstall, The G-protein Linked Receptor Facts Book. Academic Press, Burlington, 1994.
  12. Wikinson and Allen, Parallel Programming Techniques & Applications using Networked Workstations and Parallel Computers, Prentice Hall, New Jersey, 1999.
  13. Zaki, M. J., W. Li and S. Parthasarathy, "Customized Dynamic Load Balancing for a Network of Workstations", 5th IEEE International Symposium on High Performance Distributed Computing (HPDC '96), 1996.