DOI QR코드

DOI QR Code

A Study on Web-User Clustering Algorithm for Web Personalization

웹 개인화를 위한 웹사용자 클러스터링 알고리즘에 관한 연구

  • Lee, Hae-Kag (Department of Computer Engineering, Soonchunhyang University)
  • 이해각 (순천향대학교 컴퓨터공학과)
  • Received : 2011.02.18
  • Accepted : 2011.05.12
  • Published : 2011.05.31

Abstract

The user clustering for web navigation pattern discovery is very useful to get preference and behavior pattern of users for web pages. In addition, the information by the user clustering is very essential for web personalization or customer grouping. In this paper, an algorithm for clustering the web navigation path of users is proposed and then some special navigation patterns can be recognized by the algorithm. The proposed algorithm has two clustering phases. In the first phase, all paths are classified into k-groups on the bases of the their similarities. The initial solution obtained in the first phase is not global optimum but it gives a good and feasible initial solution for the second phase. In the second phase, the first phase solution is improved by revising the k-means algorithm. In the revised K-means algorithm, grouping the paths is performed by the hyperplane instead of the distance between a path and a group center. Experimental results show that the proposed method is more efficient.

웹사이트 운영이 비즈니스 모델로서의 성공을 거두기 위한 가장 중요한 요소 중 하나는 웹사용자의 성향을 분석하여 이를 효율적으로 이용하는 것이다. 사용자 분석을 통하여 사용자들에게 웹사이트의 가치를 효율적으로 전달하고 이를 통하여 운영자는 충분한 수익을 거둘 수 있다. 이러한 점에서 웹 사이트를 이용하는 사용자들의 취향과 행동방식을 얻어내려는 웹 방문 패턴 발견으로써의 사용자 클러스터링은 매우 중요하다. 또한 얻어진 사용자의 클러스터링 정보는 웹 개인화나 웹 사이트를 재구성하는데 필수적이다. 본 논문에서는 사용자 웹 방문 데이터를 정제하고 분류하여 그 특성에 따라 사용자들을 몇 개의 그룹으로 클러스터링 하기 위한 알고리즘이 제안된다. 알고리즘은 2단계로 구성되는데 첫 번째 단계는 초기해를 구하는 단계로서, 패스의 사이각을 이용하여 유사도를 측정하고 이 유사도에 따라 K개의 사용자 그룹으로 분류하여 초기해를 구한다. 두번째 단계는 첫 번째 단계에서 구한 초기해를 개선하여 최적해를 찾는 과정으로서 하이퍼플레인을 이용하여 클러스터링하는 개량된 K-평균알고리즘을 제안한다. 또한 실험을 통하여 기존의 방법과 비교하여 제안된 알고리즘의 효율성과 패스 특성이 보다 정확하게 계산된 클러스터링이 구현됨을 확인할 수 있다.

Keywords

References

  1. 김종달, "웹 로그에서 웹 방문 패턴을 이용한 사용자 웹 방문 패스 클러스터링", 포항공과대학 석사학위논문, 2002.
  2. Baraglia, R. Silvestri, F. "Dynamic personalization of web sites without user intervention", In Communication of the ACM 50(2): 63-67, 2007. https://doi.org/10.1145/1216016.1216022
  3. Cooley, R. Mobasher, B. and Srivastave, J. "Web Mining: Information and Pattern Discovery on the World Wide Web" In Proceedings of the 9th IEEE International Conference on Tool with Artificial Intelligence, 1997.
  4. Cyrus Shahabi, Amir M. Zarkesh, Jafar Adibi, and Vishal Shah "Knowledge Discovery from Users Web-Page Navigation", RIDE, 1997.
  5. 강현철, 한상태, 최종후, 김은석, 김미경, "데이터마이닝(방법론 및 활용)", 자유아카데미, 2001. 2
  6. 장남식, 홍성완, 장재호. "(성공적인 지식경영을 위한 핵심정보기술) 데이터 마이닝", 대청, 2000.
  7. 조재희, 박성진, "데이터 웨어하우징과 OLAP", 대청, 2000.
  8. Vassilvitskii, S. "How Slow is the k-means Method?". Proceedings of the 22nd Symposium on Computational Geometry (SoCG), 2006.
  9. Olfa Nasraoui, Hichem Frigui, Raghu Krishnapuram, Anupam Joshi, "EXTRACTING WEB USER PROFILES USING RELATIONAL COMPETITIVE FUZZY CLUSTERING", Intl. J. Artificial Intelligence Tools, 2000. https://doi.org/10.1142/S021821300000032X
  10. Jan Kerkhofs, Prof. Dr. Koen Vanhoof, Danny Pannemans, "Web Usage Mining on Proxy Servers: A Case Study", http://www.docstoc.com/docs/28616441/Web-Usage-Mining-on-Proxy-Servers-A-Case-Study
  11. Cottrell M., Fort J.C., Pages G., Two or three things that we know about the Kohonen algorithm, in Proc of ESANN, M. Verleysen ED., D Facto, Bruxelles, 1994.
  12. Chris Ding and Xiaofeng He. "K-means Clustering via Principal Component Analysis". Proc. of Int'l Conf. Machine Learning (ICML 2004), pp 225-232, 2004.
  13. Charles W. Curtis Linear Algebra, page 62, Allyn & Bacon, Boston, 1968.
  14. Mokhtar S. Bazaraa, John J. Jarvis, "LINEAR PROGRAMMING AND NETWORK FLOWS", JOHN WILEY & SONS.