An Efficient Candidate Pattern Tree Structure and Algorithm for Incremental Web Mining

점진적인 웹 마이닝을 위한 효율적인 후보패턴 저장 트리구조 및 알고리즘

  • 강희성 (광운대학교 컴퓨터과학과) ;
  • 박병준 (광운대학교 컴퓨터과학과)
  • Published : 2007.01.25

Abstract

Recent advances in the internet infrastructure have resulted in a large number of huge Web sites and portals worldwide. These Web sites are being visited by various types of users in many different ways. Among all the web page access sequences from different users, some of them occur so frequently that may need an attention from those who are interested. We call them frequent access patterns and access sequences that can be frequent the candidate patterns. Since these candidate patterns play an important role in the incremental Web mining, it is important to efficiently generate, add, delete, and search for them. This thesis presents a novel tree structure that can efficiently store the candidate patterns and a related set of algorithms for generating the tree structure, adding new patterns, deleting unnecessary patterns, and searching for the needed ones. The proposed tree structure has a kind of the 3 dimensional link structure and its nodes are layered.

네트워크 환경의 발전으로 다양한 콘텐츠와 다수의 사용자를 가지는 포탈, 대형 사이트 들이 증가 하게 되었고, 이러한 포털, 대형 사이트의 증가로 인해 서로 다른 성향을 띈 다수의 사용자들이 다양한 경로로 사이트를 이용하게 되었다. 이렇게 다양해진 경로 중에 빈번하게 발생하는 경로를 빈발패턴이라고 하며, 빈발패턴이 될 가능성이 있는 패턴을 후보패턴이라고 한다. 이러한 후보패턴들을 이용해 트리구조를 생성, 추가, 삭제, 검색 하는 것은 마이닝 과정 중의 한 부분으로서, 트리구조 및 알고리즘에 따라 마이닝의 성능에 영향을 미치게 된다. 본 논문에서는 이러한 후보패턴들을 이용하는 마이닝의 성능 향상을 위해 하나의 노드가 다수의 링크를 가지는 기존의 트리 구조와는 달리 하나의 노드가 3개의 링크를 가지고 있고, 각 노드들이 계층구조로 이루어져 있어, 기존의 트리보다 정형화된 구조와 향상된 성능을 보이는 3차원 트리구조 및 생성, 추가, 삭제, 검색 알고리즘을 제안한다.

Keywords

References

  1. Maged El-Sayed, Carolina Ruiz, and Elke A.Rundensteiner, 'FS-Miner : Efficient and Incremental Mining of Frequent Sequence Patterns in Web logs', WIDM, pp.128-135, 2004 https://doi.org/10.1145/1031453.1031477
  2. Wolfgang Gaul, Lars Schmidt-Thieme, 'Mining Web navigation path fragments', Institut fur Entscheidungstheorie und Unternehm ens for schung. pp.1-6, 2000
  3. R. Cooley, B. Mobasher, and J. Srivastava, 'Web Mining : Information and Pattern Discovery on the World Wide Web', Proc. of the 9th IEEE International Conference on Tools with Artificial Intelligence, pp.558-567, Nov 1997 https://doi.org/10.1109/TAI.1997.632303
  4. Ramakrishnan Srikant, and Rakesh Agrawal, 'Mining Sequential Patterns : Generalizations and Performance Improvements', IBM Almaden Research Center 650 Harry Road, San Jose, CA 95120, pp.3-17, 1996
  5. Apache Korea Group, http://www.apache.kr.net
  6. S.Parthasarathy, M. J. Zaki, M. Ogihara, S. Dwarkadas, 'Incremental and Interactive Sequence Mining', CIKM, pp.251-258, 1999 https://doi.org/10.1145/319950.320010
  7. Mathias Gery, Hatem Haddad, 'Evaluation of Web Usage Mining approaches for user's next request prediction', WIDM, pp.75-76, 2003 https://doi.org/10.1145/956699.956716
  8. Jaideep Srivastava, R. Cooley, M. Deshpande, P-T. Tan, 'Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data', SIGKDD Explorations, Volume 1, Issue 2, pp.12-23, Jan 2000 https://doi.org/10.1145/846183.846188
  9. 코리아인터넷 마케팅센터, http://www.webpro.co.kr
  10. Xidong Wang, Yiming Ouyang, Xugang Hu, Yan Zhang, 'Discovery of User Frequent Access patterns on Web usage Mining', IEEE, pp. 765-769, 2003