User Identification and Session completion in Input Data Preprocessing for Web Mining

웹 마이닝을 위한 입력 데이타의 전처리과정에서 사용자구분과 세션보정

  • 최영환 (공주대학교 컴퓨터공학과) ;
  • 이상용 (공주대학교 정보통신공학부)
  • Published : 2003.10.01

Abstract

Web usage mining is the technique of data mining that analyzes web users' usage patterns by large web log. To use the web usage mining technique, we have to classify correctly users and users session in preprocessing, but can't classify them completely by only log files with standard web log format. To classify users and user session there are many problems like local cache, firewall, ISP, user privacy, cookey etc., but there isn't any definite method to solve the problems now. Especially local cache problem is the most difficult problem to classify user session which is used as input in web mining systems. In this paper we propose a heuristic method which solves local cache problem by using only click stream data of server side like referrer log, agent log and access log, classifies user sessions and completes session.

웹 이용 마이닝은 거대한 웹 로그들을 이용하여 웹 사용자의 이용 패턴을 분석하는 데이타 마이닝 기술이다. 이러한 웹 이용 마이닝 기술을 사용하기 위해서는 전처리 과정 중의 사용자와 세션을 정확하게 구분해야 하는데, 표준 웹 로그 형식의 로그 파일만으로는 완전히 구분할 수 없다. 사용자와 세션을 구분하기 위해서는 로컬캐시, 방화벽, ISP, 사용자 프라이버시, 쿠키 등과 같은 많은 문제들이 있지만, 이 문제를 해결하기 위한 명확한 방법은 아직 없다. 특히, 로컬캐시 문제는 웹 마이닝 시스템의 입력으로 사용되는 사용자 세션을 구분하는데 가장 어려운 문제이다 본 연구에서는 참조 로그와 에이전트 로그, 그리고 액세스 로그 둥의 서버측 클릭스트림 데이타만을 이용하여 로컬캐시 문제를 해결하고, 사용자 세션을 구분하고 세션을 보정하는 휴리스틱 방법을 제안한다.

Keywords

References

  1. 김재형, 노효원, 김남호, 정정화, '인터넷 비즈니스 기반의 고객관계관리(CRM)를 위한 웹 로그 분석에 관한 연구', 한국정보처리학회 춘계 학술발표논문집 제7권 제1호, 2000
  2. R. Cooley, B. Mobasher, J. Srivastava, Webmining : Information and pattern discovery on the World Wide web. In: International Conference on Tools with Artificial Intelligence, Newport Beach, CA, pp.558-567, 1997 https://doi.org/10.1109/TAI.1997.632303
  3. B. Mobasher, N. Jain, E. Han, and J. Srivastava, Web Mining : Pattern discovery from World Wide Web Transactions, Technical Report TR96-050, Univ. of Minnesota, Dept. of Computer Science, Minneapolis, 1996
  4. http://www.w3.org/Daemon/User/Config/Logging.H-tml
  5. Srivastava, J. Cooley, R. Deshpande, M. & Tan, P.N. Web Usage mining: Discovery and Application of Usage Patterns from Web Data, SIGKDD Explanations, 1. 2000 https://doi.org/10.1145/846183.846188
  6. M. S. Chen, J. S. Park, P. S. Yu. Data Mining for path traversal pattems in a Web environment. In: Proc. 16th International Conference on Distribut-ed Computing Systems, pp.385-392, 1996 https://doi.org/10.1109/ICDCS.1996.507986
  7. H. Mannia, H. Toivonen, Discovering Generalized episodes using minimal ocurrences. In: Proc. Second International Conference on Knowledge Discovery and Data Mining, Portland, Oregon, pp.146-151, 1996
  8. T. Yan, M. Jacobson, H. Gracia-Molina, U. Dayal. From user access patterns to dynamic hypertext linking. In : Fifth International World Wide Web Conference, Paris, France, 1996 https://doi.org/10.1016/0169-7552(96)00051-7
  9. J. Pitkow. In search of reliable usage data on the WWW. In : Sixth International World Wide Web Conference, Santa Clara, CA, pp.451-463, 1997
  10. P. P. Bonissone and K. S. Decker. Selecting uncertainty calculi and granularity: An experiment in trading-off precision and complexity. Uncertainty in Artificial Intelligence, pp. 2217-2247, 1986
  11. R. Cooley, B. Mobasher, J. Srivastave. Data Prepa-ration for mining World Wide Web Brow sing Pat-terns, In: Knowledge and Information Systems 1, Springeer Verlag, pp. 1-26, 1999