DOI QR코드

DOI QR Code

Mining Association Rules from the Web Access Log of an Online News website

온라인 뉴스 웹사이트의 로그를 이용한 연관규칙 발견에 관한 연구

  • 황현석 (한림대학교 경영학부, 한림경영연구소) ;
  • 유기동 (단국대학교 경영학부)
  • Received : 2013.03.12
  • Accepted : 2013.04.19
  • Published : 2013.04.30

Abstract

Today a lot of functional areas of a firm are operated on the Web. Online shopping malls analyze web log recording customers' activities on the web to connect them to business outcomes. Not only commercial websites, but online news sites also need to collect and analyze web logs to understand their news readers' interest. However, little research has been performed yet. In this research we mined the web access log of an online news website and conduct Market Basket Analysis to uncover the association rules among the categories of news articles. The research is composed of two stages: 1) Identifying the individual session of a visitor; 2) Mining association rule from news articles read by each session. We gather 7-day access logs two times. The results of log mining and meanings of association rules are suggested with managerial implications in conclusion section.

인터넷의 활용으로 기업활동의 많은 영역이 온라인을 통해 이루어지고 있다. 온라인 쇼핑몰에서는 고객이 웹사이트 방문 후에 어떤 활동을 하는지를 파악하고 이를 경영활동의 성과로 연계하기 위해 웹 로그를 분석하고 있다. 온라인 뉴스 사이트에서도 방문자의 활동을 파악하고 어떤 기사에 관심이 많은지, 어떤 분야의 기사를 많이 보는지 등을 파악하여 독자에게 서비스하는 것이 필요하다. 그러나 언론사의 웹사이트 로그를 분석하는 연구는 충분히 이루어지지 않고 있다. 본 연구에서는 온라인 뉴스 웹사이트에서 수집된 로그를 이용하여 방문자의 웹사이트 내에서의 활동을 파악하고 뉴스 기사간 연관규칙을 도출한다. 연구는 크게 방문자의 세션(session)을 파악하는 첫 번째 단계와 방문자가 읽은 뉴스 기사간의 연관규칙을 살펴보는 두 번째 단계로 이루어져 있으며 두 차례에 걸쳐 수집된 웹사이트 로그를 이용하여 분석하였다. 최종적으로 도출된 규칙의 의미와 온라인 뉴스 사이트에서 고려해야 하는 함의를 제시하였다.

Keywords

References

  1. Agrawal, R., and Srikant, R., 1994, Fast Algorithms for Mining Association Rules, Proceedings of the 20th VLDB Conference, Santiago, Chile, pp. 487-499.
  2. Batista, P., and Silva, M. J., 2002, Mining Web Access Logs of an On-line Newspaper, Departamento de Informatica, Faculdade de Ciencias - Universidade de Lisboa, Portugal, pp. 1-8.
  3. Berendt, B., 2002, Using site semantics to analyze, visualize, and support navigation, Data Mining and Knowledge Discovery, Vol. 6, No. 1, pp. 37-59. https://doi.org/10.1023/A:1013280719795
  4. Britos, P., Martinelli, D., Merlino, H., and García-Martínez, R., 2007, Web Usage Mining Using Self Organized Maps International Journal of Computer Science and Network Security, Vol. 7, No. 6, pp 45-50.
  5. Configuration file of W3C httpd, http://www.w3.org/Daemon/User/Config/ (1995).
  6. Dai, H., and Mobasher, B., 2002, Using ontologies to discover domain-level web usage profiles, Proceedings of the 2nd Semantic Web Mining Workshop at ECML/PKDD, Helsinki, Finland. pp.1-17.
  7. Fenstermacher, K., and Ginsburg, M., 2002, Mining client-side activity for personalization, Fourth IEEE International Workshop on Advanced Issues of E-Commerce and Web-Based Information Systems, pp. 205-212.
  8. Fu, Y., Creado, M., and Ju, C., 2001, Reorganizing web sites based on user access patterns, Proceedings of the Tenth International Conference on Information and Knowledge Management, pp. 583-585.
  9. Kim, H., and Chan, P., 2003, Learning implicit user interest hierarchy for context in personalization, Proceedings of the 2003 International Conference on Intelligent User Interfaces, pp. 101-108.
  10. Kosala, R., and Blockeel, H., 2000, Web mining research: a survey, ACM SIGKDD Explorations Newsletter, Vol. 2, No. 1, pp. 1-15.
  11. Lin, W., Alvarez, S., and Ruiz, C., 2002, Efficient adaptive-support association rule mining for recommender systems, Data Mining and Knowledge Discovery, Vol. 6, No. 1, pp. 83-105. https://doi.org/10.1023/A:1013284820704
  12. Mobasher, B., Dai, H., and Tao, M., 2002, Discovery and evaluation of aggregate usage profiles for web personalization, Data Mining and Knowledge Discovery, Vol. 6, pp. 61-82. https://doi.org/10.1023/A:1013232803866
  13. Moshaber, B., Cooley, R., and Srivastava, J., 2000, Automatic Personalization Based on Web Usage Mining, Communications of the ACM, Vol. 43, No. 8, pp 142-151. https://doi.org/10.1145/345124.345169
  14. Spiliopoulou, M., and Pohle, C., 2001, Data mining for measuring and improving the success of web sites, Data Mining and Knowledge Discovery, Vol. 5, No. 1-2, pp. 85-114. https://doi.org/10.1023/A:1009800113571
  15. Srikant, R., and Yang, Y., 2001, Mining web logs to improve website organization, World Wide Web, pp. 430-437.
  16. Srivastava, J., Cooley, R., Deshpande, M., and Tan, P.-N., 2000, Web usage mining: discovery and applications of usage patterns from web data, SIGKDD Explorations, Vol. 1, No. 2, pp. 12-23. https://doi.org/10.1145/846183.846188
  17. W3C Extended Log File Format, 1996, http://www.w3.org/TR/WD-logfile.html.
  18. Xie, Y., and Phoha, V., 2001, Web user clustering from access log using belief function, Proceedings of the First International Conference on Knowledge Capture (K-CAP 2001), pp. 202-208.

Cited by

  1. 연관규칙 분석을 통한 ESG 우려사안 키워드 도출에 관한 연구 vol.30, pp.1, 2013, https://doi.org/10.5859/kais.2021.30.1.123