An Analysis Method of User Preference by using Web Usage Data in User Device

사용자 기기에서 이용한 웹 데이터 분석을 통한 사용자 취향 분석 방법

  • 이승화 (성균관대학교 정보통신공학부) ;
  • 최형기 (성균관대학교 정보통신공학부) ;
  • 이은석 (성균관대학교 정보통신공학부)
  • Published : 2009.03.15

Abstract

The amount of information on the Web is explosively growing as the Internet gains in popularity. However, only a small portion of the information on the Web is truly relevant or useful to the user. Thus, offering suitable information according to user demand is an important subject in information retrieval. In e-commerce, the recommender system is essential to revitalize commercial transactions, raise user satisfaction and loyalty towards the information provider. The existing recommender systems are mostly based on user data collected at servers, so user data are dispersed over several servers. Therefore, web servers that lack sufficient user behavior data cannot easily infer user preferences. Also, if the user visits the server infrequently, it may be hard to reflect the dynamically changing user's interest. This paper proposes a novel personalization system analyzing the user preference based on web documents that are accessed by the user on a user device. The system also identifies non-content blocks appearing repeatedly in the dynamically generated web documents, and adds weight to the keywords extracted from the hyperlink sentence selected by the user. Therefore, the system establishes at an early stage recommendation strategies for the web server that has little user data. Also, user profiles are generated rapidly and more accurately by identifying the information blocks. In order to evaluate the proposed system, this study collected web data and purchase history from users who have current purchase activity. Then, we computed the similarity between purchase data and the user profile. We confirm the accuracy of the generated user profile since the web page containing the purchased item has higher correlation than other item pages.

최근 인터넷 상에 정보가 방대해지면서 사용자의 요구에 맞는 정보 필터링과 개인화 서비스가 매우 중요해지고 있다. 특히 전자상거래 분야에서 상거래를 활성화시키고 정보 제공자에 대한 만족도와 충성도를 높이기 위해, 사용자의 취향을 기반으로 한 정보 추천은 필수적인 요소가 되었다. 기존 추천 시스템은 사용자의 관심 정보를 기술한 사용자 프로파일을 대부분 정보 제공자 측에서 각각 개별적으로 수집하고 이를 기초로 추천 서비스를 제공한다. 따라서 사용자의 정보는 각 정보 제공자 측에 분산되어 존재하며, 사용자 정보가 부족한 서버에서는 초기에 추천 전략을 세우기 어렵다는 문제가 있다. 또한 사용자정보를 가지고 있는 서버의 경우에도 사용자가 해당 서버를 주기적으로 방문하지 않았다면, 사용자의 동적인 취향 변화를 반영하기 어렵다. 따라서 본 논문에서는 사용자의 행동을 통합적이고, 지속적으로 관찰할 수 있는 사용자 기기에서, 사용자가 이용한 웹 문서 분석을 통해 사용자의 관심 분야를 추론하고, 이를 다른 정보 제공자가 이용하는 새로운 구조의 추천 시스템을 제안한다. 또한 제안 시스템은 보다 효율적인 프로파일 생성을 위해, 웹 페이지에서 식별된 정보 블록에서 관심 단어를 추출하고, 앵커 태그를 분석하여 사용자의 이동 경로를 추적하는 특징을 포함하고 있다. 이러한 제안 시스템의 특징을 통해, 사용자 정보가 부족한 상점에서도 초기에 개인화 서비스 제공이 가능해지며, 사용자가 평소에 이용하는 웹 문서로부터 프로파일을 생성함으로써, 사용자의 동적인 취향 변화를 반영할 수 있다. 또한 정보 블록에서 취향 정보를 추출하는 알고리즘을 통해 보다 빠르고 정확한 프로파일 생성이 가능해진다. 본 논문에서는 최근 구매 활동이 있었던 사용자들의 웹 검색 히스토리와 구매 데이터를 이용하여 제안 시스템의 추천 정확도와 프로파일 분석에 소요되는 시간 측면의 이득을 실험하였으며, 그 결과를 통해 시스템의 유효성을 확인하였다.

Keywords

References

  1. G. Linden, B. Smith, and J. York, “Amazon.com Recommendations Item- to-Item Collaborative Filte-ring,” IEEE Internet Computing, pp. 76-80, Jan. 2003 https://doi.org/10.1109/MIC.2003.1167344
  2. M. Balabanovic and Y. Shoham, “Fab: Content-based, Collaborative Recommendation,” Communi-cation of the ACM, pp. 66-72, Mar. 1997 https://doi.org/10.1145/245108.245124
  3. 김태훈, 최중민, "사용자 편의의 인터넷 정보검색을 위한 지능형 웹 브라우징 에이전트", 정보과학회논문지(B), 제25권 제7호, pp. 1064-1078, Jul. 1998
  4. S.-H. Ha, “Digital Content Recommender on the Internet,” IEEE Intelligent Systems, pp. 70-77, Mar. 2006 https://doi.org/10.1109/MIS.2006.24
  5. Z. Yu and X. Zhou, “TV3P: An Adaptive Assistant for Personalized TV,” IEEE Trans. on Consumer Electronics, Vol.50, No.1, pp. 393-399, Feb. 2004 https://doi.org/10.1109/TCE.2004.1277889
  6. L. Chen, and K. Sycara, “WebMate: A Personal Agent for Browsing and Searching,” Proc. 2th international conference on Autonomous Agent, pp. 132-139, 1998 https://doi.org/10.1145/280765.280789
  7. R. Armstrong, D. Freitag, T. Joachims, and T. Mitchell, “WebWatcher: A Learning Apprentice for the World Wide Web,” Proc. AAAI spring symposium series on Information Gathering from Distributed, Heterogeneous Environments, pp. 6-13, Feb. 1995
  8. 문현정, 김교정, "웹 도큐먼트 기반 연관 지식 추출기법: 생명정보분야에 적응", 한국 인터넷 정보학회, 제2권 제5호, pp. 9-19, Dec. 2001
  9. S. Debnath, P. Mitra, N. Pal, and C.-L. Giles, “Automatic Identification of Informative Sections of Web Pages,” IEEE Trans. on Knowledge and Data Engineering, Vol.17, No.9, pp. 1233-1246, Sep. 2005 https://doi.org/10.1109/TKDE.2005.138
  10. D. Cai, S. Yu, J.-R. Wen and W.-Y. Ma, "Block-based Web Search," Proc. 27th Ann. international ACM SIGIR conference, pp. 456-463, 2004 https://doi.org/10.1145/1008992.1009070
  11. R, Song, H. Liu, J.-R. Wen, and W.-Y. Ma, "Learning Block Importance Models for Web Pages," Proc. 13th World Wide Web conference, pp. 203-211, 2004 https://doi.org/10.1145/988672.988700
  12. Y. Chem, X. Xie, W.-Y. Ma, and H.-J. Zhang, "Adapting Web Pages for Small-Screen Devices," IEEE Internet Computing, pp. 50-56, Jan. 2005 https://doi.org/10.1109/MIC.2005.5
  13. T. Laakko and T. Hiltunen, "Adpating Web Con-tent to Mobile User Agents," IEEE Internet Computing, pp. 46-53, Mar. 2005 https://doi.org/10.1109/MIC.2005.29
  14. S. Robertson, "Understanding Inverse Document Frequency: on theoretical arguments for IDF," Journal of documentation, Vol.60, No.5, pp. 503-520, 2005 https://doi.org/10.1108/00220410410560582
  15. G. Salton, "Introduction to Modern Information Retrieval," Mcgraw Hill, 1983
  16. http://www.w3.org/dom/
  17. S. Aciar, D. Zhang, S. Simoff, and J. Debenham, "Informed Recommender: Basing Recommendations on Consumer Product Reviews," IEEE Intelligent Systems, pp. 39-47, Jun. 2007 https://doi.org/10.1109/MIS.2007.55