Analysis of Behavior Patterns from Human and Web Crawler Events Log on ScienceON

ScienceON 웹 로그에 대한 인간 및 웹 크롤러 행위 패턴 분석

  • ;
  • 정한민 (한국과학기술정보연구원) ;
  • 박정훈 (한국과학기술정보연구원)
  • Published : 2022.05.26

Abstract

Web log analysis is one of the essential procedures for service improvement. ScienceON is a representative information service that provides various S&T literature and information, and we analyze its logs for continuous improvement. This study aims to analyze ScienceON web logs recorded in May 2020 and May 2021, dividing them into humans and web crawlers and performing an in-depth analysis. First, only web logs corresponding to S (search), V (detail view), and D (download) types are extracted and normalized to 658,407 and 8,727,042 records for each period. Second, using the Python 'user_agents' library, the logs are classified into humans and web crawlers, and third, the session size was set to 60 seconds, and each session is analyzed. We found that web crawlers, unlike humans, show relatively long for the average behavior pattern per session, and the behavior patterns are mainly for V patterns. As the future, the service will be improved to quickly detect and respond to web crawlers and respond to the behavioral patterns of human users.

웹 로그 분석은 서비스 개선에 있어 필수적인 절차 중 하나이다. ScienceON은 다양한 과학기술 문헌과 정보를 서비스하는 대표적인 정보 서비스이며, 우리는 지속적인 개선을 위해 웹 로그를 분석하고 있다. 본 연구는 2020년 5월과 2021년 5월 생성된 ScienceON 웹 로그에 대해 인간과 웹 크롤러로 구분하여 심층적인 분석을 하는 데 목표를 두고 있다. 먼저 S(검색), V(상세보기), D(다운로드) 타입에 해당하는 웹 로그만 추출하여 각 시기에 대해 658,407와 8,727,042 레코드로 정규화하였다. 그리고, 파이썬 'user_agents' 라이브러리를 이용하여 인간과 웹 크롤러로 로그를 분리하였으며, 각 로그에 대해 60초를 기준으로 세션 크기를 설정하고 분석하였다. 인간과 달리 웹 크롤러는 세션 당 평균 행위 패턴(Average Behaviors per Session)의 길이가 상대적으로 길고, 행위 패턴이 V 중심으로 이루어짐으로 확인하였다. 향후 웹 크롤러를 쉽게 탐지하고 대응하며, 인간 사용자의 행위 패턴에 대응할 수 있도록 서비스를 개선할 예정이다.

Keywords