• 제목/요약/키워드: web logs

검색결과 83건 처리시간 0.021초

Pre-Processing of Query Logs in Web Usage Mining

  • Abdullah, Norhaiza Ya;Husin, Husna Sarirah;Ramadhani, Herny;Nadarajan, Shanmuga Vivekanada
    • Industrial Engineering and Management Systems
    • /
    • 제11권1호
    • /
    • pp.82-86
    • /
    • 2012
  • In For the past few years, query log data has been collected to find user's behavior in using the site. Many researches have studied on the usage of query logs to extract user's preference, recommend personalization, improve caching and pre-fetching of Web objects, build better adaptive user interfaces, and also to improve Web search for a search engine application. A query log contain data such as the client's IP address, time and date of request, the resources or page requested, status of request HTTP method used and the type of browser and operating system. A query log can offer valuable insight into web site usage. A proper compilation and interpretation of query log can provide a baseline of statistics that indicate the usage levels of website and can be used as tool to assist decision making in management activities. In this paper we want to discuss on the tasks performed of query logs in pre-processing of web usage mining. We will use query logs from an online newspaper company. The query logs will undergo pre-processing stage, in which the clickstream data is cleaned and partitioned into a set of user interactions which will represent the activities of each user during their visits to the site. The query logs will undergo essential task in pre-processing which are data cleaning and user identification.

웹 컨텐츠 선호도 측정을 위한 대용량 웹로그 분석기 구현 (Implementation of big web logs analyzer in estimating preferences for web contents)

  • 최은정;김명주
    • 디지털산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.83-90
    • /
    • 2012
  • With the rapid growth of internet infrastructure, World Wide Web is evolving recently into various services such as cloud computing, social network services. It simply go beyond the sharing of information. It started to provide new services such as E-business, remote control or management, providing virtual services, and recently it is evolving into new services such as cloud computing and social network services. These kinds of communications through World Wide Web have been interested in and have developed user-centric customized services rather than providing provider-centric informations. In these environments, it is very important to check and analyze the user requests to a website. Especially, estimating user preferences is most important. For these reasons, analyzing web logs is being done, however, it has limitations that the most of data to analyze are based on page unit statistics. Therefore, it is not enough to evaluate user preferences only by statistics of specific page. Because recent main contents of web page design are being made of media files such as image files, and of dynamic pages utilizing the techniques of CSS, Div, iFrame etc. In this paper, large log analyzer was designed and executed to analyze web server log to estimate web contents preferences of users. With mapreduce which is based on Hadoop, large logs were analyzed and web contents preferences of media files such as image files, sounds and videos were estimated.

Redis를 활용한 Web Service 성능 향상 (Web Service Performance Improvement with the Redis)

  • 김철호;박경원;최용락
    • 한국정보통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.2064-2072
    • /
    • 2015
  • 대부분의 Web Service는 성능 개선을 위해 사용자 접속 로그를 생성하여 관리한다. 생성된 접속 로그를 통해 트래픽이 많이 발생하는 시간대와 어떤 Resource가 많이 사용되는지 확인할 수 있으며 로그 분석을 통해 Web Service의 성능 측정 및 개선하는데 이용된다. 하지만, 많은 공공부문 Web Service와 같이 일정 기간 동안에 접속량이 증가할 때, 처리 할 사용자 접속 로그 수 증가로 인해 Web Service의 성능이 저하된다. 이를 해결하기 위해, 시스템의 성능을 개선하거나 튜닝을 필요로 하지만 많은 비용이 발생하게 되며 일정한 시간이 지나면, 사용자의 접속이 줄어들게 되어 더 많은 비용이 발생한다. 본 논문에서는 사용자 접속 로그 처리의 성능을 개선을 통한 Web Service의 성능개선을 제안한다. 또한, 최근 대용량 데이터를 처리하기 위하여 많이 사용되고 있는 Redis를 활용하여 NoSQL을 일부 적용한 방법을 제안한다.

웹 검색 분야에서의 로그 분석 방법론의 활용도 (Applications of Transaction Log Analysis for the Web Searching Field)

  • 박소연;이준호
    • 한국문헌정보학회지
    • /
    • 제41권1호
    • /
    • pp.231-242
    • /
    • 2007
  • 웹 검색 분야에서 사용되고 있는 다양한 연구 방법들 중 로그 분석 방법은 이용자의 실제 검색 행위를 사실적으로 반영한다. 로그 분석을 통하여 대다수 이용자의 전반적인 이용 행태를 분석할 수 있으므로, 로그 분석 방법은 이용자 계층이 다양하고 이질적인 웹 검색 분야의 연구에 적합한 방법이라고 할수 있다. 이에 본 연구에서는 네이버의 트랜잭션 로그를 분석한 일련의 연구를 중심으로 로그 분석 방법론이 웽 검색 분야에 어떻게 활용되고 기여할 수 있는지를 파악하고 향후 활용 분야를 제시하고자 한다. 본 연구의 결과는 웹 검색 분야의 학문적 발전과 보다 효율적인 웹 검색 시스템 개발과 서비스 구축에 기여할 수 있을 것으로 기대된다.

ScienceON 웹 로그에 대한 인간 및 웹 크롤러 행위 패턴 분석 (Analysis of Behavior Patterns from Human and Web Crawler Events Log on ScienceON)

  • ;정한민;박정훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.6-8
    • /
    • 2022
  • 웹 로그 분석은 서비스 개선에 있어 필수적인 절차 중 하나이다. ScienceON은 다양한 과학기술 문헌과 정보를 서비스하는 대표적인 정보 서비스이며, 우리는 지속적인 개선을 위해 웹 로그를 분석하고 있다. 본 연구는 2020년 5월과 2021년 5월 생성된 ScienceON 웹 로그에 대해 인간과 웹 크롤러로 구분하여 심층적인 분석을 하는 데 목표를 두고 있다. 먼저 S(검색), V(상세보기), D(다운로드) 타입에 해당하는 웹 로그만 추출하여 각 시기에 대해 658,407와 8,727,042 레코드로 정규화하였다. 그리고, 파이썬 'user_agents' 라이브러리를 이용하여 인간과 웹 크롤러로 로그를 분리하였으며, 각 로그에 대해 60초를 기준으로 세션 크기를 설정하고 분석하였다. 인간과 달리 웹 크롤러는 세션 당 평균 행위 패턴(Average Behaviors per Session)의 길이가 상대적으로 길고, 행위 패턴이 V 중심으로 이루어짐으로 확인하였다. 향후 웹 크롤러를 쉽게 탐지하고 대응하며, 인간 사용자의 행위 패턴에 대응할 수 있도록 서비스를 개선할 예정이다.

  • PDF

기자직의 웹 정보탐색행위 패턴 분석 (Analyzing Patterns in News Reporters' Information Seeking Behavior on the Web)

  • 권혜진;정동열
    • 정보관리학회지
    • /
    • 제27권4호
    • /
    • pp.109-130
    • /
    • 2010
  • 본 연구의 목적은 기자직의 웹 행동 분석을 통해 웹 정보탐색행위 패턴의 특성을 규명하는 것이다. 이를 위해 본 연구는 기자직 23명을 대상으로 트랜잭션로그를 수집하여 분석하였다. 데이터 수집을 위하여 분석 대상의 컴퓨터에 웹 트래킹 소프트웨어를 설치하였으며, 2주 동안 총 39,860개의 웹 로그가 수집되었다. 세션의 시작과 종료 패턴, 단계별 이행 패턴, 순차규칙 모형이 분석되었으며, 기자직과 일반인의 웹 이용 패턴을 비교하였다. 이를 토대로 기자직의 웹 정보탐색행위 패턴을 사실확인형 탐색, 사실확인형 검색, 조사형 탐색, 조사형 검색 등 4가지 형태로 유형화하였다.

Web Server Log Visualization

  • Kim, Jungkee
    • International journal of advanced smart convergence
    • /
    • 제7권4호
    • /
    • pp.101-107
    • /
    • 2018
  • Visitors to a Web site leave access logs documenting their activity in the site. These access logs provide a valuable source of information about the visitors' access patterns in the Web site. In addition to the pages that the user visited, it is generally possible to discover the geographical locations of the visitors. Web servers also records other information such as the entry into the site, the URL, the used operating system and the browser, etc. There are several Web mining techniques to extract useful information from such information and visualization of a Web log is one of those techniques. This paper presents a technique as well as a case a study of visualizing a Web log.

클릭 로그에 근거한 네이버 검색 질의의 형태 및 주제 분석 (An Analysis of Query Types and Topics Submitted to Navel)

  • 박소연;이준호;김지승
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.265-278
    • /
    • 2005
  • 웹 검색 분야의 대부분의 선행 연구들은 검색 질의를 살펴본 연구자의 판단에 근거하여 질의의 주제를 분석하였다. 그러나 웹 검색 질의의 주제 분야가 방대하고 다양하여서 이용자가 검색 결과에서 실제로 조회한 문서를 모르는 상태에서 연구자의 판단에 근거하여 질의의 주제를 분류하기에는 한계가 있다. 이에 본 연구에서는 1년 동안 네이버 이용자들이 입력한 질의를 기록한 질의로그와 질의에 대한 검색 결과에서 이용자가 조회한 문서를 기록한 클릭 로그에 근거하여 국내 웹 검색 질의의 형태 및 주제를 분석하였다. 질의를 형태별로 분류한 결과 사이트 검색 질의가 내용 검색 질의보다 많은 것으로 나타났다. 또한 이용자들이 전반적으로 가장 많이 검색한 주제는 컴퓨터/인터넷. 엔터테인먼트, 쇼핑, 게임. 교육 순으로 나타났다. 본 연구의 결과는 인터넷 포탈 업체들의 효과적인 컨텐츠 구축 및 효율적인 검색 시스템 개발에 기여할 것으로 기대된다.

질의 로그 분석을 통한 네이버 이용자의 검색 형태 연구 (Information Seeking Behavior of the NAVER Users via Query Log Analysis)

  • 이준호;박소연;권혁성
    • 정보관리학회지
    • /
    • 제20권2호
    • /
    • pp.27-41
    • /
    • 2003
  • 이용자와 검색 서비스 시스템의 모든 검색 과정을 기록한 질의 로그는 이용자의 실제 검색 행위를 사실적으로 반영한다. 따라서, 웹 검색 이용자들의 검색 행태를 이해하기위하여 웹 검색 서비스 시스템이 생성한 질의 로그를 분석하는 방법이 널리 사용되고 있다. 본 연구는 네이버 이용자의 웹 검색 행태를 파악하기 위하여 기존의 질의 로그 분석 방법론을 보완하여 제시한다. 또한, 본 연구는 통합 검색, 디텍토리 검색, 웹 문서 검색과 같은 다양한 검색 유형에 대하여 일주일 동안 생성된 질의 로그를 분석함으로써 네이버 웹 검색 이용자들의 전반적인 검색 행태를 파악하였다. 본 연구의 결과는 보다 효과적인 웹 검색 시스템 개발과 서비스 구축에 기여할 것으로 기대된다.

A Web-based System for Business Process Discovery: Leveraging the SICN-Oriented Process Mining Algorithm with Django, Cytoscape, and Graphviz

  • Thanh-Hai Nguyen;Kyoung-Sook Kim;Dinh-Lam Pham;Kwanghoon Pio Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권8호
    • /
    • pp.2316-2332
    • /
    • 2024
  • In this paper, we introduce a web-based system that leverages the capabilities of the ρ(rho)-algorithm, which is a Structure Information Control Net (SICN)-oriented process mining algorithm, with open-source platforms, including Django, Graphviz, and Cytoscape, to facilitate the rediscovery and visualization of business process models. Our approach involves discovering SICN-oriented process models from process instances from the IEEE XESformatted process enactment event logs dataset. This discovering process is facilitated by the ρ-algorithm, and visualization output is transformed into either a JSON or DOT formatted file, catering to the compatibility requirements of Cytoscape or Graphviz, respectively. The proposed system utilizes the robust Django platform, which enables the creation of a userfriendly web interface. This interface offers a clear, concise, modern, and interactive visualization of the rediscovered business processes, fostering an intuitive exploration experience. The experiment conducted on our proposed web-based process discovery system demonstrates its ability and efficiency showing that the system is a valuable tool for discovering business process models from process event logs. Its development not only contributes to the advancement of process mining but also serves as an educational resource. Readers, students, and practitioners interested in process mining can leverage this system as a completely free process miner to gain hands-on experience in rediscovering and visualizing process models from event logs.