• 제목/요약/키워드: 웹 로그분석

검색결과 268건 처리시간 0.028초

웹 마이닝 시스템 설계 및 유용한 접근 패턴 정의 (Design of the web data mining system and definition of useful access patterns)

  • 김종달;김성민;남도원;이동하;이전영
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.283-291
    • /
    • 2000
  • 인터넷 서비스 제공자들이 관심을 가지고 있는 것 중 하나는 인터넷 사용자들의 서비스 이용 패턴과 경향을 분석하는 것이다. 이를 통해 매출 증대와 실제 경영에 도움이 되는 사용자의 특성을 이해할 수 있기 때문이다. 이와 관련된 기본적인 접근방법은 사용자가 웹 서버에 접근했을 때 서버에 남는 웹 로그를 분석하여 사용자 패턴을 분석하는 것이다. 웹 로그 분석에 전형저인 통계기법이 사용되고 있다. 그러나 단순 통계 기법만으로는 알려지지 않는 데이터들 사이에 숨겨진 유용한 정보를 찾는 데에는 한계가 있다. 최근에는 이러한 한계를 극복하기 위해 데이터 마이닝 기술을 이용한 새로운 접근 방법이 시도되고 있다. 그러나 실제로 웹 로그에서부터 데이터 마이닝 기술을 이용하는 데에는 전처리 과정의 어려움과 실제 유용한 패턴을 어떻게 정의하는 가가 어려운 문제이다. 본 연구에서는 로(raw) 데이터인 웹 로그에서 유용한 패턴을 찾기 위한 전처리 과정을 알아보고, 웹 마이닝 시스템에 적합한 트랜잭션의 데이터 구조를 제시한다. 그리고 정의된 데이터 구조를 통한 패턴 발견 과정인 웹 사이트의 개념계층을 이용한 통계 기법과 연관규칙(Association Rules) 탐사에 대해 알아본다. 마지막으로 정의된 데이터 구조를 통한 새로운 유용한 패턴을 정의한ㄷ.

  • PDF

웹로그 데이터에 대한 군집분석 알고리즘에 관한 연구

  • 강현철;한상태;선영수
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.313-318
    • /
    • 2003
  • 최근 인터넷은 기업이 고객과 접촉할 수 있는 새로운 수단으로써 기업의 홍보나 서비스를 제공하는 기능을 수행할 뿐만 아니라 사업을 위한 중요한 도구로 여겨지고 있다. 따라서 방문자의 웹사이트 이용형태를 파악하기 위한 다양한 기법들이 제시되고 있으며, 웹로그 데이터에 대한 자료분석 기법들이 여러 학문분야에서 연구되고 있다. 본 연구에서는 웹로그 데이터에 대한 군집분석을 위해 거리측도 및 분석 알고리즘을 제안하였으며, 실제 자료에 이를 적용하여 제안된 알고리즘의 특성을 살펴보았다.

  • PDF

웹로그 마이닝을 통한 인터넷 쇼핑몰에서의 사용자 행동 분석

  • 이동하;김성민;오재훈;서동렬;임규건
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2004년도 추계학술대회
    • /
    • pp.305-312
    • /
    • 2004
  • 인터넷 웹 사이트 상에서 사용자 행동은 클릭(click)을 단위로 모두 로그 (log)에 기록된다. 웹 서버를 통해 남는 웹로그를 가공하여 단순한 통계 수치 외에, 사용자 행동을 분석할 수가 있다. 특히 인터넷 쇼핑몰에서 사용자의 행동에 대한 분석은 중요하며, 고객의 획득, 유지 전략을 수립하기 위한 중요한 정보가 된다. 본 논문에서는 인터넷 쇼핑몰에서의 사용자 행동을 비즈니스 관점에서 분석한다. 쇼핑몰 사이트의 유입 경로 분석의 다양한 관점에 대해 논의하며, 관심 카테고리 및 상품 분석, 첫페이지 영역별 분석 등 새로운 분석 방법에 대해 소개한다. 이와 함께, 이 분석과정에서 필요한 효율적인 데이터 구조, 운영계 데이터 베이스 정보 및 이들간의 연동방안과 분석 결과의 활용 방안을 제시한다.

  • PDF

Framework for Efficient Web Page Prediction using Deep Learning

  • Kim, Kyung-Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.165-172
    • /
    • 2020
  • 웹에서 접근하는 정보의 폭발적인 증가에 따라 사용자의 다음 웹 페이지 사용을 예측하는 문제의 중요성이 증가되었다. 사용자의 다음 웹 페이지 접근을 예측하는 방법 중 하나가 딥 러닝 기법이다. 웹 페이지 예측 절차는 데이터 전처리 과정을 통해 웹 로그 정보들을 분석하고 딥 러닝 기법을 이용하여 분석된 웹 로그 결과를 가지고 사용자가 접근할 다음 웹 페이지를 예측한다. 본 논문에서는 웹 페이지 예측을 위한 효율적인 웹 로그 전처리 작업과 분석을 위해 딥 러닝 기법을 사용하는 웹 페이지 예측 프레임워크를 제안한다. 대용량 웹 로그 정보의 전처리 작업 속도를 높이기 위하여 Hadoop 기반 맵/리듀스(MapReduce) 프로그래밍 모델을 사용한다. 또한 웹 로그 정보의 전처리 결과를 이용한 학습과 예측을 위한 딥 러닝 기반 웹 예측 시스템을 제안한다. 실험을 통해 논문에서 제안한 방법이 기존의 방법과 비교하여 성능 개선이 있다는 사실을 보였고 아울러 다음 페이지 예측의 정확성을 보였다.

ScienceON 웹 로그에 대한 인간 및 웹 크롤러 행위 패턴 분석 (Analysis of Behavior Patterns from Human and Web Crawler Events Log on ScienceON)

  • ;정한민;박정훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.6-8
    • /
    • 2022
  • 웹 로그 분석은 서비스 개선에 있어 필수적인 절차 중 하나이다. ScienceON은 다양한 과학기술 문헌과 정보를 서비스하는 대표적인 정보 서비스이며, 우리는 지속적인 개선을 위해 웹 로그를 분석하고 있다. 본 연구는 2020년 5월과 2021년 5월 생성된 ScienceON 웹 로그에 대해 인간과 웹 크롤러로 구분하여 심층적인 분석을 하는 데 목표를 두고 있다. 먼저 S(검색), V(상세보기), D(다운로드) 타입에 해당하는 웹 로그만 추출하여 각 시기에 대해 658,407와 8,727,042 레코드로 정규화하였다. 그리고, 파이썬 'user_agents' 라이브러리를 이용하여 인간과 웹 크롤러로 로그를 분리하였으며, 각 로그에 대해 60초를 기준으로 세션 크기를 설정하고 분석하였다. 인간과 달리 웹 크롤러는 세션 당 평균 행위 패턴(Average Behaviors per Session)의 길이가 상대적으로 길고, 행위 패턴이 V 중심으로 이루어짐으로 확인하였다. 향후 웹 크롤러를 쉽게 탐지하고 대응하며, 인간 사용자의 행위 패턴에 대응할 수 있도록 서비스를 개선할 예정이다.

  • PDF

사이트간 웹 사용 마이닝을 위한 데이터 전처리의 성능 향상 (Performance Improvement of Data Preprocessing for Intersite Web Usage Mining)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.357-361
    • /
    • 2006
  • 매일 새롭게 생기는 웹 페이지 수가 수천만 개, 온라인 문서들의 수가 수십억 개에 이르게 되자, 웹 사이트를 설계함에 있어서 웹 서버 로그 파일에 기록된 사용자의 행동을 분석하는 것이 중요한 부분이 되어가고 있다. 분석가들은 전체 웹 사이트에서 사용자 행동의 완전한 개요를 알기 원하기 때문에 고객이 방문했던 모든 다른 웹 서버를 통하여 사용자의 패스(path)를 다시 수집해야만 한다. 본 연구에서는 모든 로그 파일을 연결해서 방문했던 곳을 재구성하는 향상된 데이터 전처리 방법에 의하여 실험을 하여 로그 파일 크기를 감소시키게 되어 데이터 전처리의 성능이 향상되었음을 보였다.

  • PDF

인터넷 비즈니스 기반의 고객관계관리(CRM)을 위한 웹 로그 분석에 관한 연구 (A Study on Web-log Analysis for CRM based on Internet Business)

  • 김재형;노효원;김남호;정정화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.10-15
    • /
    • 2000
  • 개별화 웹 마케팅은 본질적으로 고객지향의 패러다임이다. 즉, 개별 고객의 특수한 니즈를 개별적으로 파악해서 각각의 고객에게 차별화된 서비스를 제공하는 것이 그 핵심이다. 웹 서버의 로그파일에 데이터마이닝의 연관규칙 기술을 이용하게 되면 고객행동 패턴의 파악 및 예측을 위한 기법으로 활용할 수 있다. 본 연구에서는 웹 사용자의 교차 판매를 위한 원투원 마케팅에 필요한 접근패턴을 분석하고자 하며, 이는 웹서버 로그파일 분석을 통하여 이루어진다. 분석하고자 하는 웹서버 로그파일은 기존의 데이터웨어하우스의 원천 데이터들과는 다르게 비정형적인 데이터 구조를 가지고있다. 이들 비정형 데이터 처리와 교차판매 지원을 위한 데이터마이닝 모델링, 이를 통한 원투원 마케팅 모델 제시, 그리고 이의 활용이 고객관계관리(CRM)에 미치는 효과를 제시한다.

  • PDF

보안성이 취약한 사용자 계정 관리를 위한 웹 로그 분석기 (The Web Log Analyser for Managing User Account having Weak Security)

  • 박기홍;이진관
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
    • /
    • pp.403-406
    • /
    • 2012
  • 인터넷이 확산과 더불어 보안의 문제도 증가하고 있다. 이로 인해 네트워크 보안과 서비스에 대한 관리자의 책임 또한 더욱더 중요시 되고 있다. 본 논문에서는 웹로그를 분석하여 웹호스팅 환경에서 장시간 사용되지 않아 보안성이 약한 사용자 계정을 관리자로 하여금 시스템 보안의 틈새를 찾고 이를 해결할 수 있는 방안을 제시하였다. 이를 위해 WLA(Web Log Analyzer)를 구현하여 웹서버가 수행될 때 기록되는 각각의 로그를 분석한다. 그 결과 웹호스팅을 사용한 계정 이름의 수를 포함한 UUL(Used User List)를 구축하고 일정기간 사용하지 않는 호스팅 서비스 이용자를 찾아내고, 관리할 수 있게 한다.

  • PDF

클레멘타인 데이터마이닝 솔루션을 이용한 웹 로그 분석 (Analysis of Web Log Using Clementine Data Mining Solution)

  • 김재경;이건창;정남호;권순재;조윤호
    • 경영정보학연구
    • /
    • 제4권1호
    • /
    • pp.47-67
    • /
    • 2002
  • 1990년대 중반 이후 기업들은 인터넷상에서 사용자의 행동에 대한 관심이 높아짐에 따라, 인터넷상에서 사용자의 웹 사이트 클릭 정보가 남아 있는 웹 로그파일에 대한 관심 역시 높아지고 있다. 웹 로그파일에는 사용자 IP, 사용시간, 방문한 주소, 참조주소, 쿠키 파일 등 다양한 정보가 남기 때문에 이것을 이용하면 사용자의 웹 사이트 행위를 구체적으로 분석할 수 있다. 또한, 특정한 유형의 사용자와 관련된 웹 사이트를 찾아 효과적인 마케팅 전략을 수립할 수도 있다. 본 연구에서는 SPSS사의 데이터마이닝 도구인 클레멘타인을 이용하여 웹 마이닝을 할 수 있는 방법론을 소개하고, 실제 인터넷 허브 사이트의 로그화일을 대상으로 분석을 수행하였다.

방문 웹 페이지 로그를 이용한 개인화된 문맥광고 기법 (Personalized Contextual Advertising Scheme using Logs of Web Page Visited)

  • 심규선;이명수;최재호;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.743-744
    • /
    • 2009
  • 사용자가 방문한 웹 사이트와 연관된 광고를 웹 페이지에 실어주는 문맥광고 관련 연구가 광고 효율성 측면에서 최근 주목을 받고 있다. 이러한 문맥광고 관련 연구의 핵심은 웹 페이지와 웹 광고간의 연관성을 높여주는데 있는데, 연관성 향상 방안으로 최근 사용자 의도 분석을 통한 연관성 향상 기법이 많이 연구되고 있다. 그러나 기존 연구에서는 사용자가 로그인을 해야 하거나, 로그 정보를 일정기간이상 수집해야만 사용자 의도 분석이 가능 하다는 문제점이 존재 한다. 본 논문에서는 로그인이나 많은 양의 로그정보 수집 없이 한 세션 내에서 방문한 웹 페이지 로그만을 이용하여 개인화된 문맥 광고를 제공하는 문맥광고 기법을 제안한다. 실험 결과에서는 제안하는 기법이 기존의 광고 기법에 비해 사용자가 판단하는 웹 페이지와 웹 광고의 연관성 (precison) 이 기존의 기법에 비해 높아짐을 증명한다.