• 제목/요약/키워드: 웹로그 분석

검색결과 269건 처리시간 0.031초

웹 사용 마이닝을 위한 퍼지 카테고리 기반의 트랜잭션 분석 기법 (Fuzzy category based transaction analysis for web usage mining)

  • 이시헌;이지형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.341-344
    • /
    • 2004
  • 웹 사용 마이닝(Web usage mining)은 웹 로그 파일(web log file)이나 웹 사용 데이터(Web usage data)에서 의미 있는 정보를 찾아내는 연구 분야이다. 웹 사용 마이닝에서 일반적으로 많이 사용하는 웹 로그 파일은 사용자들이 참조한 페이지의 단순한 리스트들이다. 따라서 단순히 웹 로그 파일만을 이용하는 방법만으로는 사용자가 참조했던 페이지의 내용을 반영하여 분석하는데에는 한계가 있다. 이러한 점을 개선하고자 본 논문에서는 페이지 위주가 아닌 웹 페이지가 포함하고 있는 내용(아이템)을 고려하는 새로운 퍼지 카테고리 기반의 웹 사용 마이닝 기법을 제시한다. 또한 사용자를 잘 파악하기 위해서 시간에 따라 관심의 변화를 파악하는 방법을 제시한다.

  • PDF

웹 마이닝 시스템 설계 및 유용한 접근 패턴 정의 (Design of the web data mining system and definition of useful access patterns)

  • 김종달;김성민;남도원;이동하;이전영
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.283-291
    • /
    • 2000
  • 인터넷 서비스 제공자들이 관심을 가지고 있는 것 중 하나는 인터넷 사용자들의 서비스 이용 패턴과 경향을 분석하는 것이다. 이를 통해 매출 증대와 실제 경영에 도움이 되는 사용자의 특성을 이해할 수 있기 때문이다. 이와 관련된 기본적인 접근방법은 사용자가 웹 서버에 접근했을 때 서버에 남는 웹 로그를 분석하여 사용자 패턴을 분석하는 것이다. 웹 로그 분석에 전형저인 통계기법이 사용되고 있다. 그러나 단순 통계 기법만으로는 알려지지 않는 데이터들 사이에 숨겨진 유용한 정보를 찾는 데에는 한계가 있다. 최근에는 이러한 한계를 극복하기 위해 데이터 마이닝 기술을 이용한 새로운 접근 방법이 시도되고 있다. 그러나 실제로 웹 로그에서부터 데이터 마이닝 기술을 이용하는 데에는 전처리 과정의 어려움과 실제 유용한 패턴을 어떻게 정의하는 가가 어려운 문제이다. 본 연구에서는 로(raw) 데이터인 웹 로그에서 유용한 패턴을 찾기 위한 전처리 과정을 알아보고, 웹 마이닝 시스템에 적합한 트랜잭션의 데이터 구조를 제시한다. 그리고 정의된 데이터 구조를 통한 패턴 발견 과정인 웹 사이트의 개념계층을 이용한 통계 기법과 연관규칙(Association Rules) 탐사에 대해 알아본다. 마지막으로 정의된 데이터 구조를 통한 새로운 유용한 패턴을 정의한ㄷ.

  • PDF

구글 애널리틱스를 활용한 웹 사이트의 개선방안 연구 : 앱팩토리를 대상으로 (Research in the Direction of Improvement of the Web Site Utilizing Google Analytics)

  • 김동림;임영환
    • 만화애니메이션 연구
    • /
    • 통권36호
    • /
    • pp.553-572
    • /
    • 2014
  • 인터넷을 이용한 서비스와 정보제공이 활성화 되면서 사용자들은 서비스 품질 및 컨텐츠 품질에 대해 관심 갖기 시작했으며 이러한 변화에 따라 서비스 제공자 또한 사용자의 욕구를 만족 시키는 서비스 및 다수의 사용자가 참여하는 사이트 활성화를 목적으로 하게 되었다. 사용자에게 최상의 서비스를 제공하기 위해 대부분의 서비스 제공자는 이용자 피드백 분석 및 운영시스템 분석 등 자료 분석에 노력하지만 제한된 이용자와의 커뮤니케이션과 자료 수집 및 분석에 상당한 시간과 비용을 들임으로써 사용자들에게 개선된 서비스 제공까지 너무 많은 시간이 소요된다. 본 논문에서는 이러한 이유로 특정 웹 사이트(www.appbelt.net)의 운영현황 분석을 위해 웹 마이닝 기법을 적용한 로그 파일 분석 방식을 채택하였는데 로그 데이터를 가져와 분석하고 별도의 리포트를 만들어 판단하는 번거로움 없이 구글 애널리틱스 툴을 활용하여 정량평가를 시행하였다. 또한 웹 표준 평가(Coolcheck)서비스를 이용한 웹 사이트의 전반적인 품질평가를 통해 해당 웹 사이트의 문제점을 진단하고 개선 방안을 연구하였다. 로그분석이란 사용자가 웹 사이트 이용하면 이에 대한 기록이 로그라는 형태로 흔적이 남게 되는데 이 데이터를 기반으로 사용자가 웹 사이트를 방문하여 행동하는 다양한 정보를 추출해 내는 것이라 할 수 있다. 또한 로그 분석을 통하여 대다수 이용자의 전반적인 이용행태를 분석할 수 있으므로 로그 분석방법은 이용자 계층이 다양하고 이질적인 웹 검색 분야의 연구에 적합한 방법이라고 할 수 있다. 본 논문에서는 로그분석 방법으로 구글 애널리틱스 로그 추적 코드를 웹사이트에 직접 삽입하여 데이터를 수집, 데이터 평가, 리포트 분석 단계를 거쳐 전반적인 웹 사이트의 운영현황을 진단하고 평가한 후 웹 사이트에서 예상하는 사용자의 행동패턴과 실제 방문자의 경로가 일치 하는지 판단하여 문제점 및 개선사항을 도출하였다. 이 판단은 곧 기업의 목표 값 도달 경로의 우선순위(중요도)에 영향을 미치고 사용성이 너무 낮을 경우 경로 설정의 부적절함 등을 웹 사이트의 개선 요소에 포함시키게 된다. 이러한 연구방법은 기업에서 하고자 하는 비즈니스의 방향이 제대로 설정되었는지, 사용자의 요구 및 행태와 일치하는지 분석하여 향 후 비즈니스 방향 재설정 및 웹 사이트 개선에 도움이 될 것으로 보인다.

Framework for Efficient Web Page Prediction using Deep Learning

  • Kim, Kyung-Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.165-172
    • /
    • 2020
  • 웹에서 접근하는 정보의 폭발적인 증가에 따라 사용자의 다음 웹 페이지 사용을 예측하는 문제의 중요성이 증가되었다. 사용자의 다음 웹 페이지 접근을 예측하는 방법 중 하나가 딥 러닝 기법이다. 웹 페이지 예측 절차는 데이터 전처리 과정을 통해 웹 로그 정보들을 분석하고 딥 러닝 기법을 이용하여 분석된 웹 로그 결과를 가지고 사용자가 접근할 다음 웹 페이지를 예측한다. 본 논문에서는 웹 페이지 예측을 위한 효율적인 웹 로그 전처리 작업과 분석을 위해 딥 러닝 기법을 사용하는 웹 페이지 예측 프레임워크를 제안한다. 대용량 웹 로그 정보의 전처리 작업 속도를 높이기 위하여 Hadoop 기반 맵/리듀스(MapReduce) 프로그래밍 모델을 사용한다. 또한 웹 로그 정보의 전처리 결과를 이용한 학습과 예측을 위한 딥 러닝 기반 웹 예측 시스템을 제안한다. 실험을 통해 논문에서 제안한 방법이 기존의 방법과 비교하여 성능 개선이 있다는 사실을 보였고 아울러 다음 페이지 예측의 정확성을 보였다.

지능형 웹로그 서버를 이용한 전자상거래 사용자 패턴 수집 시스템 (Customer's Pattern Analysis System using Intelligent Weblog Server)

  • 한지선;강미정;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2000년도 추계학술대회 논문집 학회본부 D
    • /
    • pp.836-838
    • /
    • 2000
  • 전자상거래에서 쇼핑몰의 개인화된 서비스를 제공하기 위해서는 소비자의 구매 패턴을 분석하는 것이 필요하다. 이러한 패턴을 효과적으로 분석하기 위해 웹사이트 상에서 사용자 행동 패턴 정보를 수집해야 한다. 본 논문에서는 사용자 패턴 수집 시스템으로 쇼핑몰 서버에 기능을 추가하고 지능형 웹로그 서버를 정의하며 이를 설계, 구현하였다. 전자상거래 쇼핑몰 서버에는 사용자 행위 정보를 로그에 포함시켜 지능형 웹로그 서버에 전송하는 기능을 추가하였다. 그리고 지능형 웹로그 서버는 쇼핑몰 서버로부터 받은 로그 데이터를 분석하고 데이터베이스화하여 저장한다. 이때 데이터베이스 저장 기술로 OLE DB Provider상에서 수행되는 ADO기술을 사용한다. 그리고 저장된 데이터베이스를 레코드셋 단위로 원격에서 제어 가능하게 한다. 또 생성된 데이터베이스에서 필요한 데이터를 선별하여 XML DB로 저장한다. 이와 같은 사용자 패턴 수집 시스템은 데이터베이스 접근 속도가 빠르고, 관계형이나 비관계형 둘 다의 데이터베이스 접근이 가능하다는 장정을 가지며, 원격 데이터 베이스 접근 시 서버의 부하를 줄일 수 있다는 장점이 있다.

  • PDF

ScienceON 웹 로그에 대한 인간 및 웹 크롤러 행위 패턴 분석 (Analysis of Behavior Patterns from Human and Web Crawler Events Log on ScienceON)

  • ;정한민;박정훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.6-8
    • /
    • 2022
  • 웹 로그 분석은 서비스 개선에 있어 필수적인 절차 중 하나이다. ScienceON은 다양한 과학기술 문헌과 정보를 서비스하는 대표적인 정보 서비스이며, 우리는 지속적인 개선을 위해 웹 로그를 분석하고 있다. 본 연구는 2020년 5월과 2021년 5월 생성된 ScienceON 웹 로그에 대해 인간과 웹 크롤러로 구분하여 심층적인 분석을 하는 데 목표를 두고 있다. 먼저 S(검색), V(상세보기), D(다운로드) 타입에 해당하는 웹 로그만 추출하여 각 시기에 대해 658,407와 8,727,042 레코드로 정규화하였다. 그리고, 파이썬 'user_agents' 라이브러리를 이용하여 인간과 웹 크롤러로 로그를 분리하였으며, 각 로그에 대해 60초를 기준으로 세션 크기를 설정하고 분석하였다. 인간과 달리 웹 크롤러는 세션 당 평균 행위 패턴(Average Behaviors per Session)의 길이가 상대적으로 길고, 행위 패턴이 V 중심으로 이루어짐으로 확인하였다. 향후 웹 크롤러를 쉽게 탐지하고 대응하며, 인간 사용자의 행위 패턴에 대응할 수 있도록 서비스를 개선할 예정이다.

  • PDF

보안성이 취약한 사용자 계정 관리를 위한 웹 로그 분석기 (The Web Log Analyser for Managing User Account having Weak Security)

  • 박기홍;이진관
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
    • /
    • pp.403-406
    • /
    • 2012
  • 인터넷이 확산과 더불어 보안의 문제도 증가하고 있다. 이로 인해 네트워크 보안과 서비스에 대한 관리자의 책임 또한 더욱더 중요시 되고 있다. 본 논문에서는 웹로그를 분석하여 웹호스팅 환경에서 장시간 사용되지 않아 보안성이 약한 사용자 계정을 관리자로 하여금 시스템 보안의 틈새를 찾고 이를 해결할 수 있는 방안을 제시하였다. 이를 위해 WLA(Web Log Analyzer)를 구현하여 웹서버가 수행될 때 기록되는 각각의 로그를 분석한다. 그 결과 웹호스팅을 사용한 계정 이름의 수를 포함한 UUL(Used User List)를 구축하고 일정기간 사용하지 않는 호스팅 서비스 이용자를 찾아내고, 관리할 수 있게 한다.

  • PDF

사이트간 웹 사용 마이닝을 위한 데이터 전처리의 성능 향상 (Performance Improvement of Data Preprocessing for Intersite Web Usage Mining)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.357-361
    • /
    • 2006
  • 매일 새롭게 생기는 웹 페이지 수가 수천만 개, 온라인 문서들의 수가 수십억 개에 이르게 되자, 웹 사이트를 설계함에 있어서 웹 서버 로그 파일에 기록된 사용자의 행동을 분석하는 것이 중요한 부분이 되어가고 있다. 분석가들은 전체 웹 사이트에서 사용자 행동의 완전한 개요를 알기 원하기 때문에 고객이 방문했던 모든 다른 웹 서버를 통하여 사용자의 패스(path)를 다시 수집해야만 한다. 본 연구에서는 모든 로그 파일을 연결해서 방문했던 곳을 재구성하는 향상된 데이터 전처리 방법에 의하여 실험을 하여 로그 파일 크기를 감소시키게 되어 데이터 전처리의 성능이 향상되었음을 보였다.

  • PDF

인터넷 비즈니스 기반의 고객관계관리(CRM)을 위한 웹 로그 분석에 관한 연구 (A Study on Web-log Analysis for CRM based on Internet Business)

  • 김재형;노효원;김남호;정정화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.10-15
    • /
    • 2000
  • 개별화 웹 마케팅은 본질적으로 고객지향의 패러다임이다. 즉, 개별 고객의 특수한 니즈를 개별적으로 파악해서 각각의 고객에게 차별화된 서비스를 제공하는 것이 그 핵심이다. 웹 서버의 로그파일에 데이터마이닝의 연관규칙 기술을 이용하게 되면 고객행동 패턴의 파악 및 예측을 위한 기법으로 활용할 수 있다. 본 연구에서는 웹 사용자의 교차 판매를 위한 원투원 마케팅에 필요한 접근패턴을 분석하고자 하며, 이는 웹서버 로그파일 분석을 통하여 이루어진다. 분석하고자 하는 웹서버 로그파일은 기존의 데이터웨어하우스의 원천 데이터들과는 다르게 비정형적인 데이터 구조를 가지고있다. 이들 비정형 데이터 처리와 교차판매 지원을 위한 데이터마이닝 모델링, 이를 통한 원투원 마케팅 모델 제시, 그리고 이의 활용이 고객관계관리(CRM)에 미치는 효과를 제시한다.

  • PDF

클레멘타인 데이터마이닝 솔루션을 이용한 웹 로그 분석 (Analysis of Web Log Using Clementine Data Mining Solution)

  • 김재경;이건창;정남호;권순재;조윤호
    • 경영정보학연구
    • /
    • 제4권1호
    • /
    • pp.47-67
    • /
    • 2002
  • 1990년대 중반 이후 기업들은 인터넷상에서 사용자의 행동에 대한 관심이 높아짐에 따라, 인터넷상에서 사용자의 웹 사이트 클릭 정보가 남아 있는 웹 로그파일에 대한 관심 역시 높아지고 있다. 웹 로그파일에는 사용자 IP, 사용시간, 방문한 주소, 참조주소, 쿠키 파일 등 다양한 정보가 남기 때문에 이것을 이용하면 사용자의 웹 사이트 행위를 구체적으로 분석할 수 있다. 또한, 특정한 유형의 사용자와 관련된 웹 사이트를 찾아 효과적인 마케팅 전략을 수립할 수도 있다. 본 연구에서는 SPSS사의 데이터마이닝 도구인 클레멘타인을 이용하여 웹 마이닝을 할 수 있는 방법론을 소개하고, 실제 인터넷 허브 사이트의 로그화일을 대상으로 분석을 수행하였다.