• 제목/요약/키워드: 웹 사이트 이용 패턴 분석

검색결과 37건 처리시간 0.026초

웹 문서와 접근로그의 하이퍼링크 추출을 통한 웹 구조 마이닝 (Web Structure Mining by Extracting Hyperlinks from Web Documents and Access Logs)

  • 이성대;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제11권11호
    • /
    • pp.2059-2071
    • /
    • 2007
  • 웹 사이트의 구조가 정확하게 주어진다면, 정보 제공자의 입장에서는 사용자의 행위 패턴이나 특성을 효과적으로 파악할 수 있어 보다 나은 서비스를 제공할 수 있고, 사용자의 입장에서는 더욱 쉽고 정확하게 유용한 정보를 찾을 수 있을 것이다. 하지만 웹상의 문서들은 빈발하게 수정되기 때문에 웹 사이트의 구조를 정확하게 추출하는 것은 상당한 어려움이 있다. 본 논문에서는 이러한 웹 사이트의 구조를 자동으로 추출하는 알고리즘을 제안한다. 제안하는 알고리즘은 두 단계로 구성된다. 첫 번째 단계는 웹 문서를 분석하여 그들 간의 하이퍼링크를 추출하고 이를 웹 사이트의 구조를 나타내는 방향 그래프로 표현한다. 하지만 플래시나 자바 애플릿에 포함된 하이퍼링크는 추출할 수 없는 한계가 있다. 두 번째 단계에서는 이러한 숨겨진 하이퍼링크를 추출하기 위하여 웹 사이트의 접근로그를 이용한다. 즉, 접근로그로부터 각 사용자의 클릭스트림을 추출한 후, 첫 번째 단계에서 생성한 그래프와 비교하여 숨겨진 하이퍼링크를 추출한다. 본 논문에서 제안한 알고리즘의 성능을 평가하기 위하여 다양한 실험을 수행하였고, 이러한 실험을 통하여 웹 사이트의 구조를 보다 정확하게 추출할 수 있음을 확인하였다.

질감과 칼라 정보를 이용한 지능적 웹 이미지 검색 시스템 설계 (A Design of Intelligent Web Image Retrival System using Texture and Color Information)

  • 홍성용;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.61-63
    • /
    • 2001
  • 최근들어, 인터넷상의 E-business나 쇼핑몰사이트와 같은 웹 사이트에서 멀티미디어 정보를 많이 사용하고 있다. 멀티미디어 정보 중에서도 이미지 정보가 가장 많이 사용되고 있으며, 이는 사용자들이 가장 많이 접하는 정보이다. 기존의 이미지 검색 기법은 내용 기반 검색이나 키워드를 이용한 검색 방법을 지원하지만, 사용자의 의도를 적용하지는 못하고 있다. 본 논문에서는 웹에서 사용자가 이미지를 검색하고 접근하는 패턴을 이미지의 칼라와 질감을 특징으로 한 벡터를 기반으로 시스템에 학습 시키고 사용자의 검색 성향을 분석하여 시스템에 적용한다. 이미지 검색의 효율을 높이기 위하여 질감을 기반으로 비트 벡터 인덱스(bit vector index) 기법을 적용하며, 인덱스에 의한 이미지 자동 분류 기법을 제안한다. 또한 이미지 칼라의 정보를 영역별로 추출하여 칼라 부분매칭 검색을 가능하게 한다. 이러한 이미지 검색 시스템을 사용하는 사용자의 정보를 시스템에 학습시키고 학습된 결과를 이용해서 사용자가 검색 하고자 하는 이미지 정보에 편리성을 제공하고 검색의 효율성을 증대시킨다.

  • PDF

RESTful 웹 서비스에서 시맨틱 온톨로지를 구축하기 위한 클러스터링 및 패턴 분석 기법 (Clustering and Pattern Analysis for Building Semantic Ontologies in RESTful Web Services)

  • 이용주
    • 인터넷정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.119-133
    • /
    • 2011
  • 웹 2.0의 등장과 함께 RESTful 웹 서비스의 활용이 전통적인 SOAP 기반 웹 서비스에 비해 크게 증가되고 있다. 최근 웹상에 이용 가능한 RESTful 웹 서비스들의 수가 급격하게 증가됨에 따라 사용자들이 적합한 웹 서비스를 찾는 것은 매우 중요한 이슈로 대두되었다. 그러나 기존의 키워드 기반 검색 방법은 나쁜 재현율과 나쁜 정확률 때문에 문제가 많다. 본 논문에서는 연관규칙 기반 클러스터링 기법에 패턴 기반 시맨틱 분석 기법을 추가한 하나의 새로운 시맨틱 온톨로지 구축 방법을 제안한다. 이를 통해 온톨로지를 자동 구축하여 시맨틱 정보의 주석처리 부담을 줄일 수 있고, 보다 효율적인 웹 서비스 검색을 지원한다. 본 논문에서 제안된 방법은 ProgrammableWeb 사이트로부터 168개의 RESTful 웹 서비스를 다운로드 받아 실험 분석을 수행한 결과, 기존의 키워드 기반 검색 방법에 비해 재현율과 정확률 두 측면에서 각각 35%, 18%의 성능 향상을 보였다.

웹 개인화를 위한 웹사용자 클러스터링 알고리즘에 관한 연구 (A Study on Web-User Clustering Algorithm for Web Personalization)

  • 이해각
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2375-2382
    • /
    • 2011
  • 웹사이트 운영이 비즈니스 모델로서의 성공을 거두기 위한 가장 중요한 요소 중 하나는 웹사용자의 성향을 분석하여 이를 효율적으로 이용하는 것이다. 사용자 분석을 통하여 사용자들에게 웹사이트의 가치를 효율적으로 전달하고 이를 통하여 운영자는 충분한 수익을 거둘 수 있다. 이러한 점에서 웹 사이트를 이용하는 사용자들의 취향과 행동방식을 얻어내려는 웹 방문 패턴 발견으로써의 사용자 클러스터링은 매우 중요하다. 또한 얻어진 사용자의 클러스터링 정보는 웹 개인화나 웹 사이트를 재구성하는데 필수적이다. 본 논문에서는 사용자 웹 방문 데이터를 정제하고 분류하여 그 특성에 따라 사용자들을 몇 개의 그룹으로 클러스터링 하기 위한 알고리즘이 제안된다. 알고리즘은 2단계로 구성되는데 첫 번째 단계는 초기해를 구하는 단계로서, 패스의 사이각을 이용하여 유사도를 측정하고 이 유사도에 따라 K개의 사용자 그룹으로 분류하여 초기해를 구한다. 두번째 단계는 첫 번째 단계에서 구한 초기해를 개선하여 최적해를 찾는 과정으로서 하이퍼플레인을 이용하여 클러스터링하는 개량된 K-평균알고리즘을 제안한다. 또한 실험을 통하여 기존의 방법과 비교하여 제안된 알고리즘의 효율성과 패스 특성이 보다 정확하게 계산된 클러스터링이 구현됨을 확인할 수 있다.

소셜 북마킹 시스템의 이용자 행위 패턴에 관한 연구 (A Study About User Pattern of Social Bookmarking System)

  • 조현;최준현;김성희
    • 인터넷정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.29-37
    • /
    • 2011
  • 최근 들어 웹의 진화가 급속하게 진전되면서 사용자가 직접 참여하는 유형의 서비스들이 활발하게 보급되었다. 사용자들은 네트워크 공간상에서 여러 종류의 콘텐츠를 공유하며 의견을 교환한다. 이러한 서비스의 대표적인 예로 소셜 북마킹 사이트를 들 수 있다. 사이트의 이용자들은 웹 사이트를 북마킹하는 과정에 있어서 타인의 북마킹 내역 및 태그 정보를 공유하며태그를 생산하게 되는데 이를 협업적 태깅이라고 한다. 본 연구에서는 최근 활발하게 이용되는 소셜 북마킹 및 협업적 태깅에 대한 실증적인 분석을 수행하였다. 분석 결과 분석 결과 전체 이용자 중에서 아주 소수만이 북마킹 활동을 활발하게 수행하며, 소수의 사이트와 태그가 다수의 사용자에 의해 이용되었다. 24%의 사용자가 총 80%에 해당하는 태깅을 수행하였으며, 75%의 사이트와 81%의 태그가 3번 이하로 태깅되었다. 사용자에 따라서 북마킹 활동에도 차이가 있었으며, 가장 이른 시점에 부여된 태그가 다수의 동의를 얻었다. 특정 사이트의 태그 구성 비율은 점차 수렴해감을 확인할 수 있었다. 본 연구결과가 향후 소셜 북마킹 시스템의 발전에 도움이 시사점을 제공한다고 기대한다.

다차원 연관 분석을 이용한 인터넷 이용자의 특징 분석 (Analysis of Internet User Features using Multi-dimensional Association Analysis)

  • 이수은;정용규
    • 서비스연구
    • /
    • 제1권1호
    • /
    • pp.61-69
    • /
    • 2011
  • 데이터 마이닝은 대용량의 데이터베이스로부터 기존에 알려지지 않은, 즉 단순한 질의어로 추출할 수 없는 형태의 '유용한' 정보를 찾아내고 이를 바탕으로 데이터에 대한 통찰(insight)을 얻는 것으로 정의할 수 있다. 본 논문에서는 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내기 위하여 인터넷을 이용하는 이용자의 특징을 분석하기 위해 시도되었다. 즉 인터넷 사용자에 대한 일반적인 통계 정보 데이터에 연관성 분석을 적용하여 인터넷 사용 시간에 영향을 미치는 인터넷 이용자의 특징을 분석하였다. 실험을 통하여 데이터로부터의 연관 규칙을 추출 해내었으며, 최적의 결과를 도출하기위한 데이터 전처리 및 알고리즘을 적용하여 웹 마이닝을 위한 인터넷 사용자의 특징을 분석한 결과 그 유용성을 확인할 수 있었다.

  • PDF

유사한 인기도 추세를 갖는 웹 객체들의 클러스터링 (Clustering of Web Objects with Similar Popularity Trends)

  • 노웅기
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.485-494
    • /
    • 2008
  • 인터넷이 광범위하게 활용됨에 따라 검색 키워드, 멀티미디어 객체, 웹 페이지, 블로그 등의 다양한 웹 객체들이 크게 증가하고 있다. 이러한 웹 객체들의 인기도는 시간에 따라 변화하며, 그러한 웹 객체 인기도의 시간적 패턴에 대한 마이닝이 여러 가지 웹 응용에 필요한 중요한 연구 과제가 되고 있다. 예를 들어, 검색 키워드에 대한 인기도 패턴의 분석은 앞으로 인기가 높아질 키워드를 미리 예측할 수 있게 하여 광고주들에게 키워드를 판매하기 위한 가격을 결정하는 데에 중요한 자료가 될 수 있다. 하지만, 웹 객체 인기도가 시간에 따라 변화하고 웹 객체의 개수가 매우 방대하다는 특성으로 인하여 웹 객체 인기도에 대한 분석은 매우 어려운 문제이다. 본 논문에서는 웹 객체 인기도의 시간적 패턴을 마이닝하기 위한 효율적인 알고리즘을 제안한다. 본 논문은 웹 객체 인기도를 시계열로 표현하고, 두 웹 객체 인기도 간의 유사성을 측정하기 위하여 gap 척도를 제안한다. gap 척도의 효율적인 계산을 위하여 FFT를 활용한 알고리즘을 제안하고, 밀도기반 클러스터링 알고리즘을 이용하여 유사한 인기도 추세를 갖는 웹 객체들의 클러스터를 생성한다. 본 논문에서는 웹 객체 인기도가 특정 분포를 따르거나 주기적이라고 가정하지 않는다. Google Trends 웹 사이트로부터 구한 검색 키워드 인기도를 이용한 실험을 통하여, 제안된 알고리즘이 실세계 응용에서 유용함을 보인다.

인터넷 이용자들의 웹사이트 재방문 빈도에 관한 실증적 연구 (An Empirical Study of Customer's Repeat Visit Frequency on the Internet)

  • 이석규
    • 마케팅과학연구
    • /
    • 제11권
    • /
    • pp.129-146
    • /
    • 2003
  • 본 연구는 소비자들의 선택모형에서 널리 사용된 NBD (Negative Binomial Distribution) 타입의 계랑적 모델 접근법이 온라인 상에서 소비자들이 특정한 기업의 웹사이트를 방문하는 행위를 설명하는데 적용될 수 있는지를 탐구한다. 본 연구에서는 다음의 두 가지 연구 주제를 다루고 있다. 첫째, 소비자들이 웹사이트를 반복하여 방문하는 행위의 빈도에 관한 분포를 확률적으로 규정하며, 둘째로는 그러한 소비자들의 반복된 이용빈도의 분포에 소비자들의 일반적인 인터넷 사용패턴과 인구 통계적인 변수들이 어떤 영향을 미치는지를 조사하고 있다. 일련의 실증적 분석을 통하여, 이 논문은 마케팅의 선택모형 (Choice Model)들에서 널리 사용된 NBD 타입의 모댈들이 인터넷상의 사이트 방문빈도 연구에도 잘 적용될 수 있음을 보여주고 있다. 그리고 이 연구는 이러한 소비자들의 이용빈도에 관한 모델개발이 온라인 기업의 당면문제에 어떠한 영향을 미치는 지를 설명한다. 특히 본 연구는 반복된 이용빈도와 소비자들의 일반적인 인터넷사용 특징 및 인구 통계적인 변수들과의 상호관계를 규명했다. 본 연구에서 제시된 모델들을 추정하고 검정하기 위해 800,000번의 방문 기록과 1000개 이상의 상이한 방문사이트 수로 구성된 웹 패널 데이터를 사용하여 실증분석을 연구에서 제시하는 모델을 개발하고 검증하였다.

  • PDF

효율적인 클러스터링을 이용한 관심 정보 추출을 위한 웹 마이닝 (Web Mining for Discovering Interesting Information using Effective Clustering)

  • 김성학;안병태
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권2호
    • /
    • pp.251-260
    • /
    • 2008
  • 인터넷의 전자상거래에서 대규모 정보 저장소에 있는 원하는 정보를 신속하게 검색하기란 어렵다. 대부분의 전자상거래 사이트에 있어서 정보를 제공하는 방법으로는 통계적 분석이나 분류별 지향의 간단한 과정을 통해 생성된다. 그러나 이러한 것은 생성 정보들 사이의 다양한 상호관계를 표현할 수 없고 사용자의 정확한 구매 패턴을 반영하기 어렵다. 본 논문에서는 전자상거래에서 효과적인 클러스터링을 이용한 다양한 관심정보 추출을 위한 효율적인 웹 마이닝을 제안한다. 이러한 방법은 분류별 항목에서 순차 패턴과 상관 규칙을 이용하여 생성 정보들 사이의 보다 적합한 상관관계를 구성하고 제안된 방법을 통해 효율적인 실험 결과를 나타낸다. 그리고 효과적인 클러스터링을 이용하여 신속한 검색을 제안한다.

  • PDF

효과적인 웹 경보 제공 서비스를 위한 질의응답 에이전트의 구현과 응용 (A Question Answering Agent for Effective Web Information Providing Service: Implementation and Application)

  • 김경민;조성배
    • 인지과학
    • /
    • 제15권3호
    • /
    • pp.35-44
    • /
    • 2004
  • 인터넷의 사용이 보편화됨에 따라 많은 양의 정보가 다양한 채널을 통해 제공되고 있다. 이와 더불어 사용자들은 효과적인 정보 제공 서비스를 원하고 있으며, 정보 교환에 도움을 주는 가상 대리자 역할의 대화형 에이전트의 연구가 활발히 진행되고 있다. 본 논문에서는 패턴매칭 기법과 베이지 안 네트워크 등의 인공지능 기법을 이용하여 사용자 질의 의도를 분석한 후 적절한 답변을 제공할 수 있는 질의응답 에이전트를 개발한다. 이때 유의어 사전을 이용한 키워드 데이터베이스를 구축함으로써 동의어 관계를 가진 유사 키워드 등의 사용자에 따른 다양한 지식표현 문제를 해결한다. 실제 의류 사이트를 소개하는 점 사이트에 적용해 봄으로써 그 가능성을 평가해 본다.

  • PDF