• 제목/요약/키워드: 웹 그래프

검색결과 236건 처리시간 0.027초

국내 웹 그래프의 링크 구조 분석 (Link Analysis of Korean Web Graph)

  • 서정주;김진일;김은상;김영호;정하웅;김성렬;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.400-402
    • /
    • 2012
  • 웹을 구성하는 웹 페이지들과 페이지들 사이의 하이퍼링크들은 방향성을 지니는 그래프로써 표현될 수 있으며, 웹 그래프가 가지는 독자적인 링크 구조의 특성은 다양한 분야의 연구에서 활용되고 있다. 현재 검색 엔진들이 수집한 웹 페이지들은 그 규모가 수십억 개로 방대한 양을 이루고 있다. 본 논문에서는 약 3억 개의 국내 웹 페이지들을 수집하고, 링크 데이터를 추출하여 생성한 웹 그래프의 구조에 대해 분석한다. 국내 웹 페이지들의 링크의 진입 차수와 연결 요소들의 크기 분포는 멱법칙을 따르고, 웹 페이지의 진출 차수는 특정 차수 이상에서 멱법칙을 가짐을 확인한다. 또한 그래프 알고리즘을 이용하여 웹 그래프를 구성하는 요소들로 나눈 후 전체적인 구조를 도식화한 보우타이 다이어그램을 도출한다.

한국 웹 그래프와 진화에 대한 연구 (Graph Structure and Evolution of the Korea web)

  • 한인규;이상호
    • 정보처리학회논문지D
    • /
    • 제14D권3호
    • /
    • pp.293-302
    • /
    • 2007
  • 웹 그래프에 대한 연구는 웹 문서의 효율적인 수집을 위하여 적용되는 알고리즘과, 커뮤니티의 검색 및 발견의 분야에 있어 매우 중요한 위치를 차지한다. 또한 웹 그래프의 연구에 있어 발견되는 웹의 현상들은 웹이 가지고 있는 특징들을 나타내며 웹 그래프의 진화를 연구함으로써 웹의 크기와 진화 프로세스를 예측할 수 있다. 본 논문에서는 약 1억 1천만 개의 노드와 약 27억 개의 노드를 가지는 한국 웹 그래프에 대한 연구를 수행한다. 먼저 한국 웹의 페이지들이 서로 얼마나 연결되어 있는가에 대한 접속도 연구를 수행한다. 한국 웹의 접속도는 bow-tie 모형으로 표현할 수 있다. 또한 Power Law 현상과 같은 한국 웹의 특징이 글로벌 웹과 어떤 차이가 있는지 분석한다. 한국 웹 그래프의 속성은 글로벌 웹과는 많은 차이를 보여주었다. 마지막으로 한국 웹 그래프의 진화에 대한 연구를 여러 가지 관점으로 수행한다.

전문가 검색 엔진에서 개념 그래프를 이용한 Web 정보 획득 (Information acquision of WEB using the conceptual graph in expert search engine)

  • 박사준;김상경;황수철;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.295-297
    • /
    • 2000
  • 전문가 검색 엔진은 전문가 시스템과 같은 목적에서 특정 전문 분야에 대한 특수한 정보를 수집 검색하기 위한 검색 엔진을 내용이다. 본 논문은 전문가 검색 엔진을 만드는 과정에서 초기 작업에 해당하는 웹 정보 수집에 대한 논문이다. 본 논문은 웹 페이지에서 하이퍼링크와 참조되는 웹 페이지에 대한 표면 지식을 이용하여, 홈페이지 그래프를 작성한다. 그리고 나서 홈페이지 그래프와 사전에 미리 준비된 개념 그래프를 이용하여, 웹 페이지 수집 중 특정 전문 분야에 해당하는 웹 페이지인지를 판별하여 사용자가 수집하고자 하는 분야에 대한 웹 페이지만을 수집한다. 본 논문은 이에 대한 개념, 설계 및 구현과 앞으로의 개선 상황을 제안한다.

  • PDF

구조분석 에이전트를 사용한 웹사이트의 평가 (Web Site Evaluation Using Structure Analysis Agents)

  • 정윤경;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.143-145
    • /
    • 2000
  • 인터넷이 보편화되면서 그에 따른 정보량도 급증하고 있다. 웹문서량이 많아짐에 따라 웹문서를 구조를 이용하여 저장, 분석하는 연구가 활발히 이루어지고 있다. 본 논문에서는 웹사이트를 사용자가 평가하기 위해 계층적인 웹문서들의 관계를 사이트맵으로 구성하며 웹문서 내의 계층구조를 추출, 저장하고 그래픽적으로 표시하였다. 이를 위해 웹문서 내의 계층구조를 위해 W3기관의 공용으로 사용되는 Tidy 라이브러리를 이용하여 URL에 대한 HTML 문서를 얻고 이를 XML로 변환하였다. 변환된 XML 결과로 이진트리를 구성하고 계층구조를 표현하였다. 웹문서들의 사이트맵은 그래프형식과 계층구조형식으로 표현했는데 그래프형식을 이용하여 사이트맵의 연결구조를 파악할 수 있게 하였으며, 계층구조를 이용하여 웹문서간의 계층구조에 따른 정보를 얻을 수 있었다. 사이트맵을 구성하기 위해 URL들의 구조를 인접리스트로 저장하였으며, 방향성 그래프형식을 이용하였다. 또한 웹문서 구조를 계층적으로 구성하기 위해 웹문서의 그래프형식에 대해 BFS(Breadth First Search)방식을 이용했다. 또한 계층적 사이트맵을 이용한 평가항목을 이용하여 증권사이트에 대해 실험하였다. 실험을 통해 본 시스템이 웹사이트 평가에 유용성함을 입증하였다.

  • PDF

웹에서 운영되는 그래프 모형을 위한 동적인 분석 시스템

  • 이우리;최현집
    • Communications for Statistical Applications and Methods
    • /
    • 제5권3호
    • /
    • pp.755-765
    • /
    • 1998
  • 그래프 대수선형모형은 계층적 대수선형모형의 부분집합이며 연관 그래프로 모형을 나타낼 수 있다. 또한 그래프 대수선형모형은 연관 그래프에서 엣지를 추가하거나 제거하는 것으로 분석을 수행할 수 있다. 본 연구에서는 그래프 대수선형모형이 가진 이러한 특징을 이용한 분석 시스템을 구현하였으며, 본 논문을 통해 이를 소개하고자 한다. 구현된 시스템은 분석자와 상호작용하며 분석결과를 시각적으로 평가할 수 있는 동적 연관 그래프를 제공하며, 단순한 마우스 조작에 의해 명령어 없이 자료입력만으로도 분석을 수행할 수 있도록 설계되었다. 또한 시스템은 자바 애플릿과 어플리케이션으로 구현되었기 때문에 월드 와이드 웹에서 운영할 수 있다.

  • PDF

시각적 웹 기반 그래프 알고리즘 학습 시스템 (Visible Web-Based Graph Algorithm Learning System)

  • 윤선영;한현구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.97-102
    • /
    • 2006
  • 정보 통신의 발달과 인터넷 기술의 발달로 그래픽 등의 매체를 통하여 시간과 장소에 구애받지 않는 학습자 수준에서 적절한 교육을 받을 수 있는 쌍방향 멀티미디어 환경의 원격 웹 기반교육(Web Based Instruction, WBI)이 등장하게 되었다. 인터넷을 활용한 교육을 함으로써 개별화된 교육을 할 수 있고, 학습자들이 인터넷을 통해 함께 탐구하고 대화하며 결론에 도달하는 협력 학습의 장을 제공할 수 있게 되었다. 그래프 알고리즘은 자료구조의 한 분야로 종류도 다양하고 개념도 복잡하여 학습자들이 쉽게 이해하지 못하는 부분이 많았다. 본 논문에서는 그래프 알고리즘을 하이퍼텍스트를 통한 단순한 자료의 제시에 그치지 않고 웹의 장점을 살려 플래시를 통해 각 그래프 알고리즘의 수행단계를 시각적으로 보임으로써 그래프 개념을 쉽게 이해하고 여러 종류의 그래프 알고리즘을 효율적으로 반복 학습할 수 있도록 하였다. 또한 C로 구현된 각 알고리즘의 소스를 볼 수 있게 하고 그 결과도 보여줌으로 그래프 알고리즘을 정확히 이해하도록 하였다. 학습 후 평가 문제를 통해 학습자의 이해도를 평가하고 평가 결과를 막대그래프 차트로 보임으로써 비교 평가가 쉽게 구현하였다.

  • PDF

웹 컨텐츠에서 강결합요소를 이용한 순환 탐색 알고리즘 (Circuits Detection Algorithms Using Strongly Connected Components in Web Contents)

  • 이우기;이정훈
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2006년도 추계학술대회
    • /
    • pp.641-651
    • /
    • 2006
  • 거대한 웹 컨텐츠 안에는 수많은 링크들로 인한 순환들이 존재하게 된다. 그 순환들은 강하게 뭉쳐있는 실타래 처럼, 강하게 결합한 순환들의 덩어리 형태로 존재하게 된다. 웹 컨텐츠는 흔히 방향그래프로 표현되는데, 즉 웹 컨텐츠에서 나타나는 수많은 링크둘을 방향그래프에서 강결합요소를 이용하면 모든 순환을 효율적으로 발견할 수 있다. 본 논문에서는 강결합요소를 이용하여 거대한 그래프에서 보다 효율적으로 모든 순환을 찾아낼 수 있는 방법을 제시하였다.

  • PDF

그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들 (Effective Web Crawling Orderings from Graph Search Techniques)

  • 김진일;권유진;김진욱;김성렬;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.27-34
    • /
    • 2010
  • 웹 크롤러는 웹에서 링크를 따라다니며 웹 페이지들을 자동으로 다운로드하는 프로그램으로 주로 웹 환경을 연구하거나 검색 엔진을 만들기 위해 사용된다. 기존의 연구들에서는 웹 크롤러가 인기 있는 웹 페이지들을 먼저 크롤링 할 수 있도록 몇 가지 방법들이 제안되었으나 그래프 이론 분야에서 연구되어 온 몇몇 그래프 탐색 기법들은 아직 웹 크롤링 방법으로 고려되지 않았다. 이 논문에서는 잘 알려진 너비 우선 탐색, 깊이 우선 탐색 뿐 아니라 사전식 너비 우선 탐색, 사전식 깊이 우선 탐색 및 최대 크기 탐색을 웹 크롤링 방법으로 고려하여 이 중에서 선형적인 시간복잡도를 가지면서도 인기 있는 웹 페이지를 효율적으로 수집할 수 있는 웹 크롤링 방법을 찾는다. 특히 선형 구현이 단순하지 않은 최대 크기 탐색과 사전식 너비 우선 탐색에 대해서는 분할 정제 방법을 이용한 선형 시간 웹 크롤링 방법을 제시한다. 실험 결과는 최대 크기 탐색이 다른 그래프 탐색 방법에 비해 시간 복잡도 및 크롤링 된 페이지들의 질에 있어서 바람직한 성질을 가짐을 보여준다.

블록 단위 그래프 모델을 통한 효율적인 정보 추출 Wrapper 생성과 유지 관리 (Effective Information Extraction Wrapper Generation and Maintenance by Using a Block-Based Graph Model)

  • 박주영;양재영;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.322-327
    • /
    • 2007
  • 기존의 정보 추출에서는 웹 문서의 구조가 변경되었을 때 Wrapper가 원하는 정보를 추출할 수 없었다. 또한 웹 문서의 구조가 바뀌는 경우 동일한 정보를 Wrapping함에도 불구하고 사용자는 정보를 추출 할 수 없었던 이유를 찾지 못하는 경우가 대부분이었다. 이 문제를 해결하기 위해 본 논문에서는 Web 페이지를 시각적 블록 단위로 잘라 인접한 블록들을 통해 그래프를 형성하여 웹 문서의 구조가 일부 변경되어도 기존의 Wrapper를 통해 정보를 추출할 수 있도록 보다 효율적으로 Wrapper를 생성하고 유지관리 하는 방법을 제안한다. 또한 웹 문서를 블록 단위로 분할하여 그래프를 생성함으로써 블록 내부에 추출하고자 하는 정보에 대한 규칙이 좀 더 유연하게 표현 될 수 있으며 문서의 구조가 아닌 추출하고자 하는 정보를 중심으로 규칙을 생성함으로써 그래프의 구조뿐 아니라 그래프를 구성하고 있는 블록 내부의 구조가 일부 변하더라도 기존의 규칙을 이용하여 정보를 추출할 수 있도록 하였다.

  • PDF

웹 마이닝을 위한 웹 문서 하이퍼링크와 웹 접근로그를 통합한 방향그래프 (Directed Graph by Integrating Web Document Hyperlink and Web Access Log for Web Mining)

  • 박철현;이성대;곽용원;전성환;박휴찬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.16-18
    • /
    • 2005
  • 웹은 사용자가 원하는 정보를 쉽고 정확하게 검색할 수 있도록 웹 문서를 자료구조화하여 보다 신뢰성 있는 패턴을 추출하고 사용자의 특성과 행동 패턴을 적용하여 개인화 하여야한다. 본 논문에서는 개인화하기 위한 전처리 과정으로서 웹 문서를 구조화 하는 방법을 제안한다. 제안 방법은 기본적으로 웹 문서 태그의 하이퍼링크를 깊이 우선 탐색 알고리즘을 사용하여 방향그래프를 만드는 것이다. 이때 웹 문서 태그 탐색 시 플래시, 스크립트 등의 찾기 힘든 하이퍼링크를 찾는 문제와 '뒤로' 버튼 사용 시 웹 접근로그에 기록되지 않는 문제점을 보완한다. 이를 위해 클릭 스트림을 스택에 저장하여 이미 만들어진 방향그래프와 비교하여 새롭게 찾은 정점과 간선을 추가함으로써 보다 신뢰성높은 방향그래프를 만든다.

  • PDF