• 제목/요약/키워드: 웹 문서

검색결과 1,602건 처리시간 0.029초

웹 문서 형식과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (Dynamic Recommendation System Using Web Document Type and Document Similarity in Cluster)

  • 김진수;김태용;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.274-276
    • /
    • 2001
  • 기존의 여러 동적 추천 시스템에서 사용자들의 브라우징 패턴을 반영하려고 노력하였다 .그러나 대부분의 동적 추천 시스템들은 웹 문서들의 형식이나 웹 문서들 간의 연관성을 고려하지 않고, 사용자들의 브라우징 패턴에만 근거하기 때문에 연관성이 없거나 의미 없는 웹 문서들에 대한 추천까지 제공하는 문제점을 지니고 있다. 본 논문에서는 웹 문서들 사이의 유사도와 로그 파일 안에 들어있는 사용자들이 패턴을 이용하여 웹 문서 자체의 형식에 따라 연관된 웹 문서뿐만 아니라 순차적인 특성을 가진 웹 문서를 추천 문서로 제공한다. 이때 추천 웹 문서의 형식이 탐색 페이지이면 사용자 브라우징 순차 패턴 DB 중에서 사용자들이 자주 항해하는 순차적인 특성을 갖는 웹 문서까지 제공하는 동적 추천 시스템을 제안한다.

  • PDF

웹 문서 분석에 근거한 유해 웹 문서 검출 (Detecting Harmful Web Documents Based on Web Document Analyses)

  • 김광현;최정미;이준호
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.683-688
    • /
    • 2005
  • 인터넷에 공개된 수 많은 웹 문서들에는 유익한 정보를 제공하는 웹 문서들뿐만 아니라, 음란 정보와 관련된 불건전한 유해 웹 문서들이 다수 포함되어 있으며, 본 연구에서는 이러한 유해 웹 문서들을 효과적으로 검출할 수 있는 방법을 제안한다. 즉, 유해 웹 문서들의 분석을 통하여 유해 웹 문서 선정을 위한 평가 항목들을 도출하고, 각 평가 항목별 유해 점수 부여를 위한 평가 기준을 제시한다. 그리고, 유해 점수들의 총합이 임계값 이상인 웹 문서를 유해 웹 문서로 검출한다. 본 연구의 결과는 유해 웹 문서들로부터 이용자를 보호하고 인터넷 사용의 안전성을 향상시키는데 기여할 것으로 기대된다.

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;최선완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.471-473
    • /
    • 1999
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 실행해서 인터넷에 연결되어 있는 수많은 웹 서버들을 방문해서 웹 문서를 획득하고, 인덱싱 기법을 써서 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축한다. 정보 추출을 위해 웹 로봇을 운영할 때 웹 서버에 대한 사전 지식 없이 진행된다면 수많은 불필요한 요구가 전송돼서 인터넷 트래픽을 증가시키는 요인이 된다. 하지만 웹 서버가 사전에 자신이 공개할 문서에 대한 요약 정보를 웹 로봇에게 통보하고, 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 처리한다면 불필요한 인터넷 트래픽을 줄일 수 있을 뿐만 아니라 검색 엔진의 정보의 정확도를 높이고, 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동된 사항들을 종합 정리해서 등록된 각 웹 로봇에게 전송하는 문서 감시 통보 시스템과 통보된 요약 정보를 토대로 웹 서버로부터 해당 문서를 전송받아 필요한 인덱스 정보를 추출하는 효율적인 웹 로봇을 제안한다.

  • PDF

링크기반 클러스터링을 이용한 웹 문서 검색의 성능 향상에 관한 실험적 연구 (An Experimental Study on Enhancing the Retrieval Performance for the Web Documents Using Link-Based Clustering Technique)

  • 김혜진;문성빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2002년도 제9회학술대회 논문집
    • /
    • pp.247-252
    • /
    • 2002
  • 본 연구에서는 하이퍼텍스트나 웹 문서의 검색에서 링크로 연결된 문서들이 주제적으로 서로 관련되어 있다는 것을 기반으로 하여 링크정보를 참조한 웹 문서 클러스터링 기법을 제안하였고 이것을 이용하여 검색된 결과를 질의 근접 순위화함으로써 웹 문서 검색의 성능을 향상시키는 방안을 연구하였다. 본 연구에서 사용된 웹 문서 집단은 웹(WWW)을 통하여 직접 수집하였으며 웹 문서가 다른 웹 문서를 링크하고 있을 때를 OutLink, 다른 웹 문서로부터 링크를 받고 있을 때를 InLink로 구분하였다. 실험결과 OutLink를 참조하여 클러스터링을 수행하는 기법과 InLink를 참조하여 클러스터링을 수행하는 기법 모두 검색 성능을 향상시켰다.

  • PDF

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

웹에서 효율적인 텍스트 문서 브라우징 (The Efficient Text Documents Browsing on World Wide Web)

  • 김원중;조이기;손철수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.457-459
    • /
    • 2001
  • 웹의 등장으로 우리는 현재 멀티미디어 정복까지도 쉽게 이용할 수 있게 되었지만, 웹에서의 텍스트 문서정보의 브라우징(Browsing)은 많은 마우스 클릭과 스크롤링을 필요로 하고 있다. 또한 현재의 웹 텍스트 문서의 브라우징은 문서의 내용이 클 경우 검색자가 현재 브라우징하고 있는 문서가 본인이 필요로 하는 것인지, 아닌지를 판단하는데 많은 시간과 노력을 요구한다. 본 논문에서는 문서의 제목 부분과 내용 단락의 전체가 아닌 1-2줄만으로도 문서의 전체 윤곽을 쉽게 파악할 수 있다는데 착안하여 웹에서의 효율적인 텍스트 문서 브라우징 시스템을 개발하였다.

  • PDF

효과적인 웹 컨텐츠 개발과 관리를 통합한 시스템의 설계 및 구현 (Design and Implementation of An Integrated System for Effective Development and Management of Web Contents)

  • 유대승;강만모;심민석;이명재
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.440-442
    • /
    • 2000
  • 본 논문에서는 일반문서 작성 에디터와 동일한 방식으로 웹 문서 작성이 가능한 일반문서와 웹 문서 동시작성 에디터의 설계 및 구현을 통하여 효율적인 웹 문서 작성에 대한 연구를 수행한다. 문서의 파싱한 결과를 데이터베이스에 저장함으로써 웹 문서를 유지하지 않고도 데이터베이스에 저장된 정보를 웹 어플리케이션이 필요에 따라 동적으로 문서를 생성함으로써 웹 문서 생성과 유지 및 관리를 통합하는 방법을 제시한다. 마지막으로 ASP 컴포넌트의 개념과 컴포넌트 사용의 필요성 및 이점에 대하여 재고하고 본 연구의 수행과정에서 개발한 ASP 컴포넌트(dll)를 통한 효율적인 웹 어플리케이션 및 컴포넌트 개발 방법을 개한다.

  • PDF

웹 문서로부터 한영 병렬말뭉치의 자동 구축 (Automatically Constructing English-Korean Parallel Corpus from Web Documents)

  • 서형원;김형철;조희영;김재훈;양성일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.161-164
    • /
    • 2006
  • 인터넷이 발전하면서 웹에는 같은 내용을 다양한 언어로 표현한 문서들이 많이 존재한다. 이와 같은 웹 문서의 성질을 이용하여, 이 논문은 웹으로부터 수집된 병렬문서(parallel document)를 이용하여 한영 병렬말뭉치 구축 시스템을 설계하고 구현한다. 이 논문에서 구축과정을 요약하면 다음과 같다. 첫째, 웹 문서수집기를 이용해서 웹으로부터 한영 웹문서(html 문서)를 각각 수집한다. 둘째, 수집된 각 언어의 웹 문서에서 불필요한 내용(태그와 광고 문구 등)을 제거하여 문장을 추출하고, 추출된 문장을 단락단위로 정렬한다. 셋째, 단락단위로 정렬된 문서를 문장정렬(sentence alignment) 방법을 이용해서 문장을 정렬한다. 끝으로 정렬된 병렬문장을 단어 단위로 분리하여 병렬말뭉치를 구축한다. 이와 같은 방법으로 이 논문에서는 약 42만 5천 문장의 한영 병렬말뭉치를 구축하였다.

  • PDF

구조분석 에이전트를 사용한 웹사이트의 평가 (Web Site Evaluation Using Structure Analysis Agents)

  • 정윤경;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.143-145
    • /
    • 2000
  • 인터넷이 보편화되면서 그에 따른 정보량도 급증하고 있다. 웹문서량이 많아짐에 따라 웹문서를 구조를 이용하여 저장, 분석하는 연구가 활발히 이루어지고 있다. 본 논문에서는 웹사이트를 사용자가 평가하기 위해 계층적인 웹문서들의 관계를 사이트맵으로 구성하며 웹문서 내의 계층구조를 추출, 저장하고 그래픽적으로 표시하였다. 이를 위해 웹문서 내의 계층구조를 위해 W3기관의 공용으로 사용되는 Tidy 라이브러리를 이용하여 URL에 대한 HTML 문서를 얻고 이를 XML로 변환하였다. 변환된 XML 결과로 이진트리를 구성하고 계층구조를 표현하였다. 웹문서들의 사이트맵은 그래프형식과 계층구조형식으로 표현했는데 그래프형식을 이용하여 사이트맵의 연결구조를 파악할 수 있게 하였으며, 계층구조를 이용하여 웹문서간의 계층구조에 따른 정보를 얻을 수 있었다. 사이트맵을 구성하기 위해 URL들의 구조를 인접리스트로 저장하였으며, 방향성 그래프형식을 이용하였다. 또한 웹문서 구조를 계층적으로 구성하기 위해 웹문서의 그래프형식에 대해 BFS(Breadth First Search)방식을 이용했다. 또한 계층적 사이트맵을 이용한 평가항목을 이용하여 증권사이트에 대해 실험하였다. 실험을 통해 본 시스템이 웹사이트 평가에 유용성함을 입증하였다.

  • PDF

효율적인 홈페이지 관리를 위한 구조 분석 시스템의 설계 및 구현 (Design and Implementation of A Structure Analyzer for Efficient Homepage Management)

  • 최봉준;박규석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(하)
    • /
    • pp.1027-1030
    • /
    • 2003
  • 네트워크기술의 발달로 인하여 인터넷 이용자의 급증과 함께 그에 따른 정보를 제공하기 위한 인터넷 홈페이지도 기하급수적으로 증가하게 되었다. 인터넷 홈페이지의 운영 기간이 증가함에 따라 홈페이지를 구성하는 웹 문서와 웹 컨텐츠의 수도 증가하게 된다. 따라서, 이러한 웹 문서와 웹 컨텐츠에 대한 관리를 위하여 WCMS(Web Contents Management System)이 도입되고 있지만, WCMS에서는 웹 컨텐츠의 생성, 출판, 관리가 주요 기능으로, 웹 컨텐츠의 사용 횟수, 웹 문서의 다운로드 속도, 웹 문서 다운로드 용량, 데드 링크 여부 등을 분석하고 관리해 주는 소프트웨어가 필요하게 되었다. 본 논문에서는 웹 문서를 시각적으로 분석하여 웹 컨텐츠를 추출하고 웹 문서 내에서의 웹 컨텐츠 위치 및 크기를 분석한 후, 웹 컨텐츠의 연결 가능 여부를 분석하여 데드링크일 경우, 시각화하고, 웹 컨텐츠가 얼마나 사용되는지 등 홈페이지를 효율적으로 관리할 수 있는 구조 분석 시스템을 설계 및 구현하였다.

  • PDF